JP2014016622A - 修正離散コサイン変換音声符号化器用の帯域幅拡大方法及び装置 - Google Patents
修正離散コサイン変換音声符号化器用の帯域幅拡大方法及び装置 Download PDFInfo
- Publication number
- JP2014016622A JP2014016622A JP2013173691A JP2013173691A JP2014016622A JP 2014016622 A JP2014016622 A JP 2014016622A JP 2013173691 A JP2013173691 A JP 2013173691A JP 2013173691 A JP2013173691 A JP 2013173691A JP 2014016622 A JP2014016622 A JP 2014016622A
- Authority
- JP
- Japan
- Prior art keywords
- frequency band
- band
- spectrum
- adjacent frequency
- transition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000007704 transition Effects 0.000 claims abstract description 118
- 238000001228 spectrum Methods 0.000 claims abstract description 55
- 238000000695 excitation spectrum Methods 0.000 claims abstract description 51
- 230000003595 spectral effect Effects 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000000737 periodic effect Effects 0.000 claims abstract description 9
- 238000011156 evaluation Methods 0.000 description 26
- 230000005284 excitation Effects 0.000 description 15
- 230000005236 sound signal Effects 0.000 description 10
- 230000006978 adaptation Effects 0.000 description 8
- 238000005192 partition Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 238000009499 grossing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000001052 transient effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
Abstract
【課題】MDCTベースの発話/音声符号化器に適用可能な帯域幅拡大方法及び装置を提供する。
【解決手段】方法は、第1周波数帯域内にスペクトルを備えている信号101のための遷移帯域103を設定することを含み、前記遷移帯域は、前記第1周波数帯域104の一部として設定され、前記第1周波数帯域104に隣接する隣接周波数帯域105の近くに配置される。遷移帯域103を解析し、遷移帯域スペクトル包絡線と遷移帯域励起スペクトルを取得し、隣接周波数帯域スペクトル包絡線を評価し、信号のピッチ周波数によって決定される繰返し周期を備えた遷移帯域励起スペクトルの少なくとも一部の周期的繰返しによって、隣接周波数帯域励起スペクトルを生成し、隣接周波数帯域スペクトル包絡線と隣接周波数帯域励起スペクトルとを組み合わせ、隣接周波数帯域信号スペクトルを得る信号処理論理部を含む。
【選択図】図1
【解決手段】方法は、第1周波数帯域内にスペクトルを備えている信号101のための遷移帯域103を設定することを含み、前記遷移帯域は、前記第1周波数帯域104の一部として設定され、前記第1周波数帯域104に隣接する隣接周波数帯域105の近くに配置される。遷移帯域103を解析し、遷移帯域スペクトル包絡線と遷移帯域励起スペクトルを取得し、隣接周波数帯域スペクトル包絡線を評価し、信号のピッチ周波数によって決定される繰返し周期を備えた遷移帯域励起スペクトルの少なくとも一部の周期的繰返しによって、隣接周波数帯域励起スペクトルを生成し、隣接周波数帯域スペクトル包絡線と隣接周波数帯域励起スペクトルとを組み合わせ、隣接周波数帯域信号スペクトルを得る信号処理論理部を含む。
【選択図】図1
Description
本開示内容は、音声符号化器及び可聴内容の表現に関し、特に音声符号化器用の帯域幅拡大技術に関する。
本開示内容は、米国特許出願第11/946,978号、代理人整理番号CML04909EV、出願日2007年11月29日、発明の名称「信号外帯域幅の内容に対するスペクトル包絡線形状を決定するエネルギ値の提供及び使用を容易にする方法及び装置(METHOD AND APPARATUS TO FACILITATE PROVISION AND USE OF AN ENERGY VALUE TO DETERMINE A SPECIAL ENVELOPE SHAPE FOR OUT−OF−SIGNAL BANDWIDTH CONTENT)」、米国特許出願第12/024,620号、代理人整理番号CML04911EV、出願日2008年2月1日、発明の名称「帯域幅拡大システム内の高帯域エネルギ評価用の方法及び装置(METHOD AND APPARATUS FOR ESTIMATING HIGH−BAND ENERGY IN A BANDWIDTH EXTENSION SYSTEM)」、米国特許出願第12/027,571号、代理人整理番号CML06672AUD、出願日2008年2月7日、発明の名称「帯域幅拡張システム内の高帯域エネルギ評価用の方法及び装置(METHOD AND APPARATUS FOR ESTIMATING
HIGH−BAND ENERGY IN A BANDWIDTH EXTENSION SYSTEM)」に関し、これらは全て参照により本明細書に組み込まれる。
HIGH−BAND ENERGY IN A BANDWIDTH EXTENSION SYSTEM)」に関し、これらは全て参照により本明細書に組み込まれる。
携帯電話上の電話発話は通常、可聴音声スペクトルの一部、例えば、300〜3400Hzの音声スペクトル内の狭帯域発話のみを利用していた。通常の発話に比べて、このような狭帯域の発話は、こもった音質で明瞭度は低い。従って、符号化器出力の認識される音質を人工的に改善するために、「帯域幅拡大」又は「BWE」と呼ばれる、発話符号化器の出力の帯域幅を拡大する様々な方法が適用することができる。
BWE方式は、パラメトリックであっても非パラメトリックであってもよいが、大部分の既知のBWE技術はパラメトリックである。パラメータは、発話生成のソースフィルタモデルから生じ、そこでは、発話信号は声道によって音響的にフィルタ処理された励起ソース信号と考えられる。声道は、例えば、線形予測(linear prediction:LP)技術を用いる全極型フィルタによってモデル化してフィルタ係数を計算できる。LP係数は、発話スペクトル包絡線情報を効果的にパラメータ化する。他のパラメトリック法では、線スペクトル周波数(line spectral frequencies:LSF)、メル周波数ケプストラム係数(mel-frequency cepstral coefficients:MFCC)、及び対数スペクトル包絡線サンプル(log-spectral envelope samples:LES)を用いて、発話スペクトル包絡線をモデル化する。
多くの現在の発話/音声符号化器は、入力信号の修正離散コサイン変換(Modified Discrete Cosine Transform:MDCT)表現を利用し、従って、MDCTベースの発話/音声符号化器に適用可能なBWE法が必要とされる。
本開示内容は、符号化器の帯域幅拡張用の方法を提供し、第1周波数帯域内にスペクトルを備えている信号用の遷移帯域を定義することを含み、前記遷移帯域は、前記第1周波
数帯域の一部として定義され、前記第1周波数帯域に隣接する隣接周波数帯域の近くに配置されている。前記方法は、遷移帯域を解析し、遷移帯域スペクトル包絡線と遷移帯域励起スペクトルを取得し、隣接周波数帯域スペクトル包絡線を評価し、信号のピッチ周波数によって決定される繰返し周期を備えた遷移帯域励起スペクトルの少なくとも一部の周期的繰返しによって、隣接周波数帯域励起スペクトルを生成し、隣接周波数帯域スペクトル包絡線と隣接周波数帯域励起スペクトルを組み合わせ、隣接周波数帯域信号スペクトルを得る。前記方法を行うための信号処理論理部も開示される。
数帯域の一部として定義され、前記第1周波数帯域に隣接する隣接周波数帯域の近くに配置されている。前記方法は、遷移帯域を解析し、遷移帯域スペクトル包絡線と遷移帯域励起スペクトルを取得し、隣接周波数帯域スペクトル包絡線を評価し、信号のピッチ周波数によって決定される繰返し周期を備えた遷移帯域励起スペクトルの少なくとも一部の周期的繰返しによって、隣接周波数帯域励起スペクトルを生成し、隣接周波数帯域スペクトル包絡線と隣接周波数帯域励起スペクトルを組み合わせ、隣接周波数帯域信号スペクトルを得る。前記方法を行うための信号処理論理部も開示される。
本実施形態によると、帯域幅拡張は、4〜7kHz等の一つの周波数帯域をモデル化する発話又は音声符号化器によって生成された少なくとも量子化MDCT係数を用いて実施して、7〜14kHz等の別の周波数帯域をモデル化するMDCT係数を予測してもよい。
ここで、同様の参照番号は同様の要素を表している図面を参照すると、図1は、0〜YkHzの範囲の可聴スペクトル102上の音声信号101を表すグラフ100(正確な縮尺ではない)である。信号101は、低帯域部分104と、低帯域発話の一部としては復元されない高帯域部分105を備えている。本実施形態によると、高帯域部分105を評価するために、遷移帯域103が選択され利用される。入力信号は、様々な形態で取得できる。例えば、信号101は、移動局に送られた通信システムのデジタル無線チャネル上で受け取った発話であってもよい。信号101は、例えば、格納された音声ファイルからの音声再生装置内のメモリから得られてもよい。
図2は、本実施形態による符号化器の基本動作を示している。201では、遷移帯域103が、信号101の第1周波数帯域104内で定義される。遷移帯域103は、第1周波数帯域の一部として定義され、隣接周波数帯域(高帯域部105等)の近傍に配置される。203では、遷移帯域103を解析し、遷移帯域スペクトルデータを取得し、205では、遷移帯域スペクトルデータを用いて、隣接周波数帯域信号スペクトルを生成する。
図3は、一実施形態の動作を更に詳しく示している。301では、遷移帯域が201と同様に定義される。303では、遷移帯域を解析し、遷移帯域スペクトル包絡線と遷移帯域励起スペクトルを含む遷移帯域スペクトルデータを得る。305では、隣接周波数帯域スペクトル包絡線を評価する。それから、入力信号のピッチ周波数によって決定された繰返し周波数を備えた遷移帯域励起スペクトルの少なくとも一部の周期的繰返しによって、307に示したように、隣接周波数帯域励起スペクトルを生成する。309に示したように、隣接周波数帯域スペクトル包絡線と隣接周波数帯域励起スペクトルを組み合わせ、隣接周波数帯域の信号スペクトルを取得できる。
図4は、本実施形態による電子装置400の要素を示すブロック図である。電子装置は、移動局、ラップトップコンピュータ、携帯情報端末(PDA)、ラジオ、音声再生器(MP3再生器等)であってもよく、もしくは、有線又は無線通信を介して、音声信号を受け取り、本明細書で開示された実施形態の方法及び装置を用いて音声信号を復号化できる任意の他の適切な装置であってもよい。電子装置400は、本実施形態による信号処理論理部405に音声信号を提供する入力部403を含む。
図4、並びに図5及び図6は、例示的な目的だけのため、当業者に例示するために、本明細書に記載されている実施形態を作製し使用するために必要な論理部であると理解される。従って、本明細書の図面は、例えば、電子装置を実装するために必要な全ての要素の完全な概略図であることを意図しておらず、むしろ、本明細書に記載されている実施形態の作製及び使用方法を、当業者が容易に理解するために必要なものだけを示していると理解される。従って、論理部の様々な構成と図の任意の内部要素、及びそれらの間の任意の対応する接続性を利用することもでき、このような構成及び対応する接続性も、本明細書に開示されている実施形態によるものに留まっていると理解される。
「論理部」という用語は、本明細書で用いられているように、一つ以上のプログラム可能プロセッサ、ASIC、DSP、配線論理部又はそれらの組合せ上で実行するソフトウェア及びファームウェアの少なくとも一方を含んでいる。従って、本実施形態によると、例えば、信号処理論理部405を含む任意の記載された論理部が、任意の適切な形態で実装され、本明細書に開示されている実施形態によるものに留まっている。
電子装置400は、信号を受け取るための受信器、又は送受信器、フロントエンド部401、及び任意の必要な一つ以上のアンテナを含むことができる。従って、受信器401及び入力論理部403の少なくとも一方は、別個に又は組み合わせて、全ての必要な論理部を含んで、信号処理論理部405による更なる処理に適した、信号処理論理部405に適切な音声信号を提供する。信号処理論理部405は、いくつかの実施形態では、一つ以上のコードブック407及び参照表409を含んでいてもよい。参照表409は、スペクトル包絡線参照表であってもよい。
図5は、信号処理論理部405の更なる詳細を提供する。信号処理論理部405は、評価及び制御論理部500を含み、MDCT係数の組を決定して音声信号の高帯域部を表す。逆MDCT(IMDCT)501は、信号を時間領域に変換するように用いられ、それから合計演算505を用いて、音声信号の低帯域部503と組み合わせられ、帯域幅拡大音声信号を得る。それから、帯域幅拡大音声信号が、音声出力論理部(図示せず)に出力される。
いくつかの実施形態の更なる詳細は、図6によって例示されるが、例示されるいくつかの論理部は、全ての実施形態になくてもよく、存在する必要もない。例示のために、以降では、低帯域は50Hz〜7kHz範囲(名目上、広帯域発話/音声スペクトルと呼ばれる)をカバーすると考えられ、高帯域は7kHz〜14kHzの範囲をカバーすると考えられる。低帯域と高帯域の組合せ、つまり50Hz〜14kHzの範囲は、名目上、超広帯域発話/音声スペクトルと呼ばれる。明らかに、低帯域と広帯域の他の選択も可能であり、本実施形態によるものに留まっている。また、例示のために、入力ブロック403(基準符号化器の一部)が、i)復号化済み広帯域発話/音声信号Swb、ii)少なくとも遷移帯域に対応するMDCT係数、及びiii)ピッチ周波数606又は対応するピッチ期間/遅延、という信号を提供するように示されている。入力ブロック403は、いくつかの実施形態では、復号化済み広帯域発話/音声信号のみを提供できるが、他の信号は、この場合、復号化器においてそれから抽出される。図6に例示されているように、入力ブロック403から、一組の量子化MDCT係数を601で選択し、遷移帯域を表す。例えば、4〜7kHzの周波数帯域が遷移帯域として利用できるが、他のスペクトル部分を用いることもでき、それも本実施形態によるものに留まっている。
次に、復号化済み広帯域発話/音声(例えば、最大7kHz)から計算した所定のパラメータと共に、所定の遷移帯域MDCT係数を用いて、MDCTの評価済みの組を生成し、例えば、7〜14kHzの隣接帯域内の信号内容(signal content)を特定する。従って、所定の遷移帯域MDCT係数は、遷移帯域解析論理部603及び遷移帯域エネルギ評価器615に提供される。遷移帯域を表す、量子化MDCT係数内のエネルギは、遷移帯域エネルギ評価器615の論理部によって計算される。遷移帯域エネルギ評価器615の論理部の出力はエネルギ値であり、復号化済み広帯域発話/音声信号の遷移帯域内のエネルギに密接に関連しているが、同一ではない。
615で決定されたエネルギ値は、高帯域エネルギ予測器611に入力され、高帯域エネルギ予測器611は、隣接帯域、例えば、7〜14kHzの周波数帯域をモデル化するMDCT係数のエネルギを計算する非線形エネルギ予測器である。いくつかの実施形態では、高帯域エネルギ予測器611の性能を向上させるために、高帯域エネルギ予測器611は、遷移帯域形状評価器609によって決定された遷移帯域スペクトル部のスペクトル包絡線形状と共に、ゼロ交差計算器619によって計算された復号化済み発話からのゼロ交差を用いることができる。ゼロ交差値と遷移帯域形状に依存して、異なる非線形予測器を用いて、予測器性能の改善をもたらす。予測器の設計では、大きなトレーニングデータベース(training database)が、ゼロ交差値と遷移帯域形状に基づいて複数の区画にまず分割され、そうして生成された区画の各々に対して、別個の予測器係数が計算される。
具体的には、ゼロ交差計算器619の出力は、フレームゼロ交差を量子化する8レベルスカラ量子化器を用いて量子化され、同様に、遷移帯域形状評価器609は、スペクトル包絡線形状を分類する8形状スペクトル包絡線のベクトル量子化器(vector quantizer:VQ)であってもよい。従って、最大64個(つまり、8×8)の各フレームにおいて、非線形予測器が提供され、所定の区画に対応する予測器が、そのフレームにおいて用いられる。大部分の実施形態では、64個の区画の一部は、フレームを含めるようにするために、トレーニングデータベースからの十分な数のフレームを割り当てられていないので、64個より少ない予測器が用いられ、それらの区画は、その結果として近傍の区画と融合される。低エネルギフレーム上でトレーニングされた別個のエネルギ予測器(図示せず)は、本実施形態によるこのような低エネルギフレームのために用いることもできる。
遷移帯域(4〜7kHz)に対応するスペクトル包絡線を計算するために、その帯域内の信号を表すMDCT係数が、絶対値演算器によってブロック603でまず処理される。次に、ゼロ値である処理済みMDCT係数を識別し、ゼロでクリアした振幅は、境界の非ゼロ値のMDCT振幅(線形補間演算器の適用前に(例えば、係数5で)縮小されている)線形補間によって得られた値によって置き換えられる。上記のようなゼロ値MDCT係数の除去は、MDCT振幅スペクトルのダイナミックレンジを低減し、修正MDCT係数から計算されるスペクトル包絡線のモデル化効率を改善する。
それから、修正MDCT係数は、20*log10(x)演算器(図示せず)を用いて、dB領域に変換される。7〜8kHzの帯域では、dBスペクトル(dB spectrum)は、7kHzに対応する周波数インデックスについてスペクトル畳み込みによって得られ、4〜7kHz周波数帯域に対して計算されるスペクトル包絡線のダイナミックレンジを更に低減する。4〜8kHzの周波数帯域に対してこのようにして構成されたdBスペクトルに対して、逆離散フーリエ変換(Inverse Discrete Fourier Transform:IDFT)を次に適用し、最初の8個の(疑似)ケプストラム係数を計算する。それから、dBスペクトル包絡線は、ケプストラム係数上で離散フーリエ変換(Discrete Fourier Transform:DFT)演算を行うことによって計算される。
得られる遷移帯域MDCTスペクトル包絡線は、二つの方法で用いられる。第1に、それは、遷移帯域スペクトル包絡線のベクトル量子化器、つまり、遷移帯域形状評価器609に対する入力を構成し、入力スペクトル包絡線に最も近い、事前に格納したスペクトル包絡線(8個中の1個)のインデックスを返す。そのインデックスは、復号化済み発話から計算したゼロ交差のスカラ量子化器によって返されたインデックス(8個中の1個)と共に用いられ、既に詳しく説明したように、最大64個の非線形エネルギ予測器の一つを選択する。第二に、計算済みスペクトル包絡線を用いて、遷移帯域MDCT係数のスペクトル包絡線を平坦化する。これを行うことができる一つの方法は、その対応するスペクトル包絡線値によって、各遷移帯域MDCT係数を除算することである。平坦化は、ログ領域でも実施できるが、その場合、除算は減算に置き換えられる。後者の実施では、ログ領域への変換は正の値の入力を必要とするので、MDCT係数の符号(又は極性)は後で復元するために保存される。本実施形態では、平坦化はログ領域で実施されている。
それから、ブロック603によって出力された(遷移帯域MDCT励起スペクトルを表す)平坦化済み遷移帯域MDCT係数を用いて、7〜14kHzの帯域内の励起信号をモデル化するMDCT係数を生成する。一実施形態では、初期のMDCTインデックスが、32kHzのサンプリングで0、20msのフレームサイズであると仮定すると、遷移帯域に対応するMDCTインデックスの範囲は160〜279になる。平坦化済み遷移帯域MDCT係数を考慮すると、7〜14kHzに対応する280〜559のインデックスの励起を表すMDCT係数は、次のマッピングを用いて生成される。
非線形エネルギ予測器によって出力された7〜14kHz帯域内のMDCT係数の予測済みエネルギ値は、復号化済み広帯域信号特性に基づいて、エネルギ適応器617の論理部によって適応され、アーチファクトを最小化し、帯域幅拡大出力発話の品質を改善する。この目的のために、エネルギ適応器617は、予測済み高帯域エネルギ値に加えて、i)高帯域エネルギ予測器611からの予測誤差の標準偏差σ、ii)発声レベル評価器621からの発声レベルν、iii)開始/破裂音検出器623の出力d、及びiv)定常状態/遷移検出器625の出力ss、の入力を受け取る。
7〜14kHzの帯域内のMDCT係数の予測済み及び適応済みエネルギ値を考慮すると、そのエネルギ値に一致するスペクトル包絡線が、コードブック407から選択される。7〜14kHzの帯域内のMDCT係数を特徴付け、その帯域内のエネルギ値によって分類されたスペクトル包絡線をモデル化する、このようなスペクトル包絡線のコードブックは、オフラインでトレーニングされる。予測済み及び適応済みエネルギ値に最も近いエネルギクラスに対応する包絡線は、高帯域包絡線選択器613によって選択される。
選択されたスペクトル包絡線は、高帯域包絡線選択器613によって高帯域MDCT生成器607に提供され、それから、7〜14kHzの帯域内の平坦化済み励起をモデル化するMDCT係数を成形するように適用される。高帯域MDCTスペクトルを表す7〜14kHzの帯域に対応する成形済みMDCT係数は、逆修正コサイン変換(inverse modified cosine transform:IMDCT)501に次に適用され、7〜14kHzの帯域内の内容を備えている時間領域信号を構成する。それから、この信号は、例えば、合計演算505によって、最大7kHzの内容を備えている復号化済み広帯域信号、つまり、低帯域部503と組み合わせられ、最大14kHzの情報を含む帯域幅拡大信号を構成する。
一方式によって、上記の予測済み及び適応済みエネルギ値は、複数の対応する候補スペクトル包絡線形状を含む参照表409へのアクセスを容易にするために役立つ。このような方式をサポートするために、この装置は、信号処理論理部405に動作可能なように結合され、必要であれば、一つ以上の参照表409を含むこともできる。そう構成される場合、信号処理論理部405は、必要に応じて、参照表409に容易にアクセスできる。
上記の信号処理は、基地局と無線通信中の移動局によって行うこともできると理解される。例えば、基地局は、既存の手段を介して、移動局に広帯域又は狭帯域デジタル音声信号を送信できる。いったん受信されると、移動局内の信号処理論理部は、必要な動作を行い、移動局の使用者にとってより明確で、聴覚的に好ましいデジタル音声信号の帯域幅拡張版を生成する。
更に、いくつかの実施形態では、発声レベル評価器621は、高帯域励起生成器605と共に用いることができる。例えば、未発声の発話を示す発声レベル0は、雑音励起の使用を決定するように用いることができる。同様に、発声の発話を示す発声レベル1は、上記のように、遷移帯域励起から導かれた高帯域励起の使用を決定するように用いることができる。発声レベルが、混合発声の発話を示す0と1の間である場合、発声レベルによって決定され使用されるように、適切な割合で様々な励起を混合することができる。雑音励起は、疑似ランダム雑音関数であってもよく、上記のように、発声レベルに基づいて、スペクトル内の割れ目を充填又は継ぎ合わせるものと考えてもよい。従って、混合高帯域励起は、発声、未発声、及び混合発声の音声に適している。
図6は、遷移帯域MDCT係数選択器の論理部601、遷移帯域解析論理部603、高帯域励起発生器605、高帯域MDCT係数発生器607、遷移帯域形状評価器609、高帯域エネルギ予測器611、高帯域包絡線選択器613、遷移帯域エネルギ評価器615、エネルギ適応器617、ゼロ交差計算器619、発声レベル評価器621、開始/破裂音検出器623、及びSS/遷移検出器625を含む評価制御論理部500を示している。
入力部403は、復号化済み広帯域発話/音声信号Swb、少なくとも遷移帯域に対応するMDCT係数、及び各フレームのピッチ周波数(又は遅延)を供給する。遷移帯域MDCT選択器の論理部601は、基準符号化器の一部であり、遷移帯域用の一組のMDCT係数を、遷移帯域解析論理部603と遷移帯域エネルギ評価器615に供給する。
発声レベル評価:発声レベルを評価するために、ゼロ交差計算器619は、次のように、高帯域発話Swbの各フレーム内のゼロ交差zcの数を計算できる。
高帯域エネルギを評価するために、遷移帯域エネルギ評価器615は、遷移帯域MDCT係数から遷移帯域エネルギを評価する。遷移帯域は、広帯域内に含まれ、高帯域に近い周波数帯域としてここでは定義され、つまり、高帯域(この例示では、約7000〜14,000kHzである)への遷移として役立つ。遷移帯域エネルギEtbを計算する一つの方法は、遷移帯域内のスペクトル成分のエネルギ、つまり、MDCT係数を合計することである。
dB(デシベル)単位の遷移帯域エネルギEtbから、dB単位の高帯域エネルギEhb0は、次のように評価される。
評価精度は、遷移帯域形状評価器609によって提供されるように、ゼロ交差パラメータzcと遷移帯域スペクトル形状等の追加の発話パラメータからの状況情報を活用することによって更に改善できる。既に議論したように、ゼロ交差パラメータは、発話発声レベルを示している。遷移帯域形状評価器609は、遷移帯域包絡線形状の高解像度表現を提供する。例えば、遷移帯域スペクトル包絡線形状(dB単位)のベクトル量子化表現を用いてもよい。ベクトル量子化器(VQ)コードブックは、大きなトレーニングデータベースから計算される遷移帯域スペクトル包絡線形状パラメータtbsと呼ばれる8個の形状からなる。性能改善を実現するために、zc及びtbsパラメータを用いて、対応するzc−tbsパラメータ面を構成してもよい。既に述べたように、zc−tbs面は、zcの8個のスカラ量子化レベルと8個のtbs形状に対応する64個の区画に分割される。区画のいくつかは、トレーニングデータベースからの十分なデータ点がない場合、近傍の区画と融合できる。zc−tbs面内の残りの区画の各々に対しては、別個の予測器係数が計算される。
高帯域エネルギ予測器611は、例えば、次式の評価器Ehb0の評価で電力Etbを用いることによって、評価精度を更に改善できる。
高帯域エネルギの評価は、誤差を生じやすい。過大評価はアーチファクトをもたらすので、評価済み高帯域エネルギは、Ehb0の評価誤差の標準偏差に比例する量だけ下に偏移させる。つまり、高帯域エネルギは、次式のようにエネルギ適応器617で適応させる。
評価済み高帯域エネルギを「下に偏移させること」によって、エネルギの過大評価の可能性(又は発生回数)を減らし、それによってアーチファクトの数を減らす。また、評価済み高帯域エネルギを低減する量は、評価がどれだけよいかに比例し、より信頼性の高い(つまり、σ値が低い)評価は、信頼性の低い評価より小さな量だけ低減される。高帯域エネルギ予測器611を設計する際、zc−tbsパラメータ面の各区画に対応するσ値は、トレーニング発話データベースから計算され、後で、評価済み高帯域エネルギを「下に偏移させる」際に使用するために格納される。例えば、zc−tbsパラメータ面の区画(≦64個)のσ値は、約4〜8dBの範囲で、約5.9dBの平均値を備えている。例えば、この高帯域エネルギ予測器に対するλの適切な値は、1.2である。
従来技術の方式では、高帯域エネルギの過大評価は、高帯域エネルギ予測器611の設計(design)での過小評価誤差より多くの過大評価誤差のペナルティを科す非対称コスト関数を用いることによって処理される。この従来技術の方式に比べて、本明細書に記載されている「下に偏移させる」方式は、以降の利点を備えている。(A)標準的な対称の「二乗誤差」コスト関数に基づくので、高帯域エネルギ予測器611の設計がより簡単になる。(B)「下に偏移させること」が、演算段階中に明示的に行われ(設計段階中に暗示的に行われない)ので、「下に偏移させる」量を必要に応じて容易に制御できる。(C)評価の信頼性に対する「下に偏移させる」量の依存性が(設計段階中に用いられる特定のコスト関数に暗示的に依存する代わりに)明示的であり、直接的である。
エネルギの過大評価によるアーチファクトの低減に加えて、上記の「下に偏移させる」方式は、発声フレームに対して別の利点を備え、つまり、高帯域スペクトル包絡線形状評価の任意の誤差をマスキングし、その結果、「雑音性の」アーチファクトを低減できる。しかし、未発声のフレームの場合、評価済み高帯域エネルギの低減が大きすぎると、帯域拡大出力発話は、もはや超広帯域発話のような音ではない。これに対応するために、評価済み高帯域エネルギは、その発声レベルに依存して、次式のようにエネルギ適応器617で更に適応させる。
図6を参照すると、発声レベル評価器621は、エネルギ適応器617に発声レベルを出力し、エネルギ適応器617は、発声レベルに基づいて、評価済み高帯域エネルギレベルを更に修正することによって、広帯域信号特性に基づいて評価済み高帯域エネルギレベルを更に修正する。更に修正することは、実質的な発声発話に対して高帯域エネルギレベルを低減すること、及び実質的に未発声の発話に対して高帯域エネルギレベルを増大させることの少なくとも一方を含んでいる。
エネルギ適応器617を伴った高帯域エネルギ予測器611が、大部分のフレームに対してかなりよく機能している一方、高帯域エネルギが著しく過小評価又は過大評価されるフレームが時々存在する。従って、いくつかの実施形態では、このような評価誤差に備え、平滑化フィルタを含むエネルギ経路平滑化論理部(図示せず)を用いて、それらを少なくとも部分的に補正する。従って、広帯域信号特性に基づいて、評価済み高帯域エネルギレベルを修正するステップは、評価済み高帯域エネルギレベル(上記のように、評価の標準偏差σと発声レベルνに基づいて既に修正されている)を平滑化し、連続的なフレームの間のエネルギ差を基本的に低減することを含んでいてもよい。
例えば、発声レベル適応済み高帯域エネルギEhb2は、次式の3点平均化フィルタを用いて平滑化されてもよい。
平滑化済みエネルギ値Ehb3は、最終的な適応済み高帯域エネルギ評価Ehbを得るために、エネルギ適応器617によって更に適応される。この適応は、安定状態/遷移検出器625によって出力されたssパラメータ、及び開始/破裂音検出器623によって出力されたdパラメータの少なくとも一方に基づいて、平滑化エネルギ値を減少又は増大させることを含むことができる。従って、広帯域信号特性に基づいて、評価済み高帯域エネルギレベルを修正するステップは、フレームが安定状態であるか過渡的であるかに基づいて、評価済み高帯域エネルギレベル(又は既に修正されている評価済み高帯域エネルギレベル)を修正するステップを含んでいてもよい。これは、過渡的フレームの高帯域エネルギレベルを低減すること、及び安定状態フレームの高帯域エネルギレベルを増大させることの少なくとも一方を含んでいてもよく、開始/破裂音の発声に基づいて、評価済み高帯域エネルギレベルを修正することを更に含んでいてもよい。高帯域スペクトルの選択は、評価済みエネルギに関係させることができるので、一方式によって、高帯域エネルギ値を適応させることは、エネルギレベルだけでなく、スペクトル包絡線形状も変化させる。
フレームは、十分なエネルギを備え(つまり、発話フレームであり、無音フレームではない)、スペクトル的な意味でもエネルギに関しても、その隣接フレームの各々に近い場合、安定状態フレームとして定義される。二つのフレームの間の板倉距離が所定の閾値より低い場合、二つのフレームはスペクトル的に近いと考えられる。他の種類のスペクトル距離の尺度を用いることもできる。二つのフレームの広帯域エネルギの差が、所定の閾値より低い場合、二つのフレームはエネルギに関して近いと考えられる。安定状態フレームではない任意のフレームは、過渡的フレームと考えられる。安定状態フレームは、過渡的フレームよりも高帯域エネルギ評価の誤差をずっとよくマスクできる。従って、フレームの評価済み高帯域エネルギは、パラメータssに依存して、つまり、次式の安定状態フレーム(ss=1)であるか又は遷移フレーム(ss=0)であるかに依存して適応される。
開始/破裂音検出器623の出力dに基づいて、評価済み高帯域エネルギレベルは次のように調整できる。d=1の場合、対応するフレームが、開始、例えば、無音から、未発声又は発声音、又は破裂音への遷移を含むことを示している。開始/破裂音は、前のフレームの広帯域エネルギが、所定の閾値より低く、現在のフレームと前のフレームの間のエネルギ差が、別の閾値を超える場合に、現在フレームにおいて検出される。別の実施では、現在フレームと前のフレームの遷移帯域エネルギを用いて、開始/破裂音を検出することできる。開始/破裂音を検出するための他の方法を用いることもできる。開始/破裂音には、次の理由のために特別な問題がある。A)開始/破裂音の近くの高帯域エネルギの評価は困難である。B)典型的なブロック処理が用いられるため、出力発話内にプレエコー型のアーチファクトが生じる可能性がある。C)初期のエネルギの急上昇(energy burst)の後の、破裂音(例えば、[p]、[t]、及び[k])は、広帯域内に所定の歯擦音(例えば、[s]、[∫]、及び[З])に近いが、高帯域ではかなり異なる特性を備え、エネルギの過大評価及びその結果のアーチファクトをもたらす。開始/破裂音(d=1)用の高帯域エネルギ適応は、次式のように行われる。
既にまとめたように、評価済み高帯域エネルギの適応は、帯域幅拡大出力発話内のアーチファクトの数を最小化するために役立ち、それによってその品質を向上させる。評価済み高帯域エネルギの適応に用いられる動作シーケンスは特定の方法で定義されているが、このようなシーケンスについての具体性は必要条件ではなく、従って、他のシーケンスを用いることもでき、本明細書に開示された実施形態に従っているものに留まることは、当業者には明らかである。また、本実施形態に、高帯域エネルギレベルの修正用に述べられた動作を選択的に適用することもできる。
従って、約7〜14kHzの範囲内の高帯域スペクトル部分を評価し、MDCT係数を決定し、高帯域内にスペクトル部分を備えている音声出力を提供できるようにする動作の信号処理論理部及び方法が、本明細書に開示されている。本明細書に開示されている実施形態と同等の他の変形形態も、当業者は発想することができ、以降の請求項によって本明細書に定義されるように、本実施形態の精神及び範囲に従うものに留まっている。
Claims (20)
- 第1周波数帯域内にスペクトルを備えた信号のための遷移帯域を設定することであって、前記遷移帯域が、前記第1周波数帯域の一部として設定され、前記遷移帯域が、前記第1周波数帯域に隣接する隣接周波数帯域の近傍に配置されている、前記遷移帯域を設定すること、
前記遷移帯域を解析して、遷移帯域スペクトルデータを得ること、
隣接周波数帯域スペクトル包絡線を評価すること、
前記遷移帯域スペクトルデータを用いて、隣接周波数帯域励起スペクトルを生成すること、
前記隣接周波数帯域スペクトル包絡線と、前記隣接周波数帯域励起スペクトルとを組み合わせて、隣接周波数帯域信号スペクトルを生成すること
を含む、方法。 - 前記遷移帯域を解析して、遷移帯域スペクトルデータを得ることが更に、
前記遷移帯域を解析して、遷移帯域スペクトル包絡線と、遷移帯域励起スペクトルを得ることを含む、請求項1に記載の方法。 - 前記遷移帯域スペクトルデータを用いて、隣接周波数帯域励起スペクトルを生成することが更に、
前記信号のピッチ周波数によって決定される繰返し周期を備えた、前記遷移帯域スペクトルの少なくとも一部の周期的繰返しによって、前記隣接周波数帯域励起スペクトルを生成することを含む、請求項2に記載の方法。 - 隣接周波数帯域スペクトル包絡線を評価することが更に、前記隣接周波数帯域内の前記信号のエネルギを評価することを含む、請求項1に記載の方法。
- 前記第1周波数帯域内のスペクトルと、前記隣接周波数帯域信号スペクトルを組み合わせて、帯域幅拡大信号スペクトルと、対応する帯域幅拡大信号を得ることを更に含む、請求項1に記載の方法。
- 前記隣接周波数帯域励起スペクトルを生成することが更に、前記遷移帯域励起スペクトルの少なくとも一部の周期的繰返しによって生成された前記隣接周波数帯域励起スペクトルと、前記隣接周波数帯域内の疑似雑音励起スペクトルとを混合することを含む、請求項3に記載の方法。
- 前記信号から評価した発声レベルを用いて、前記隣接周波数帯域励起スペクトルと、前記疑似雑音励起スペクトルとを混合する混合率を決定することを更に含む、請求項6に記載の方法。
- 前記疑似雑音励起スペクトルを用いて、前記遷移帯域励起スペクトル内の対応する割れ目に対して前記隣接周波数帯域励起スペクトル内の任意の割れ目を充填することを更に含む、請求項7に記載の方法。
- 第1周波数帯域内にスペクトルを備えた信号のための遷移帯域を設定することであって、前記遷移帯域が、前記第1周波数帯域の一部として設定され、前記遷移帯域が、前記第1周波数帯域に隣接する隣接周波数帯域の近傍に配置されている、前記遷移帯域を設定することと、
前記遷移帯域を解析して、遷移帯域励起スペクトルを得ること、
隣接周波数帯域スペクトル包絡線を評価すること、
前記信号のピッチ周波数によって決定される繰返し周期を備えた前記遷移帯域励起スペクトルの少なくとも一部の周期的繰返しによって、隣接周波数帯域励起スペクトルを生成すること、
前記隣接周波数帯域スペクトル包絡線と、前記隣接周波数帯域励起スペクトルとを組み合わせて、隣接周波数帯域信号スペクトルを得ること、
を含む、方法。 - 隣接周波数帯域スペクトル包絡線を評価することが更に、前記隣接周波数帯域内の前記信号のエネルギを評価することを含む、請求項9に記載の方法。
- 前記第1周波数帯域内の前記スペクトルと、前記隣接周波数帯域信号スペクトルを組み合わせて、帯域幅拡大信号スペクトルと、対応する帯域幅拡大信号とを得ることを更に含む、請求項10に記載の方法。
- 前記隣接周波数帯域励起スペクトルを生成することが更に、前記遷移帯域励起スペクトルの少なくとも一部の周期的繰返しによって生成された前記隣接周波数帯域励起スペクトルと、前記隣接周波数帯域内の疑似雑音励起スペクトルとを混合することを含む、請求項11に記載の方法。
- 前記信号から評価した発声レベルを用いて、前記隣接周波数帯域励起スペクトルと、前記疑似雑音励起スペクトルとを混合する混合率を決定することを更に含む、請求項12に記載の方法。
- 前記疑似雑音励起スペクトルを用いて、前記遷移帯域励起スペクトル内の対応する割れ目に対して前記隣接周波数帯域励起スペクトル内の任意の割れ目を充填することを更に含む、請求項13に記載の方法。
- 第1周波数帯域内にスペクトルを備えた信号のための遷移帯域であって、前記遷移帯域が、前記第1周波数帯域の一部として設定され、前記遷移帯域が、前記第1周波数帯域に隣接する隣接周波数帯域の近傍に配置される、前記遷移帯域を設定し、
前記遷移帯域を解析して、遷移帯域励起スペクトルを取得し、
隣接周波数帯域スペクトル包絡線を評価し、
前記信号のピッチ周波数によって決定される繰返し周期を備えた前記遷移帯域励起スペクトルの少なくとも一部の周期的繰返しによって、隣接周波数帯域励起スペクトルを生成し、
前記隣接周波数帯域スペクトル包絡線と、前記隣接周波数帯域励起スペクトルとを組み合わせて、隣接周波数帯域信号スペクトルを得る
ように動作する信号処理論理部を含んでいる装置。 - 前記信号処理論理部が、前記隣接周波数帯域の前記信号のエネルギを評価するように更に動作する、請求項15に記載の装置。
- 前記信号処理論理部が、前記第1周波数帯域内の前記スペクトルと、前記隣接周波数帯域信号スペクトルを組み合わせて、帯域幅拡大信号スペクトルと、対応する帯域幅拡大信号とを得るように更に動作する、請求項16に記載の装置。
- 前記信号処理論理部が、前記遷移帯域励起スペクトルの少なくとも一部の周期的繰返しによって生成された前記隣接周波数帯域励起スペクトルと前記隣接周波数帯域内の疑似雑音励起スペクトルとを混合するように更に動作する、請求項16に記載の装置。
- 前記信号処理論理部が、前記信号から評価した発声レベルを用いて、前記隣接周波数帯域励起スペクトルと、前記疑似雑音励起スペクトルとを混合する混合率を決定するように更に動作する、請求項18に記載の装置。
- 前記信号処理論理部が、前記疑似雑音励起スペクトルを用いて、前記遷移帯域励起スペクトル内の対応する割れ目に対して前記隣接周波数帯域励起スペクトル内の任意の割れ目を充填するように更に動作する、請求項19に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/365,457 US8463599B2 (en) | 2009-02-04 | 2009-02-04 | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder |
US12/365,457 | 2009-02-04 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011544700A Division JP5597896B2 (ja) | 2009-02-04 | 2010-02-02 | 修正離散コサイン変換音声符号化器用の帯域幅拡大方法及び装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014016622A true JP2014016622A (ja) | 2014-01-30 |
Family
ID=42101566
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011544700A Active JP5597896B2 (ja) | 2009-02-04 | 2010-02-02 | 修正離散コサイン変換音声符号化器用の帯域幅拡大方法及び装置 |
JP2013173691A Pending JP2014016622A (ja) | 2009-02-04 | 2013-08-23 | 修正離散コサイン変換音声符号化器用の帯域幅拡大方法及び装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011544700A Active JP5597896B2 (ja) | 2009-02-04 | 2010-02-02 | 修正離散コサイン変換音声符号化器用の帯域幅拡大方法及び装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US8463599B2 (ja) |
EP (1) | EP2394269B1 (ja) |
JP (2) | JP5597896B2 (ja) |
KR (1) | KR101341246B1 (ja) |
CN (1) | CN102308333B (ja) |
BR (1) | BRPI1008520B1 (ja) |
MX (1) | MX2011007807A (ja) |
WO (1) | WO2010091013A1 (ja) |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1569200A1 (en) * | 2004-02-26 | 2005-08-31 | Sony International (Europe) GmbH | Identification of the presence of speech in digital audio data |
US8688441B2 (en) * | 2007-11-29 | 2014-04-01 | Motorola Mobility Llc | Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content |
US8433582B2 (en) * | 2008-02-01 | 2013-04-30 | Motorola Mobility Llc | Method and apparatus for estimating high-band energy in a bandwidth extension system |
US20090201983A1 (en) * | 2008-02-07 | 2009-08-13 | Motorola, Inc. | Method and apparatus for estimating high-band energy in a bandwidth extension system |
US8463412B2 (en) * | 2008-08-21 | 2013-06-11 | Motorola Mobility Llc | Method and apparatus to facilitate determining signal bounding frequencies |
US9947340B2 (en) * | 2008-12-10 | 2018-04-17 | Skype | Regeneration of wideband speech |
JP5423684B2 (ja) * | 2008-12-19 | 2014-02-19 | 富士通株式会社 | 音声帯域拡張装置及び音声帯域拡張方法 |
JP4932917B2 (ja) * | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
JP5754899B2 (ja) | 2009-10-07 | 2015-07-29 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
WO2011045926A1 (ja) * | 2009-10-14 | 2011-04-21 | パナソニック株式会社 | 符号化装置、復号装置およびこれらの方法 |
JPWO2011121955A1 (ja) * | 2010-03-30 | 2013-07-04 | パナソニック株式会社 | オーディオ装置 |
JP5609737B2 (ja) | 2010-04-13 | 2014-10-22 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
JP5850216B2 (ja) | 2010-04-13 | 2016-02-03 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
US9047875B2 (en) * | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
JP2012032713A (ja) * | 2010-08-02 | 2012-02-16 | Sony Corp | 復号装置、復号方法、およびプログラム |
JP6075743B2 (ja) | 2010-08-03 | 2017-02-08 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
WO2012037515A1 (en) | 2010-09-17 | 2012-03-22 | Xiph. Org. | Methods and systems for adaptive time-frequency resolution in digital data coding |
JP5552988B2 (ja) * | 2010-09-27 | 2014-07-16 | 富士通株式会社 | 音声帯域拡張装置および音声帯域拡張方法 |
JP5707842B2 (ja) | 2010-10-15 | 2015-04-30 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
US9589568B2 (en) | 2011-02-08 | 2017-03-07 | Lg Electronics Inc. | Method and device for bandwidth extension |
US9009036B2 (en) | 2011-03-07 | 2015-04-14 | Xiph.org Foundation | Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding |
WO2012122297A1 (en) * | 2011-03-07 | 2012-09-13 | Xiph. Org. | Methods and systems for avoiding partial collapse in multi-block audio coding |
US8838442B2 (en) | 2011-03-07 | 2014-09-16 | Xiph.org Foundation | Method and system for two-step spreading for tonal artifact avoidance in audio coding |
MY164164A (en) | 2011-05-13 | 2017-11-30 | Samsung Electronics Co Ltd | Bit allocating, audio encoding and decoding |
EP2791937B1 (en) | 2011-11-02 | 2016-06-08 | Telefonaktiebolaget LM Ericsson (publ) | Generation of a high band extension of a bandwidth extended audio signal |
PL2831875T3 (pl) | 2012-03-29 | 2016-05-31 | Ericsson Telefon Ab L M | Rozszerzenie pasma harmonicznego sygnału audio |
CN103928029B (zh) | 2013-01-11 | 2017-02-08 | 华为技术有限公司 | 音频信号编码和解码方法、音频信号编码和解码装置 |
CN103971693B (zh) * | 2013-01-29 | 2017-02-22 | 华为技术有限公司 | 高频带信号的预测方法、编/解码设备 |
US9601125B2 (en) | 2013-02-08 | 2017-03-21 | Qualcomm Incorporated | Systems and methods of performing noise modulation and gain adjustment |
JP6157926B2 (ja) * | 2013-05-24 | 2017-07-05 | 株式会社東芝 | 音声処理装置、方法およびプログラム |
CN104217727B (zh) * | 2013-05-31 | 2017-07-21 | 华为技术有限公司 | 信号解码方法及设备 |
FR3007563A1 (fr) * | 2013-06-25 | 2014-12-26 | France Telecom | Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences |
FR3008533A1 (fr) | 2013-07-12 | 2015-01-16 | Orange | Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences |
CN104301064B (zh) * | 2013-07-16 | 2018-05-04 | 华为技术有限公司 | 处理丢失帧的方法和解码器 |
CN105531762B (zh) | 2013-09-19 | 2019-10-01 | 索尼公司 | 编码装置和方法、解码装置和方法以及程序 |
CN105761723B (zh) | 2013-09-26 | 2019-01-15 | 华为技术有限公司 | 一种高频激励信号预测方法及装置 |
US10083708B2 (en) | 2013-10-11 | 2018-09-25 | Qualcomm Incorporated | Estimation of mixing factors to generate high-band excitation signal |
KR101498113B1 (ko) * | 2013-10-23 | 2015-03-04 | 광주과학기술원 | 사운드 신호의 대역폭 확장 장치 및 방법 |
CA3162763A1 (en) | 2013-12-27 | 2015-07-02 | Sony Corporation | Decoding apparatus and method, and program |
FR3017484A1 (fr) | 2014-02-07 | 2015-08-14 | Orange | Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences |
MX353200B (es) | 2014-03-14 | 2018-01-05 | Ericsson Telefon Ab L M | Método y aparato de codificación de audio. |
KR101837153B1 (ko) * | 2014-05-01 | 2018-03-09 | 니폰 덴신 덴와 가부시끼가이샤 | 주기성 통합 포락 계열 생성 장치, 주기성 통합 포락 계열 생성 방법, 주기성 통합 포락 계열 생성 프로그램, 기록매체 |
ES2883848T3 (es) * | 2014-05-01 | 2021-12-09 | Nippon Telegraph & Telephone | Codificador, descodificador, método de codificación, método de descodificación, programa de codificación, programa de descodificación y soporte de registro |
JP2016038435A (ja) * | 2014-08-06 | 2016-03-22 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
US9536537B2 (en) | 2015-02-27 | 2017-01-03 | Qualcomm Incorporated | Systems and methods for speech restoration |
US10847170B2 (en) | 2015-06-18 | 2020-11-24 | Qualcomm Incorporated | Device and method for generating a high-band signal from non-linearly processed sub-ranges |
US9837089B2 (en) * | 2015-06-18 | 2017-12-05 | Qualcomm Incorporated | High-band signal generation |
KR20180056032A (ko) | 2016-11-18 | 2018-05-28 | 삼성전자주식회사 | 신호 처리 프로세서 및 신호 처리 프로세서의 제어 방법 |
US20190051286A1 (en) * | 2017-08-14 | 2019-02-14 | Microsoft Technology Licensing, Llc | Normalization of high band signals in network telephony communications |
WO2020041497A1 (en) * | 2018-08-21 | 2020-02-27 | 2Hz, Inc. | Speech enhancement and noise suppression systems and methods |
CN112180762B (zh) * | 2020-09-29 | 2021-10-29 | 瑞声新能源发展(常州)有限公司科教城分公司 | 非线性信号***构建方法、装置、设备和介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0916198A (ja) * | 1995-06-27 | 1997-01-17 | Japan Radio Co Ltd | 低ビットレートボコーダにおける励起信号発生装置及び励起信号発生方法 |
JPH09101798A (ja) * | 1995-10-05 | 1997-04-15 | Matsushita Electric Ind Co Ltd | 音声帯域拡大方法および音声帯域拡大装置 |
JP2000305599A (ja) * | 1999-04-22 | 2000-11-02 | Sony Corp | 音声合成装置及び方法、電話装置並びにプログラム提供媒体 |
JP2001521648A (ja) * | 1997-06-10 | 2001-11-06 | コーディング テクノロジーズ スウェーデン アクチボラゲット | スペクトル帯域複製を用いた原始コーディングの強化 |
JP2006085176A (ja) * | 2004-09-17 | 2006-03-30 | Harman Becker Automotive Systems Gmbh | 帯域制限オーディオ信号の帯域拡大 |
JP2007011341A (ja) * | 2005-06-28 | 2007-01-18 | Harman Becker Automotive Systems-Wavemakers Inc | 高調波信号の周波数拡張 |
JP2008537165A (ja) * | 2005-04-01 | 2008-09-11 | クゥアルコム・インコーポレイテッド | 広帯域音声符号化のためのシステム、方法、及び装置 |
JP2008537174A (ja) * | 2005-04-20 | 2008-09-11 | キューエヌエックス ソフトウェア システムズ (ウェイブメイカーズ), インコーポレイテッド | 音声の品質および了解度を改善するためのシステム |
Family Cites Families (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4771465A (en) | 1986-09-11 | 1988-09-13 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech sinusoidal vocoder with transmission of only subset of harmonics |
JPH02166198A (ja) | 1988-12-20 | 1990-06-26 | Asahi Glass Co Ltd | ドライクリーニング用洗浄剤 |
US5765127A (en) * | 1992-03-18 | 1998-06-09 | Sony Corp | High efficiency encoding method |
US5245589A (en) | 1992-03-20 | 1993-09-14 | Abel Jonathan S | Method and apparatus for processing signals to extract narrow bandwidth features |
JP2779886B2 (ja) | 1992-10-05 | 1998-07-23 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
US5455888A (en) | 1992-12-04 | 1995-10-03 | Northern Telecom Limited | Speech bandwidth extension method and apparatus |
JPH07160299A (ja) | 1993-12-06 | 1995-06-23 | Hitachi Denshi Ltd | 音声信号帯域圧縮伸張装置並びに音声信号の帯域圧縮伝送方式及び再生方式 |
DE69619284T3 (de) | 1995-03-13 | 2006-04-27 | Matsushita Electric Industrial Co., Ltd., Kadoma | Vorrichtung zur Erweiterung der Sprachbandbreite |
JP3522954B2 (ja) | 1996-03-15 | 2004-04-26 | 株式会社東芝 | マイクロホンアレイ入力型音声認識装置及び方法 |
US5794185A (en) | 1996-06-14 | 1998-08-11 | Motorola, Inc. | Method and apparatus for speech coding using ensemble statistics |
US5949878A (en) | 1996-06-28 | 1999-09-07 | Transcrypt International, Inc. | Method and apparatus for providing voice privacy in electronic communication systems |
JPH10124088A (ja) | 1996-10-24 | 1998-05-15 | Sony Corp | 音声帯域幅拡張装置及び方法 |
SE9903553D0 (sv) | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
US6453287B1 (en) | 1999-02-04 | 2002-09-17 | Georgia-Tech Research Corporation | Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders |
US7330814B2 (en) | 2000-05-22 | 2008-02-12 | Texas Instruments Incorporated | Wideband speech coding with modulated noise highband excitation system and method |
SE0001926D0 (sv) | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
DE10041512B4 (de) | 2000-08-24 | 2005-05-04 | Infineon Technologies Ag | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
WO2002029782A1 (en) * | 2000-10-02 | 2002-04-11 | The Regents Of The University Of California | Perceptual harmonic cepstral coefficients as the front-end for speech recognition |
US6990446B1 (en) | 2000-10-10 | 2006-01-24 | Microsoft Corporation | Method and apparatus using spectral addition for speaker recognition |
US6889182B2 (en) | 2001-01-12 | 2005-05-03 | Telefonaktiebolaget L M Ericsson (Publ) | Speech bandwidth extension |
ATE319162T1 (de) | 2001-01-19 | 2006-03-15 | Koninkl Philips Electronics Nv | Breitband-signalübertragungssystem |
SE522553C2 (sv) | 2001-04-23 | 2004-02-17 | Ericsson Telefon Ab L M | Bandbreddsutsträckning av akustiska signaler |
US6988066B2 (en) | 2001-10-04 | 2006-01-17 | At&T Corp. | Method of bandwidth extension for narrow-band speech |
US6895375B2 (en) | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
US20030187663A1 (en) | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
CN1328707C (zh) | 2002-07-19 | 2007-07-25 | 日本电气株式会社 | 音频解码设备以及解码方法 |
JP3861770B2 (ja) | 2002-08-21 | 2006-12-20 | ソニー株式会社 | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 |
KR100917464B1 (ko) | 2003-03-07 | 2009-09-14 | 삼성전자주식회사 | 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치 |
US20050004793A1 (en) | 2003-07-03 | 2005-01-06 | Pasi Ojala | Signal adaptation for higher band coding in a codec utilizing band split coding |
US20050065784A1 (en) * | 2003-07-31 | 2005-03-24 | Mcaulay Robert J. | Modification of acoustic signals using sinusoidal analysis and synthesis |
EP1660393B1 (de) * | 2003-09-03 | 2007-05-09 | Phoenix Conveyor Belt Systems GmbH | Einrichtung zur überwachung einer förderanlage |
US7461003B1 (en) | 2003-10-22 | 2008-12-02 | Tellabs Operations, Inc. | Methods and apparatus for improving the quality of speech signals |
JP2005136647A (ja) | 2003-10-30 | 2005-05-26 | New Japan Radio Co Ltd | 低音ブースト回路 |
KR100587953B1 (ko) | 2003-12-26 | 2006-06-08 | 한국전자통신연구원 | 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템 |
CA2454296A1 (en) | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
US7460990B2 (en) | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
KR100708121B1 (ko) | 2005-01-22 | 2007-04-16 | 삼성전자주식회사 | 음성 신호의 대역 확장 방법 및 장치 |
US20060224381A1 (en) | 2005-04-04 | 2006-10-05 | Nokia Corporation | Detecting speech frames belonging to a low energy sequence |
US8249861B2 (en) | 2005-04-20 | 2012-08-21 | Qnx Software Systems Limited | High frequency compression integration |
PL1875463T3 (pl) | 2005-04-22 | 2019-03-29 | Qualcomm Incorporated | Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia |
KR101171098B1 (ko) | 2005-07-22 | 2012-08-20 | 삼성전자주식회사 | 혼합 구조의 스케일러블 음성 부호화 방법 및 장치 |
US7953605B2 (en) | 2005-10-07 | 2011-05-31 | Deepen Sinha | Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension |
EP1772855B1 (en) | 2005-10-07 | 2013-09-18 | Nuance Communications, Inc. | Method for extending the spectral bandwidth of a speech signal |
US7490036B2 (en) | 2005-10-20 | 2009-02-10 | Motorola, Inc. | Adaptive equalizer for a coded speech signal |
US20070109977A1 (en) | 2005-11-14 | 2007-05-17 | Udar Mittal | Method and apparatus for improving listener differentiation of talkers during a conference call |
US7546237B2 (en) | 2005-12-23 | 2009-06-09 | Qnx Software Systems (Wavemakers), Inc. | Bandwidth extension of narrowband speech |
US7835904B2 (en) | 2006-03-03 | 2010-11-16 | Microsoft Corp. | Perceptual, scalable audio compression |
US7844453B2 (en) | 2006-05-12 | 2010-11-30 | Qnx Software Systems Co. | Robust noise estimation |
US20080004866A1 (en) | 2006-06-30 | 2008-01-03 | Nokia Corporation | Artificial Bandwidth Expansion Method For A Multichannel Signal |
US8260609B2 (en) * | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
DE602006009927D1 (de) | 2006-08-22 | 2009-12-03 | Harman Becker Automotive Sys | Verfahren und System zur Bereitstellung eines Tonsignals mit erweiterter Bandbreite |
US8639500B2 (en) | 2006-11-17 | 2014-01-28 | Samsung Electronics Co., Ltd. | Method, medium, and apparatus with bandwidth extension encoding and/or decoding |
US8229106B2 (en) | 2007-01-22 | 2012-07-24 | D.S.P. Group, Ltd. | Apparatus and methods for enhancement of speech |
US8688441B2 (en) | 2007-11-29 | 2014-04-01 | Motorola Mobility Llc | Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content |
US8433582B2 (en) | 2008-02-01 | 2013-04-30 | Motorola Mobility Llc | Method and apparatus for estimating high-band energy in a bandwidth extension system |
US20090201983A1 (en) | 2008-02-07 | 2009-08-13 | Motorola, Inc. | Method and apparatus for estimating high-band energy in a bandwidth extension system |
US8463412B2 (en) | 2008-08-21 | 2013-06-11 | Motorola Mobility Llc | Method and apparatus to facilitate determining signal bounding frequencies |
-
2009
- 2009-02-04 US US12/365,457 patent/US8463599B2/en active Active
-
2010
- 2010-02-02 KR KR1020117018182A patent/KR101341246B1/ko active IP Right Grant
- 2010-02-02 CN CN201080006565.0A patent/CN102308333B/zh active Active
- 2010-02-02 BR BRPI1008520A patent/BRPI1008520B1/pt active IP Right Grant
- 2010-02-02 JP JP2011544700A patent/JP5597896B2/ja active Active
- 2010-02-02 WO PCT/US2010/022879 patent/WO2010091013A1/en active Application Filing
- 2010-02-02 MX MX2011007807A patent/MX2011007807A/es active IP Right Grant
- 2010-02-02 EP EP10704446.3A patent/EP2394269B1/en active Active
-
2013
- 2013-08-23 JP JP2013173691A patent/JP2014016622A/ja active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0916198A (ja) * | 1995-06-27 | 1997-01-17 | Japan Radio Co Ltd | 低ビットレートボコーダにおける励起信号発生装置及び励起信号発生方法 |
JPH09101798A (ja) * | 1995-10-05 | 1997-04-15 | Matsushita Electric Ind Co Ltd | 音声帯域拡大方法および音声帯域拡大装置 |
JP2001521648A (ja) * | 1997-06-10 | 2001-11-06 | コーディング テクノロジーズ スウェーデン アクチボラゲット | スペクトル帯域複製を用いた原始コーディングの強化 |
JP2000305599A (ja) * | 1999-04-22 | 2000-11-02 | Sony Corp | 音声合成装置及び方法、電話装置並びにプログラム提供媒体 |
JP2006085176A (ja) * | 2004-09-17 | 2006-03-30 | Harman Becker Automotive Systems Gmbh | 帯域制限オーディオ信号の帯域拡大 |
JP2008537165A (ja) * | 2005-04-01 | 2008-09-11 | クゥアルコム・インコーポレイテッド | 広帯域音声符号化のためのシステム、方法、及び装置 |
JP2008537174A (ja) * | 2005-04-20 | 2008-09-11 | キューエヌエックス ソフトウェア システムズ (ウェイブメイカーズ), インコーポレイテッド | 音声の品質および了解度を改善するためのシステム |
JP2007011341A (ja) * | 2005-06-28 | 2007-01-18 | Harman Becker Automotive Systems-Wavemakers Inc | 高調波信号の周波数拡張 |
Non-Patent Citations (2)
Title |
---|
CSNH199700176010; 吉田由紀他: '"狭帯域音声からの擬似広帯域音声の生成法"' NTT R&D Vol.45,No.10, 199610, pp.1027-1032, 社団法人電気通信協会 * |
JPN6014024051; 吉田由紀他: '"狭帯域音声からの擬似広帯域音声の生成法"' NTT R&D Vol.45,No.10, 199610, pp.1027-1032, 社団法人電気通信協会 * |
Also Published As
Publication number | Publication date |
---|---|
WO2010091013A1 (en) | 2010-08-12 |
BRPI1008520A2 (pt) | 2016-03-08 |
JP2012514763A (ja) | 2012-06-28 |
US8463599B2 (en) | 2013-06-11 |
MX2011007807A (es) | 2011-09-21 |
CN102308333B (zh) | 2014-03-19 |
EP2394269B1 (en) | 2017-04-05 |
EP2394269A1 (en) | 2011-12-14 |
US20100198587A1 (en) | 2010-08-05 |
KR20110111463A (ko) | 2011-10-11 |
BRPI1008520B1 (pt) | 2020-05-05 |
KR101341246B1 (ko) | 2013-12-12 |
CN102308333A (zh) | 2012-01-04 |
JP5597896B2 (ja) | 2014-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5597896B2 (ja) | 修正離散コサイン変換音声符号化器用の帯域幅拡大方法及び装置 | |
US9653088B2 (en) | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding | |
US10885926B2 (en) | Classification between time-domain coding and frequency domain coding for high bit rates | |
KR101436715B1 (ko) | 광대역 스피치 코딩을 위한 시스템들, 방법들, 장치, 및 컴퓨터 프로그램 제품들 | |
US7933769B2 (en) | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX | |
US9672835B2 (en) | Method and apparatus for classifying audio signals into fast signals and slow signals | |
KR101871644B1 (ko) | 적응적 대역폭 확장 및 그것을 위한 장치 | |
JP4294724B2 (ja) | 音声分離装置、音声合成装置および声質変換装置 | |
KR100956876B1 (ko) | 고대역 여기 생성을 위한 시스템들, 방법들, 및 장치들 | |
JP5833675B2 (ja) | 帯域拡張方法及び装置 | |
US20070147518A1 (en) | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX | |
US20180182408A1 (en) | Determining a budget for lpd/fd transition frame encoding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140522 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140617 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20141118 |