JP5945626B2 - ハーモニックオーディオ信号の帯域幅拡張 - Google Patents

ハーモニックオーディオ信号の帯域幅拡張 Download PDF

Info

Publication number
JP5945626B2
JP5945626B2 JP2015503154A JP2015503154A JP5945626B2 JP 5945626 B2 JP5945626 B2 JP 5945626B2 JP 2015503154 A JP2015503154 A JP 2015503154A JP 2015503154 A JP2015503154 A JP 2015503154A JP 5945626 B2 JP5945626 B2 JP 5945626B2
Authority
JP
Japan
Prior art keywords
gain
value
band
frequency band
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015503154A
Other languages
English (en)
Other versions
JP2015516593A (ja
JP2015516593A5 (ja
Inventor
セバスチャン ナズランド,
セバスチャン ナズランド,
ヴォロージャ グランチャロブ,
ヴォロージャ グランチャロブ,
トフトガード, トマス ヤンソン,
トフトガード, トマス ヤンソン,
Original Assignee
テレフオンアクチーボラゲット エルエム エリクソン(パブル)
テレフオンアクチーボラゲット エルエム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=47666458&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP5945626(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by テレフオンアクチーボラゲット エルエム エリクソン(パブル), テレフオンアクチーボラゲット エルエム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エルエム エリクソン(パブル)
Publication of JP2015516593A publication Critical patent/JP2015516593A/ja
Publication of JP2015516593A5 publication Critical patent/JP2015516593A5/ja
Application granted granted Critical
Publication of JP5945626B2 publication Critical patent/JP5945626B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuits Of Receivers In General (AREA)

Description

[01]提案する技術は、オーディオ信号の符号化、復号化に関し、特に、ハーモニックオーディオ信号の帯域幅拡張(BWE)をサポートするものに関する。
[02]変換ベースの符号化は、今日の音声圧縮/伝送システムで最も一般的に使用される方式である。この方式における主要な工程は、まず、DFT(離散フーリエ変換)、DCT(離散コサイン変換)、又はMDCT(修正離散コサイン変換)などの好適な変換によって信号波形のショートブロックを周波数領域に変換する変換することである。変換係数は、量子化され、送信または保存され、その後、オーディオ信号を再構成するために使用される。この手法は一般的なオーディオ信号に適しているが、変換係数の十分に良好な表現を作成するためには十分に高いビットレートを必要とする。以下、このような変換領域符号化方式について詳細に説明する。
[03]符号化される波形は、ブロックごとに、周波数領域に変換される。この目的のために一般に用いられる変換の一つが、離散コサイン変換(MDCT)である。得られた周波数領域ベクトルは、スペクトル包絡(ゆっくりと変化するエネルギー)とスペクトル残差に分割される。スペクトル残差は、得られた周波数領域ベクトルをスペクトル包絡で正規化することによって得られる。スペクトル包絡が量子化され、デコーダには量子化インデックスが送信される。次に、量子化されたスペクトル包絡は、ビット配分アルゴリズムへの入力として使用され、残差ベクトルの符号化のためのビットはスペクトル包絡の特性に基づいて分配される。このステップの結果として、一定数のビットが、残差(残差ベクトルまたは"サブベクトル")の異なる部分に割り当てられる。いくつかの残差ベクトルは、ビットを受信せず、ノイズ・フィル又は帯域幅拡張する必要がある。典型的には、残差ベクトルの符号化は、まず、ベクトル要素の振幅を符号化し、次に、非ゼロ要素の符号(フーリエ変換等に係る「位相」と混同すべきではない)を符号化する、という2段階の手順を含む。残差の振幅及び符号の量子化インデックスはデコーダに送信され、そこで残差とスペクトル包絡とが結合され、最終的に時間領域に変換される。
[04]通信ネットワークにおける容量は増加し続けている。しかし、容量が増加しているにもかかわらず、依然として、通信チャネルごとに必要な帯域幅を制限することが強く要請されている。移動体ネットワークにおいて、各呼のための送信帯域幅が小さいほど、移動体装置とそれにサービスを提供する基地局との両方の電力消費が少なく済む。これは、移動体通信業者にとってはエネルギー及びコストの削減、ひいてはエンドユーザが長時間のバッテリ寿命及び通話時間の増加をもたらすことにつながる。また、ユーザごとに消費される帯域幅が小さくなれば、移動体ネットワークにより(並行して)より多くのユーザにサービスを提供することができる。
[05]低ビットレート又は中ビットレートで伝送されるオーディオ信号の品質を向上させる一つの方法は、利用可能なビットを、オーディオ信号の低周波域を高精度に表すために、集中させることである。BWE技術は、低周波数に基づいて、少ないビット数で高周波数をモデル化するために使用することができる。これらの技法は、人間の聴覚の感度は周波数に依存すること、具体的には、人間の聴覚すなわち私たちの聞こえ方は高い周波数にはあまり正確ではないこと、を利用している。
[06]典型的な周波数領域BWE方式において、高周波変換係数が帯域ごとにグループ化される。各帯域のゲイン(エネルギー)が計算され、量子化され、(信号のデコーダに)送信される。デコーダでは、受信した低周波係数の反転もしくは変換されエネルギー正規化されたバージョンが、高周波ゲインでスケーリングされる。スペクトルエネルギーは、対象信号の高周波帯域のそれに近似しているため、少なくともこの点において、BWEは全く「不明」なわけではない。
[07]しかし、特定のオーディオ信号のBWEは、聴取者に耳障りな欠陥を含んだオーディオ信号になってしまうことがある。
[08]本明細書では、ハーモニックオーディオ信号のBWEをサポートし性能を向上させるための技術を提案する。
[09]第一の側面によれば、変換オーディオデコーダにおける方法が提案される。この方法は、ハーモニックオーディオ信号の帯域幅拡張BWEをサポートするためのものである。提案する方法は、周波数帯域b及び該周波数帯域bに隣接するの複数の周波数帯域に関連付けられた複数のゲイン値を受信するステップを含みうる。提案する方法はさらに、帯域幅拡張された周波数領域の再構成された対応する周波数帯域b'に少なくとも1つのスペクトルピークが含まれるか否かを判定するステップを含む。さらに、その帯域に少なくとも1つのスペクトルピークが含まれる場合、方法は、受信した複数のゲイン値に基づいて、周波数帯域b'に関連付けられたゲイン値Gbを第1の値に設定するステップを含む。その帯域にスペクトルピークが含まれていない場合、方法は、受信した複数のゲイン値に基づいて、周波数帯域b'に関連付けられたゲイン値Gbを第2の値に設定するステップを含む。これにより、ゲイン値をスペクトルの帯域幅拡張された部分のピーク位置に応じた値にすることができる。
[010]さらに、本方法は、原信号の高周波部分の少なくとも一部の区間のピークエネルギーとノイズフロアエネルギーとの関係を反映するパラメータ又は係数αを受信するステップを含みうる。方法はさらに、受信した係数αに基づいて、対応する再構成された高周波部分の変換係数をノイズと混合するステップを含みうる。これにより、原信号の高周波部分のノイズ特性の再構成/エミュレーションが可能になる。
[011]第2の側面によれば、ハーモニックオーディオ信号の帯域幅拡張BWEをサポートする、オーディオデコーダあるいはコーデックが提案される。変換オーディオコーデックは、上述の動作を実行するように構成された機能部を含みうる。さらに、変換オーディオデコーダに提供されるときに、本明細書に記載のノイズ混合を可能にする1又は2以上のパラメータを導出し提供するように構成された機能部を含むオーディオエンコーダ又はコーデックが提案される。
[012]第3の側面によれば、第2の側面に係る変換オーディオコーデックを含むユーザ端末が提案される。ユーザ端末は、モバイル端末、タブレットコンピュータ、スマートフォン等の装置でありうる。
[013]以下、添付図面を参照して、実施形態により、提案技術を詳細に説明する。
ハーモニックオーディオスペクトル、すなわち、ハーモニックオーディオ信号のスペクトルを示す図。このタイプのスペクトルは、典型的には、例えば、単一の楽器音、ボーカル音などである。 帯域幅拡張されたハーモニックオーディオスペクトルを示す図。 デコーダによって受信され、対応するBWE帯域ゲイン^GbでスケーリングされたBWEスペクトル(図2にも示される)を示す図。スペクトルのBWE部分がかなり歪んでいる。 本明細書で示唆するように、修正BWE帯域ゲイン^Gmod bでスケーリングされたBWEスペクトルを示す。この場合、スペクトルのBWE部分は所望の形状を得る。 実施形態に係る変換オーディオデコーダにおける動作手順を示すフローチャート。 実施形態に係る変換オーディオデコーダのブロック図。 実施形態に係る変換オーディオエンコーダにおける動作手順を示すフローチャート。 実施形態に係る変換オーディオエンコーダのブロック図。 実施形態に係る変換オーディオデコーダの構成を示すブロック図。
[014]ハーモニックオーディオ信号(harmonic audio signals)の帯域幅拡張は、上記で示したようないくつかの問題を伴う。低周波数帯域、すなわち符号化され伝送され復号化される周波数帯域の一部、が反転(flipped)又は変換(translated)されて高周波数帯域が形成される場合、原信号又は「真の」高周波数帯域におけるスペクトルピークと同じ帯域にスペクトルピークが現れるかは不確かである。原信号ではピークがない帯域に、低域から生成されたスペクトルピークが現れてしまう可能性がある。また、その逆に、原信号ではピークを有する帯域に、(反転又は変換後に)ピークがない低域信号の一部が現れてしまう可能性がある。図1に高調波スペクトルの例を示し、BWEの概念を図2に示す。以下、詳細に説明する。
[015]上記の効果は、主に高調波成分を有する信号に重大な品質劣化を引き起こす可能性がある。その理由は、ピークとゲインの位置の不整合によって、不必要なピーク減衰、又は、2つのスペクトルピークの間の低エネルギースペクトル係数の増幅、が引き起こされるためである。
[016]本明細書に記載される解決策は、ピークの位置に関する情報に基づいて帯域幅拡張領域における帯域ゲインを制御する新規な方法に関する。さらに、本明細書で提案されるBWEアルゴリズムは、送信されるノイズ混合レベルによって「スペクトルピーク対ノイズフロア」比を制御することができる。これは、拡張された高周波数域の構造の量を保存するBWEとなる。
[017]本明細書中に記載される解決策は、ハーモニックオーディオ信号に使用するのに適している。図1は、ハーモニックオーディオ信号の周波数スペクトルを示す図であり、これは高調波スペクトルを示している。図からわかるように、スペクトルはピークを含む。この種のスペクトルは、フルートなどの単一の楽器音やボーカル音などが典型的である。
[018]ここで、ハーモニックオーディオ信号のスペクトルの2つの部分について説明する。1つは、低い周波数を含む低域であり、ここで「低」とは、帯域幅拡張に供される部分よりも低いことを示す。もう1つは、低域よりも高い周波数を含む高域である。本明細書において、「低域(lower part)」、「低い周波数(low/lower frequencies)」という表現は、BWEクロスオーバー周波数以下のハーモニックオーディオスペクトルの一部を指す(図2参照)。同様に、「高域(upper part)」、「高い周波数(high/higher frequencies)」という表現は、BWEクロスオーバー周波数より上のハーモニックオーディオスペクトルの一部を指す(図2参照)。
[019]図2は、ハーモニック音声信号のスペクトルを示す。ここには、以下で説明する、BWEクロスオーバー周波数の左側の低域と、BWEクロスオーバー周波数の右側の高域の2つの部分との2つの部分を見ることができる。図2において、原スペクトル、すなわち(エンコーダ側で見られるような)原オーディオ信号のスペクトル、はライトグレーで示されている。スペクトルの帯域幅拡張された部分は、ダークグレーで示されている。前述したように、スペクトルの帯域幅拡張部分は、エンコーダによって符号化されるのではなく、スペクトルの受信した低域部分を使用することにより、デコーダで再生成される。図2においては、比較のため、原スペクトル(ライトグレー)およびBWEスペクトル(ダークグレー)の両方が、高い周波数で見ることができる。高い周波数の原スペクトルは、各BWE帯域(すなわち高周波帯域)のゲイン値を除き、デコーダには不明である。BWE帯域は、図2の破線によって分割される。
[020]図3aは、スペクトルの帯域幅拡張部のゲイン値とピーク位置との間の不整合の問題をよりよく理解できるように示したものである。帯域302aにおいて、原スペクトルはピークを有するのに、生成されたBWEスペクトルにはピークがない。これは、図2における帯域202からわかる。ピークを含む原帯域に対して計算されるゲインがピークを含まないBWE帯域に適用されると、帯域302aに見られるように、BWE帯域における低エネルギースペクトル係数が増幅されてしまう。
[021]図3aの帯域304aは反対の状況を呈し、原スペクトルの対応する帯域はピークを含まないが、生成されたBWEスペクトルの対応する帯域はピークを含nでいる。したがって、(エンコーダから受信した)その帯域に対して得られたゲインは、低エネルギー帯域のために計算される。このゲインがピークを有する対応する帯域に適用されると、図3aの帯域304aに見られるように、結果は、減衰されたピークとなる。知覚又は心理音響の観点からすると、帯域302aに示されている状況は、様々な理由で、帯域304aの状況よりも聴取者にとって悪い状況である。簡単に説明すると、聴取者が音声成分の異常な欠如よりも音の成分の異常な存在を体験することのほうが一般には不快である。
[022]以下、本明細書の概念を表す新規なBWEアルゴリズムの例を説明する。
[023]BWE領域における変換係数の集合(高周波変換係数)を、Y(k)とする。これらの変換係数は以下で示されるB個の帯域にグループ化される。
帯域のサイズMbは一定であってもよいし、周波数が高くなるに従い増加させてもよい。一例として、帯域を8次元で均等分割(すなわち、全てMb=8)とする場合には、Y1={Y(1) ... Y(8)}, Y2={Y(9) ... Y(16)} となる。
[024]BWEアルゴリズムの第1のステップは、全ての帯域のゲインを計算することである。
[025]これらのゲインは、^Gb=Q(Gb)として量子化され、デコーダに伝送される。
[026]BWEアルゴリズムにおける第2のステップ(オプションである)は、例えばBWEスペクトルの平均ピークエネルギー/Ep及び平均ノイズフロアエネルギー/Enfの関数であるノイズ混合パラメータ又は係数αを次式のように計算することである。
ここで、パラメータαは、下記(3)式に従って導出される。ただし、使用される正確な表現は、使用するコーデックや量子化器に対して何が適切かを考慮するなどして、様々な方法で選択することができる。
[027]ピークとノイズフロアエネルギーは、例えばスペクトルエネルギーの最大値及び最小値のそれぞれを追跡することによって計算されうる。
[028]ノイズ混合パラメータαは、少ないビット数で量子化されうる。例えば、αは2ビットで量子化される。ノイズ混合パラメータαを量子化すると、パラーメータ^α=Q(α)が得られる。パラメータ^αはデコーダへと伝送される。BWE領域は2つ以上のセクションSに分割され、ノイズ混合パラメータαsが、これらのセクションの各々において、独立に計算されうる。このような場合には、エンコーダはノイズ混合パラメータのセットを、例えばセクション当たり1つずつ、デコーダに送信することができる。
<デコーダの動作>
[029]デコーダは、ビットストリームから、(各帯域毎に)計算された量子化ゲイン^Gbのセットと1つ以上の量子化ノイズ混合パラメータ又は係数^αを抽出する。デコーダはまた、スペクトルの低周波数部分、すなわち、帯域幅拡張される高周波部分とは対照的に符号化された(ハーモニックオーディオ信号の)スペクトルの一部、の量子化された変換係数を受信する。
[030]エネルギー正規化され量子化された低周波係数の集合を、^Xbとする。これらの係数は、ノイズ、例えば予め生成されノイズコードブックNbに記憶されたノイズ、と混合される。予め生成され記憶されたノイズを使用することで、ノイズの品質を確保することができる。すなわち、意図しない不一致や偏差が含まれないようにすることができる。しかし、ノイズは代わりに、必要に応じ、「オンザフライ(on the fly)」で生成することができる。係数^Xbは、次式のように、ノイズコードブックNbのノイズと混合されうる。
[031]ノイズ混合パラメータまたは係数の範囲は、様々な方法で設定することができる。例えば、ノイズ混合係数の範囲は次のように設定される。
この範囲は、例えば、ノイズの影響を完全に無視できる場合(α=0)、及び、この範囲を使用したときの最大の寄与である、ノイズコードブックが混合ベクトルにおいて40%寄与する場合(α=0.4)、を意味する。この種のノイズ混合を導入する結果得られるベクトルが原音の低域の構造の例えば60%から100%を含むのは、スペクトルの低周波部分よりも高周波部分のほうが一般にノイズ成分が多いからである。そのため、上述のノイズ混合動作は、スペクトルのBWE高周波数領域を低周波領域の反転または変換された成分から作るものと比較して、より良い、原信号のスペクトルの高周波部分の統計的性質がよく似たベクトルを生成する。ノイズ混合動作は、例えば複数のノイズ混合係数(α)が提供され受信される場合、BWE領域のそれぞれの区間ごとに独立に実行されうる。
[032]従来技術の解決策では、受信された量子化ゲイン^GbのセットはBWE領域内の対応する帯域に直接使用される。しかし、本実施形態では、適切である場合には、BWEスペクトルのピーク位置に関する情報に基づき、これらの受信された量子化ゲイン^Gbが最初に修正される。必要なピークの位置に関する情報は、ビットストリーム中の低周波領域情報から抽出することができ、あるいは、低域の量子化変換係数(またはBWE帯域の導出された係数)のピークピッキングアルゴリズムによって推定される。低周波領域でのピークに関する情報は、高周波(BWE)領域に変換することができる。高域(BWE)信号が低域信号から導出される場合には、アルゴリズムは、(BWE領域の)スペクトルピークが位置する帯域を登録することができる。
[033]例えば、フラグfp(b)は、BWE領域における帯域bに移動(反転または変換)された低周波係数がピークを含むかどうかを示すために用いることができる。例えば、fp(b)=1は、帯域bに少なくとも1つのピークが含まれることを示し、fp(b)=0は、帯域bにはピークが含まれないことを示す、とすることができる。前述したように、BWE領域の各帯域bは、原信号の対応する帯域に含まれるピークの数およびサイズに依存するゲイン^Gbと関連している。BWE領域における各帯域の実際のピーク内容にゲインを一致させるために、ゲインが適応化されるべきである。ゲイン修正は、例えば次式に従い、各帯域ごとに行われる。
ゲインを修正するのは以下の理由による。(BWE)帯域にピークが含まれる場合(fp(b)=1)、そのピークが減衰されることを避けるべく、対応するゲインがピークのない(原信号の)帯域からのものである場合、この帯域のゲインは、現在の帯域とそれに隣接する2つの帯域のゲインの荷重和に修正される。上記の式(5a)において、重みは1/3である。これは、修正ゲインが現在の帯域のゲインと隣接する2つの帯域のゲインとの平均値であることを意味する。
別のゲイン修正を、例えば次式に従って行うことができる。
ピークが含まれない場合(fp(b)=0)、1つ以上のピークを含む原信号帯域から計算された大きなゲインが適用されてしまうことでこの帯域におけるノイズ様構造が増幅されてしまうのは望ましくない。これを避けるために、この帯域のゲインが、例えば現在の帯域のゲインと隣接する2つの帯域のゲインの最小値となるように選択される。あるいは、ピークを含む帯域のゲインは、3つ以上の帯域、例えば5又は7帯域の平均、といった荷重和として選択又は計算されるか、または、3,5,もしくは7帯域の中央値として選択される。平均や中央値などの荷重和を用いることで、ピークは「真の」ゲインを用いた場合よりもわずかに減衰されることになる。しかし、「真の」ゲインと比べたときの減衰は、その反対よりは有益であるといえる。それは、知覚の観点からは適度な減衰が好ましく、増幅によってオーディオ成分が増大してしまうことに比べれば有益なためである。
[034]ピークミスマッチのために、ゲインを修正する理由は、事前定義されたグリッド上にスペクトル帯域が配置されることであるが、ピーク位置および(反転または低周波数係数を変換した後の)ピークは、時間とともに変化する。これはピークが制御されない方法で帯域の中に入る又は外に出ることに起因する。したがって、スペクトルのBWE部のピーク位置は、必ずしも原信号のピーク位置と一致せず、したがって、帯域に関連付けられたゲインとその帯域のピークの内容との間の不一致はありうることである。未修正のゲインでスケーリングされる例は図3aに示され、修正されたゲインでスケーリングされる例は図3bに示される。
[035]本実施形態で説明したように修正されたゲインを用いた結果が、図3bに示される。帯域302aにおいて、低エネルギースペクトル係数は、図3aの帯域302aのように増幅されず、より適切な帯域ゲインでスケーリングされる。さらに、帯域304bのピークは、図3aの帯域304aのピークのように減衰もされない。多くの場合、図3bに示されたスペクトルは、図3aのスペクトルに対応するオーディオ信号よりも聴取者に対してより快適である音声信号に対応する。
[036]したがって、BWEアルゴリズムは、スペクトルの高周波数部分を作成することができる。(帯域幅の節約上の理由などにより)高周波係数Ybのセットがデコーダで利用できないため、高周波係数
が代わりに再構成され形成される。これは反転(又は変換)された低周波係数(ノイズ混合後でもよい)を修正量子化ゲインでスケーリングすることで得られる。
この変換係数のセット
は、オーディオ信号波形の高周波部分を再構築するために使用される。
[037]本実施形態に記載される解決策は、一般に変換領域オーディオ符号化において使用される、BWEの概念に対する改善である。提示されたアルゴリズムは、BWE領域におけるピーク構造(ピーク対ノイズフロア比)を維持し、これにより、再構成された信号のオーディオ品質の向上を提供する。
[038]「変換オーディオコーデック(transform audio codec)」または「変換コーデック(transform codec)」の用語は、エンコーダとデコーダのペアを包含し、そして当該分野で通常使用される用語である。本開示において、変換コーデックの機能/部分を別々に記述するため、「変換オーディオエンコーダ」又は「エンコーダ」と、「変換オーディオデコーダ」または「デコーダ」の用語が使用される。「変換オーディオエンコーダ」/「エンコーダ」、ならびに、「変換オーディオデコーダ」/「デコーダ」の用語は、「変換オーディオコーデック」/「変換コーデック」の用語と交換可能である。
<デコーダにおける手順の例(図4a,4b)>
[039]以下、デコーダにおける、ハーモニックオーディオ信号の帯域幅拡張BWEをサポートするための手順の例を、図4aを参照して説明する。手順は、例えばMDCTエンコーダまたはその他エンコーダのような変換オーディオ符号化における使用に適している。オーディオ信号は、主に音楽を含むことが想定されるが、その代わりまたはそれに加えてに、音声がふくまれていてもよい。
[040]ステップ401aにおいて、周波数帯域bに関連付けられたゲイン値(原周波数帯域)と周波数帯域bに隣接する複数の他の周波数帯域に関連付けられたゲイン値が受信される。次に、ステップ404aにおいて、BWE領域の再構成された対応する周波数帯域b'にスペクトルピークが含まれるか否かが判定される。再構成された周波数帯域b'に少なくとも一つのスペクトルピークが含まれる場合は、ステップ406a:1で、受信した複数のゲイン値に基づいて、再構成された周波数帯域b'に関連付けられたゲイン値が第1の値に設定される。再構成された周波数帯域b'にスペクトルピークが含まれない場合は、ステップ406a:2で、受信した複数のゲイン値に基づいて、再構成された周波数帯域b'に関連付けられたゲイン値が第2の値に設定される。第2の値は第2の値以下である。
[041]図4bには、図4aに示した手順と少し異なり、より拡張されたかたちで、例えば図示されている前述のノイズ混入に関連する追加オプションの動作を持つ方法が示される。以下、図4bについて説明する。
[042]ステップ401bにおいて、周波数スペクトルの高域に関連付けられたゲイン値が受信される。変換係数やゲイン値などの、周波数スペクトルの低い部分に関連する情報も、いずれかの時点で受信されているものとする(図4a、4bには示されない)。また、前述したように、低域スペクトルを反転又は変換することにより高域スペクトルが作成される帯域幅拡張はがいずれかの時点で行われるものとする。
[043]ステップ402bにおいて、1つ以上のノイズ混合係数が受信される。これら受信された1つ以上ノイズ混合係数は、原高域スペクトルのエネルギー分布に基づいて、エンコーダにおいて計算されたものである。(同じくオプションである)ステップ403bにおいて、例えば上述の式(4)に従い、ノイズ混合係数が、高域領域の係数とノイズを混合するために使用されうる。したがって、帯域幅拡張領域のスペクトルは「ノイズネス」またはノイズの内容の点で原高域スペクトルにより良く対応することになる。
[044]次に、ステップ404bにおいて、作成されたBWE領域の帯域にピークが含まれるか否かが判定される。例えば、帯域にピークが含まれる場合、当該帯域に係る指標が1に設定される。他の帯域にピークが含まれない場合は、当該帯域に係る指標が0に設定される。ステップ405bでは、当該帯域に関連付けられたゲインが修正されうる。帯域のゲインを修正する場合、前述のように、所望の結果を達成するため、隣接する帯域のゲインも考慮される。このようにゲインを修正することにより、BWEスペクトルが改善される。ステップ406bにおいて、修正されたゲインがBWEスペクトルの各帯域に適用される。
<デコーダの例>
[045]以下、ハーモニックオーディオ信号の帯域幅拡張BWEをサポートする上記の手順を実行するように構成された変換オーディオデコーダの例を、図5を参照して説明する。変換オーディオデコーダは例えば、MDCTデコーダその他のデコーダでありうる。
[046]変換オーディオデコーダ501は通信部502を介して他のエンティティと通信するものとして示されている。上記した手順を実行可能な変換オーディオデコーダの一部は、破線で囲まれた構成500として示されている。変換オーディオデコーダはまた、例えば通常のデコーダやBWE機能を提供する他の機能部516を含み、更には、1つ以上の記憶部514を含みうる。
[047]変換オーディオデコーダ501及び構成500の少なくともいずれかは、例えばプロセッサ又はマイクロプロセッサ、適当なソフトウェア及びそれを格納するための記憶装置、プログラマブルロジックデバイス(PLD)その他の電子部品のうちの1つ以上によって実装されうる。
[048]変換オーディオデコーダは、符号化エンティティから提供された適当なパラメータを取得するための機能部を有することが想定される。ノイズ混合係数は、従来技術に対して、取得するための新規なパラメータである。したがって、デコーダは、この機能が所望されるときに、1つ以上のノイズ混合係数が取得されるように構成されるべきである。オーディオデコーダは、受信部を有するように実装され、受信部は、周波数帯域b及び当該周波数帯域bに隣接する複数の周波数帯域に関連付けられた複数のゲイン値、及び、可能なノイズ混合係数を受信する。ただし、このような受信部は図5に示されていない。
[049]変換オーディオデコーダは、BWEスペクトル領域のどの帯域にピークが含まれどの帯域にピークが含まれないかを判定する判定部504あるいはピーク検出部を有する。判定部は、帯域幅拡張領域における再構成された対応する周波数帯域b’にスペクトルピークが含まれるか否かをを判定する。また、変換オーディオデコーダは、帯域にピークが含まれるか否かに依存してその帯域に係るゲインを修正するゲイン修正部506を含みうる。その帯域にピークが含まれる場合、修正ゲインは、例えば、注目帯域に隣接する複数の帯域の(修正前の)ゲインの平均値又は中央値などの、荷重和として計算される。
[050]変換オーディオデコーダは、更に、修正ゲインをBWEスペクトルの適当な帯域に適用又は設定するゲイン適用部508を含みうる。ゲイン適用部は、再構成された周波数帯域b’に少なくとも1つのスペクトルピークが含まれる場合、受信した複数のゲイン値に基づいて、再構成された周波数帯域b’に係るゲイン値を第1の値に設定し、再構成された周波数帯域b’に1つもスペクトルピークが含まれない場合は、受信した複数のゲイン値に基づいて、再構成された周波数帯域b’に係るゲイン値を第1の値以下の第2の値に設定する。これにより、ゲイン値を帯域幅拡張領域におけるピーク位置に合わせて決めることが可能になる。
[051]あるいは、修正なしに可能であれば、適用されるゲインが元のゲインではなく修正されたゲインであるということだけで、機能を適用することが(通常の)他の機能部516によって提供されてもよい。また、変換オーディオデコーダは、ノイズ混合部510を含みうる。ノイズ混合部510は、オーディオ信号のエンコーダによって提供される1つ以上のノイズ係数又はパラメータに基づいて、スペクトルのBWE部分の係数を、例えばコードブックからのノイズと混合する。
<エンコーダの手順の例>
[052]以下、図6を参照して、エンコーダにおける、ハーモニックオーディオ信号の帯域幅拡張BWEをサポートするための手順の例を説明する。手順は、MDCTエンコーダその他のエンコーダなどの変換オーディオエンコーダでの使用に適している。前述したとおり、オーディオ信号は主に、音楽及び/又は音声が想定される。
[053]以下の手順は、変換エンコーダを用いたハーモニックオーディオ信号の従来の符号化とは異なる符号化手順の部分に関するものである。したがって、以下で説明する動作は、スペクトルの低周波部分に対する変換係数やゲイン等を導出することに加えて、スペクトルの高周波部分の帯域(デコーダ側のBWEによって生成される部分)のゲインを導出するオプションとして説明される。
[054]ステップ602で、周波数スペクトルの高周波部分のピークエネルギーが求められる。次に、ステップ603で、当該周波数スペクトルの高周波部分に係るノイズフロアエネルギーが求められる。例えば、前述のような、BWEスペクトルの1つ以上の区間の平均ピークエネルギー/Ep及び平均ノイズフロアエネルギー/Enfが計算されうる。次に、ステップ604で、BWEスペクトルのある区間に係るノイズ混合係数がその区間のノイズの量又は「ノイズネス」を反映するように、例えば前述の式(3)に従い、ノイズ混合係数が計算される。ステップ606で、1つ以上のノイズ混合係数が、復号化エンティティ又は記憶部に、エンコーダによって提供された従来の情報とともに、提供される。この提供は、計算されたノイズ混合係数の出力先への単純な出力、及び、計算されたノイズ混合係数のデコーダへの送信のうち少なくともいずれかであってもよい。ノイズ混合係数は、前述したように提供する前に量子化されうる。
<エンコーダの例>
[055]以下、図7を参照して、ハーモニックオーディオ信号の帯域幅拡張BWEをサポートするための上述の手順を実行する変換オーディオエンコーダの例を説明する。変換オーディオエンコーダは、MDCTエンコーダその他のエンコーダでありうる。
[056]変換オーディオエンコーダ701は、通信部702を介して他のエンティティと通信するものとして示されている。上記した手順を実行可能な変換オーディオエンコーダの一部は、破線で囲まれた構成700として示されている。変換オーディオエンコーダはまた、例えば通常のエンコーダやBWE機能を提供する他の機能部712を含み、更には、1つ以上の記憶部710を含みうる。
[057]変換オーディオエンコーダ701及び構成700の少なくともいずれかは、例えばプロセッサ又はマイクロプロセッサ、適当なソフトウェア及びそれを格納するための記憶装置、プログラマブルロジックデバイス(PLD)その他の電子部品のうちの1つ以上によって実装されうる。
[058]変換オーディオエンコーダは、スペクトルの高周波部分のピークエネルギー及びノイズフロアエネルギーを判定する判定部704を有する。また、変換オーディオエンコーダは、スペクトルの高周波部分の全部又は一部に対する1つ以上のノイズ混合係数を計算するノイズ係数部706を有する。変換オーディオエンコーダは、更に、デコーダで使用されるために、計算したノイズ混合係数を提供する提供部708を有する。この提供は、計算されたノイズ混合係数の出力先への単純な出力、及び、計算されたノイズ混合係数のデコーダへの送信のうち少なくともいずれかであってもよい。
<構成例>
[059]図8は、変換オーディオデコーダにおける使用に適した装置800の例を示す図であり、図5に示した変換オーディオデコーダにおける使用のための構成の例の代替案にもなりうるものである。装置800は、処理部806を有し、これはDSP(デジタルシグナルプロセッサ)でありうる。処理部806は、単一のユニットで構成されてもよいし、本明細書に記載した手順の異なるステップを実行する複数のユニットで構成されてもよい。装置800はまた、符号化スペクトルの低周波部分、スペクトル全体のゲイン、ノイズ混合係数といった信号(参照:エンコーダの場合、高調波スペクトルの高周波部分)を受信する入力部802と、修正ゲイン及び全体のスペクトルの少なくともいずれかといった信号(参照:エンコーダの場合、ノイズ混合係数)を出力する出力部804を有する。入力部802及び出力部804は、当該装置のハードウェアの1つとして構成されうる。
[060]また、装置800は、EEPROM、フラッシュメモリ、ハードドライブなどの不揮発性または揮発性メモリの形態で、少なくとも1つのコンピュータプログラム製品808を有する。コンピュータプログラム製品808は、コンピュータプログラム810を含む。このコンピュータプログラム810は、装置800の処理部806により実行されると、当該装置及び変換オーディオエンコーダの少なくともいずれかに図4を参照して前述した手順の動作を実行させるためのコードを含む。
[061]そして、実施形態では、装置800のコンピュータプログラム810のコードは、オーディオスペクトルの低周波部分に係る情報及びオーディオスペクトル全体に係るゲインを得るための取得モジュール810aを含む。さらに、オーディオスペクトルの高周波部分に関連するノイズ係数も取得することができる。コンピュータプログラムは、帯域幅拡張された周波数領域の再構成された帯域bの帯域にスペクトルピークが含まれるか否かを検出し指示するための検出モジュール810bを含みうる。コンピュータプログラム810はさらに、スペクトルの高周波部分の再構成された一部の帯域に関連付けられたゲインを修正するためのゲイン修正モジュール810cを含みうる。コンピュータプログラム810はさらに、スペクトルの高周波部分の対応する帯域に修正されたゲインを適用するためのゲイン適用モジュール810dを含みうる。また、コンピュータプログラム810は、受信したノイズ混合係数に基づいてスペクトルの高周波部分をノイズで混合するノイズ混合モジュール810dを含みうる。
[062]コンピュータプログラム810は、コンピュータプログラムモジュールで構成されたコンピュータプログラムコードの形態である。モジュール810a〜810dは、図4aまたは図4bに示すフローの動作を実行して図5に示す構成500をエミュレートする。すなわち、モジュール810a−dが処理部806で実行されると、それらは少なくとも図5の504〜510の各部に対応する。
[063]図8に関連して上述した実施形態におけるコードは、処理部によって実行されると、前記構成及び変換オーディオエンコーダの少なくともいずれかに上述の各図を用いて説明したステップを実行させるが、代替の実施形態においては、コードの一部がハードウェア回路として少なくとも一部として実装されてもよい。
[064]同様に、コンピュータプログラムモジュールを有する実施形態は、図7に示した変換オーディオエンコーダにおける構成に対応するように記述することができる。
[065]特定の例示的な実施形態を参照して提案技術を説明したが、それらの説明は、一般的に概念を説明することだけを意図したものであって、本明細書に記載された解決策の範囲を限定するものとして解釈されるべきではない。要件や好みに応じて、上記の例示の実施形態の異なる特徴を様々な方法で組み合わせることも可能である。
[066]上述の解決策は、携帯端末、タブレットコンピュータ、スマートフォンなどの装置における、オーディオコーデックが適用されるあらゆる物に使用可能である。
[067]ユニットとモジュールとの相互作用ならびにユニットの名称の選択は一例にすぎず、また、上述の方法を実行するのに適したノードは、提案した処理動作を実行することができるようにする他の複数の方法で構成されうることは、理解されるべきである。
[068]また、本開示に記載のユニット又はモジュールは、別個の物理エンティティである必要はなく、論理エンティティとして考えることができる。上記の説明は多くの具体例を含むが、それらは、本発明の範囲を限定するものであると解釈されるべきではなく、現時点で好適な実施形態のいくつかの例示を提供するにすぎないと解釈されるべきである。従って、本発明の範囲は当業者には明らかになるだろう他の実施形態を完全に含むこと、並びにそのため範囲は限定されないことが理解されるだろう。単数形の要素は、「1つ及び1つだけ」と明示しない限りそのように解釈すべきではなく、むしろ「1つ以上」と解釈すべきである。当業者には既知である上述の好適な実施形態の要素に対する全ての構造的、機能的な均等物は、本発明に明確に組み込まれ、本発明に含まれることを意図する。更に、装置又は方法は、本発明に含まれるために本明細書中に記載されるか又は現在の技術により解決することを求められる全ての問題を解決する必要はない。
[069]上述の説明では、説明及び限定の目的で、提案技術の完全な理解を提供するために、特定のアーキテクチャ、インタフェース、技術が詳しく記載されている。しかし、提案技術は、これらの特定の詳細から外れる他の実施形態においても実施されうることは、当業者には明らかであろう。つまり、提案技術の原理を明示的に記載、または本明細書に示され、具体化されていなくても、当業者は、その様々な構成を思い付くことができるであろう。不必要に詳しく説明することで提案技術の説明が不明瞭にならないように、いくつかの事例では、周知の装置、回路及び方法の詳細な説明が省略される。すべての記述は、その構造的および機能的な均等物を包含することが意図されている原理、態様を提示技術の実施形態と同様に、特定の例を列挙する。さらに、そのような均等物は、現在公知の均等物だけでなく、例えば、構造に関わらず、同じ機能を実行する構成要素などの、将来開発される均等物を含むことが意図される。
[070]したがって、例えば、本明細書のブロック図は、技術の原理を具体化する回路その他の機能ユニットの概念を表すものであることは、当業者には理解されよう。同様に、あらゆるフローチャート、状態遷移図、擬似コードなどは、実質的にコンピュータ可読媒体で実現され、したがって、コンピュータやプロセッサが明示されているか否かにかかわらず、コンピュータまたはプロセッサによって実行することができることは、当業者に理解されよう。
[071]「機能部」、「プロセッサ」、「制御部」として記述されたさまざまな機能要素は、その機能ブロックが特定の物に限定されるものではなく、回路ハードウェア及びコンピュータ読み取り可能な記憶媒体に格納された命令のかたちのソフトウェアの少なくともいずれかで実現されうる。したがって、これらの機能や機能ブロックはハードウェア実装、コンピュータ実装、機械実装の少なくともいずれかで実現されうる。
[072]ハードウェア実装において、機能ブロックは、デジタルシグナルプロセッサ(DSP)ハードウェア、縮小命令セットプロセッサ、特定用途向け集積回路(ASIC)を含むハードウェア(例えば、デジタル、アナログ)回路、これらの機能を実行可能な(適当な)状態マシンなどによって実現可能であるが、これらに限定されない。
(略語)
BWE Bandwidth Extension
DFT Discrete Fourier Transform
DCT Discrete Cosine Transform
MDCT Modified Discrete Cosine Transform

Claims (13)

  1. ハーモニックオーディオ信号の帯域幅拡張BWEをサポートする変換オーディオデコーダによって実行される方法であって、
    周波数帯域b及び該周波数帯域bに隣接する複数の周波数帯域に関連付けられた複数のゲイン値を受信するステップ(401a)と、
    帯域幅拡張された周波数領域の再構成された対応する周波数帯域b’にスペクトルピーク含まれるか否かを判定するステップ(404a)と、
    前記再構成された周波数帯域b’に少なくとも1つのスペクトルピークが含まれる場合、前記受信した複数のゲイン値に基づいて、前記再構成された周波数帯域b’に関連付けられたゲイン値を、前記受信した複数のゲイン値の荷重和である第1の値に設定するステップ(406a:1)と、
    前記再構成された周波数帯域b’にスペクトルピークが含まれない場合、前記受信した複数のゲイン値に基づいて、前記再構成された周波数帯域b’に関連付けられたゲイン値を前記第1の値以下の第2の値に設定するステップ(406a:2)と、
    を有し、
    これにより前記ゲイン値を前記帯域幅拡張された周波数領域におけるピーク位置に応じた値にすることを可能にすることを特徴とする方法。
  2. 前記荷重和は、前記受信した複数のゲイン値の平均値であることを特徴とする請求項に記載の方法。
  3. 前記第2の値は、前記受信した複数のゲイン値の中で小さい方から選択される複数のゲイン値のうちの1つであることを特徴とする請求項1又は2に記載の方法。
  4. 前記第2の値は、前記受信した複数のゲイン値のうちの最小のゲイン値であることを特徴とする請求項1乃至3のいずれか1項に記載の方法。
  5. 原信号の高周波部分の少なくとも一部の区間のピークエネルギーとノイズフロアのエネルギーとの関係を反映する係数αを受信するステップ(402b)と、
    前記受信した係数αに基づいて、対応する再構成された高周波部分の変換係数をノイズと混合することにより、前記原信号の高周波部分のノイズ特性の再構成を可能にするステップ(403b)と、
    を更に有することを特徴とする請求項1乃至4のいずれか1項に記載の方法。
  6. ハーモニックオーディオ信号の帯域幅拡張BWEをサポートするオーディオデコーダ(501)であって、
    周波数帯域b及び該周波数帯域bに隣接する複数の周波数帯域に関連付けられた複数のゲイン値を受信する受信部と、
    帯域幅拡張された周波数領域の再構成された対応する周波数帯域b’にスペクトルピーク含まれるか否かを判定する判定部(504)と、
    前記再構成された周波数帯域b’に少なくとも1つのスペクトルピークが含まれる場合、前記受信した複数のゲイン値に基づいて、前記再構成された周波数帯域b’に関連付けられたゲイン値を、前記受信した複数のゲイン値の荷重和である第1の値に設定し、
    前記再構成された周波数帯域b’に全くスペクトルピークが含まれない場合、前記受信した複数のゲイン値に基づいて、前記再構成された周波数帯域b’に関連付けられたゲイン値を前記第1の値以下の第2の値に設定し、
    これにより前記ゲイン値を前記帯域幅拡張された周波数領域におけるピーク位置に応じた値にすることを可能にするゲイン適用部(508)と、
    を有することを特徴とするオーディオデコーダ。
  7. 前記荷重和は、前記受信にした複数のゲイン値の平均値であることを特徴とする請求項6に記載のオーディオデコーダ。
  8. 前記第2の値は、前記受信した複数のゲイン値の中で小さい方から選択される複数のゲイン値のうちの1つであることを特徴とする請求項6又は7に記載のオーディオデコーダ。
  9. 前記第2の値は、前記受信した複数のゲイン値のうちの最小のゲイン値であることを特徴とする請求項6乃至8のいずれか1項に記載のオーディオデコーダ。
  10. 原信号の高周波部分の少なくとも一部の区間のピークエネルギーとノイズフロアのエネルギーとの関係を反映する係数αを受信するように更に構成され、
    前記受信した係数αに基づいて、対応する再構成された高周波部分の変換係数をノイズと混合することにより、前記原信号の高周波部分のノイズ特性の再構成を可能にするノイズ混合部(510)
    を更に有することを特徴とする請求項6乃至9のいずれか1項に記載のオーディオデコーダ。
  11. 請求項6乃至10のいずれか1項に記載のオーディオデコーダを含むユーザ装置。
  12. 処理装置で実行されると、オーディオデコーダに、請求項1乃至5のいずれか1項に記載の方法を実行させるコンピュータ読み取り可能なコードを含むコンピュータプログラム(810)。
  13. 請求項12に記載のコンピュータプログラム(810)を格納したコンピュータ読み取り可能な記憶媒体。
JP2015503154A 2012-03-29 2012-12-21 ハーモニックオーディオ信号の帯域幅拡張 Active JP5945626B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261617175P 2012-03-29 2012-03-29
US61/617,175 2012-03-29
PCT/SE2012/051470 WO2013147668A1 (en) 2012-03-29 2012-12-21 Bandwidth extension of harmonic audio signal

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2016107734A Division JP6251773B2 (ja) 2012-03-29 2016-05-30 ハーモニックオーディオ信号の帯域幅拡張

Publications (3)

Publication Number Publication Date
JP2015516593A JP2015516593A (ja) 2015-06-11
JP2015516593A5 JP2015516593A5 (ja) 2016-02-12
JP5945626B2 true JP5945626B2 (ja) 2016-07-05

Family

ID=47666458

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2015503154A Active JP5945626B2 (ja) 2012-03-29 2012-12-21 ハーモニックオーディオ信号の帯域幅拡張
JP2016107734A Active JP6251773B2 (ja) 2012-03-29 2016-05-30 ハーモニックオーディオ信号の帯域幅拡張
JP2017195350A Active JP6474874B2 (ja) 2012-03-29 2017-10-05 ハーモニックオーディオ信号の帯域幅拡張
JP2017227001A Active JP6474877B2 (ja) 2012-03-29 2017-11-27 ハーモニックオーディオ信号の帯域幅拡張

Family Applications After (3)

Application Number Title Priority Date Filing Date
JP2016107734A Active JP6251773B2 (ja) 2012-03-29 2016-05-30 ハーモニックオーディオ信号の帯域幅拡張
JP2017195350A Active JP6474874B2 (ja) 2012-03-29 2017-10-05 ハーモニックオーディオ信号の帯域幅拡張
JP2017227001A Active JP6474877B2 (ja) 2012-03-29 2017-11-27 ハーモニックオーディオ信号の帯域幅拡張

Country Status (12)

Country Link
US (3) US9437202B2 (ja)
EP (1) EP2831875B1 (ja)
JP (4) JP5945626B2 (ja)
KR (2) KR101704482B1 (ja)
CN (2) CN104221082B (ja)
ES (1) ES2561603T3 (ja)
HU (1) HUE028238T2 (ja)
MY (2) MY167474A (ja)
PL (1) PL2831875T3 (ja)
RU (2) RU2725416C1 (ja)
WO (1) WO2013147668A1 (ja)
ZA (1) ZA201406340B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016189012A (ja) * 2012-03-29 2016-11-04 テレフオンアクチーボラゲット エルエム エリクソン(パブル) ハーモニックオーディオ信号の帯域幅拡張
TWI791632B (zh) * 2017-10-05 2023-02-11 美商高通公司 用於音訊信號之編碼或解碼之器件、方法、電腦可讀儲存器件以及裝置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK2831757T3 (da) * 2012-03-29 2019-08-19 Ericsson Telefon Ab L M Vektorkvantiserer
KR102123770B1 (ko) * 2012-03-29 2020-06-16 텔레폰악티에볼라겟엘엠에릭슨(펍) 하모닉 오디오 신호의 변환 인코딩/디코딩
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
US10083708B2 (en) * 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
US20150149157A1 (en) * 2013-11-22 2015-05-28 Qualcomm Incorporated Frequency domain gain shape estimation
EP3092640B1 (en) * 2014-01-07 2018-06-27 Harman International Industries, Incorporated Signal quality-based enhancement and compensation of compressed audio signals
BR112016020988B1 (pt) * 2014-03-14 2022-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Método e codificador para codificação de um sinal de áudio, e, dispositivo de comunicação
EP3443557B1 (en) * 2016-04-12 2020-05-20 Fraunhofer Gesellschaft zur Förderung der Angewand Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5490172A (en) * 1994-07-05 1996-02-06 Airnet Communications Corporation Reducing peak-to-average variance of a composite transmitted signal via out-of-band artifact signaling
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
DE60214027T2 (de) * 2001-11-14 2007-02-15 Matsushita Electric Industrial Co., Ltd., Kadoma Kodiervorrichtung und dekodiervorrichtung
ES2237706T3 (es) * 2001-11-29 2005-08-01 Coding Technologies Ab Reconstruccion de componentes de alta frecuencia.
ES2259158T3 (es) * 2002-09-19 2006-09-16 Matsushita Electric Industrial Co., Ltd. Metodo y aparato decodificador audio.
US7787632B2 (en) * 2003-03-04 2010-08-31 Nokia Corporation Support of a multichannel audio extension
JP4899359B2 (ja) * 2005-07-11 2012-03-21 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
CN1960351A (zh) * 2005-10-31 2007-05-09 华为技术有限公司 一种无线通信***中终端信息发射方法及终端发射机
BRPI0520729B1 (pt) 2005-11-04 2019-04-02 Nokia Technologies Oy Método para a codificação e decodificação de sinais de áudio, codificador para codificação e decodificador para decodificar sinais de áudio e sistema para compressão de áudio digital.
RU2409874C9 (ru) * 2005-11-04 2011-05-20 Нокиа Корпорейшн Сжатие звуковых сигналов
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
CN101089951B (zh) * 2006-06-16 2011-08-31 北京天籁传音数字技术有限公司 频带扩展编码方法及装置和解码方法及装置
DE102006047197B3 (de) * 2006-07-31 2008-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines reellen Subband-Signals zur Reduktion von Aliasing-Effekten
CN101140759B (zh) * 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及***
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
DE102008015702B4 (de) 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
AU2009220341B2 (en) * 2008-03-04 2011-09-22 Lg Electronics Inc. Method and apparatus for processing an audio signal
CN101552005A (zh) * 2008-04-03 2009-10-07 华为技术有限公司 编码方法、解码方法、***及装置
US8149955B2 (en) * 2008-06-30 2012-04-03 Telefonaktiebolaget L M Ericsson (Publ) Single ended multiband feedback linearized RF amplifier and mixer with DC-offset and IM2 suppression feedback loop
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
PL2304723T3 (pl) * 2008-07-11 2013-03-29 Fraunhofer Ges Forschung Urządzenie i sposób dekodowania zakodowanego sygnału audio
PL2311033T3 (pl) * 2008-07-11 2012-05-31 Fraunhofer Ges Forschung Dostarczanie sygnału aktywującego dopasowanie czasowe i kodowanie sygnału audio z jego użyciem
EP2146344B1 (en) * 2008-07-17 2016-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding/decoding scheme having a switchable bypass
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
JP4818335B2 (ja) 2008-08-29 2011-11-16 株式会社東芝 信号帯域拡張装置
WO2010028297A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
WO2010028301A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Spectrum harmonic/noise sharpness control
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
EP2251984B1 (en) * 2009-05-11 2011-10-05 Harman Becker Automotive Systems GmbH Signal analysis for an improved detection of noise from an adjacent channel
PL2273493T3 (pl) * 2009-06-29 2013-07-31 Fraunhofer Ges Forschung Kodowanie i dekodowanie z rozszerzaniem szerokości pasma
WO2011047886A1 (en) * 2009-10-21 2011-04-28 Dolby International Ab Apparatus and method for generating a high frequency audio signal using adaptive oversampling
CN102044250B (zh) * 2009-10-23 2012-06-27 华为技术有限公司 频带扩展方法及装置
WO2011062536A1 (en) * 2009-11-19 2011-05-26 Telefonaktiebolaget Lm Ericsson (Publ) Improved excitation signal bandwidth extension
CN102612712B (zh) * 2009-11-19 2014-03-12 瑞典爱立信有限公司 低频带音频信号的带宽扩展
JP5609737B2 (ja) * 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
MY176904A (en) * 2010-06-09 2020-08-26 Panasonic Ip Corp America Bandwidth extension method, bandwidth extension apparatus, program, integrated circuit, and audio decoding apparatus
JP6075743B2 (ja) * 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
ES2758370T3 (es) * 2011-03-10 2020-05-05 Ericsson Telefon Ab L M Relleno de subvectores no codificados en señales de audio codificadas por transformada
ES2540051T3 (es) * 2011-04-15 2015-07-08 Telefonaktiebolaget Lm Ericsson (Publ) Método y un decodificador para la atenuación de regiones de señal reconstruidas con baja precisión
CN102223341B (zh) * 2011-06-21 2013-06-26 西安电子科技大学 无带宽扩展的频域成形ofdm峰均比降低方法
EP2763137B1 (en) * 2011-09-28 2016-09-14 LG Electronics Inc. Voice signal encoding method and voice signal decoding method
EP3089164A1 (en) * 2011-11-02 2016-11-02 Telefonaktiebolaget LM Ericsson (publ) Generation of a high band extension of a bandwidth extended audio signal
RU2725416C1 (ru) * 2012-03-29 2020-07-02 Телефонактиеболагет Лм Эрикссон (Пабл) Расширение полосы частот гармонического аудиосигнала
EP2682941A1 (de) * 2012-07-02 2014-01-08 Technische Universität Ilmenau Vorrichtung, Verfahren und Computerprogramm für frei wählbare Frequenzverschiebungen in der Subband-Domäne
EP2830065A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016189012A (ja) * 2012-03-29 2016-11-04 テレフオンアクチーボラゲット エルエム エリクソン(パブル) ハーモニックオーディオ信号の帯域幅拡張
US10002617B2 (en) 2012-03-29 2018-06-19 Telefonaktiebolaget Lm Ericsson (Publ) Bandwidth extension of harmonic audio signal
TWI791632B (zh) * 2017-10-05 2023-02-11 美商高通公司 用於音訊信號之編碼或解碼之器件、方法、電腦可讀儲存器件以及裝置

Also Published As

Publication number Publication date
US9437202B2 (en) 2016-09-06
US20170178638A1 (en) 2017-06-22
RU2725416C1 (ru) 2020-07-02
US20150088527A1 (en) 2015-03-26
KR101740219B1 (ko) 2017-05-25
JP6474874B2 (ja) 2019-02-27
WO2013147668A1 (en) 2013-10-03
JP2015516593A (ja) 2015-06-11
JP2018072846A (ja) 2018-05-10
CN104221082B (zh) 2017-03-08
JP2018041088A (ja) 2018-03-15
KR101704482B1 (ko) 2017-02-09
JP6474877B2 (ja) 2019-02-27
JP2016189012A (ja) 2016-11-04
US9626978B2 (en) 2017-04-18
RU2610293C2 (ru) 2017-02-08
CN104221082A (zh) 2014-12-17
ES2561603T3 (es) 2016-02-29
PL2831875T3 (pl) 2016-05-31
CN106847303A (zh) 2017-06-13
MY167474A (en) 2018-08-29
JP6251773B2 (ja) 2017-12-20
HUE028238T2 (en) 2016-12-28
KR20170016033A (ko) 2017-02-10
RU2014143463A (ru) 2016-05-20
CN106847303B (zh) 2020-10-13
EP2831875B1 (en) 2015-12-16
EP2831875A1 (en) 2015-02-04
US10002617B2 (en) 2018-06-19
US20160336016A1 (en) 2016-11-17
MY197538A (en) 2023-06-22
KR20140139582A (ko) 2014-12-05
ZA201406340B (en) 2016-06-29

Similar Documents

Publication Publication Date Title
JP6474877B2 (ja) ハーモニックオーディオ信号の帯域幅拡張
JP6937877B2 (ja) 信号符号化及び復号化方法及び装置
JP6462653B2 (ja) オーディオ・データを処理するための方法、装置、及びシステム
RU2639952C2 (ru) Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием
RU2752127C2 (ru) Усовершенствованный квантователь
WO2015154397A1 (zh) 一种噪声信号的处理和生成方法、编解码器和编解码***
CN114550732B (zh) 一种高频音频信号的编解码方法和相关装置
AU2015295624B2 (en) Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
WO2013066244A1 (en) Bandwidth extension of audio signals
ES2737889T3 (es) Codificador, decodificador, procedimiento de codificación, procedimiento de decodificación y programa
TW202320057A (zh) 音頻編碼器、音頻編碼方法、電腦程式及編碼的多聲道音頻信號
CN115428069A (zh) 低音后置滤波器的低成本适配
TW201606752A (zh) 柔和噪音產生模式選擇之裝置與方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151215

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151215

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160414

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160513

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160520

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160530

R150 Certificate of patent or registration of utility model

Ref document number: 5945626

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S802 Written request for registration of partial abandonment of right

Free format text: JAPANESE INTERMEDIATE CODE: R311802

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R157 Certificate of patent or utility model (correction)

Free format text: JAPANESE INTERMEDIATE CODE: R157

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250