JP6001814B1 - ハイブリッドの波形符号化およびパラメトリック符号化発話向上 - Google Patents

ハイブリッドの波形符号化およびパラメトリック符号化発話向上 Download PDF

Info

Publication number
JP6001814B1
JP6001814B1 JP2016515937A JP2016515937A JP6001814B1 JP 6001814 B1 JP6001814 B1 JP 6001814B1 JP 2016515937 A JP2016515937 A JP 2016515937A JP 2016515937 A JP2016515937 A JP 2016515937A JP 6001814 B1 JP6001814 B1 JP 6001814B1
Authority
JP
Japan
Prior art keywords
audio
speech
content
channel
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016515937A
Other languages
English (en)
Other versions
JP2016534377A (ja
Inventor
コッペンス,イェルン
ミンチ,ハンネス
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー・インターナショナル・アーベー filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Application granted granted Critical
Publication of JP6001814B1 publication Critical patent/JP6001814B1/ja
Publication of JP2016534377A publication Critical patent/JP2016534377A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

いくつかの信号条件のもとではパラメトリック符号化向上(またはパラメトリック符号化および波形符号化向上のブレンド)を用い、他の信号条件のもとでは波形符号化向上(またはパラメトリック符号化および波形符号化向上の異なるブレンド)を用いるハイブリッド発話向上のための方法。他の側面は、発話および他のコンテンツを含むオーディオ・プログラムを示すビットストリームを、該プログラムに対してハイブリッド発話向上が実行できるように生成する方法、本発明の方法の任意の実施形態によって生成されたエンコードされたオーディオ・ビットストリームの少なくとも一つのセグメントを記憶するバッファを含むデコーダおよび、本発明の方法の任意の実施形態を実行するよう構成された(たとえばプログラムされた)システムまたは装置(たとえばエンコーダまたはデコーダ)である。発話向上動作の少なくとも一部は、上流のオーディオ・エンコーダによって生成されたミッド/サイド発話向上メタデータを用いて受領側のオーディオ・デコーダによって実行される。

Description

関連出願への相互参照
本願は2013年8月28日に出願された米国仮特許出願第61/870,933号、2013年10月25日に出願された米国仮特許出願第61/895,959号、2013年11月25日に出願された米国仮特許出願第61/908,664号の優先権を主張する。各出願はここに参照によってその全体において組み込まれる。
技術
本発明は、オーディオ信号処理に、より詳細にはオーディオ・プログラムの発話コンテンツの、該プログラムの他のコンテンツに対する向上に関する。ここで、発話コンテンツは、いくつかの信号条件のもとでは波形符号化された向上(または相対的に、より波形符号化された向上)を、他の信号条件のもとではパラメトリック符号化された向上(または相対的に、よりパラメトリック符号化された向上)を含むという意味で「ハイブリッド」である。他の側面は、そのようなハイブリッド発話向上を可能にするのに十分なデータを含むオーディオ・プログラムのエンコード、デコードおよびレンダリングである。
映画およびテレビジョンにおいて、ダイアログおよびナレーションはしばしば、音楽、効果またはスポーツ・イベントからの周囲音といった他の非発話オーディオと一緒に呈示される。多くの場合、発話および非発話音は別個に捕捉されて、サウンド・エンジニアの制御のもとで一緒に混合される。サウンド・エンジニアは、大半の聴取者にとって適切な仕方で非発話のレベルに対する発話のレベルを選択する。しかしながら、一部の聴取者、たとえば聴覚障害のある者は、(エンジニアが決めた発話対非発話混合比をもつ)オーディオ・プログラムの発話コンテンツを理解するのに困難を経験し、発話がより高い相対レベルで混合されていたほうがよかったことになる。
これらの聴取者が、オーディオ・プログラム発話コンテンツの可聴性を非発話オーディオ・コンテンツの可聴性に対して増大させることを許容することにおいて、解決すべき課題がある。
ある現行のアプローチは、聴取者に二つの高品質オーディオ・ストリームを提供することである。一方のストリームは主コンテンツ・オーディオ(主に発話)を担持し、他方は副次コンテンツ・オーディオ(発話を除く残りのオーディオ・プログラム)を担持し、ユーザーが混合プロセスに対する制御を与えられる。残念ながら、この方式は、完全に混合されたオーディオ・プログラムを送信するという現行の慣行に基づいていないので、実際的ではない。さらに、それぞれが放送品質である二つの独立オーディオ・ストリームがユーザーに送達されなければならないので、現行の放送慣行の帯域幅の約2倍の帯域幅を必要とする。
もう一つの発話向上法(本稿では「波形符号化された」向上と称される)が特許文献1に記載されている。波形符号化された向上では、発話および非発話コンテンツのもとのオーディオ混合(時にメイン・ミックスと称される)の発話対背景(非発話)比が、メイン・ミックスと並んで受信器に送られたクリーンな発話信号の低下品質バージョン(低品質コピー)をメイン・ミックスに加えることによって、増大させられる。帯域幅オーバーヘッドを低減するために、低品質コピーは典型的には非常に低いビットレートで符号化される。低ビットレート符号化のため、低品質コピーには符号化アーチファクトが付随し、低品質コピーが単独でレンダリングおよび試聴されるとき、符号化アーチファクトは明瞭に聞こえる。このように、低品質コピーは、単独で試聴するときに不快な品質をもつ。波形符号化された向上は、非発話成分のレベルが高い時間の間にのみ低品質コピーをメイン・ミックスに加え、それにより符号化アーチファクトが非発話成分によってマスクされるようにすることによって、これらの符号化アーチファクトを隠そうとするものである。のちに詳述するように、このアプローチの限界は、次のことを含む:発話向上の量が典型的には時間的に一定になり得ず、メイン・ミックスの背景(非発話)成分が弱いまたはその周波数‐振幅スペクトルが符号化ノイズのものと大幅に異なるときにオーディオ・アーチファクトが可聴となることがある。
波形符号化された向上によれば、(デコードおよびその後のレンダリングのためのデコーダへの送達のための)オーディオ・プログラムは、低品質の発話のコピー(またはそのエンコードされたバージョン)をメイン・ミックスのサイドストリームとして含むビットストリームとしてエンコードされる。ビットストリームは、実行されるべき波形符号化発話向上の量を決定するスケーリング・パラメータを示すメタデータを含んでいてもよい(すなわち、スケーリング・パラメータは、スケーリングされた低品質の発話コピーがメイン・ミックスと組み合わされる前に低品質の発話のコピーに適用されるスケーリング因子を決定する、あるいは符号化アーチファクトのマスキングを保証するそのようなスケーリング因子の最大値を決定する)。スケーリング因子の現在値が0であるとき、デコーダはメイン・ミックスの対応するセグメントに対して発話向上を実行しない。スケーリング・パラメータの現在値(またはスケーリング・パラメータが達成しうる現在の最大値)は典型的にはエンコーダにおいて決定される(典型的には計算集約的な音響心理学モデルによって生成されるので)が、デコーダにおいて生成されることもできる。後者の場合、スケーリング・パラメータを示すメタデータがエンコーダからデコーダに送られる必要がなく、その代わり、デコーダが、メイン・ミックスから、混合の発話コンテンツのパワーの、混合のパワーに対する比を決定し、パワー比の現在値に応答して、モデルを利用してスケーリング・パラメータの現在値を決定することができる。
競合するオーディオ(背景)の存在時に発話の了解性を向上させるためのもう一つの方法(本稿では「パラメトリック符号化された」向上と称される)は、もとのオーディオ・プログラム(典型的にはサウンドトラック)を時間/周波数タイルにセグメント分割し、それらのタイルをその発話および背景コンテンツのパワー(またはレベル)の比に従ってブーストし、背景に対する発話成分のブーストを達成することである。このアプローチの根底にある発想は、案内されたスペクトル減算ノイズ抑制(guided spectral-subtraction noise suppression)の発想に近い。SNR(すなわち、発話成分のパワーまたはレベルの、競合する音コンテンツのパワーまたはレベルに対する比)が所定の閾値より低いすべてのタイルが完全に抑制されるこのアプローチの極端な例では、堅牢な発話了解性の向上を与えることが示されている。この方法の放送への適用において、発話対背景比(SNR)は、(発話および非発話コンテンツの)もとのオーディオ混合を混合の発話成分と比較することによって推定される。推定されたSNRは次いで、好適な一組の向上パラメータに変換されてもよく、それがもとのオーディオ混合と並んで送信される。受信器では、これらのパラメータが(任意的に)もとのオーディオ混合に適用されて、向上された発話を示す信号を導出してもよい。のちに詳述するように、パラメトリック符号化された向上は、発話信号(混合の発話成分)が背景信号(混合の非発話成分)に対して優勢であるときに最もよく機能する。
米国特許出願公開第2010/0106507A、2010年4月29日公開、ドルビー・ラボラトリーズ社に譲渡、発明者Hannes Muesch
波形符号化向上は、送達されるオーディオ・プログラムの発話成分の低品質のコピーが受信器において入手可能であることを必要とする。該コピーをメイン・オーディオ・ミックスと並んで送信することにおいて被るデータ・オーバーヘッドを制限するために、このコピーは非常に低いビットレートで符号化され、符号化歪みを示す。これらの符号化歪みは、非発話成分のレベルが高いときには、もとのオーディオによってマスクされる可能性が高い。符号化歪みがマスクされるときは、向上されたオーディオの結果的な品質は非常に良好である。
パラメトリック符号化向上は、メイン・オーディオ・ミックス信号を時間/周波数タイルにパースすることおよびこれらのタイルのそれぞれに好適な利得/減衰を適用することに基づく。これらの利得を受信器に中継するために必要とされるデータ・レートは、波形符号化向上に比べれば低い。しかしながら、パラメータの限られた時間‐スペクトル分解能のため、非発話オーディオと混合されたときの発話は非発話オーディオにも影響せずには操作できない。このように、オーディオ混合の発話コンテンツのパラメトリック符号化された向上は、混合の非発話コンテンツにおける変調を導入し、この変調(「背景変調」)は発話向上された混合の再生時に不快なものとなりうる。背景変調は、発話対背景比が非常に低いときに不快となる可能性が最も高い。
このセクションで記述されたアプローチは、追求されることができたが必ずしも以前に着想または追求されたアプローチではない。したがって、特に断りのない限り、このセクションにおいて記述されるアプローチはいずれも、このセクションに含まれているというだけのために従来技術の資格をもつと想定されるべきではない。同様に、特に断りのない限り、一つまたは複数のアプローチに関して特定されている問題は、このセクションに基づいて何らかの従来技術において認識されていたと想定されるべきではない。
本発明は、限定ではなく例として、付属の図面において示される。図面において、同様の参照符号は同様の要素を指す。
単一チャネルの混合されたコンテンツ信号(発話および非発話コンテンツをもつ)の発話コンテンツを再構成するために予測パラメータを生成するよう構成されたシステムのブロック図である。 複数チャネルの混合されたコンテンツ信号(発話および非発話コンテンツをもつ)の発話コンテンツを再構成するために予測パラメータを生成するよう構成されたシステムのブロック図である。 本発明のエンコード方法の実施形態を実行してオーディオ・プログラムを示すエンコードされたオーディオ・ビットストリームを生成するよう構成されたエンコーダと、エンコードされたオーディオ・ビットストリームに対して、デコードし、(本発明の実施形態に従って)発話向上を実行するよう構成されたデコーダとを含むシステムのブロック図である。 通常の発話向上を実行することによることを含め、複数チャネルの混合されたコンテンツ・オーディオ信号をレンダリングするよう構成されたシステムのブロック図である。 通常のパラメトリック符号化発話向上を実行することによることを含め、複数チャネルの混合されたコンテンツ・オーディオ信号をレンダリングするよう構成されたシステムのブロック図である。 本発明の発話向上方法の実施形態を実行することによることを含め、複数チャネルの混合されたコンテンツ・オーディオ信号をレンダリングするよう構成されたシステムのブロック図である。 本発明の発話向上方法の実施形態を実行することによることを含め、複数チャネルの混合されたコンテンツ・オーディオ信号をレンダリングするよう構成されたシステムのブロック図である。 聴覚マスキング・モデルを使って本発明のエンコード方法の実施形態を実行するためのシステムのブロック図である。 AおよびBは、例示的なプロセス・フローを示す図である。 本稿に記載されるコンピュータまたはコンピューティング装置が実装されうる例示的なハードウェア・プラットフォームを示す図である。
本稿では、ハイブリッドの波形符号化およびパラメトリック符号化発話向上に関する例示的実施形態が記述される。以下の記述では、本発明の十全な理解を提供するために、説明の目的で数多くの個別的詳細が記載される。しかしながら、本発明がそうした個別的詳細なしでも実施されうることは明白であろう。他方、本発明を無用に隠蔽し、かすませ、あるいは埋没させるのを避けるために、よく知られた構造および装置は網羅的な詳細さでは記述されない。
例示的実施形態は本稿では以下のアウトラインに従って記述される。
1.全般的概観
2.記法および命名法
3.予測パラメータの生成
4.発話向上動作
5.発話レンダリング
6.ミッド/サイド表現
7.例示的なプロセス・フロー
8.実装機構――ハードウェアの概観
9.等価物、拡張、代替その他。
〈1.全般的概観〉
この概観は、本発明の実施形態のいくつかの側面の基本的な記述を提示する。この概観は該実施形態の諸側面の包括的ないし網羅的な要約ではないことは注意しておくべきである。さらに、この概観は、該実施形態の何らかの特に有意な側面もしくは要素を特定するものと理解されることも、一般には本発明の、特に該実施形態の何らかの範囲を画定するものと理解されることも、意図されていないことを注意しておくべきである。この概観は単に、その例示的実施形態に関係するいくつかの概念を凝縮された単純化された形式で提示するものであり、単に後続の例示的な諸実施形態のより詳細な説明への概念的な導入部として理解されるべきである。別個の諸実施形態が本稿において論じられるが、本稿で論じられる実施形態および/または部分実施形態の任意の組み合わせがさらなる実施形態をなすよう組み合わされてもよいことを注意しておく。
本発明者らは、パラメトリック符号化向上および波形符号化向上の個々の強みおよび弱みが互いに打ち消すことができること、いくつかの信号条件のもとではパラメトリック符号化向上(またはパラメトリック符号化および波形符号化向上のブレンド)を、他の信号条件のもとでは波形符号化向上(またはパラメトリック符号化および波形符号化向上の異なるブレンド)を用いるハイブリッド向上方法によって、通常の発話向上が実質的に改善されることができることを認識するに至った。本発明のハイブリッド向上方法の典型的な実施形態は、パラメトリック符号化向上または波形符号化向上いずれか単独によって達成できるよりも、より一貫した、よりよい品質の発話向上を提供する。
あるクラスの実施形態では、本発明の方法は:(a)未向上の波形をもつ発話および他のオーディオ・コンテンツを含むオーディオ・プログラムを示すビットストリームを受領する段階を含む。前記ビットストリームは:前記発話および前記他のオーディオ・コンテンツを示すオーディオ・データと、前記発話の低下品質バージョンを示す波形データ(前記オーディオ・データは、発話データを非発話データと混合することによって生成されたものであり、前記波形データは典型的には前記発話データより少数のビットを含む)と、パラメトリック・データとを含む。前記低下品質バージョンは、前記未向上の波形に類似した(たとえば少なくとも実質的に同様の)第二の波形をもつ。前記低下品質バージョンは、単独で試聴されたとしたら不快な品質をもつであろう。前記パラメトリック・データは前記オーディオ・データとともに、パラメトリックに構築された発話を決定し、該パラメトリックに構築された発話は、前記発話に少なくとも実質的に一致する(たとえば、前記発話の良好な近似である)前記発話のパラメトリックに再構築されたバージョンである。本方法はさらに:(b)ブレンド・インジケータに応答して前記ビットストリームに対して発話向上を実行し、それにより発話向上されたオーディオ・プログラムを示すデータを生成する段階を含む。これは、前記オーディオ・データを、前記波形データから決定された低品質発話データおよび再構成された発話データの組み合わせと組み合わせることによることを含む。前記組み合わせは、前記ブレンド・インジケータによって決定される(たとえば、前記組み合わせは、前記ブレンド・インジケータの現在値のシーケンスによって決定される状態のシーケンスをもつ)。前記再構成された発話データは、前記パラメトリック・データの少なくとも一部および前記オーディオ・データの少なくとも一部に応答して生成される。前記発話向上されたオーディオ・プログラムは、(前記発話の前記低下品質バージョンを示す)前記低品質発話データを前記オーディオ・データと組み合わせるだけによって決定される純粋に波形符号化された発話向上されたオーディオ・プログラムよりも、前記パラメトリック・データおよび前記オーディオ・データから決定される純粋にパラメトリック符号化された発話向上されたオーディオ・プログラムよりも、少ない可聴発話向上アーチファクト(たとえば、よりよくマスクされたまたは該発話向上されたオーディオ・プログラムがレンダリングされ、試聴されるときにそれほど可聴でない発話向上アーチファクト)をもつ。
ここで、「発話向上アーチファクト」(または「発話向上符号化アーチファクト」)は、発話信号(たとえば、波形符号化された発話信号または混合コンテンツ信号との関連でのパラメトリック・データ)の表現によって引き起こされる(発話信号および非発話信号を示す)オーディオ信号の歪み(典型的には測定可能な歪み)を表わす。
いくつかの実施形態では、ブレンド・インジケータ(これは値のシーケンスを有していてもよい。たとえばビットストリーム・セグメントのシーケンスのそれぞれについて一つの値)は、段階(a)で受領されたビットストリームに含まれる。いくつかの実施形態は、段階(a)で受領されたビットストリームに応答して(たとえばビットストリームを受領し、デコードする受信器において)ブレンド・インジケータを生成する段階を含む。
「ブレンド・インジケータ」という表現は、ブレンド・インジケータがビットストリームの各セグメントについての単一のパラメータまたは値(または単一のパラメータまたは値のシーケンス)であることを要求することは意図されていないことを理解しておくべきである。むしろ、いくつかの実施形態では、(ビットストリームのあるセグメントについての)ブレンド・インジケータは、二つ以上のパラメータまたは値の組(たとえば、各セグメントについて、パラメトリック符号化向上の制御パラメータおよび波形符号化向上の制御パラメータ)またはパラメータまたは値の組のシーケンスでありうることが考えられている。
いくつかの実施形態では、各セグメントについてのブレンド・インジケータは、当該セグメントの周波数帯域当たりのブレンドを指示する値のシーケンスであってもよい。
波形データおよびパラメトリック・データは、ビットストリームの各セグメントについて提供される(たとえば各セグメントに含まれる)必要はなく、波形データおよびパラメトリック・データの両方がビットストリームの各セグメントに対して発話向上を実行するために使われる必要もない。たとえば、場合によっては、少なくとも一つのセグメントが波形データのみを含んでいてもよく(そのような各セグメントについてブレンド・インジケータによって決定される組み合わせが波形データのみからなっていてもよい)、少なくとも一つの他のセグメントがパラメトリック・データのみを含んでいてもよい(そのような各セグメントについてブレンド・インジケータによって決定される組み合わせが再構成された発話データのみからなっていてもよい)。
典型的には、エンコーダがビットストリームを生成することが、同じエンコードを波形データまたはパラメトリック・データに適用することにはよらずにオーディオ・データをエンコードする(たとえば圧縮する)ことによることを含むことが考えられている。よって、ビットストリームが受信器に送達されるとき、受信器は典型的にはビットストリームをパースして、オーディオ・データ、波形データおよびパラメトリック・データ(それにブレンド・インジケータがビットストリーム中で送達されるのであればブレンド・インジケータも)を抽出するが、オーディオ・データのみをデコードする。受信器は典型的には、波形データまたはパラメトリック・データに、オーディオ・データに適用されるのと同じデコード・プロセスを適用することなく、(波形データおよび/またはパラメトリック・データを使って、)デコードされたオーディオ・データに対して発話向上を実行する。
典型的には、波形データと再構成された発話データの(ブレンド・インジケータによって指示される)組み合わせは時間とともに変化する。該組み合わせの各状態は、ビットストリームの対応するセグメントの発話および他のオーディオ・コンテンツに関する。ブレンド・インジケータは、(波形データおよび再構成された発話データの)該組み合わせの現在状態が、少なくとも部分的には、ビットストリームの対応するセグメントにおける発話および他のオーディオ・コンテンツの信号属性(たとえば、発話コンテンツのパワーと他のオーディオ・コンテンツのパワーとの比)によって決定されるよう、生成される。いくつかの実施形態では、ブレンド・インジケータは、該組み合わせの現在状態が、ビットストリームの対応するセグメントにおける発話および他のオーディオ・コンテンツの信号属性によって決定されるよう、生成される。いくつかの実施形態では、ブレンド・インジケータは、該組み合わせの現在状態が、ビットストリームの対応するセグメントにおける発話および他のオーディオ・コンテンツの信号属性ならびに波形データにおける符号化アーチファクトの量の両方によって決定されるよう、生成される。
段階(b)は、前記低品質発話データの少なくとも一部を、ビットストリームの少なくとも一つのセグメントの前記オーディオ・データと組み合わせる(たとえば混合するまたはブレンドする)ことによって、波形符号化発話向上を実行し、前記再構成された発話データを、ビットストリームの少なくとも一つのセグメントの前記オーディオ・データと組み合わせることによって、パラメトリック符号化発話向上を実行する段階を含んでいてもよい。波形符号化発話向上とパラメトリック符号化発話向上の組み合わせは、ビットストリームの少なくとも一つのセグメントに対して、該セグメントについての低品質発話データおよびパラメトリックに構築された発話の両方を、該セグメントの前記オーディオ・データとブレンドすることによって、実行される。いくつかの信号条件のもとでは、波形符号化発話向上とパラメトリック符号化発話向上の一方のみ(両方ではない)が(ブレンド・インジケータに応答して)ビットストリームのあるセグメントに対して(または二つ以上のセグメントのそれぞれに対して)実行される。
ここで、「SNR」(信号対雑音比)という表現は、オーディオ・プログラムのあるセグメントの(またはプログラム全体の)発話コンテンツのパワーの、該セグメントまたはプログラムの非発話コンテンツのパワーに対する比(またはレベルの差)、あるいはプログラムのあるセグメントの(またはプログラム全体の)発話コンテンツのパワーの、該セグメントまたはプログラムのコンテンツ全体(発話および非発話)のパワーに対する比(またはレベルの差)を表わすために使われる。
あるクラスの実施形態では、本発明の方法は、オーディオ・プログラムのセグメントのパラメトリック符号化向上と波形符号化向上の間で、「盲目的な」時間的な、SNRに基づく切り換えを実装する。このコンテキストにおいて、「盲目的」とは、切り換えが、複雑な聴覚マスキング・モデル(たとえば本稿で述べるような型の)によって知覚的に案内されず、プログラムの諸セグメントに対応するSNR値(ブレンド・インジケータ)のシーケンスによって案内されることを表わす。このクラスのある実施形態では、この場合、ハイブリッド符号化発話向上は、パラメトリック符号化向上と波形符号化向上との間の時間的な切り換えによって達成される。それにより、パラメトリック符号化向上または波形符号化向上のいずれか(パラメトリック符号化向上および波形符号化向上の両方ではない)が、発話向上が実行されるオーディオ・プログラムの各セグメントに対して実行される。波形符号化向上が低SNRの条件の下で(SNRの低い値をもつセグメントに対して)最もよく性能を発揮し、パラメトリック符号化向上は好都合なSNRにおいて(SNRの高い値をもつセグメントに対して)最もよく性能を発揮することを認識して、切り換え決定は典型的には、もとのオーディオ混合における、発話(ダイアログ)の、残りのオーディオに対する比に基づく。
「盲目的な」時間的なSNRに基づく切り換えを実装する実施形態は典型的には:未向上のオーディオ信号(もとのオーディオ混合)を連続する時間スライス(セグメント)にセグメント分割し、各セグメントについて、セグメントの発話コンテンツと他のオーディオ・コンテンツとの間の(あるいは発話コンテンツと全オーディオ・コンテンツとの間の)SNRを決定し;各セグメントについて、SNRを閾値と比較し、SNRが閾値より大きいときはそのセグメントについてパラメトリック符号化向上の制御パラメータを提供し(すなわち、そのセグメントについてのブレンド・インジケータは、パラメトリック符号化向上が実行されるべきであることを示す)、SNRが閾値より大きくないときはそのセグメントについて波形符号化向上の制御パラメータを提供する(すなわち、そのセグメントについてのブレンド・インジケータは、波形符号化向上が実行されるべきであることを示す)段階を含む。典型的には、未向上のオーディオ信号は、メタデータとして含まれる前記制御パラメータとともに受信器に送達(たとえば送信)され、受信器は、(各セグメントに対して)そのセグメントについて制御パラメータによって示される型の発話向上を実行する。こうして、受信器は、制御パラメータがパラメトリック符号化向上の制御パラメータである各セグメントに対してはパラメトリック符号化向上を、制御パラメータが波形符号化された向上の制御パラメータである各セグメントに対しては波形符号化向上を実行する。
(波形符号化発話向上を実装するための)波形データおよびパラメトリック符号化向上パラメータの両方をもとの(未向上の)混合と一緒に(もとのオーディオ混合の各セグメントと一緒に)送信するコストをかけるつもりがあるなら、波形符号化向上およびパラメトリック符号化向上の両方を混合の個々のセグメントに適用することによって、より高い度合いの発話向上が達成できる。こうして、あるクラスの実施形態では、本発明の方法は、オーディオ・プログラムの諸セグメントのパラメトリック符号化向上と波形符号化向上の間の「盲目的な」時間的なSNRに基づくブレンドを実装する。このコンテキストにおいても、「盲目的」とは、切り換えが、複雑な聴覚マスキング・モデル(たとえば本稿で述べるような型の)によって知覚的に案内されず、プログラムの諸セグメントに対応するSNR値のシーケンスによって案内されることを表わす。
「盲目的な」時間的なSNRに基づくブレンドを実装する実施形態は、典型的には:未向上のオーディオ信号(もとのオーディオ混合)を連続する時間スライス(セグメント)にセグメント分割し、各セグメントについて、セグメントの発話コンテンツと他のオーディオ・コンテンツとの間の(あるいは発話コンテンツと全オーディオ・コンテンツとの間の)SNRを決定し;各セグメントについて、ブレンド制御インジケータを提供する段階を含む。ここで、ブレンド制御インジケータの値はそのセグメントについてのSNRによって決定される(SNRの関数である)。
いくつかの実施形態では、本方法は、発話向上の総量(T)を決定する(たとえば、Tに対する要求を受領する)段階を含み、ブレンド制御インジケータは、T=αPw+(1−α)Ppとなるような各セグメントについてのパラメータαである。ここで、Pwは、そのセグメントについて与えられる波形データを使ってそのセグメントの未向上のオーディオ・コンテンツに適用された場合に所定の向上総量Tを生じるであろうそのセグメントについての波形符号化向上であり(ここで、そのセグメントの発話コンテンツは未向上の波形をもち、そのセグメントについての波形データはそのセグメントの発話コンテンツの低下品質バージョンを示し、低下品質バージョンは未向上の波形と類似の(たとえば少なくとも実質的に同様の)波形をもち、発話コンテンツの低下品質バージョンは単独でレンダリングおよち知覚されるときに不快な品質である)、Ppは、そのセグメントについて与えられるパラメトリック・データを使ってそのセグメントの未向上のオーディオ・コンテンツに適用された場合に所定の向上総量Tを生じるであろうパラメトリック符号化向上である(ここで、そのセグメントについてのパラメトリック・データは、そのセグメントの未向上のオーディオ・コンテンツとともに、そのセグメントの発話コンテンツのパラメトリックに再構成されたバージョンを決定する)。いくつかの実施形態では、各セグメントについてのブレンド制御インジケータは、関連するセグメントの各周波数帯域についてのパラメータを含む、そのようなパラメータの集合である。
未向上のオーディオ信号がメタデータとしての制御パラメータと一緒に受信器に送達される(たとえば送信される)とき、受信器は(各セグメントに対して)、そのセグメントについての制御パラメータによって示されるハイブリッド発話向上を実行してもよい。あるいはまた、受信器は、未向上のオーディオ信号から制御パラメータを生成する。
いくつかの実施形態では、受信器は、(未向上のオーディオ信号の各セグメントに対して)(当該セグメントについてのパラメータαによってスケーリングされた向上Ppによって決定される量の)パラメトリック符号化された向上と、(当該セグメントについて値(1−α)によってスケーリングされた向上Pwによって決定される量の)波形符号化された向上との組み合わせを実行して、パラメトリック符号化された向上および波形符号化された向上の組み合わせが、所定の向上総量
T=αPw+(1−α)Pp (1)
を生成するようにする。
別のクラスの実施形態では、オーディオ信号の各セグメントに対して実行される波形符号化およびパラメトリック符号化向上の組み合わせは、聴覚マスキング・モデルによって決定される。このクラスのいくつかの実施形態では、オーディオ・プログラムのあるセグメントに対して実行されるべき波形符号化およびパラメトリック符号化向上のブレンドについての最適なブレンド比は、符号化ノイズが可聴にならないぎりぎりに保つ波形符号化された向上の最高量を使う。デコーダにおける符号化ノイズの入手可能性は常に統計的推定の形であり、厳密に決定されることはできないことは理解しておくべきである。
このクラスのいくつかの実施形態では、オーディオ・データの各セグメントについてのブレンド・インジケータは、そのセグメントに対して実行される波形符号化およびパラメトリック符号化向上の組み合わせを示し、該組み合わせは、聴覚マスキング・モデルによってそのセグメントについて決定される波形符号化を最大化する組み合わせに、少なくとも実質的に等しい。ここで、波形符号化を最大化する組み合わせは、発話向上されたオーディオ・プログラムの対応するセグメントにおける(波形符号化向上に起因する)符号化ノイズが不快なほど可聴でない(たとえば可聴でない)ことを保証する波形符号化向上の最大の相対量を指定する。いくつかの実施形態では、発話向上されたオーディオ・プログラムのセグメントにおける符号化ノイズが不快なほど可聴でないことを保証する波形符号化向上の最大の相対量は、(オーディオ・データの対応するセグメントに対して)実行されるべき波形符号化向上およびパラメトリック符号化向上の組み合わせが、当該セグメントの所定の発話向上総量を生成することを保証する最大の相対量である。および/または(パラメトリック符号化された向上のアーチファクトが聴覚マスキング・モデルによって実行される評価に含められる場合には)符号化アーチファクトが、パラメトリック符号化向上のアーチファクトより上に可聴であることを(これが好都合であるときは)許容してもよい(たとえば、(波形符号化向上に起因する)可聴の符号化アーチファクトは、パラメトリック符号化向上の可聴アーチファクトほど不快ではない)。
本発明のハイブリッド符号化方式における波形符号化向上の寄与は、符号化ノイズが不快なほど可聴にならない(たとえば可聴にならない)ことを保証しつつ、高めることができる。それは、(波形符号化向上を実装するために使われる)低下品質発話コピーにおける符号化ノイズがメイン・プログラムのオーディオ混合によってマスクされる様子をより正確に予測し、しかるべくブレンド比を選択するよう、聴覚マスキング・モデルを使うことによる。
聴覚マスキング・モデルを用いるいくつかの実施形態は:未向上のオーディオ信号(もとのオーディオ混合)を連続する時間スライス(セグメント)にセグメント分割し、各セグメントについて、(波形符号化向上において使うための)各セグメントにおける発話の低下品質コピーおよび(パラメトリック符号化向上において使うための)パラメトリック符号化向上パラメータを提供し;各セグメントについて、聴覚マスキング・モデルを使って、符号化アーチファクトが不快なほど可聴にならずに適用できる波形符号化向上の最大量を決定し;(そのセグメントについて聴覚マスキング・モデルを使って決定された波形符号化向上の最大量を超えず、かつ、そのセグメントについて聴覚マスキング・モデルを使って決定された波形符号化された向上の最大量に少なくとも実質的に一致する量の)波形符号化向上とパラメトリック符号化向上との組み合わせの(未向上のオーディオ信号の各セグメントについての)インジケータを生成する段階を含む。波形符号化向上とパラメトリック符号化向上との前記組み合わせは、そのセグメントについての所定の発話向上総量を生成するようにする。
いくつかの実施形態では、各インジケータは、未向上のオーディオ信号を示すエンコードされたオーディオ・データをも含むビットストリームに(たとえばエンコーダによって)含められる。
いくつかの実施形態では、未向上のオーディオ信号は連続する時間スライスにセグメント分割され、各時間スライスは周波数帯域にセグメント分割され、各時間スライスの各周波数帯域について、聴覚マスキング・モデルは、符号化アーチファクトが不快なほど可聴になることなく適用できる波形符号化された向上の最大量を決定するために使われ、未向上のオーディオ信号の各時間スライスの各周波数帯域についてインジケータが生成される。
任意的に、本方法は、(未向上のオーディオ信号の各セグメントに対して、)各セグメントについてのインジケータに応答して、波形符号化された向上およびパラメトリック符号化された向上の組み合わせが当該セグメントについて所定の発話向上総量を生じるようインジケータによって決定された、波形符号化された向上およびパラメトリック符号化された向上の組み合わせを実行する段階をも含む。
いくつかの実施形態では、オーディオ・コンテンツは、サラウンドサウンド構成、5.1スピーカー構成、7.1スピーカー構成、7.2スピーカー構成などといった参照オーディオ・チャネル構成(または表現)について、エンコードされたオーディオ信号においてエンコードされる。参照構成は、ステレオ・チャネル、左および右前方チャネル、サラウンド・チャネル、スピーカー・チャネル、オブジェクト・チャネルなどのようなオーディオ・チャネルを含んでいてもよい。発話コンテンツを担持するチャネルの一つまたは複数は、ミッド/サイド(M/S)オーディオ・チャネル表現のチャネルでなくてもよい。本稿での用法では、M/Sオーディオ・チャネル表現(または単にM/S表現)は、少なくともミッド・チャネルおよびサイド・チャネルを含む。ある例示的実施形態では、ミッド・チャネルは(たとえば等しく重み付けされた、などの)左右チャネルの和を表わし、一方、サイド・チャネルは左右チャネルの差を表わす。ここで、左および右のチャネルは、二つのチャネル、たとえば前方中央および前方左チャネルの任意の組み合わせと考えられてもよい。
いくつかの実施形態では、プログラムの発話コンテンツは、非発話コンテンツと混合されてもよく、参照オーディオ・チャネル構成において左および右チャネル、左および右前方チャネルなどといった二つ以上の非M/Sチャネル上で配送されてもよい。発話コンテンツは、左および右チャネルなどのような二つの非M/Sチャネルにおいて発話コンテンツが同じくらい大きいステレオ・コンテンツにおいてファントム中心において表現されてもよいが、それは必須ではない。ステレオ・コンテンツは、必ずしも等しい大きさでない、あるいはさらには二つのチャネルの両方に存在する、非発話コンテンツを含んでいてもよい。
いくつかのアプローチのもとでは、発話コンテンツが配送される複数の非M/Sオーディオ・チャネルに対応する、発話向上のための非M/S制御データ、制御パラメータなどの複数の組〔セット〕が、全体的なオーディオ・メタデータの一部として、オーディオ・エンコーダから下流のオーディオ・デコーダに送信される。発話向上のための非M/S制御データ、制御パラメータなどの複数の組の各組が、発話コンテンツが配送される複数の非M/Sオーディオ・チャネルのうちの特定のオーディオ・チャネルに対応し、下流のオーディオ・デコーダによって、該特定のオーディオ・チャネルに関係する発話向上動作を制御するために使われてもよい。本稿での用法では、非M/S制御データ、制御パラメータなどの組は、本稿に記載されるオーディオ信号がエンコードされている参照構成のような、非M/S表現のオーディオ・チャネルにおける発話向上動作のための制御データ、制御パラメータなどを指す。
いくつかの実施形態では、――非M/S制御データ、制御パラメータなどの一つまたは複数の組に加えてまたはその代わりに――M/S発話向上メタデータが、オーディオ・メタデータの一部として、オーディオ・エンコーダから下流のオーディオ・デコーダに送信される。M/S発話向上メタデータは、発話向上のためのM/S制御データ、制御パラメータなどの一つまたは複数の組を含んでいてもよい。本稿での用法では、M/S制御データ、制御パラメータなどの組は、M/S表現のオーディオ・チャネルにおける発話向上動作のための制御データ、制御パラメータなどを指す。いくつかの実施形態では、発話向上のためのM/S発話向上メタデータは、オーディオ・エンコーダによって下流のオーディオ・デコーダに、参照オーディオ・チャネル構成においてエンコードされた混合されたコンテンツとともに送信される。いくつかの実施形態では、M/S発話向上メタデータにおける発話向上のためのM/S制御データ、制御パラメータなどの組の数は、混合されたコンテンツにおける発話コンテンツが配送される参照オーディオ・チャネル表現における複数の非M/Sオーディオ・チャネルの数より少なくてもよい。いくつかの実施形態では、たとえ混合されたコンテンツにおける発話コンテンツが、参照オーディオ・チャネル構成における左および右チャネルなどのような二つ以上の非M/Sオーディオ・チャネルを通じて配送されるときでも、発話向上のためのM/S制御データ、制御パラメータなど一つの組――たとえばM/S表現のミッド・チャネルに対応するもの――だけがM/S発話向上メタデータとして、オーディオ・エンコーダによって下流のデコーダに送られる。発話向上のためのM/S制御データ、制御パラメータなどの該単一の組は、左および右チャネルなどのような二つ以上の非M/Sオーディオ・チャネルのすべてについての発話向上動作を達成するために使われてもよい。いくつかの実施形態では、本稿に記載されるように発話向上のためのM/S制御データ、制御パラメータなどに基づいて発話向上動作を適用するために、参照構成とM/S表現の間の変換行列が使われてもよい。
本稿に記載される技法は、発話コンテンツが左および右のチャネルのファントム中心においてパンされる、発話コンテンツが完全には該中心にパンされない(たとえば、左および右のチャネルなどの両方において同じくらいの大きさでない)などのシナリオにおいて使用できる。一例では、これらの技法は、発話コンテンツのエネルギーの大きな割合(たとえば70+%、80+%、90+%など)がM/S表現のミッド信号またはミッド・チャネルにあるシナリオにおいて使われてもよい。別の例では、パン、回転などの(たとえば空間的などの)変換が、参照構成において等しくない発話コンテンツを、M/S構成において等しいまたは実質的に等しくなるように変換するために使われてもよい。パン、回転などを表わすレンダリング・ベクトル、変換行列などは、発話向上動作の一部として、あるいはそれとの関連で使われてもよい。
いくつかの実施形態(たとえばハイブリッド・モードなど)では、発話コンテンツのあるバージョン(たとえば低減されたバージョン)が下流のオーディオ・デコーダに、ミッド・チャネル信号のみとして、あるいはミッド・チャネルおよびサイド・チャネル両方の信号として、M/S表現において、可能性としては非M/S表現と一緒に参照オーディオ・チャネル構成において送られる混合されたコンテンツと一緒に、送られる。いくつかの実施形態では、発話コンテンツの該バージョンが下流のオーディオ・デコーダに、M/S表現におけるミッド・チャネル信号のみとして送られるとき、該ミッド・チャネル信号に基づいて非M/Sオーディオ・チャネル構成(たとえば参照構成など)の一つまたは複数の非M/Sチャネルにおける信号部分を生成するよう該ミッド・チャネル信号に対して作用する(たとえば変換を実行するなど)対応するレンダリング・ベクトルも、下流のオーディオ・デコーダに送られる。
いくつかの実施形態では、オーディオ・プログラムのセグメントのパラメトリック符号化向上(たとえばチャネル独立ダイアログ予測、マルチチャネル・ダイアログ予測など)と波形符号化向上との間の「盲目的な」時間的なSNRに基づく切り換えを実装する(たとえば下流のオーディオ・デコーダなどにおける)ダイアログ/発話向上アルゴリズムが、少なくとも部分的にはM/S表現において動作する。
少なくとも部分的にM/S表現における発話向上動作を実装する本稿に記載される技法は、(たとえばミッド・チャネルなどにおける)チャネル独立予測、(たとえばミッド・チャネルおよびサイド・チャネルなどにおける)マルチチャネル予測などとともに使用されることができる。これらの技法は、同時に一つ、二つまたはそれ以上のダイアログについて発話向上をサポートするために使われることもできる。予測パラメータ、利得、レンダリング・ベクトルなどといった制御パラメータ、制御データなどのゼロ個、一つまたは複数の追加的な組が、追加的なダイアログをサポートするために、M/S発話向上メタデータの一部として、エンコードされたオーディオ信号において提供されることができる。
いくつかの実施形態では、エンコードされたオーディオ信号(たとえば、エンコーダから出力されるものなど)のシンタックスは、上流のオーディオ・エンコーダから下流のオーディオ・デコーダへのM/Sフラグの送信をサポートする。M/Sフラグは、発話向上動作が少なくとも部分的には、M/Sフラグと一緒に送信されるM/S制御データ、制御パラメータなどをもって実行されるときに存在する/セットされる。たとえば、M/Sフラグがセットされているとき、発話向上アルゴリズム(たとえば、チャネル独立ダイアログ予測、マルチチャネル・ダイアログ予測、波形ベースの、波形‐パラメトリック・ハイブリッドのなど)の一つまたは複数に従って、M/Sフラグと一緒に受領されるM/S制御データ、制御パラメータなどを用いたM/S発話向上動作を適用する前に、非M/Sチャネルにおけるステレオ信号(たとえば左および右チャネルなどからのもの)は、まず、受領側オーディオ・デコーダによって、M/S表現のミッド・チャネルおよびサイド・チャネルに変換されてもよい。M/S発話向上動作が実行された後、M/S表現における発話向上信号は非M/Sチャネルに変換し戻されてもよい。
いくつかの実施形態では、発話コンテンツが本発明に従って向上されるべきオーディオ・プログラムは、スピーカー・チャネルを含むが、オブジェクト・チャネルは含まない。他の実施形態では、発話コンテンツが本発明に従って向上されるべきオーディオ・プログラムは、少なくとも一つのオブジェクト・チャネルおよび任意的には少なくとも一つのスピーカー・チャネルをも含むオブジェクト・ベースのオーディオ・プログラム(典型的には、マルチチャネル・オブジェクト・ベース・オーディオ・プログラム)である。
本発明のもう一つの側面は、発話および非発話コンテンツを含むプログラムを示すオーディオ・データに応答して、エンコードされたオーディオ・データ、波形データおよびパラメトリック・データ(および任意的にはオーディオ・データの各セグメントについてのブレンド・インジケータ(たとえばブレンドを指示するデータ)も)を含むビットストリームを生成する本発明のエンコード方法の任意の実施形態を実行するよう構成された(たとえばプログラムされた)エンコーダと、前記ビットストリームをパースして、前記エンコードされたオーディオ・データを(および任意的には各ブレンド・インジケータも)復元し、前記エンコードされたオーディオ・データをデコードして前記オーディオ・データを復元するよう構成されたデコーダとを含むシステムである。あるいはまた、前記デコーダは、復元されたオーディオ・データに応答して、前記オーディオ・データの各セグメントについてブレンド・インジケータを生成するよう構成される。前記デコーダは、各ブレンド・インジケータに応答して、復元されたオーディオ・データに対してハイブリッド発話向上を実行するよう構成される。
本発明のもう一つの側面は、本発明の方法の任意の実施形態を実行するよう構成されたデコーダである。もう一つのクラスの実施形態では、本発明は、本発明の方法の任意の実施形態によって生成されたエンコードされたオーディオ・ビットストリームの少なくとも一つのセグメント(たとえばフレーム)を(たとえば非一時的な仕方で)記憶するバッファ・メモリ(バッファ)を含むデコーダである。
本発明の他の側面は、本発明の方法の任意の実施形態を実行するよう構成された(たとえばプログラムされた)システムまたは装置(たとえばエンコーダ、デコーダまたはプロセッサ)ならびに本発明の方法またはそのステップの任意の実施形態を実装するためのコードを記憶するコンピュータ可読媒体(たとえばディスク)を含む。たとえば、本発明のシステムは、プログラム可能な汎用プロセッサ、デジタル信号プロセッサまたはマイクロプロセッサであって、データに対して本発明の方法またはそのステップの実施形態を含む多様な動作のうちの任意のものを実行するようソフトウェアまたはファームウェアによってプログラムされたおよび/または他の仕方で構成されたものであるまたはそれを含むことができる。そのような汎用プロセッサは、入力装置と、メモリと、呈されるデータに応答して本発明の方法(またはそのステップ)の実施形態を実行するようプログラムされた(および/または他の仕方で構成された)処理回路とを含むコンピュータ・システムであるまたはそれを含むものであってもよい。
いくつかの実施形態では、本稿に記載される機構は、オーディオビジュアル装置、フラットパネルTV、ハンドヘルド装置、ゲーム機、テレビジョン、ホームシアター・システム、タブレット、モバイル装置、ラップトップ・コンピュータ、ネットブック・コンピュータ、セルラー無線電話、電子書籍リーダー、ポイントオブセール端末、デスクトップ・コンピュータ、コンピュータ・ワークステーション、コンピュータ・キオスク、さまざまな他の種類の端末およびメディア処理ユニットなどを含むがそれに限られない、メディア処理システムの一部をなす。
本稿に記載される好ましい実施携帯および一般的な原理および特徴に対するさまざまな修正が、当業者にはすぐに明白となるであろう。よって、本開示は、示されている実施形態に限定されることは意図されておらず、本稿に記載される原理および特徴と整合する最も広い範囲を与えられるものである。
〈2.記法および命名法〉
請求項を含む本開示を通じて、用語「ダイアログ」および「発話」は同義語として交換可能に使用されて、人間(または仮想世界ではキャラクター)による伝達の形として知覚されるオーディオ信号コンテンツを表わす。
請求項を含む本開示を通じて、信号またはデータ「に対して」動作を実行する(たとえば信号またはデータをフィルタリングする、スケーリングする、変換するまたは利得を適用する)という表現は、信号またはデータに対して直接的に、または信号またはデータの処理されたバージョンに対して(たとえば、予備的なフィルタリングまたは前処理を該動作の実行に先立って受けている前記信号のバージョンに対して)該動作を実行することを表わすために広義で使用される。
請求項を含む本開示を通じて、「システム」という表現は、装置、システムまたはサブシステムを表わす広義で使用される。たとえば、デコーダを実装するサブシステムは、デコーダ・システムと称されてもよく、そのようなサブシステムを含むシステム(たとえば、複数の入力に応答してX個の出力信号を生成するシステムであって、前記サブシステムが入力のうちのM個を生成し、他のX−M個の入力は外部源から受領されるもの)もデコーダ・システムと称されることがある。
請求項を含む本開示を通じて、用語「プロセッサ」は、データ(たとえばオーディオまたはビデオまたは他の画像データ)に対して動作を実行するよう(たとえばソフトウェアまたはファームウェアを用いて)プログラム可能または他の仕方で構成可能であるシステムまたは装置を表わす広義で使用される。プロセッサの例は、フィールド・プログラム可能なゲート・アレイ(または他の構成可能な集積回路またはチップセット)、オーディオまたは他のサウンド・データに対してパイプライン化された処理を実行するようプログラムされたおよび/または他の仕方で構成されたデジタル信号プロセッサ、プログラム可能な汎用プロセッサもしくはコンピュータおよびプログラム可能なマイクロプロセッサ・チップまたはチップセットを含む。
請求項を含む本開示を通じて、「オーディオ・プロセッサ」および「オーディオ処理ユニット」という表現は交換可能に、オーディオ・データを処理するよう構成されたシステムを表わす広義で使用される。オーディオ処理ユニットの例は、エンコーダ(たとえばトランスコーダ)、デコーダ、コーデック、前処理システム、後処理システムおよびビットストリーム処理システム(時にビットストリーム処理ツールと称される)を含むがこれに限られない。
請求項を含む本開示を通じて、「メタデータ」という表現は、対応するオーディオ・データ(メタデータをも含むビットストリームのオーディオ・コンテンツ)とは別個の異なるデータを指す。メタデータは、オーディオ・データに関連付けられ、該オーディオ・データの少なくとも一つの特徴または特性(たとえばそのオーディオ・データまたはそのオーディオ・データによって示されるオブジェクトの軌跡に対してどの型(単数または複数)の処理がすでに実行されているか、あるいは実行されるべきか)を示す。メタデータのオーディオ・データとの関連付けは、時間同期的である。このように、現在の(最も最近受領または更新された)メタデータは、対応するオーディオ・データが同時的に、示される特徴をもつおよび/または示される型のオーディオ・データ処理の結果を含むことを示しうる。
請求項を含む本開示を通じて、「結合する」または「結合される」という用語は、直接的または間接的な接続を意味するために使われる。よって、第一の装置が第二の装置に結合するとき、その接続は、直接接続を通じてであってもよいし、他の装置および接続を介した間接的な接続を通じてであってもよい。
請求項を含む本開示を通じて、以下の表現は以下の定義をもつ。
スピーカーおよびラウドスピーカーは、任意の音を発するトランスデューサを表わすものとして同義に使われる。この定義は、複数のトランスデューサ(たとえばウーファーおよびツイーター)として実装されるラウドスピーカーを含む。
スピーカー・フィード:ラウドスピーカーに直接加えられるオーディオ信号または直列の増幅器およびラウドスピーカーに加えられるオーディオ信号。
チャネル(または「オーディオ・チャネル」):モノフォニック・オーディオ信号。そのような信号は典型的には、該信号を所望されるまたは公称上の位置にあるラウドスピーカーに直接加えるのと等価であるようにレンダリングされることができる。所望される位置は、物理的なラウドスピーカーについて典型的にそうであるように静的であってもよく、あるいは動的であってもよい。
オーディオ・プログラム:一つまたは複数のオーディオ・チャネル(少なくとも一つのスピーカー・チャネルおよび/または少なくとも一つのオブジェクト・チャネル)および任意的には関連するメタデータ(たとえば、所望される空間的オーディオ呈示を記述するメタデータ)の集合。
スピーカー・チャネル(または「スピーカー・フィード・チャネル」):(所望されるまたは公称上の位置にある)指定されたラウドスピーカーに関連付けられているまたは定義されたスピーカー配位内での指定されたスピーカー・ゾーンに関連付けられているオーディオ・チャネル。スピーカー・チャネルは、該オーディオ信号を(所望されるまたは公称上の位置にある)指定されたラウドスピーカーにまたは指定されたスピーカー・ゾーン内のスピーカーに直接加えるのと等価であるようにレンダリングされる。
オブジェクト・チャネル:オーディオ源(時にオーディオ「オブジェクト」と称される)によって発される音を示すオーディオ・チャネル。典型的には、オブジェクト・チャネルは、パラメトリックなオーディオ源記述を決定する(たとえば、パラメトリックなオーディオ源記述を示すメタデータがオブジェクト・チャネル内に含められるまたはオブジェクト・チャネルと一緒に提供される)。源記述は、(時間の関数としての)源によって発された音、時間の関数としての源の見かけの位置(たとえば、3D空間座標)および任意的には源を特徴付ける少なくとも一つの追加的パラメータ(たとえば見かけの源サイズまたは幅)を決定してもよい。
オブジェクト・ベース・オーディオ・プログラム:一つまたは複数のオブジェクト・チャネルの集合を(および任意的には少なくとも一つのスピーカー・チャネルも)および任意的には関連するメタデータ(たとえば、オブジェクト・チャネルによって示される音を発するオーディオ・オブジェクトの軌跡を示すメタデータ、あるいは他の仕方でオブジェクト・チャネルによって示される音の所望される空間的オーディオ呈示を示すメタデータまたはオブジェクト・チャネルによって示される音の源である少なくとも一つのオーディオ・オブジェクトの識別情報を示すメタデータ)も含むオーディオ・プログラム。
レンダリング:オーディオ・プログラムを一つまたは複数のスピーカー・フィードに変換するプロセスまたはオーディオ・プログラムを一つまたは複数のスピーカー・フィードに変換し、該スピーカー・フィードを一つまたは複数のラウドスピーカーを使って音に変換するプロセス。(後者の場合、レンダリングは本稿では時にラウドスピーカー「による」レンダリングと称される。)オーディオ・チャネルは、信号を所望される位置にある物理的なラウドスピーカーに直接加えることによって(所望される位置「において」)トリビアルにレンダリングされることができる。あるいは、一つまたは複数のオーディオ・チャネルは、(聴取者にとって)そのようなトリビアルなレンダリングと実質的に等価であるよう設計された多様な仮想化技法の一つを使ってレンダリングされることができる。この後者の場合、各オーディオ・チャネルは、一般には所望される位置とは異なる既知の位置にあるラウドスピーカー(単数または複数)に加えられるべき一つまたは複数のスピーカー・フィードに変換されてもよく、それによりフィードに応答してラウドスピーカーによって発される音は、所望される位置から発しているように知覚されることになる。そのような仮想化技法の例は、ヘッドフォンを介したバイノーラル・レンダリング(たとえばヘッドフォン装着者のために7.1チャネルまでのサラウンドサウンドをシミュレートするドルビー・ヘッドフォン処理を使う)および波面合成(wave field synthesis)を含む。
発明のエンコード、デコードおよび発話向上方法および該方法を実装するよう構成されたシステムの実施形態は、図3、図6および図7を参照して記述される。
〈3.予測パラメータの生成〉
(本発明の実施形態に基づくハイブリッド発話向上を含む)発話向上を実行するためには、向上されるべき発話信号へのアクセスを有する必要がある。発話向上が実行されるべき時点において(向上されるべき混合された信号の発話および非発話コンテンツの混合とは別個に)発話信号が利用可能でない場合には、パラメトリック技法が使用されて、利用可能な混合の発話の再構成を生成してもよい。
(発話および非発話コンテンツの混合を示す)混合コンテンツ信号の発話コンテンツのパラメトリック再構成のための一つの方法は、該信号の各時間‐周波数タイルにおける発話パワーを再構成することに基づき、次式によりパラメータを生成する。
Figure 0006001814
ここで、pn,bは、時間インデックスnおよび周波数帯域分割インデックスbをもつタイルについてのパラメータ(パラメトリック符号化発話向上値)であり、値Ds,fはタイルの時間スロットsおよび周波数ビンfにおける発話信号を表わし、値Ms,fはタイルの同じ時間スロットおよび周波数ビンにおける混合コンテンツ信号を表わし、和はすべてのタイルにおけるsおよびfのすべての値にわたる。パラメータpn,bは、混合コンテンツ信号自身とともに(メタデータとして)送達されることができ、受領側が混合コンテンツ信号の各セグメントの発話コンテンツを再構成することを許容する。
図1に描かれているように、各パラメータpn,bは、発話信号が向上されるべき混合コンテンツ信号(「混合オーディオ」)に対して時間領域から周波数領域への変換を実行し、発話信号(混合コンテンツ信号の発話信号)に対して時間領域から周波数領域への変換を実行し、タイル中のすべての時間スロットおよび周波数ビンにわたって(発話信号の時間インデックスnおよび周波数帯域分割インデックスbをもつ各時間‐周波数タイルの)エネルギーを積分し、タイル中のすべての時間スロットおよび周波数ビンにわたって混合コンテンツ信号の対応する時間‐周波数タイルのエネルギーを積分し、第一の積分の結果を第二の積分の結果で割ってそのタイルについてのパラメータpn,bを生成することによって、決定されることができる。
混合コンテンツ信号の各時間‐周波数タイルが該タイルについてのパラメータpn,bによって乗算されるとき、結果として得られる信号は、混合コンテンツ信号の発話コンテンツと同様のスペクトルおよび時間包絡をもつ。
典型的なオーディオ・プログラム、たとえばステレオまたは5.1チャネル・オーディオ・プログラムは、複数のスピーカー・チャネルを含む。典型的には、各チャネル(またはチャネルの部分集合のそれぞれ)は、発話および非発話コンテンツを示し、混合コンテンツ信号が各チャネルを決定する。記述されるパラメトリック発話再構成方法は、すべてのチャネルの発話成分を再構成するために、各チャネルに独立に適用されることができる。再構成された発話信号(各チャネルについて一つ)は、各チャネルについて適切な利得をもって、対応する混合コンテンツ・チャネル信号に加えられて、発話コンテンツの所望されるブーストを達成することができる。
マルチチャネル・プログラムの混合コンテンツ信号(チャネル)は、一組の信号ベクトルとして表現できる。各ベクトル要素は、特定のパラメータ集合に対応する時間‐周波数タイルの集合、すなわち、フレーム(n)中のパラメータ帯域(b)におけるすべての周波数ビン(f)および時間スロット(s)である。そのようなベクトルの集合の例は、三チャネル混合コンテンツ信号について、次のようなものである。
Figure 0006001814
ここで、ciはチャネルを示す。この例は三つのチャネルを想定しているが、チャネル数は任意の量である。
同様に、マルチチャネル・プログラムの発話コンテンツは、(発話コンテンツが一つのチャネルのみからなる場合)1×1行列Dn,bの集合として表現することができる。混合コンテンツ信号の各行列要素の、スカラー値との乗算は、各サブ要素のスカラー値との乗算につながる。こうして、各タイルについての再構成された発話値は、各nおよびbについて、
Figure 0006001814
を計算することによって得られる。ここで、Pはその要素が予測パラメータである行列である。(すべてのタイルについての)再構成された発話は、
Dr=diag(P)・M (5)
と表わすことができる。
マルチチャネル混合コンテンツ信号の複数のチャネルにおけるコンテンツは、チャネル間の相関を引き起こし、これは、発話信号のよりよい予測をするために用いることができる。(たとえば通常の型の)最小平均平方誤差(MMSE)予測器を用いることにより、チャネルは予測パラメータと組み合わされて、平均平方誤差(MSE)基準に基づき最小誤差をもって発話コンテンツを再構成することができる。図2に示されるように、三チャネルの混合コンテンツ入力信号を想定すると、(周波数領域で動作する)そのようなMMSE予測器は、混合コンテンツ入力信号と、該混合コンテンツ入力信号の発話コンテンツを示す単一の入力発話信号とに応答して、予測パラメータpiの集合を逐次反復的に生成する(インデックスiは1,2または3)。
混合コンテンツ入力信号の各チャネルのタイルから再構成された発話値(各タイルは同じインデックスnおよびbをもつ)は、各チャネルについての重みパラメータによって制御される、混合コンテンツ信号の各チャネル(i=1,2または3)のコンテンツ(Mci,n,b)の線形結合である。これらの重みパラメータは、同じインデックスnおよびbをもつ諸タイルについての予測パラメータpiである。このように、混合コンテンツ信号のすべてのチャネルのすべてのタイルから再構成された発話は
Dr=p1・Mc1+p2・Mc2+p3・Mc3 (6)
または信号行列の形では、
Dr=PM
となる。
たとえば、背景(非発話)はチャネル間でインコヒーレントである一方、発話が混合コンテンツ信号の複数のチャネルにコヒーレントに存在するときは、チャネルの加法的な組み合わせが発話のエネルギーを優遇する。二つのチャネルについて、これは、チャネル独立な再構成に比べて、3dBよい発話分離につながる。もう一つの例として、発話が一つのチャネルに存在し、背景音が複数のチャネルにコヒーレントに存在するとき、チャネルの減法的な組み合わせが背景音を(部分的に)消去し、一方、発話は保存される。
あるクラスの実施形態では、本発明の方法は:(a)未向上の波形をもつ発話および他のオーディオ・コンテンツを含むオーディオ・プログラムを示すビットストリームを受領する段階を含む。前記ビットストリームは:前記発話および前記他のオーディオ・コンテンツを示す未向上のオーディオ・データと、前記発話の低下品質バージョンを示す波形データと、パラメトリック・データとを含む。前記低下品質バージョンは、前記未向上の波形に類似した(たとえば少なくとも実質的に同様の)第二の波形をもつ。前記低下品質バージョンは、単独で試聴されたとしたら不快な品質をもつであろう。前記パラメトリック・データは前記未向上のオーディオ・データとともに、パラメトリックに構築された発話を決定し、該パラメトリックに構築された発話は、前記発話に少なくとも実質的に一致する(たとえば、前記発話の良好な近似である)前記発話のパラメトリックに再構築されたバージョンである。本方法はさらに:(b)ブレンド・インジケータに応答して前記ビットストリームに対して発話向上を実行し、それにより発話向上されたオーディオ・プログラムを示すデータを生成する段階を含む。これは、前記未向上のオーディオ・データを、前記波形データから決定された低品質発話データおよび再構成された発話データの組み合わせと組み合わせることによることを含む。前記組み合わせは、前記ブレンド・インジケータによって決定される(たとえば、前記組み合わせは、前記ブレンド・インジケータの現在値のシーケンスによって決定される状態のシーケンスをもつ)。前記再構成された発話データは、前記パラメトリック・データの少なくとも一部および前記未向上のオーディオ・データの少なくとも一部に応答して生成される。前記発話向上されたオーディオ・プログラムは、前記低品質発話データを前記未向上のオーディオ・データと組み合わせるだけによって決定される純粋に波形符号化発話向上されたオーディオ・プログラムよりも、前記パラメトリック・データおよび前記未向上のオーディオ・データから決定される純粋にパラメトリック符号化発話向上されたオーディオ・プログラムよりも、少ない可聴発話向上符号化アーチファクト(たとえば、よりよくマスクされた発話向上符号化アーチファクト)をもつ。
いくつかの実施形態では、ブレンド・インジケータ(これは値のシーケンスを有していてもよい。たとえばビットストリーム・セグメントのシーケンスのそれぞれについて一つの値)は、段階(a)で受領されたビットストリームに含まれる。他のいくつかの実施形態は、ビットストリームに応答して(たとえばビットストリームを受領し、デコードする受信器において)ブレンド・インジケータが生成される。
「ブレンド・インジケータ」という表現は、ビットストリームの各セグメントについての単一のパラメータまたは値(または単一のパラメータまたは値のシーケンス)を表わすことを意図しているのではないことを理解しておくべきである。むしろ、いくつかの実施形態では、(ビットストリームのあるセグメントについての)ブレンド・インジケータは、二つ以上のパラメータまたは値の組(たとえば、各セグメントについて、パラメトリック符号化向上の制御パラメータおよび波形符号化向上の制御パラメータ)であってもよい。いくつかの実施形態では、各セグメントについてのブレンド・インジケータは、セグメントの周波数帯域当たりのブレンドを示す値のシーケンスであってもよい。
波形データおよびパラメトリック・データは、ビットストリームの各セグメントについて提供される(たとえば各セグメントに含まれる)必要はなく、ビットストリームの各セグメントに対して発話向上を実行するために使われる必要もない。たとえば、場合によっては、少なくとも一つのセグメントが波形データのみを含んでいてもよく(そのような各セグメントについてブレンド・インジケータによって決定される組み合わせが波形データのみからなっていてもよい)、少なくとも一つの他のセグメントがパラメトリック・データのみを含んでいてもよい(そのような各セグメントについてブレンド・インジケータによって決定される組み合わせが再構成された発話データのみからなっていてもよい)。
いくつかの実施形態では、エンコーダがビットストリームを生成することが、未向上のオーディオ・データをエンコード(たとえば圧縮)するが波形データまたはパラメトリック・データはエンコード(たとえば圧縮)しないことによることを含むことが考えられている。よって、ビットストリームが受信器に送達されるとき、受信器は典型的にはビットストリームをパースして、未向上のオーディオ・データ、波形データおよびパラメトリック・データ(それにブレンド・インジケータがビットストリーム中で送達されるのであればブレンド・インジケータも)を抽出するが、未向上のオーディオ・データのみをデコードする。受信器は、波形データまたはパラメトリック・データに、オーディオ・データに適用されるのと同じデコード・プロセスを適用することなく、(波形データおよび/またはパラメトリック・データを使って、)デコードされた未向上のオーディオ・データに対して発話向上を実行する。
典型的には、波形データと再構成された発話データの(ブレンド・インジケータによって指示される)組み合わせは時間とともに変化する。該組み合わせの各状態は、ビットストリームの対応するセグメントの発話および他のオーディオ・コンテンツに関する。ブレンド・インジケータは、(波形データおよび再構成された発話データの)該組み合わせの現在状態が、ビットストリームの対応するセグメントにおける発話および他のオーディオ・コンテンツの信号属性(たとえば、発話コンテンツのパワーと他のオーディオ・コンテンツのパワーとの比)によって決定されるよう、生成される。
段階(b)は、前記低品質発話データの少なくとも一部を、ビットストリームの少なくとも一つのセグメントの前記未向上のオーディオ・データと組み合わせる(たとえば混合するまたはブレンドする)ことによって、波形符号化発話向上を実行し、再構成された発話データを、ビットストリームの少なくとも一つのセグメントの前記未向上のオーディオ・データと組み合わせることによって、パラメトリック符号化発話向上を実行する段階を含んでいてもよい。波形符号化発話向上とパラメトリック符号化発話向上の組み合わせは、ビットストリームの少なくとも一つのセグメントに対して、該セグメントについての低品質発話データおよび再構成された発話の両方を、該セグメントの前記未向上のオーディオ・データとブレンドすることによって、実行される。いくつかの信号条件のもとでは、波形符号化発話向上とパラメトリック符号化発話向上の一方のみ(両方ではない)が(ブレンド・インジケータに応答して)ビットストリームのあるセグメントに対して(または二つ以上のセグメントのそれぞれに対して)実行される。
〈4.発話向上動作〉
本稿では、「SNR」(信号対雑音比)は、オーディオ・プログラムのあるセグメントの(またはプログラム全体の)発話成分(すなわち発話コンテンツ)のパワーの、該セグメントまたはプログラムの非発話成分(すなわち非発話コンテンツ)のパワーに対する比(またはレベルの差)、あるいは該セグメントまたはプログラムのコンテンツ全体(発話および非発話)のパワーに対する比(またはレベルの差)を表わすために使われる。いくつかの実施形態では、SNRは、(発話向上を受ける)オーディオ信号および該オーディオ信号の発話コンテンツを示す別個の信号(たとえば、波形符号化された向上において使うために生成された発話コンテンツの低品質コピー)から導出される。いくつかの実施形態では、SNRは、(発話向上を受ける)オーディオ信号からおよび(オーディオ信号のパラメトリック符号化向上において使うために生成された)パラメトリック・データから導出される。
あるクラスの実施形態では、本発明の方法は、オーディオ・プログラムのセグメントのパラメトリック符号化向上および波形符号化向上の間で、「盲目的な」時間的なSNRに基づく切り換えを実装する。このコンテキストにおいて、「盲目的」とは、切り換えが、複雑な聴覚マスキング・モデル(たとえば本稿で述べるような型の)によって知覚的に案内されず、プログラムの諸セグメントに対応するSNR値(ブレンド・インジケータ)のシーケンスによって案内されることを表わす。このクラスのある実施形態では、ハイブリッド符号化発話向上は、パラメトリック符号化向上と波形符号化向上との間の時間的な切り換え(ブレンド・インジケータ、たとえば図3のエンコーダのサブシステム29において生成されたブレンド・インジケータに応答しての切り換え。ブレンド・インジケータは、パラメトリック符号化向上のみまたは波形符号化向上が対応するオーディオ・データに対して実行されるべきであることを示す)によって達成される。それにより、パラメトリック符号化向上または波形符号化向上のいずれか(だがパラメトリック符号化向上および波形符号化向上の両方ではない)が、発話向上が実行されるオーディオ・プログラムの各セグメントに対して実行される。波形符号化向上が低SNRの条件の下で(SNRの低い値をもつセグメントに対して)最もよく性能を発揮し、パラメトリック符号化向上は好都合なSNRにおいて(SNRの高い値をもつセグメントに対して)最もよく性能を発揮するとの認識から、切り換え決定は典型的には、発話(ダイアログ)の、もとのオーディオ混合における残りのオーディオに対する比に基づく。
「盲目的な」時間的なSNRに基づく切り換えを実装する実施形態は典型的には:未向上のオーディオ信号(もとのオーディオ混合)を連続する時間スライス(セグメント)にセグメント分割し、各セグメントについて、セグメントの発話コンテンツと他のオーディオ・コンテンツとの間の(あるいは発話コンテンツと全オーディオ・コンテンツとの間の)SNRを決定し;各セグメントについて、SNRを閾値と比較し、SNRが閾値より大きいときはそのセグメントについてパラメトリック符号化向上の制御パラメータを提供し(すなわち、そのセグメントについてのブレンド・インジケータは、パラメトリック符号化向上が実行されるべきであることを示す)、SNRが閾値より大きくないときはそのセグメントについて波形符号化向上の制御パラメータを提供する(すなわち、そのセグメントについてのブレンド・インジケータは、波形符号化向上が実行されるべきであることを示す)段階を含む。
未向上のオーディオ信号が、メタデータとして含まれる前記制御パラメータとともに受信器に送達(たとえば送信)されるとき、受信器は、(各セグメントに対して)そのセグメントについて制御パラメータによって示される型の発話向上を実行してもよい。こうして、受信器は、制御パラメータがパラメトリック符号化向上の制御パラメータである各セグメントに対してはパラメトリック符号化向上を、制御パラメータが波形符号化向上の制御パラメータである各セグメントに対しては波形符号化向上を実行する。
(波形符号化発話向上を実装するための)波形データおよびパラメトリック符号化向上パラメータの両方をもとの(未向上の)混合と一緒に(もとのオーディオ混合の各セグメントと一緒に)送信するコストを被るつもりがあるなら、波形符号化向上およびパラメトリック符号化向上の両方を混合の個々のセグメントに適用することによって、より高い度合いの発話向上が達成できる。こうして、あるクラスの実施形態では、本発明の方法は、オーディオ・プログラムの諸セグメントのパラメトリック符号化向上と波形符号化向上の間の「盲目的な」時間的なSNRに基づくブレンドを実装する。このコンテキストにおいても、「盲目的」とは、切り換えが、複雑な聴覚マスキング・モデル(たとえば本稿で述べるような型の)によって知覚的に案内されず、プログラムの諸セグメントに対応するSNR値のシーケンスによって案内されることを表わす。
「盲目的な」時間的なSNRに基づくブレンドを実装する実施形態は、典型的には:未向上のオーディオ信号(もとのオーディオ混合)を連続する時間スライス(セグメント)にセグメント分割し、各セグメントについて、そのセグメントの発話コンテンツと他のオーディオ・コンテンツとの間の(あるいは発話コンテンツと全オーディオ・コンテンツとの間の)SNRを決定し;発話向上の総量(T)を決定し(たとえば該総量に対する要求を受領し);各セグメントについて、ブレンド制御パラメータを提供する段階を含む。ここで、ブレンド制御パラメータの値はそのセグメントについてのSNRによって決定される(SNRの関数である)。
たとえば、オーディオ・プログラムのセグメントについてのブレンド・インジケータは、そのセグメントについて図3のエンコーダのサブシステム29において生成されたブレンド・インジケータ・パラメータ(またはパラメータ集合)であってもよい。
ブレンド制御インジケータは、T=αPw+(1−α)Ppとなるような各セグメントについてのパラメータαであってもよい。ここで、Pwは、そのセグメントについて与えられる波形データを使ってそのセグメントの未向上のオーディオ・コンテンツに適用された場合に所定の向上総量Tを生じるであろうそのセグメントについての波形符号化向上であり(ここで、そのセグメントの発話コンテンツは未向上の波形をもち、そのセグメントについての波形データはそのセグメントの発話コンテンツの低下品質バージョンを示し、低下品質バージョンは未向上の波形と類似の(たとえば少なくとも実質的に同様の)波形をもち、発話コンテンツの低下品質バージョンは単独でレンダリングおよち知覚されるときに不快な品質である)、Ppは、そのセグメントについて与えられるパラメトリック・データを使ってそのセグメントの未向上のオーディオ・コンテンツに適用された場合に所定の向上総量Tを生じるであろうパラメトリック符号化向上である(ここで、そのセグメントについてのパラメトリック・データは、そのセグメントの未向上のオーディオ・コンテンツとともに、そのセグメントの発話コンテンツのパラメトリックに再構成されたバージョンを決定する)。
未向上のオーディオ信号がメタデータとしての制御パラメータと一緒に受信器に送達される(たとえば送信される)とき、受信器は(各セグメントに対して)、そのセグメントについての制御パラメータによって示されるハイブリッド発話向上を実行してもよい。あるいはまた、受信器は、未向上のオーディオ信号から制御パラメータを生成する。
いくつかの実施形態では、受信器は、(未向上のオーディオ信号の各セグメントに対して)(当該セグメントについてのパラメータαによってスケーリングされた)パラメトリック符号化向上Ppと、(当該セグメントについて値(1−α)によってスケーリングされた)波形符号化向上Pwとの組み合わせを実行して、スケーリングされたパラメトリック符号化向上およびスケーリングされた波形符号化向上の組み合わせが、式(1)(T=αPw+(1−α)Pp)におけるような所定の向上総量を生成するようにする。
あるセグメントについてのαとSNRとの間の関係の例は次のようなものである。αはSNRの非減少関数であり、αの範囲は0から1までであり、セグメントについてのSNRが閾値(SNR_poor)以下であるときはαは値0をもち、SNRがより大きな閾値(SNR_high)以上であるときはαは1の値をもつ。SNRが良好であるときは、αは高く、パラメトリック符号化向上の大きな割合につながる。SNRが貧弱であるときは、αは低く、波形符号化向上の大きな割合につながる。飽和点(SNR_poorおよびSNR_high)の位置は、波形符号化およびパラメトリック符号化向上アルゴリズムの両方の具体的な実装を受け入れるよう選択されるべきである。
別のクラスの実施形態では、オーディオ信号の各セグメントに対して実行される波形符号化されたおよびパラメトリック符号化された向上の組み合わせは、聴覚マスキング・モデルによって決定される。このクラスのいくつかの実施形態では、オーディオ・プログラムのあるセグメントに対して実行されるべき波形符号化およびパラメトリック符号化向上のブレンドについての最適なブレンド比は、符号化ノイズを可聴にならないぎりぎりに保つ波形符号化された向上の最高量を使う。
上記の盲目的なSNRに基づくブレンド実施形態では、あるセグメントについてのブレンド比は、SNRから導出され、SNRは、オーディオ混合が、波形符号化向上のために用いられる発話の低下品質バージョン(コピー)における符号化ノイズをマスキングする能力を示すと想定される。盲目的なSNRに基づくアプローチの利点は、実装の簡単さおよびエンコーダにおける低い計算負荷である。しかしながら、SNRは、符号化ノイズがどのくらいよく隠蔽されるかの予測子としては信頼できるものではなく、符号化ノイズが常にマスクされたままであることを保証するために、大きな安全マージンを適用する必要がある。つまり、少なくとも一部の時間には、ブレンドされる低下品質発話コピーのレベルが、可能なよりも低い、あるいは、マージンがより積極的に設定される場合には、符号化ノイズが一部の時間には可聴となる。聴覚マスキング・モデルを使って低下品質発話コピー中の符号化ノイズがどのくらいメイン・プログラムのオーディオ混合によってマスクされるかをより正確に予測し、それに応じてブレンド比を選択することにより、本発明のハイブリッド符号化方式における波形符号化された向上の寄与は、符号化ノイズが可聴にならないことを保証しつつ、上昇させることができる。
聴覚マスキング・モデルを用いる典型的な実施形態は:未向上のオーディオ信号(もとのオーディオ混合)を連続する時間スライス(セグメント)にセグメント分割し、各セグメントについて、(波形符号化向上において使うための)各セグメントにおける発話の低下品質コピーおよび(パラメトリック符号化向上において使うための)パラメトリック符号化された向上パラメータを提供し;各セグメントについて、聴覚マスキング・モデルを使って、アーチファクトが可聴にならずに適用できる波形符号化向上の最大量を決定し;(そのセグメントについて聴覚マスキング・モデルを使って決定された波形符号化向上の最大量を超えず、かつ、好ましくは、そのセグメントについて聴覚マスキング・モデルを使って決定された波形符号化向上の最大量に少なくとも実質的に一致する量の)波形符号化向上とパラメトリック符号化向上との組み合わせの(未向上のオーディオ信号の各セグメントについての)インジケータを生成する段階を含む。波形符号化向上とパラメトリック符号化向上との前記組み合わせは、そのセグメントについての所定の発話向上総量を生成するようにする。
いくつかの実施形態では、そのような各インジケータは、未向上のオーディオ信号を示すエンコードされたオーディオ・データをも含むビットストリームに(たとえばエンコーダによって)含められる。たとえば、図3のエンコーダ20のサブシステム29が、そのようなブレンド・インジケータを生成するよう構成されていてもよく、エンコーダ20のサブシステム28が、エンコーダ20から出力されるビットストリームにブレンド・インジケータを含めるよう構成されていてもよい。もう一つの例では、ブレンド・インジケータは、(たとえば図7のエンコーダのサブシステム13において)図7のエンコーダのサブシステム14によって生成されたgmax(t)パラメータから生成されてもよく、図7のエンコーダのサブシステム13は、図7のエンコーダから出力されるビットストリームにブレンド・インジケータを含めるよう構成されていてもよい。(あるいは、サブシステム13は、図7のエンコーダから出力されるビットストリームに、サブシステム14によって生成されたgmax(t)パラメータを含め、ビットストリームを受領してパースする受領側がgmax(t)パラメータに応答してブレンド・インジケータを生成するよう構成されていてもよい。)
任意的に、本方法は、(未向上のオーディオ信号の各セグメントに対して、)各セグメントについてのブレンド・インジケータに応答して、波形符号化向上およびパラメトリック符号化向上の組み合わせが当該セグメントについて所定の発話向上総量を生じるようブレンド・インジケータによって決定された、波形符号化向上およびパラメトリック符号化向上の組み合わせを実行する段階をも含む。
聴覚マスキング・モデルを用いる本発明の方法の実施形態の例は、図7を参照して記述される。この例では、発話および背景オーディオの混合A(t)(未向上のオーディオ混合)が(図7の要素10において)決定され、(図7の要素11によって実装される)聴覚マスキング・モデルに渡される。聴覚マスキング・モデルは、未向上のオーディオ混合の各セグメントについてマスキング閾値Θ(f,t)を予測する。未向上のオーディオ混合A(t)は、伝送のためにエンコードするためにエンコード要素13にも与えられる。
モデルによって生成されるマスキング閾値は、周波数および時間の関数として、可聴であるためにどんな信号でも超えなければならない聴覚励起を示す。そのようなマスキング・モデルは当技術分野ではよく知られている。未向上のオーディオ混合A(t)の各セグメントの発話成分s(t)は、(低ビットレート・オーディオ符号化器15において)エンコードされて、そのセグメントの発話コンテンツの低下品質コピーs'(t)を生成する。(もとの発話s(t)より少数のビットを含む)低下品質コピーs'(t)は、もとの発話s(t)と符号化ノイズn(t)の和として概念化できる。該符号化ノイズは、低下品質コピーから時間整列された発話信号s(t)を(要素16において)減算することを通じて、解析のために低下品質コピーから分離されることができる。あるいはまた、符号化ノイズは、前記オーディオ符号化器から直接利用可能であってもよい。
符号化ノイズnは、要素17において、スケール因子g(t)を乗算され、スケーリングされた符号化ノイズは(要素18によって実装される)聴覚モデルに渡される。この聴覚モデルは、スケーリングされた符号化ノイズによって生成される聴覚励起N(f,t)を予測する。そのような励起モデルは当技術分野において既知である。最終段階において、聴覚励起N(f,t)は予測されたマスキング閾値Θ(f,t)と比較され、符号化ノイズがマスキングされることを保証する最大のスケール因子gmax(t)、すなわちN(f,t)<Θ(f,t)であることを保証するg(t)の最大値が(要素14において)見出される。聴覚モデルが非線形である場合、これは、要素17において符号化ノイズn(t)に適用されるg(t)の値を逐次反復することによって、(図2に示されるように)逐次反復的に行なう必要があることがある。聴覚モデルが線形であれば、これは、単純なフィードフォワード段階において行なってもよい。結果として得られるスケール因子gmax(t)は、スケーリングされた低下品質発話コピーにおける符号化アーチファクトが、スケーリングされた低下品質発話コピーgmax(t)*s'(t)と未向上のオーディオ混合A(t)の混合において可聴になることなく、未向上のオーディオ混合A(t)の対応するセグメントに加えられる前に低下品質発話コピーs'(t)に適用されることができる最大のスケール因子である。
図7のシステムは、未向上のオーディオ混合の各セグメントに対してパラメトリック符号化発話向上を実行するためのパラメトリック符号化向上パラメータp(t)を(未向上のオーディオ混合A(t)および発話s(t)に応答して)生成するよう構成されている要素12をも含む。
オーディオ・プログラムの各セグメントについて、パラメトリック符号化された発話向上パラメータp(t)のほかに符号化器15において生成される低下品質発話コピーs'(t)と、要素14において生成される因子gmax(t)も、エンコード要素13に呈される。要素13は、オーディオ・プログラムの各セグメントについて未向上のオーディオ混合A(t)、パラメトリック符号化向上パラメータp(t)、低下品質発話コピーs'(t)および因子gmax(t)を示すエンコードされたオーディオ・ビットストリームを生成し、このエンコードされたオーディオ・ビットストリームが受信器に、送信され、あるいは他の仕方で送達されうる。
この例では、発話向上は、未向上のオーディオ混合の各セグメントに対して(要素13のエンコードされた出力が送達された受信器において)次のように実行されて、セグメントについてのスケール因子gmax(t)を使ってあらかじめ決定された(たとえば要求された)向上総量Tを適用する。エンコードされたオーディオ・プログラムがデコードされて、オーディオ・プログラムの各セグメントについて、未向上のオーディオ混合A(t)、パラメトリック符号化された向上パラメータp(t)、低下品質発話コピーs'(t)および因子gmax(t)を抽出する。各セグメントについて、波形符号化された向上Pwは、そのセグメントについての低下品質発話コピーs'(t)を使ってそのセグメントの未向上のオーディオ・コンテンツに適用されたとした場合に前記あらかじめ決定された向上総量Tを生じるであろう波形符号化された向上であるように決定され、パラメトリック符号化された向上Ppは、そのセグメントについて与えられるパラメトリック・データを使ってそのセグメントの未向上のオーディオ・コンテンツに適用されたとした場合に前記あらかじめ決定された向上総量Tを生じるであろうパラメトリック符号化された向上であるように決定される(ここで、そのセグメントについてのパラメトリック・データは、そのセグメントの未向上のオーディオ・コンテンツとともに、そのセグメントの発話コンテンツのパラメトリックに再構成されたバージョンを決定する)。各セグメントについて、パラメトリック符号化された向上(そのセグメントについてのパラメータα2によってスケーリングされた量の)および波形符号化された向上(そのセグメントについての値α1によってスケーリングされた量の)の組み合わせが実行され、パラメトリック符号化向上および波形符号化向上の該組み合わせが、モデルによって許される波形符号化向上の最大量T=(α1(Pw)+α2(Pp))を使って前記あらかじめ決定された向上総量を生成する。ここで、因子α1はそのセグメントについてgmax(t)を超えず、かつ指示された等式(T=α1(Pw)+α2(Pp))の達成を許容する最大値であり、因子α2は指示された等式(T=α1(Pw)+α2(Pp))の達成を許容する最小の非負の値である。
ある代替的な実施形態では、パラメトリック符号化向上のアーチファクトが(聴覚マスキング・モデルによって実行される)評価に含められ、それにより、(波形符号化向上に起因する)符号化アーチファクトが、パラメトリック符号化向上のアーチファクトより好都合であるときには、可聴となることが許容される。
時に聴覚モデルに案内された複数帯域分割(multi-band splitting)の実施形態と称される、図7の実施形態の変形(および聴覚マスキング・モデルを用いる図7の実施形態と同様の実施形態)では、低下品質発話コピーにおける波形符号化向上の符号化ノイズN(f,t)とマスキング閾値Θ(f,t)との間の関係がすべての周波数帯域を通じて一様ではないことがある。たとえば、波形符号化向上の符号化ノイズのスペクトル特性が、第一の周波数領域ではマスキング・ノイズがマスキング閾値を超えそうである一方、第二の周波数領域ではマスクされる閾値のはるか下方であるようなものであることがありうる。図7の実施形態では、波形符号化向上の最大寄与は第一の周波数領域における符号化ノイズによって決定され、低下品質発話コピーに適用できる最大スケーリング因子gは第一の周波数領域における符号化ノイズおよびマスキング属性によって決定される。それは、最大スケーリング因子の決定が第二の周波数領域のみに基づいていたとした場合に適用されることができる最大スケーリング因子gより小さい。時間的ブレンドの原理が二つの周波数領域において別個に適用されたとしたら、全体的な性能が改善できる。
聴覚モデルに案内された複数帯域分割のある実装では、未向上のオーディオ信号はM個の連続的な重ならない周波数帯域に分割され、時間的ブレンド(すなわち、本発明のある実施形態に基づく波形符号化およびパラメトリック符号化向上のブレンドをもつハイブリッドの発話向上)の原理がM個の帯域のそれぞれにおいて独立して適用される。代替的な実装は、スペクトルをカットオフ周波数fcより下の低帯域とカットオフ周波数fcより上の高帯域に分割する。低帯域は常に波形符号化向上を用いて向上され、高帯域は常にパラメトリック符号化された向上を用いて向上される。カットオフ周波数は時間とともに変えられ、常に、あらかじめ決定された発話向上総量Tでの波形符号化向上の符号化ノイズがマスキング閾値未満であるという制約条件のもとで可能な限り高いよう選択される。換言すれば、任意の時点における最大カットオフ周波数は
max(fc|T*N(f<fc,t)<Θ(f,t)) (8)
となる。
上記の実施形態は、波形符号化向上の符号化アーチファクトが可聴になるのを防ぐために利用可能な手段が、(波形符号化対パラメトリック符号化向上の)ブレンド比を調整することまたは向上総量をスケール・バックすることであることを想定していた。代替は、低下品質発話コピーを生成するためのビットレートの可変割り当てを通じて波形符号化向上符号化ノイズの量を制御することである。この代替的な実施形態のある例では、一定の基本量のパラメトリック符号化された向上が適用され、所望される(あらかじめ決定された)向上総量に達するために追加的な波形符号化向上が適用される。低下品質発話コピーは可変ビットレートで符号化され、このビットレートは、波形符号化向上符号化ノイズをパラメトリック符号化向上されたメイン・オーディオのマスクされる閾値未満に保つ最低ビットレートとして選択される。
いくつかの実施形態では、本発明に基づいて発話コンテンツが向上されるオーディオ・プログラムは、スピーカー・チャネルを含むが、オブジェクト・チャネルは含まない。他の実施形態では、本発明に基づいて発話コンテンツが向上されるオーディオ・プログラムは、少なくとも一つのオブジェクト・チャネルおよび任意的にはまた少なくとも一つのスピーカー・チャネルを含む、オブジェクト・ベースのオーディオ・プログラム(典型的にはマルチチャネルのオブジェクト・ベースのオーディオ・プログラム)である。
本発明の他の側面は、本発明のエンコード方法の任意の実施形態を実行して、オーディオ入力信号に応答して(たとえば、マルチチャネルのオーディオ入力信号を示すオーディオ・データに応答して)、エンコードされたオーディオ信号を生成するよう構成されたエンコーダ、そのようなエンコードされた信号をデコードしてデコードされたオーディオ・コンテンツに対して発話向上を実行するよう構成されたデコーダおよびそのようなエンコーダおよびそのようなデコーダを含むシステムを含む。図3のシステムは、そのようなシステムの例である。
図3のシステムは、オーディオ・プログラムを示すオーディオ・データに応答して、エンコードされたオーディオ信号を生成する本発明のエンコード方法のある実施形態を実行するよう構成された(たとえばプログラムされた)エンコーダ20を含む。典型的には、プログラムはマルチチャネル・オーディオ・プログラムである。いくつかの実施形態では、マルチチャネル・オーディオ・プログラムはスピーカー・チャネルのみを含む。他の実施形態では、マルチチャネル・オーディオ・プログラムは、少なくとも一つのオブジェクト・チャネルおよび任意的にはまた少なくとも一つのスピーカー・チャネルを含むオブジェクト・ベースのオーディオ・プログラムである。
オーディオ・データは、混合されたオーディオ・コンテンツ(発話および非発話コンテンツの混合)を示すデータ(図3では「混合オーディオ」データとして同定されている)と、該混合されたオーディオ・コンテンツの発話コンテンツを示すデータ(図3では「発話」データとして同定されている)とを含む。
発話データは、段21において時間領域から周波数(QMF)領域への変換を受け、結果として得られるQMF成分が向上パラメータ生成要素23に呈される。混合されたオーディオ・データは段22において時間領域から周波数(QMF)領域への変換を受け、結果として得られるQMF成分が要素23およびエンコード・サブシステム27に呈される。
発話データは、サブシステム25にも呈される。サブシステム25は、混合されたオーディオ・データによって決定される混合された(発話および非発話)コンテンツの波形符号化発話向上において使うために、発話データの低品質コピーを示す波形データ(本稿では時に「低下品質」または「低品質」の発話コピーと称される)を生成するよう構成されている。低品質発話コピーは、もとの発話データより少数のビットを含み、単独でレンダリングされ知覚されたときには不快な品質であり、レンダリングされるとき、もとの発話データによって示される発話の波形と似た(たとえば少なくとも実質的に同様の)波形をもつ発話を示す。サブシステム25を実装する諸方法は当技術分野において知られている。例は、AMRおよびG729.1のような符号励振線形予測(CELP)発話符号化器または典型的には低ビットレート(たとえば20kbps)で運用されるMPEG統合音声音響符号化(USAC)のような現代的な混合された符号化器である。あるいはまた、周波数領域符号化器が使われてもよい。例としては、Siren(G722.1)、MPEG2レイヤーII/III、MPEG AACが含まれる。
本発明の典型的な実施形態に基づいて(たとえばデコーダ40のサブシステム43において)実行されるハイブリッド発話向上は、波形データを生成するために(たとえばエンコーダ20のサブシステム25において)実行されたエンコードの逆を(波形データに対して)実行して、向上されるべき混合されたオーディオ信号の発話コンテンツの低品質コピーを復元する段階を含む。発話の復元された低品質コピーは、次いで、発話向上の残りの段階を実行するために(パラメトリック・データおよび混合されたオーディオ信号を示すデータとともに)使われる。
要素23は、段21および22から出力されるデータに応答してパラメトリック・データを生成するよう構成されている。パラメトリック・データは、もとの混合されたオーディオ・データとともに、パラメトリックに構築された発話を決定する。これは、もとの発話データ(すなわち、混合されたオーディオ・データの発話コンテンツ)によって示される発話のパラメトリックに再構成されたバージョンである。発話のパラメトリックに再構成されたバージョンは、少なくとも実質的に、もとの発話データによって示される発話にマッチする(たとえば、その良好な近似である)。パラメトリック・データは、混合されたオーディオ・データによって決定される未向上の混合されたコンテンツの各セグメントに対して、パラメトリック符号化発話向上を実行するためのパラメトリック符号化向上パラメータp(t)の組を決定する。
ブレンド・インジケータ生成要素29は、段21および22から出力されるデータに応答して、ブレンド・インジケータ(「BI」)を生成するよう構成される。エンコーダ20から出力されたビットストリームによって示されるオーディオ・プログラムは(たとえばデコーダ40において)ハイブリッド発話向上を受けて、発話向上されたオーディオ・プログラムを決定することが考えられている。これは、もとのプログラムの未向上のオーディオ・データを、(波形データから決定される)低品質発話データおよびパラメトリック・データの組み合わせと組み合わせることによることを含む。ブレンド・インジケータはそのような組み合わせを決定する(たとえば、前記組み合わせは、前記ブレンド・インジケータの現在値のシーケンスによって決定される状態のシーケンスをもつ)。それにより、発話向上されたオーディオ・プログラムは、前記低品質発話データを前記未向上のオーディオ・データと組み合わせるだけによって決定される純粋に波形符号化発話向上されたオーディオ・プログラムよりも、前記パラメトリックに構築された発話を前記未向上のオーディオ・データと組み合わせるだけによって決定される純粋にパラメトリック符号化発話向上されたオーディオ・プログラムよりも、少ない可聴発話向上符号化アーチファクト(たとえば、よりよくマスクされた発話向上符号化アーチファクト)をもつ。
図3の実施形態の変形では、本発明のハイブリッド発話向上のために用いられるブレンド・インジケータは、本発明のエンコーダにおいて生成されず(そしてエンコーダから出力されるビットストリームには含められず)、その代わり、エンコーダから出力されるビットストリーム(このビットストリームは、波形データおよびパラメトリック・データを含む)に応答して(たとえば受信器40の変形において)生成される。
「ブレンド・インジケータ」という表現は、ビットストリームの各セグメントについての単一のパラメータまたは値(または単一のパラメータまたは値のシーケンス)を表わすことは意図されていないことを理解しておくべきである。むしろ、いくつかの実施形態では、(ビットストリームのあるセグメントについての)ブレンド・インジケータは、二つ以上のパラメータまたは値の組(たとえば、各セグメントについて、パラメトリック符号化向上の制御パラメータおよび波形符号化向上の制御パラメータ)でありうることが考えられている。
エンコード・サブシステム27は、混合されたオーディオ・データのオーディオ・コンテンツを示すエンコードされたオーディオ・データ(典型的には混合されたオーディオ・データの圧縮されたバージョン)を生成する。エンコード・サブシステム27は典型的には、段22において実行される変換の逆および他のエンコード動作を実装する。
フォーマット段28は、要素23から出力されるパラメトリック・データ、要素25から出力される波形データ、要素29において生成されるブレンド・インジケータおよびサブシステム27から出力されるエンコードされたオーディオ・データを集めて、オーディオ・プログラムを示すエンコードされたビットストリームにする。ビットストリーム(いくつかの実装ではE-AC-3またはAC-3フォーマットを有していてもよい)は、エンコードされていないパラメトリック・データ、波形データおよびブレンド・インジケータを含む。
エンコーダ20から出力されるエンコードされたオーディオ・ビットストリーム(エンコードされたオーディオ信号)は、送達サブシステム30に提供される。送達サブシステム30は、エンコーダ20によって生成されるエンコードされたオーディオ信号を記憶する(たとえば、該エンコードされたオーディオ信号を示すデータを記憶する)および/または該エンコードされたオーディオ信号を伝送するよう構成されている。
デコーダ40は、サブシステム30からのエンコードされたオーディオ信号を受領し(たとえば、サブシステム30内の記憶からエンコードされたオーディオ信号を示すデータを読むまたは取り出すことまたはサブシステム30によって送信されたエンコードされたオーディオ信号を受信することによって)、該エンコードされたオーディオ信号の混合された(発話および非発話)オーディオ・コンテンツをデコードし、デコードされた混合されたオーディオ・コンテンツに対してハイブリッド発話向上を実行するよう結合および構成(たとえばプログラム)されている。デコーダ40は、典型的には、エンコーダ20に入力された混合されたオーディオ・コンテンツの発話向上されたバージョンを示す発話向上されたデコードされたオーディオ信号を生成し、(たとえば図3には示さないレンダリング・システムに)出力するよう構成されている。あるいはまた、デコーダ40は、サブシステム43の出力を受領するよう結合されているそのようなレンダリング・システムを含む。
デコーダ40のバッファ44(バッファ・メモリ)は、デコーダ40によって受領されたエンコードされたオーディオ信号(ビットストリーム)の少なくとも一つのセグメント(たとえばフレーム)を(たとえば非一時的な仕方で)記憶する。典型的な動作では、エンコードされたオーディオ・ビットストリームのセグメントのシーケンスが、バッファ44に与えられ、バッファ44から脱フォーマット段41に呈される。
デコーダ40の脱フォーマット(パース)段41は、送達サブシステム30からのエンコードされたビットストリームをパースし、そこから(エンコーダ20の要素23によって生成された)パラメトリック・データ、(エンコーダ20の要素25によって生成された)波形データ、(エンコーダ20の要素29によって生成された)ブレンド・インジケータおよび(エンコーダ20のエンコード・サブシステム27において生成された)エンコードされた混合された(発話および非発話)オーディオ・データを抽出するよう構成されている。
エンコードされた混合されたオーディオ・データは、デコーダ40のデコード・サブシステム42においてデコードされ、結果として得られるデコードされた混合された(発話および非発話)オーディオ・データがハイブリッド発話向上サブシステム43に呈される(そして、任意的には発話向上を受けることなくデコーダ40から出力される)。
ビットストリームから段41によって抽出された(またはビットストリームに含まれたメタデータに応答して段41において生成された)(ブレンド・インジケータを含む)制御データに応答して、かつ、段41によって抽出されたパラメトリック・データおよび波形データに応答して、発話向上サブシステム43は、本発明のある実施形態に基づいてデコード・サブシステム42からデコードされた混合された(発話および非発話)オーディオ・データに対してハイブリッド発話向上を実行する。サブシステム43から出力される発話向上されたオーディオ信号は、エンコーダ20に入力された混合されたオーディオ・コンテンツの発話向上されたバージョンを示す。
図3のエンコーダ20のさまざまな実装において、サブシステム23は、デコードされた混合されたオーディオ信号の発話成分の再構成のために(たとえばデコーダ40において)使うための、混合されたオーディオ入力信号の各チャネルの各タイルについて、予測パラメータpiの記述される例の任意のものを生成してもよい。
デコードされた混合されたオーディオ信号の発話内容を示す発話信号(たとえば、エンコーダ20のサブシステム25によって生成された発話の低品質コピーまたはエンコーダ20のサブシステム23によって生成された予測パラメータpiを使って生成された発話コンテンツの再構成)を用いて、(たとえば図3のデコーダ40の43のサブシステムにおいて)該発話信号をデコードされた混合されたオーディオ信号と混合することによって、発話向上が実行されることができる。加えられる(混合して入れられる)べき発話に利得を適用することによって、発話向上の量を制御することが可能である。6dBの向上のために、0dBの利得をもって発話が加えられてもよい(発話向上された混合における発話が、伝送されたまたは再構成された発話信号と同じレベルをもつとして)。発話向上された(speech-enhanced)信号は:
Me=M+g・Dr (9)
である。
いくつかの実施形態では、発話向上利得Gを達成するために、次の混合利得
g=10G/20−1 (10)
が適用される。
チャネル独立な発話再構成の場合、発話向上された混合Me
Me=M・(1+diag(P)・g) (11)
として得られる。
上記の例において、混合されたオーディオ信号の各チャネルにおける発話寄与は、同じエネルギーをもって再構成される。発話がサイド信号として(たとえば混合されたオーディオ信号の低品質コピーとして)送信されたとき、または発話が複数のチャネルを使って(MMSE予測器を用いるなどして)再構成されるとき、発話向上混合は、向上されるべき混合されたオーディオ信号にすでに存在している発話成分と同じ、種々のチャネルにわたる分布をもって発話を混合するために、発話レンダリング情報を必要とする。
このレンダリング情報は、各チャネルについてのレンダリング・パラメータriによって与えられてもよい。これは、三つのチャネルがあるとき、
Figure 0006001814
の形をもつレンダリング・ベクトルRとして表現できる。発話向上混合は:
Me=M+R・g・Dr (13)
となる。
複数のチャネルがあり、(混合されたオーディオ信号の各チャネルと混合されるべき)発話が予測パラメータpiを使って再構成される場合、先の式は
Me=M+R・g・P・M=(I+R・g・P)・M (14)
と書き換えられる。ここで、Iは恒等行列である。
〈5.発話レンダリング〉
図4は、
Me=M+R・g・Dr (15)
の形の通常の発話向上混合を実装する発話レンダリング・システムのブロック図である。
図4では、向上されるべき三チャネルの混合されたオーディオ信号は、周波数領域にある(または周波数領域に変換される)。左チャネルの周波数成分は混合要素52の入力に呈され、中央チャネルの周波数成分は混合要素53の入力に呈され、右チャネルの周波数成分は混合要素54の入力に呈される。
(混合されたオーディオ信号を向上させるために)混合されたオーディオ信号と混合されるべき発話信号は、サイド信号として(たとえば、混合されたオーディオ信号の発話コンテンツの低品質コピーとして)伝送されたものでもよく、あるいは、混合されたオーディオ信号と一緒に伝送される予測パラメータpiから再構成されたものでもよい。発話信号は、周波数領域データによって示され(たとえば、時間領域信号を周波数領域に変換することによって生成された周波数成分を含む)、これらの周波数成分は混合要素51の入力に呈され、そこで、利得パラメータgを乗算される。
要素51の出力は、レンダリング・サブシステム50に呈される。レンダリング・サブシステム50には、CLD(channel level difference[チャネル・レベル差])パラメータCLD1およびCLD2も呈される。これらは混合されたオーディオ信号と一緒に伝送されている。(混合されたオーディオ信号の各セグメントについての)CLDパラメータは、発話信号が混合されたオーディオ信号コンテンツの前記セグメントの諸チャネルにどのように混合されるかを記述する。CLD1は、(たとえば、左および中央のチャネルの間の発話のパンを定義する)一対のスピーカー・チャネルについてのパン係数を示し、CLD2は、(たとえば、中央および右のチャネルの間の発話のパンを定義する)スピーカー・チャネルの別の対についてのパン係数を示す。このように、レンダリング・サブシステム50は(要素52に)、左チャネルのためのR・g・Dr(発話コンテンツを左チャネルについての利得パラメータおよびレンダリング・パラメータによってスケールしたもの)を示すデータを呈し、このデータは、要素52において、混合されたオーディオ信号の左チャネルと合計される。レンダリング・サブシステム50は(要素53に)、中央チャネルのためのR・g・Dr(発話コンテンツを中央チャネルについての利得パラメータおよびレンダリング・パラメータによってスケールしたもの)を示すデータを呈し、このデータは、要素53において、混合されたオーディオ信号の中央チャネルと合計される。レンダリング・サブシステム50は(要素54に)、右チャネルのためのR・g・Dr(発話コンテンツを右チャネルについての利得パラメータおよびレンダリング・パラメータによってスケールしたもの)を示すデータを呈し、このデータは、要素54において、混合されたオーディオ信号の右チャネルと合計される。
要素52、53および54の出力はそれぞれ、左スピーカーL、中央スピーカーCおよび右スピーカー「Right」を駆動するために用いられる。
図5は、
Me=M+R・g・P・M=(I+R・g・P)・M (16)
の形の通常の発話向上混合を実装する発話レンダリング・システムのブロック図である。
図5では、向上されるべき三チャネルの混合されたオーディオ信号は、周波数領域にある(または周波数領域に変換される)。左チャネルの周波数成分は混合要素52の入力に呈され、中央チャネルの周波数成分は混合要素53の入力に呈され、右チャネルの周波数成分は混合要素54の入力に呈される。
混合されたオーディオ信号と混合されるべき発話信号は、混合されたオーディオ信号と一緒に伝送された予測パラメータpiから(示されるように)再構成される。予測パラメータp1は、混合されたオーディオ信号の第一(左)チャネルから発話を再構成するために用いられ、予測パラメータp2は、混合されたオーディオ信号の第二(中央)チャネルから発話を再構成するために用いられ、予測パラメータp3は、混合されたオーディオ信号の第三(右)チャネルから発話を再構成するために用いられる。発話信号は、周波数領域データによって示され、これらの周波数成分は混合要素51の入力に呈され、そこで利得パラメータgを乗算される。
要素51の出力は、レンダリング・サブシステム55に呈される。レンダリング・サブシステムには、CLD(channel level difference[チャネル・レベル差])パラメータCLD1およびCLD2も呈される。これらは混合されたオーディオ信号と一緒に伝送されている。(混合されたオーディオ信号の各セグメントについての)CLDパラメータは、発話信号が混合されたオーディオ信号コンテンツの前記セグメントの諸チャネルにどのように混合されるかを記述する。CLD1は、(たとえば、左および中央のチャネルの間の発話のパンを定義する)一対のスピーカー・チャネルについてのパン係数を示し、CLD2は、(たとえば、中央および右のチャネルの間の発話のパンを定義する)スピーカー・チャネルの別の対についてのパン係数を示す。このように、レンダリング・サブシステム55は(要素52に)、左チャネルのためのR・g・P・M(再構成された発話コンテンツを混合オーディオ・コンテンツの左チャネルと混合し、左チャネルについての利得パラメータおよびレンダリング・パラメータによってスケールし、混合オーディオ・コンテンツの左チャネルと混合したもの)を示すデータを呈し、このデータは、要素52において、混合されたオーディオ信号の左チャネルと合計される。レンダリング・サブシステム55は(要素53に)、中央チャネルのためのR・g・P・M(再構成された発話コンテンツを混合オーディオ・コンテンツの中央チャネルと混合し、中央チャネルについての利得パラメータおよびレンダリング・パラメータによってスケールしたもの)を示すデータを呈し、このデータは、要素53において、混合されたオーディオ信号の中央チャネルと合計される。レンダリング・サブシステム55は(要素54に)、右チャネルのためのR・g・P・M(再構成された発話コンテンツを混合オーディオ・コンテンツの右チャネルと混合し、右チャネルについての利得パラメータおよびレンダリング・パラメータによってスケールしたもの)を示すデータを呈し、このデータは、要素54において、混合されたオーディオ信号の右チャネルと合計される。
要素52、53および54の出力はそれぞれ、左スピーカーL、中央スピーカーCおよび右スピーカー「Right」を駆動するために用いられる。
CLD(チャネル・レベル差)パラメータは、従来、スピーカー・チャネル信号と一緒に伝送される(たとえば、種々のチャネルがレンダリングされるべきレベルの間の比を決定するために)。これらは、本発明のいくつかの実施形態では新規な仕方で(たとえば、発話を、発話向上されたオーディオ・プログラムのスピーカー・チャネルの間でパンするために)使われる。
典型的な実施形態では、レンダリング・パラメータriは、発話のアップミックス係数である(またはそれを示す)。これは、発話信号が、向上されるべき、混合されたオーディオ信号の諸チャネルにどのように混合されるかを記述する。これらの係数は、チャネル・レベル差パラメータ(CLD)を使って、効率的に発話向上器に伝送されうる。一つのCLDは二つのスピーカーについてのパン係数を示す。たとえば、
Figure 0006001814
ここで、β1は第一のスピーカーのためのスピーカー・フィードについての利得を示し、β2はパンの間のある時点における第二のスピーカーのためのスピーカー・フィードについての利得を示す。CLD=0では、パンは完全に第一のスピーカー上にある。一方、CLDが無限大に近づくと、パンは完全に第二のスピーカーのほうになる。dB領域で定義されたCLDでは、パンを記述するために、限られた数の量子化レベルが十分でありうる。
二つのCLDでは、三つのスピーカーにわたるパンが定義されることができる。CLDはレンダリング係数から次のように導出されることができる。
Figure 0006001814
ここで、
Figure 0006001814

Figure 0006001814
となるような規格化されたレンダリング係数である。
その際、レンダリング係数は、CDLから次式によって再構成されることができる。
Figure 0006001814
本稿の他所で述べたように、波形符号化発話向上は、向上されるべき混合コンテンツ信号の発話コンテンツの低品質コピーを使う。低品質コピーは典型的には、低ビットレートで符号化され、混合コンテンツ信号と一緒にサイド信号として伝送される。よって、低品質コピーは典型的には有意な符号化アーチファクトを含む。このように、波形符号化発話向上は、低いSNR(すなわち、発話と、混合コンテンツ信号によって示される他のすべての音との間の低い比)の状況において良好な発話向上性能を提供し、典型的には、高いSNRの状況では貧弱な性能を提供する(すなわち、望ましくない可聴な符号化アーチファクトを生じる)。
逆に、(向上されるべき混合コンテンツ信号の)発話コンテンツが単独で取り出される(たとえば、マルチチャネルの混合コンテンツ信号の中央チャネルの唯一のコンテンツとして提供される)あるいは混合コンテンツ信号が他の事情で高いSNRをもつときは、パラメトリック符号化発話向上が良好な発話向上性能を提供する。
したがって、波形符号化発話向上およびパラメトリック符号化発話向上は相補的な性能をもつ。発話コンテンツが向上されるべき信号の属性に基づいて、本発明のあるクラスの実施形態は、それらの性能をてこ入れするために、二つの方法をブレンドする。
図6は、ハイブリッド発話向上を実行するよう構成されたこのクラスの実施形態の発話レンダリング・システムのブロック図である。ある実装では、図3のデコーダ40のサブシステム43が図6のシステムを具現する(図6に示される三つのスピーカーを除いて)。ハイブリッド発話向上(混合)は、
Me=R・g1・Dr+(I+R・g2・P)・M (23)
によって記述されうる。ここで、R・g1・Drは従来の図4のシステムによって実装される型の波形符号化発話向上であり、R・g2・P・Mは従来の図5のシステムによって実装される型のパラメトリック符号化発話向上であり、パラメータg1およびg2が全体的な向上利得および二つの発話向上方法の間のトレードオフを制御する。パラメータg1およびg2の定義の例は、
g1=αc・(10G/20−1) (24)
g2=(1−αc)・(10G/20−1) (25)
である。パラメータαcはパラメトリック符号化発話向上およびパラメトリック符号化発話向上方法の間のトレードオフを定義する。αc=1の値では、発話の低品質コピーのみが波形符号化発話向上のために使われる。パラメトリック符号化発話向上モードはαc=0のときにフルに向上に寄与する。0と1の間のαcの値は二つの方法をブレンドする。いくつかの実装では、αcは広帯域パラメータである(オーディオ・データのすべての周波数帯域に適用される)。同じ原理は、個々の周波数帯域内に適用されることができる。それにより、ブレンドは、各周波数帯域についてのパラメータαcの異なる値を使って、周波数依存の仕方で最適化される。
図6では、向上されるべき三チャネルの混合されたオーディオ信号は、周波数領域にある(または周波数領域に変換される)。左チャネルの周波数成分は混合要素65の入力に呈され、中央チャネルの周波数成分は混合要素66の入力に呈され、右チャネルの周波数成分は混合要素67の入力に呈される。
(混合されたオーディオ信号を向上させるために)混合されたオーディオ信号と混合されるべき発話信号は、(波形符号化発話向上に従って)混合されたオーディオ信号と一緒に(たとえばサイド信号として)伝送された波形データから生成された混合されたオーディオ信号の発話コンテンツの低品質コピー(図6において「発話」として同定されている)と、混合されたオーディオ信号および(パラメトリック符号化発話向上に従って)混合されたオーディオ信号と一緒に伝送された予測パラメータpiから再構成される(図6のパラメトリック符号化された発話再構成要素68から出力される)再構成された発話信号とを含む。発話信号は、周波数領域データによって示される(たとえば、時間領域信号を周波数領域に変換することによって生成された周波数成分を含む)。低品質発話コピーの周波数成分は混合要素61の入力に呈され、そこで利得パラメータg2を乗算される。パラメトリックに再構成された発話信号の周波数成分は、要素68の出力から混合要素62の入力に呈され、そこで利得パラメータg1を乗算される。代替的な実施形態では、発話向上を実装するために実行される混合は、図6の実施形態のように周波数領域ではなく、時間領域で実行されてもよい。
要素61および62の出力は、加算要素63によって加算されて、混合されたオーディオ信号と混合されるべき発話信号を生成する。この発話信号が要素63の出力からレンダリング・サブシステム64に呈される。レンダリング・サブシステム64には、CLD(channel level difference[チャネル・レベル差])パラメータCLD1およびCLD2も呈される。これらは混合されたオーディオ信号と一緒に伝送されている。(混合されたオーディオ信号の各セグメントについての)CLDパラメータは、発話信号が混合されたオーディオ信号コンテンツの前記セグメントの諸チャネルにどのように混合されるかを記述する。CLD1は、(たとえば、左および中央のチャネルの間の発話のパンを定義する)一対のスピーカー・チャネルについてのパン係数を示し、CLD2は、(たとえば、中央および右のチャネルの間の発話のパンを定義する)スピーカー・チャネルの別の対についてのパン係数を示す。このように、レンダリング・サブシステム64は(要素52に)、左チャネルのためのR・g1・Dr+(R・g2・P)・M(再構成された発話コンテンツを混合オーディオ・コンテンツの左チャネルと混合し、左チャネルについての利得パラメータおよびレンダリング・パラメータによってスケールし、混合オーディオ・コンテンツの左チャネルと混合したもの)を示すデータを呈し、このデータは、要素52において、混合されたオーディオ信号の左チャネルと合計される。レンダリング・サブシステム64は(要素53に)、中央チャネルのためのR・g1・Dr+(R・g2・P)・M(再構成された発話コンテンツを混合オーディオ・コンテンツの中央チャネルと混合し、中央チャネルについての利得パラメータおよびレンダリング・パラメータによってスケールしたもの)を示すデータを呈し、このデータは、要素53において、混合されたオーディオ信号の中央チャネルと合計される。レンダリング・サブシステム64は(要素54に)、右チャネルのためのR・g1・Dr+(R・g2・P)・M(再構成された発話コンテンツを混合オーディオ・コンテンツの右チャネルと混合し、右チャネルについての利得パラメータおよびレンダリング・パラメータによってスケールしたもの)を示すデータを呈し、このデータは、要素54において、混合されたオーディオ信号の右チャネルと合計される。
要素52、53および54の出力はそれぞれ、左スピーカーL、中央スピーカーCおよび右スピーカー「Right」を駆動するために用いられる。
図6のシステムは、パラメータαcが値αc=0または値αc=1をもつよう制約されるときに時間的SNRベースの切り換えを実装してもよい。そのような実装は、低品質発話コピー・データが送られることができるまたはパラメトリック・データが送られることができるが両方は送られることができない、強くビットレート制約された状況において特に有用である。たとえば、あるそのような実装では、低品質発話コピーは、αc=1であるセグメントにおいてのみ、混合されたオーディオ信号と一緒に(たとえばサイド信号として)伝送され、予測パラメータpiはαc=0であるセグメントにおいてのみ、混合されたオーディオ信号と一緒に(たとえばサイド信号として)伝送される。
(図6のこの実装の要素61および62によって実装される)スイッチは、各セグメントに対して波形符号化向上またはパラメトリック符号化向上のどちらが実行されるべきかを、当該セグメント内の発話と他のすべてのオーディオ・コンテンツとの比(SNR)に基づいて決定する(この比はαcの値を決定する)。そのような実装は、どちらの方法を選ぶかを決定するためにSNRの閾値を使ってもよい:
αc=0 SNR>τの場合 (26)
1 SNR≦τの場合
ここで、τは閾値である(たとえば、τは0に等しくてもよい)。
図6のいくつかの実装は、SNRが数フレームにわたって閾値のまわりにあるときに波形符号化向上およびパラメトリック符号化向上モードの間で素速く交互に切り換わることをを防止するためにヒステリシスを用いる。
図6のシステムは、パラメータαcが0から1までの範囲(両端含む)における任意の実数値をもつことが許容されるとき、時間的なSNRに基づくブレンドを実装してもよい。
図6のシステムのある実装は、(向上されるべき混合されたオーディオ信号のセグメントのSNRの)二つの目標値τ1およびτ2を使う。これらの目標値の先では、一方の方法(波形符号化向上またはパラメトリック符号化向上のいずれか)が常に最良の性能を提供すると考えられる。これらの目標の間では、当該セグメントについてのパラメータαcの値を決定するために補間が用いられる。たとえば、セグメントについてのパラメータαcの値を決定するために線形補間が用いられてもよい。
Figure 0006001814
あるいはまた、他の好適な補間方式が使用されることができる。SNRが利用可能でないときは、多くの実装における予測パラメータはSNRの近似を提供するために使われてもよい。
別のクラスの実施形態では、オーディオ信号の各セグメントに対して実行されるべき波形符号化およびパラメトリック符号化向上の組み合わせは、聴覚マスキング・モデルによって決定される。このクラスの典型的な実施形態では、オーディオ・プログラムのセグメントに対して実行されるべき波形符号化およびパラメトリック符号化向上のブレンドについての最適なブレンド比は、符号化ノイズを可聴にならないぎりぎりのところに保つ最高の量の波形符号化向上を使う。聴覚マスキング・モデルを用いる本発明の方法の実施形態の例が図7を参照して本稿で記述される。
より一般に、以下の考察は、オーディオ信号の各セグメントに対して実行されるべき波形符号化およびパラメトリック符号化向上の組み合わせ(たとえばブレンド)を決定するために聴覚マスキング・モデルが使われる実施形態に関する。そのような実施形態では、未向上のオーディオ混合と称される、発話と背景オーディオの混合を示すデータA(t)が、提供され、聴覚マスキング・モデル(たとえば、図7の要素11によって実装されるモデル)に従って処理される。モデルは、未向上のオーディオ混合の各セグメントについてマスキング閾値Θ(f,t)を予測する。未向上のオーディオ混合の、時間インデックスnおよび周波数帯域分割インデックスbをもつ各時間‐周波数タイルのマスキング閾値は、Θn,bと表わされてもよい。
マスキング閾値Θn,bは、フレームnおよび帯域bについて、可聴になることなくどのくらいの歪みが加えられうるかを示す。εD,n,bが(波形符号化向上のために用いられるべき)低品質発話コピーのエンコード誤差(すなわち、量子化ノイズ)であり、εP,n,bがパラメトリック予測誤差であるとする。
このクラスのいくつかの実施形態は、未向上のオーディオ混合コンテンツによって最もよくマスクされる方法(波形符号化またはパラメトリック符号化向上)への硬スイッチを実装する。
Figure 0006001814
多くの実際的な状況では、厳密なパラメトリック予測誤差εD,n,bは発話向上パラメータを生成する瞬間には利用可能でないことがある。これらは、未向上の混合された混合がエンコードされる前に生成されうるからである。特に、パラメトリック符号化方式は、混合されたコンテンツ・チャネルからの発話のパラメトリックな再構成の誤差に対して有意な効果をもつことができる。
したがって、いくつかの代替的な実施形態は、(波形符号化向上のために用いられる)低品質発話コピーが混合コンテンツによってマスクされないときは、(波形符号化向上と一緒の)パラメトリック符号化発話向上においてブレンドする。
Figure 0006001814
ここで、τaは歪み閾値であり、これより先ではパラメトリック符号化向上のみが適用される。この解決策は、全体的な歪みが全体的なマスキング・ポテンシャルより大きいとき、波形符号化およびパラメトリック符号化向上のブレンドを開始する。実際上、これは歪みがすでに可聴であったことを意味する。したがって、0より大きい値をもつ第二の閾値が使われることができる。あるいはまた、平均挙動の代わりにマスクされない時間‐周波数タイルに焦点を当てる条件を使うことができる。
同様に、この手法は、(波形符号化向上のために用いられる)低品質発話コピーにおける歪み(符号化アーチファクト)が高すぎるときに、SNRによって案内されるブレンド規則と組み合わされることができる。この手法の利点は、非常に低いSNRの場合には、パラメトリック符号化向上モードは、低品質発話コピーの歪みよりも可聴なノイズを生じるので、使用されないということである。
もう一つの実装では、いくつかの時間‐周波数タイルについて実行される発話向上の型が、そのような各時間‐周波数タイルにおいてスペクトルの穴〔スペクトラル・ホール〕が検出されるときには、上記の例示的な方式(または同様の方式)によって決定されるものから逸脱する。(波形符号化向上のために用いられる)低品質発話コピーにおいてエネルギーが0であるところ、スペクトルの穴は、たとえば、パラメトリック再構成において対応するタイルにおけるエネルギーを評価することによって検出されることができる。このエネルギーが閾値を超えれば、有意なオーディオと考えられてもよい。これらの場合において、タイルについてのパラメータαcは0に設定されてもよい(あるいは、SNRに依存して、タイルについてのパラメータαcは0に向かってバイアスをかけられてもよい)。
いくつかの実施形態では、本発明のエンコーダは、以下のモードのうちの任意の選択されたものにおいて動作可能である。
1.チャネル独立パラメトリック――このモードでは、パラメータ・セットが発話を含む各チャネルについて伝送される。これらのパラメータを使って、エンコードされたオーディオ・プログラムを受領するデコーダが、該プログラムに対してパラメトリック符号化発話向上を実行し、これらのチャネルにおける発話を任意の量だけブーストすることができる。このパラメータ・セットの伝送のための例示的なビットレートは0.75〜2.25kbpsである。
2.マルチチャネル発話予測――このモードでは、混合されたコンテンツの複数のチャネルが発話信号を予測するために線形結合において組み合わされる。各チャネルについてパラメータ・セットが伝送される。これらのパラメータを使って、エンコードされたオーディオ・プログラムを受領するデコーダは、プログラムに対してパラメトリック符号化された発話向上を実行できる。追加的な位置データが、エンコードされたオーディオ・プログラムと一緒に伝送される。ブーストされた発話をもとの混合中に戻しレンダリングすることを可能にするためである。このパラメータ・セットの伝送のための例示的なビットレートはダイアログ当たり1.5〜6.75kbpsである。
3.波形符号化された発話――このモードでは、オーディオ・プログラムの発話コンテンツの低品質コピーが、通常のオーディオ・コンテンツと並列に、任意の好適な手段によって、別個に(たとえば別個のサブストリームとして)伝送される。エンコードされたオーディオ・プログラムを受領するデコーダは、発話コンテンツのこの別個の低品質コピーをメイン混合と混合することによって、プログラムに対する波形符号化発話向上を実行することができる。0dBの利得をもって発話の低品質コピーを混合することは、振幅が倍になるので、典型的には発話を6dBブーストする。このモードについては、発話信号が関連する諸チャネルにわたって正しく分配されるよう、位置データも伝送される。発話の低品質コピーおよび位置データの伝送のための例示的なビットレートはダイアログ当たり20kbpsを超える。
4.波形‐パラメトリック・ハイブリッド――このモードでは、(プログラムに対して波形符号化発話向上を実行することにおいて使うための)オーディオ・プログラムの発話コンテンツの低品質コピーおよび(プログラムのパラメトリック符号化発話向上を実行することにおいて使うための)各発話含有チャネルについてのパラメータ・セットの両方が、プログラムの未向上の混合された(発話および非発話)オーディオ・コンテンツと並列に伝送される。発話の低品質コピーについてのビットレートが下げられるときは、この信号における、より多くの符号化アーチファクトが可聴になり、伝送のために必要とされる帯域幅が低下する。発話の低品質コピーおよびパラメータ・セットを使ってプログラムの各セグメントに対して実行されるべき波形符号化発話向上とパラメトリック符号化発話向上の組み合わせを決定するブレンド・インジケータも伝送される。受信器では、ハイブリッド発話向上がプログラムに対して実行される。これは、ブレンド・インジケータによって決定される波形符号化発話向上およびパラメトリック符号化発話向上の組み合わせを実行し、それにより発話向上されたオーディオ・プログラムを示すデータを生成することによることを含む。ここでもまた、どこで発話信号をレンダリングするかを示すために、位置データもプログラムの未向上の混合オーディオ・コンテンツと一緒に伝送される。このアプローチの利点は、受信器/デコーダが発話の低品質コピーを破棄して、パラメータ・セットのみを適用してパラメトリック符号化向上を実行する場合に必要とされる受信器/デコーダの複雑さが軽減されることができるということである。発話の低品質コピー、パラメータ・セット、ブレンド・インジケータおよび位置データの伝送のための例示的なビットレートは、ダイアログ当たり8〜24kbpsである。
実際上の理由のため、発話向上利得は0〜12dBの範囲に限定されてもよい。エンコーダは、ビットストリーム・フィールドによってさらにこの範囲の上限をさらに下げることができるよう実装されてもよい。いくつかの実施形態では、(エンコーダから出力される)エンコードされたプログラムのシンタックスは(プログラムの非発話コンテンツに加えて)複数の同時向上可能なダイアログをサポートし、各ダイアログは別個に再構成およびレンダリングされることができる。これらの実施形態では、上記の諸モードにおいて、(異なる空間位置にある複数の源からの)同時ダイアログのための発話向上は単一位置においてレンダリングされる。
エンコードされたオーディオ・プログラムがオブジェクト・ベースのオーディオ・プログラムであるいくつかの実施形態では、一つまたは複数のオブジェクト・クラスター(最大総数のオブジェクト・クラスターの一つまたは複数)が発話向上のために選択されてもよい。オブジェクト・クラスターの間で向上された発話をパンするために、CLD値対が、発話向上およびレンダリング・システムによる使用のためにエンコードされたプログラムに含められてもよい。同様に、エンコードされたオーディオ・プログラムが通常の5.1フォーマットのスピーカー・チャネルを含むいくつかの実施形態では、前方スピーカー・チャネルの一つまたは複数が発話向上のために選択されてもよい。
本発明のもう一つの側面は、本発明のエンコード方法のある実施形態に基づいて生成されたエンコードされたオーディオ信号をデコードし、それに対してハイブリッド発話向上を実行するための方法(たとえば図3のデコーダ40によって実行される方法)である。
本発明は、ハードウェア、ファームウェアまたはソフトウェアまたは両者の組み合わせにおいて(たとえばプログラム可能な論理アレイとして)実装されてもよい。特に断わりのない限り、本発明の一部として含まれるアルゴリズムまたはプロセスは、いかなる特定のコンピュータまたは他の装置にも本来的に関係していない。特に、さまざまな汎用機械が、本願の教示に従って書かれたプログラムとともに使用されてもよく、あるいは必要とされる方法ステップを実行するためにより特化した装置(たとえば集積回路)を構築することがより便利であることがある。このように、本発明は、一つまたは複数のプログラム可能なコンピュータ・システム(たとえば、図3のエンコーダ20または図7のエンコーダまたは図3のデコーダ40を実装するコンピュータ・システム)上で実行される一つまたは複数のコンピュータ・プログラムにおいて実装されてもよい。各コンピュータ・システムは、少なくとも一つのプロセッサ、少なくとも一つのデータ記憶システム(揮発性および不揮発性メモリおよび/または記憶要素を含む)、少なくとも一つの入力装置またはポートおよび少なくとも一つの出力装置またはポートを有する。本稿に記載される機能を実行し、出力情報を生成するようプログラム・コードが入力データに適用される。出力情報は、既知の仕方で一つまたは複数の出力装置に適用される。
そのような各プログラムは、コンピュータ・システムと通信するためにいかなる所望されるコンピュータ言語(機械、アセンブリーまたは高水準手続き型、論理的またはオブジェクト指向のプログラミング言語を含む)において実装されてもよい。いずれの場合にも、言語はコンパイルされる言語でもインタープリットされる言語でもよい。
たとえば、コンピュータ・ソフトウェア命令のシーケンスによって実装されるとき、本発明の実施形態のさまざまな機能および段階は、好適なデジタル信号処理ハードウェアにおいて実行されるマルチスレッド式のソフトウェア命令シーケンスによって実装されてもよく、その場合、実施形態のさまざまな装置、段階および機能は、ソフトウェア命令の諸部分に対応してもよい。
そのような各コンピュータ・プログラムは好ましくは、汎用または専用のプログラム可能なコンピュータによって読み取り可能な記憶媒体またはデバイス(たとえば半導体メモリまたはメディアまたは磁気式もしくは光学式メディア)に記憶されるまたはダウンロードされ、記憶媒体またはデバイスがコンピュータ・システムによって読まれたときに、本稿に記載される手順を実行するようコンピュータを構成するまたは動作させる。本発明のシステムは、コンピュータ・プログラムをもって構成された(すなわちコンピュータ・プログラムを記憶している)コンピュータ可読記憶媒体として実装されてもよく、そのように構成された記憶媒体はコンピュータ・システムに、本稿に記載される機能を実行するよう特定のあらかじめ定義された仕方で動作させる。
本発明のいくつかの実施形態を記述してきたが、本発明の精神および範囲から外れることなくさまざまな修正がなしうることは理解しておくべきである。上記の教示に照らして、本発明の数多くの修正および変形が可能である。付属の請求項の範囲内で、本発明が、本稿で具体的に記載される以外の仕方で実施されてもよいことは理解されうる。
〈6.ミッド/サイド表現〉
本稿に記載される発話向上動作は、M/S表現での制御データ、制御パラメータなどに少なくとも部分的には基づいてオーディオ・デコーダによって実行されてもよい。M/S表現での制御データ、制御パラメータなどは、上流のオーディオ・エンコーダによって生成され、該上流のオーディオ・エンコーダによって生成されたエンコードされたオーディオ信号から当該オーディオ・デコーダによって抽出されてもよい。
発話コンテンツ(たとえば一つまたは複数のダイアログなど)が混合コンテンツから予測されるパラメトリック符号化向上モードでは、発話向上動作は一般に、次式に示されるように、単一の行列Hを用いて表現されうる。
Figure 0006001814
ここで、左辺(LHS)は、右辺(RHS)のもとの混合コンテンツ信号に対して作用する行列Hによって表わされる発話向上動作によって生成される、発話向上された混合コンテンツ信号を表わす。
例解の目的のため、発話向上された混合コンテンツ信号(たとえば式(30)の左辺など)およびもとの混合コンテンツ信号(たとえば、式(30)においてHが作用するもとの混合コンテンツ信号など)のそれぞれは、発話向上されたおよびもとの混合コンテンツをそれぞれ二つのチャネルc1およびc2においてもつ二成分信号を含む。二つのチャネルc1およびc2は、非M/S表現に基づく非M/Sオーディオ・チャネル(左前方チャネル、右前方チャネルなど)であってもよい。さまざまな実施形態において、発話向上された混合コンテンツ信号およびもとの混合コンテンツ信号のそれぞれは、さらに、上記二つの非M/Sチャネルc1およびc2以外のチャネル(たとえばサラウンド・チャネル、低域効果チャネルなど)において非発話コンテンツをもつ成分信号を有していてもよいことを注意しておくべきである。さまざまな実施形態において、発話向上された混合コンテンツ信号およびもとの混合コンテンツ信号のそれぞれは、可能性としては、一つ、式(30)に示されるような二つ、または三つ以上のチャネルにおいて発話コンテンツをもつ成分信号を有していてもよいことを注意しておくべきである。本稿に記載される発話コンテンツは、一つ、二つまたはそれ以上のダイアログを含んでいてもよい。
いくつかの実施形態では、式(30)でHによって表わされる発話向上動作は、混合コンテンツにおける発話コンテンツと他の(たとえば非発話など)コンテンツとの間の比較的高いSNR値をもつ混合コンテンツの時間スライス(セグメント)のために(たとえば、SNRに案内されたブレンド規則によって指示されるように)使用されてもよい。
行列Hは、次式に示されるように、M/S表現での向上動作を表わす行列HMSに、非M/S表現からM/S表現への順変換行列を右から乗算し、該順変換行列の逆(これは因子1/2を含む)を左から乗算した積として書き直してもよい(展開されてもよい)。
Figure 0006001814
ここで、行列HMSの右側の例示的な変換行列は、該順変換行列に基づいて、M/S表現におけるミッド・チャネルの混合コンテンツ信号を、二つのチャネルc1およびc2における二つの混合コンテンツ信号の和として定義し、M/S表現におけるサイド・チャネルの混合コンテンツ信号を、二つのチャネルc1およびc2における二つの混合コンテンツ信号の差として定義する。さまざまな実施形態において、式(31)に示される例示的な変換行列以外の他の変換行列(たとえば、異なる非M/Sチャネルに異なる重みを割り当てるものなど)が、ある表現から異なる表現に混合コンテンツ信号を変換するために使用されてもよい。たとえば、ファントム中心においてレンダリングされず不均等な重みλ1およびλ2をもって上記二つの信号の間でパンされるダイアログでのダイアログ向上についてである。M/S変換行列は、次式に示されるように、サイド信号におけるダイアログ成分のエネルギーを最小化するために修正されてもよい。
Figure 0006001814
この例示的実施形態では、M/S表現における向上動作を表わす行列HMSは、次式に示されるように、対角化された(たとえばエルミートなど)行列として定義されてもよい。
Figure 0006001814
ここで、p1およびp2はそれぞれミッド・チャネルおよびサイド・チャネル予測パラメータを表わす。予測パラメータp1およびp2のそれぞれは、混合コンテンツ信号から発話コンテンツを再構成するために使用されるべき、M/S表現における対応する混合コンテンツ信号の時間‐周波数タイルについての時間変化する予測パラメータ・セットを含んでいてもよい。利得パラメータgは、たとえば式(10)に示される発話向上利得Gに対応する。
いくつかの実施形態では、M/S表現における発話向上動作は、パラメトリック・チャネル独立の向上モードにおいて実行される。いくつかの実施形態では、M/S表現における発話向上動作は、ミッド・チャネル信号およびサイド・チャネル信号の両方における予測された発話コンテンツをもって、あるいはミッド・チャネル信号のみにおける予測された発話コンテンツをもって、実行される。例解の目的のため、M/S表現における発話向上動作は、次式に示されるように、ミッド・チャネル信号のみにおける混合発話コンテンツをもって実行される。
Figure 0006001814
ここで、パラメータp1は、ミッド・チャネルのみにおける混合コンテンツ信号から発話コンテンツを再構成するために使用されるべき、M/S表現のミッド・チャネルにおける混合コンテンツ信号の時間‐周波数タイルについての単一の予測パラメータ・セットを含む。利得パラメータgは、たとえば式(10)に示される発話向上利得Gに対応する。
式(33)に与えられる対角化された行列HMSに基づくと、式(31)によって表わされるパラメトリック向上モードにおける発話向上動作は、さらに、次式に帰着されることができる。これは式(30)における行列Hの明示的な例を与える。
Figure 0006001814
波形‐パラメトリック・ハイブリッド向上モードでは、発話向上動作は、次の例示的な式をもってM/S表現において表わされることができる。
Figure 0006001814
ここで、m1およびm2はそれぞれ、混合コンテンツ信号ベクトルMにおける、ミッド・チャネル混合コンテンツ信号(たとえば、左右の前方チャネルのような非M/Sチャネルにおける混合コンテンツ信号の和など)およびサイド・チャネル混合コンテンツ信号(たとえば、左右の前方チャネルのような非M/Sチャネルにおける混合コンテンツ信号の差など)を表わす。信号dc,1はM/S表現のダイアログ信号ベクトルDcにおけるミッド・チャネル・ダイアログ波形信号(たとえば、混合コンテンツにおけるダイアログの低減バージョンを表わすエンコードされた波形など)を表わす。行列Hdは、M/S表現のミッド・チャネルにおけるダイアログ信号dc,1に基づく、M/S表現における発話向上動作を表わし、第1行第1列の一つの行列要素のみを含んでいてもよい(1×1)。行列Hpは、M/S表現のミッド・チャネルについての予測パラメータp1を使う再構成されたダイアログに基づくM/S表現における発話向上動作を表わす。いくつかの実施形態では、パラメータg1およびg2はまとめて、たとえば式(23)および(24)に描かれた発話向上利得Gに対応する(たとえば、それぞれダイアログ波形信号および再構成されたダイアログに適用された後など)。具体的には、パラメータg1は、M/S表現のミッド・チャネルにおけるダイアログ信号dc,1に関係する波形符号化発話向上動作において適用され、一方、パラメータg2は、M/S表現のミッド・チャネルおよびサイド・チャネルにおける混合コンテンツ信号m1およびm2に関係するパラメトリック符号化発話向上動作において適用される。パラメータg1およびg2は、全体的な向上利得および二つの発話向上方法の間のトレードオフを制御する。
非M/S表現では、式(35)で表わされたものに対応する発話向上動作は、次式で表現できる。
Figure 0006001814
ここで、式(35)に示されたM/S表現における混合コンテンツ信号m1およびm2は、非M/Sチャネルにおける混合コンテンツ信号Mc1およびMc2に非M/S表現とM/S表現の間の順変換行列を左からかけたもので置き換えられている。式(36)における(因子1/2をもつ)逆変換行列は、式(35)に示されるM/S表現における発話向上された混合コンテンツ信号を、非M/S表現(たとえば、左右の前方チャネルなど)における発話向上された混合コンテンツ信号に変換し戻す。
追加的、任意的または代替的に、発話向上動作の後に行なわれるさらなるQMFベースの処理がないいくつかの実施形態では、ダイアログ信号dc,1に基づく発話向上されたコンテンツと予測を通じた再構成されたダイアログに基づく発話向上された混合コンテンツとを組み合わせる(Hd、Hp、変換などによって表わされる)発話向上動作の一部または全部が、効率性の理由のために時間領域でQMF合成フィルタバンク後に実行されてもよい。
M/S表現のミッド・チャネルおよびサイド・チャネルの一方または両方における混合コンテンツ信号から発話コンテンツを構築/予測するために使われる予測パラメータは、図1に描かれたチャネル独立ダイアログ予測方法、図2に描かれたマルチチャネル・ダイアログ予測方法などの任意のものを含むがそれに限られない一つまたは複数の予測パラメータ生成方法のうちの一つに基づいて生成されてもよい。いくつかの実施形態では、予測パラメータ生成方法の少なくとも一つがMMSE、勾配降下法、一つまたは複数の他の最適化法などに基づいていてもよい。
いくつかの実装では、先に論じた「盲目的な」時間的なSNRに基づく切り換え方法が、M/S表現におけるオーディオ・プログラムの諸セグメントの、パラメトリック符号化向上データ(たとえばダイアログ信号dc,1に基づく発話向上されたコンテンツなどに関係する)と波形符号化向上(たとえば予測を通じた再構成されたダイアログに基づく発話向上された混合コンテンツなどに関係する)の間で使われてもよい。
いくつかの実施形態では、M/S表現における波形データ(たとえばダイアログ信号dc,1に基づく発話向上されたコンテンツなどに関係する)と再構成された発話データ(たとえば予測を通じた再構成されたダイアログに基づく発話向上された混合コンテンツなどに関係する)の組み合わせ(たとえば、先に論じたブレンド・インジケータ、式(35)におけるg1およびg2の組み合わせなどによって示される)は、時間とともに変化し、該組み合わせの各状態は、波形データおよび発話データ再構成に使われる混合コンテンツを担持するビットストリームの対応するセグメントの発話および他のオーディオ・コンテンツに関する。ブレンド・インジケータは、プログラムの対応するセグメントにおいて、(波形データおよび再構成された発話データの)組み合わせの現在状態が発話および他のオーディオ・コンテンツの信号属性(たとえば、発話コンテンツのパワーと他のオーディオ・コンテンツのパワーの比、SNRなど)によって決定されるよう、生成される。オーディオ・プログラムのセグメントについてのブレンド・インジケータは、そのセグメントについての図3のエンコーダのサブシステム29において生成されるブレンド・インジケータ・パラメータ(またはパラメータ・セット)であってもよい。先に論じた聴覚マスキング・モデルは、ダイアログ信号ベクトルDCにおける低下品質発話コピーにおける符号化ノイズがメイン・プログラムのオーディオ混合によってどのようにマスクされているかをより正確に予測し、ブレンド比をしかるべく選択するために使われてもよい。
図3のエンコーダ20のサブシステム28は、エンコーダ20から出力されるM/S発話向上メタデータの一部として、ビットストリーム中のM/S発話向上動作に関係するブレンド・インジケータを含めるよう構成されていてもよい。M/S発話向上動作に関係するブレンド・インジケータは、ダイアログ信号DCにおける符号化アーチファクトに関係するスケーリング因子gmax(t)などから(たとえば、図7のエンコーダのサブシステム13において)生成されてもよい。スケーリング因子gmax(t)は、図7のエンコーダのサブシステム14によって生成されてもよい。図7のエンコーダのサブシステム13は、図7のエンコーダから出力されるビットストリーム中に、ブレンド・インジケータを含めるよう構成されてもよい。追加的、任意的または代替的に、サブシステム13は、サブシステム14によって生成されたスケーリング因子gmax(t)を図7のエンコーダから出力されるビットストリーム中に含めてもよい。
いくつかの実施形態では、図7の動作10によって生成された未向上のオーディオ混合A(t)は、参照オーディオ・チャネル構成における混合コンテンツ信号ベクトル(たとえばその時間セグメントなど)を表わす。図7の要素12によって生成されるパラメトリック符号化向上パラメータp(t)は、混合コンテンツ信号ベクトルの各セグメントに関するM/S表現におけるパラメトリック符号化発話向上のためのM/S発話向上メタデータの少なくとも一部を表わす。いくつかの実施形態では、図7の符号化器15によって生成される低下品質発話コピーs'(t)は、M/S表現における(たとえばミッド・チャネル・ダイアログ信号、サイド・チャネル・ダイアログ信号などをもつ)ダイアログ信号ベクトルを表わす。
いくつかの実施形態では、図7の要素14は、スケーリング因子gmax(t)を生成し、それらをエンコード要素13に提供する。いくつかの実施形態では、要素13は、オーディオ・プログラムの各セグメントについて、参照オーディオ・チャネル構成における(たとえば未向上などの)混合コンテンツ信号ベクトルを示すエンコードされたオーディオ・ビットストリームと、M/S発話向上メタデータと、該当するならM/S表現におけるダイアログ信号ベクトルと、該当するならスケーリング因子gmax(t)とを生成し、このエンコードされたオーディオ・ビットストリームが受信側に送信または他の仕方で送達されてもよい。
非M/S表現における未向上のオーディオ信号がM/S発話向上メタデータとともに受領器に送達される(たとえば送信される)とき、受領器は、M/S表現における未向上のオーディオ信号の各セグメントを変換し、該セグメントについてのM/S発話向上メタデータによって示されるM/S発話向上動作を実行してもよい。プログラムのあるセグメントについてのM/S表現におけるダイアログ信号ベクトルは、そのセグメントについての発話向上動作がハイブリッド発話向上モードにおいてまたは波形符号化向上モードにおいて実行されるべき場合には、非M/S表現における未向上の混合コンテンツ信号ベクトルと一緒に提供されることができる。該当するなら、ビットストリームを受領し、パースする受領器は、スケーリング因子gmax(t)に応答してブレンド・インジケータを生成し、式(35)における利得パラメータg1およびg2を生成するよう構成されていてもよい。
いくつかの実施形態では、発話向上動作は、少なくとも部分的には、要素13のエンコードされた出力が送達された受領器において、M/S表現において実行される。一例では、未向上の混合コンテンツ信号の各セグメントに対して、あらかじめ決定された(たとえば要求された)向上総量に対応する式(35)の利得パラメータg1およびg2が、少なくとも部分的には、受領器によって受領されたビットストリームからパースされたブレンド・インジケータに基づいて、適用されてもよい。もう一つの例では、未向上の混合コンテンツ信号の各セグメントに対して、あらかじめ決定された(たとえば要求された)向上総量に対応する式(35)の利得パラメータg1およびg2が、少なくとも部分的には、受領器によって受領されたビットストリームからパースされた当該セグメントについてのスケール因子gmax(t)から決定されるブレンド・インジケータに基づいて、適用されてもよい。
いくつかの実施形態では、図3のエンコーダ20の要素23は、段21および22から出力されたデータに応答して、M/S発話向上メタデータ(たとえば、ミッド・チャネルおよび/またはサイド・チャネルにおける混合コンテンツからダイアログ/発話コンテンツを再構成するための予測パラメータなど)を含むパラメトリック・データを生成するよう構成されている。いくつかの実施形態では、図3のエンコーダ20のブレンド・インジケータ生成要素29は、段21および22から出力されるデータに応答して、(たとえば利得パラメータg1などをもつ)パラメトリック発話向上されたコンテンツと(たとえば利得パラメータg1などをもつ)波形ベースの発話向上されたコンテンツの組み合わせを決定することに向けたブレンド・インジケータ(「BI」)を生成するよう構成される。
図3の実施形態の変形では、M/Sハイブリッド発話向上のために用いられるブレンド・インジケータは、エンコーダにおいて生成されるのではなく(エンコーダから出力されるビットストリームには含まれない)、その代わり、エンコーダから出力されるビットストリーム(該ビットストリームは、M/Sチャネルにおける波形データおよびM/S波形向上メタデータは含んでいる)に応答して(たとえばある変形では受領器40において)生成される。
デコーダ40は、サブシステム30からエンコードされたオーディオ信号を(たとえば、サブシステム30内の記憶からエンコードされたオーディオ信号を示すデータを読むまたは取り出すことまたはサブシステム30によって送信されたエンコードされたオーディオ信号を受信することによって)受領し、エンコードされたオーディオ信号から参照オーディオ・チャネル構成における混合(発話および非発話)コンテンツ信号ベクトルを示すデータをデコードし、少なくとも部分的にはM/S表現において、前記参照オーディオ・チャネル構成におけるデコードされた混合コンテンツに対して、発話向上動作を実行するよう結合および構成(たとえばプログラム)されている。デコーダ40は、発話向上された混合コンテンツを示す発話向上されたデコードされたオーディオ信号を生成し、(たとえばレンダリング・システムなどに)出力するよう構成されていてもよい。
いくつかの実施形態では、図4ないし図6に描かれたレンダリング・システムの一部または全部は、M/S発話向上動作によって生成される発話向上された混合コンテンツをレンダリングするよう構成されていてもよい。該動作の少なくとも一部は、M/S表現において実行される動作である。図6Aは、式(35)において表わされる発話向上動作を実行するよう構成された例示的なレンダリング・システムを示している。
図6Aのレンダリング・システムは、パラメトリック発話向上動作において使われる少なくとも一つの利得パラメータ(たとえば、式(35)におけるg2など)が(たとえばハイブリッド向上モードにおいて、パラメトリック向上モードにおいて、など)0でないことを判別することに応答して、パラメトリック発話向上動作を実行するよう構成されていてもよい。たとえば、そのような判別に際して、図6Aのサブシステム68Aは、非M/Sチャネルにわたって分配されている混合コンテンツ信号ベクトル(「混合オーディオ(T/F)」)に対して変換を実行して、M/Sチャネルにわたって分配されている対応する混合コンテンツ信号ベクトルを生成するよう構成されていることができる。この変換は、適宜順変換行列を使ってもよい。予測パラメータ(たとえばp1、p2など)、パラメトリック向上動作のための利得パラメータ(たとえば式(35)のg2など)が適用されて、M/Sチャネルの混合コンテンツ信号ベクトルから発話コンテンツを予測し、予測された発話コンテンツを向上させてもよい。
図6Aのレンダリング・システムは、波形符号化発話向上動作において使われる少なくとも一つの利得パラメータ(たとえば、式(35)におけるg1など)が(たとえばハイブリッド向上モードにおいて、波形符号化向上モードにおいて、など)0でないことを判別することに応答して、波形符号化発話向上動作を実行するよう構成されていてもよい。たとえば、そのような判別に際して、図6Aのレンダリング・システムは、受領されたエンコードされたオーディオ信号から、M/Sチャネルにわたって分配されているダイアログ信号ベクトル(たとえば、混合コンテンツ信号ベクトルに存在する発話コンテンツの低減バージョン)を受領/抽出するよう構成されていることができる。波形符号化向上動作のための利得パラメータ(たとえば、式(35)におけるg1など)が適用されて、M/Sチャネルのダイアログ信号ベクトルによって表わされる発話コンテンツをを向上させてもよい。ユーザー定義可能な向上利得(G)は、ブレンド・パラメータを使って利得パラメータg1およびg2を導出するために使われてもよい。ブレンド・パラメータはビットストリーム中に存在していてもいなくてもよい。いくつかの実施形態では、利得パラメータg1およびg2を導出するためにユーザー定義可能な向上利得(G)と一緒に使用されるブレンド・パラメータは、受領されたエンコードされたオーディオ信号におけるメタデータから抽出されることができる。他のいくつかの実施形態では、そのようなブレンド・パラメータは、受領されたエンコードされたオーディオ信号におけるメタデータから抽出されなくてもよく、受領されたエンコードされたオーディオ信号におけるオーディオ・コンテンツに基づいて受領側エンコーダによって導出されることができる。
いくつかの実施形態では、M/S表現でのパラメトリックな向上された発話コンテンツおよび波形符号化向上された発話コンテンツの組み合わせが、図6Aのサブシステム64Aに呈されるまたは入力される。図6のサブシステム64Aは、M/Sチャネルにわたって分配されている向上された発話コンテンツの組み合わせに対して変換を実行して、非M/Sチャネルにわたって分配されている向上された発話コンテンツ信号ベクトルを生成してもよい。この変換は、適宜逆変換行列を使ってもよい。非M/Sチャネルの向上された発話コンテンツ信号ベクトルは、非M/Sチャネルにわたって分配されている混合コンテンツ信号ベクトル(「混合オーディオ(T/F)」)と組み合わされて、発話向上された混合コンテンツ信号ベクトルを生成してもよい。
いくつかの実施形態では、(たとえば図3のエンコーダ20などから出力される)エンコードされたオーディオ信号のシンタックスは、上流のオーディオ・エンコーダ(たとえば図3のエンコーダ20など)から下流のオーディオ・デコーダ(たとえば図3のデコーダ40など)へのM/Sフラグの伝送をサポートする。M/Sフラグは、少なくとも部分的には該M/Sフラグと一緒に伝送されるM/S制御データ、制御パラメータなどとともに、発話向上動作が受領側オーディオ・デコーダ(たとえば、図3のデコーダ40など)によって実行されるべきときに、オーディオ・エンコーダ(たとえば図3のエンコーダ20における要素23など)によってセットされる/存在する。たとえば、M/Sフラグがセットされているとき、M/Sフラグと一緒に受領されるM/S制御データ、制御パラメータなどを用いて発話向上アルゴリズム(たとえば、チャネル独立ダイアログ予測、マルチチャネル・ダイアログ予測、波形に基づく、波形‐パラメトリック・ハイブリッドなど)の一つまたは複数に従ってM/S発話向上動作を適用する前に、非M/Sチャネルにおけるステレオ信号(たとえば左右チャネルなどからのもの)がまず受領側オーディオ・デコーダ(たとえば図3のデコーダ40など)によってM/S表現のミッド・チャネルおよびサイド・チャネルに変換される。受領側オーディオ・デコーダ(たとえば図3のデコーダ40など)では、M/S発話向上動作が実行された後、M/S表現の発話向上された信号が、非M/Sチャネルに変換し戻されてもよい。
いくつかの実施形態では、本稿に記載されるオーディオ・エンコーダ(たとえば図3のエンコーダ20、図3のエンコーダ20の要素23など)によって生成される発話向上メタデータは、発話向上動作の一つまたは複数の異なる型のための発話向上制御データ、制御パラメータなどの一つまたは複数のセットの存在を示すために一つまたは複数の個別的なフラグを担持することができる。発話向上動作の一つまたは複数の異なる型のための発話向上制御データ、制御パラメータなどの前記一つまたは複数のセットは、M/S制御データ、制御パラメータなどのセットをM/S発話向上メタデータとして含んでいてもよいが、それだけに限られるものではない。発話向上メタデータは、どの型の発話向上動作(たとえば、M/S発話向上動作、非M/S発話向上動作など)が好ましいかを指示するための選好フラグをも含んでいてもよい。発話向上メタデータは、非M/S参照オーディオ・チャネル構成のためにエンコードされた混合オーディオ・コンテンツを含むエンコードされたオーディオ信号において送達されるメタデータの一部として、下流のデコーダ(たとえば図3のデコーダ40など)に送達されてもよい。
追加的、任意的または代替的に、オーディオ・デコーダ(たとえば図3の40など)は、一つまたは複数の因子に基づいて、発話向上動作の特定の型(たとえば、M/S発話向上、非M/S発話向上など)を決定し、実行するよう構成されていることができる。これらの因子は、発話向上動作の特定のユーザー選択された型についての選好を指定するユーザー入力、発話向上動作のシステム選択された型についての選好を指定するユーザー入力、オーディオ・デコーダによって動作させられる特定のオーディオ・チャネル構成の機能、特定の型の発話向上動作のための発話向上メタデータの可用性、ある型の発話向上動作についてのエンコーダ生成された任意の選好フラグなどを含んでいてもよいが、それだけに限られるものではない。いくつかの実施形態では、これらの因子が互いに衝突する場合に特定の型の発話向上動作を決定するために、オーディオ・デコーダは、一つまたは複数の選好規則を実装してもよく、さらなるユーザー入力を求めてもよい、などである。
〈7.例示的なプロセス・フロー〉
図8のAおよびBは、例示的なプロセス・フローを示している。いくつかの実施形態では、メディア処理システムにおける一つまたは複数のコンピューティング装置またはユニットがこのプロセス・フローを実行してもよい。
図8のAは、本稿に記載されるオーディオ・エンコーダ(たとえば図3のエンコーダ20)によって実装されてもよい例示的なプロセス・フローを示している。図8のAのブロック802では、オーディオ・エンコーダは、参照オーディオ・チャネル表現における発話コンテンツおよび非発話オーディオ・コンテンツの混合を有する混合オーディオ・コンテンツであって、該参照オーディオ・チャネル表現の複数のオーディオ・チャネルにわたって分配されているものを受領する。
ブロック804では、オーディオ・エンコーダは、前記参照オーディオ・チャネル表現の前記複数のオーディオ・チャネルにおける一つまたは複数の非ミッド/サイド(M/S)チャネルにわたって分配されている前記混合オーディオ・コンテンツの一つまたは複数の部分を、M/Sオーディオ・チャネル表現の一つまたは複数のM/Sチャネルにわたって分配されているM/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの一つまたは複数の部分に変換する。
ブロック806では、オーディオ・エンコーダは、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分についてのM/S発話向上メタデータを決定する。
ブロック808では、オーディオ・エンコーダは、前記参照オーディオ・チャネル表現における前記混合オーディオ・コンテンツと、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分についての前記M/S発話向上メタデータとを含むオーディオ信号を生成する。
ある実施形態では、オーディオ・エンコーダはさらに、前記混合オーディオ・コンテンツとは別個の、前記M/Sオーディオ・チャネル表現における、前記発話コンテンツのバージョンを生成し、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンとともにエンコードされた、前記オーディオ信号を出力することを実行するよう構成される。
ある実施形態では、オーディオ・エンコーダはさらに、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンに基づく波形符号化発話向上と、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの再構成されたバージョンに基づくパラメトリック発話向上との特定の定量的な組み合わせをもって発話向上を受領側オーディオ・デコーダが前記混合オーディオ・コンテンツに適用できるようにするブレンド指示データを生成し;前記ブレンド指示データとともにエンコードされた、前記オーディオ信号を出力することを実行するよう構成される。
ある実施形態では、前記オーディオ・エンコーダはさらに、前記M/Sオーディオ・チャネル表現における変換されたオーディオ・コンテンツの前記一つまたは複数の部分を前記オーディオ信号の一部としてエンコードすることを防止するよう構成される。
図8のBは、本稿に記載されるオーディオ・デコーダ(たとえば図3のデコーダ40)によって実装されうる例示的なプロセス・フローを示す。図8のBのブロック822では、オーディオ・デコーダは、参照オーディオ・チャネル表現における混合オーディオ・コンテンツと、ミッド/サイド(M/S)発話向上メタデータとを含むオーディオ信号を受領する。
図8のBのブロック824では、オーディオ・デコーダは、前記参照オーディオ・チャネル表現の複数のオーディオ・チャネルにおける一つ、二つまたは三つ以上の非M/Sチャネルにわたって分配されている前記混合オーディオ・コンテンツの一つまたは複数の部分を、M/Sオーディオ・チャネル表現の一つまたは複数のM/Sチャネルにわたって分配されているM/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの一つまたは複数の部分に変換する。
図8のBのブロック826では、オーディオ・デコーダは、前記M/S発話向上メタデータに基づいて、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分に対して一つまたは複数のM/S発話向上動作を実行して、前記M/S表現における向上された発話コンテンツの一つまたは複数の部分を生成する。
図8のBのブロック828では、オーディオ・デコーダは、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分を、前記M/S表現における向上された発話コンテンツの前記一つまたは複数と組み合わせて、前記M/S表現における発話向上された混合オーディオ・コンテンツの一つまたは複数の部分を生成する。
ある実施形態では、オーディオ・デコーダはさらに、前記M/S表現における発話向上された混合オーディオ・コンテンツの前記一つまたは複数の部分を、前記参照オーディオ・チャネル表現における発話向上された混合オーディオ・コンテンツの一つまたは複数の部分に逆変換するよう構成される。
ある実施形態では、オーディオ・デコーダはさらに:前記オーディオ信号から、前記混合オーディオ・コンテンツとは別個の、前記M/Sオーディオ・チャネル表現における、前記発話コンテンツのバージョンを抽出し;前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンの一つまたは複数の部分に対して、前記M/S発話向上メタデータに基づいて一つまたは複数の発話向上動作を実行して、前記M/Sオーディオ・チャネル表現における向上された発話コンテンツの一つまたは複数の第二の部分を生成することを実行するよう構成されている。
ある実施形態では、オーディオ・デコーダはさらに:発話向上のためのブレンド指示データを決定し;発話向上のための前記ブレンド指示データに基づいて、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンに基づく波形符号化発話向上と、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの再構成されたバージョンに基づくパラメトリック発話向上との特定の定量的な組み合わせを生成することを実行するよう構成される。
ある実施形態では、前記ブレンド指示データは、少なくとも部分的には、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分についての一つまたは複数のSNR値に基づいて生成される。前記一つまたは複数のSNR値は、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分の発話コンテンツと非発話オーディオ・コンテンツとのパワーの比ならびに前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分の発話コンテンツと全オーディオ・コンテンツとのパワーの比のうちの一つまたは複数を表わす。
ある実施形態では、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンに基づく波形符号化発話向上と、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの再構成されたバージョンに基づくパラメトリック発話向上との前記特定の定量的な組み合わせは、聴覚マスキング・モデルを用いて決定される。ここで、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンに基づく前記波形符号化発話向上は、波形符号化発話向上と前記パラメトリック発話向上との複数の組み合わせのうちで、出力される発話向上されたオーディオ・プログラムにおける符号化ノイズが不快なほど可聴でないことを保証する、発話向上の最大の相対量を表わす。
ある実施形態では、前記M/S発話向上メタデータの少なくとも一部は、受領側オーディオ・デコーダが、前記参照オーディオ・チャネル表現における前記混合オーディオ・コンテンツから前記M/S表現における前記発話コンテンツのバージョンを再構成できるようにする。
ある実施形態では、前記M/S発話向上メタデータは、前記M/Sオーディオ・チャネル表現における波形符号化発話向上動作または前記M/Sオーディオ・チャネルにおけるパラメトリック発話向上動作の一つまたは複数に関係するメタデータを含む。
ある実施形態では、前記参照オーディオ・チャネル表現はサラウンド・スピーカーに関係するオーディオ・チャネルを含む。ある実施形態では、前記参照オーディオ・チャネル表現における前記一つまたは複数の非M/Sチャネルは、中央チャネル、左チャネルまたは右チャネルのうちの一つまたは複数を含み、一方、前記M/Sオーディオ・チャネル表現の前記一つまたは複数のM/Sチャネルは、ミッド・チャネルまたはサイド・チャネルの一つまたは複数を含む。
ある実施形態では、前記M/S発話向上メタデータは、前記M/Sオーディオ・チャネル表現のミッド・チャネルに関係する発話向上メタデータの単一のセットを含む。ある実施形態では、前記M/S発話向上メタデータは前記オーディオ信号においてエンコードされた全体的なオーディオ・メタデータの一部を表わす。ある実施形態では、前記オーディオ信号においてエンコードされたオーディオ・メタデータは、前記M/S発話向上メタデータの存在を示すデータ・フィールを含む。ある実施形態では、前記オーディオ信号は、オーディオビジュアル信号の一部である。
ある実施形態では、プロセッサを有する装置が、本稿に記載される方法の任意のものを実行するよう構成される。
ある実施形態では、一つまたは複数のプロセッサによって実行されたときに、本稿に記載される方法の任意のものの実行を引き起こすソフトウェア命令を含む非一時的なコンピュータ可読記憶媒体を含む。別個の複数の実施形態が本稿において論じられているものの、本稿で論じられる実施形態および/または部分実施形態の任意の組み合わせが組み合わされてさらなる実施形態を形成してもよいことを注意しておく。
〈8.実装機構――ハードウェアの概観〉
ある実施形態によれば、本稿に記載される技法は、一つまたは複数の特殊目的コンピューティング装置によって実装される。特殊目的コンピューティング装置は、本技法を実行するよう固定構成とされていてもよいし、あるいは一つまたは複数の特定用途向け集積回路(ASIC)またはフィールド・プログラマブル・ゲート・アレイ(FPGA)のような、本技法を実行するよう持続的にプログラムされたデジタル電子デバイスを含んでいてもよいし、あるいはファームウェア、メモリ、他の記憶または組み合わせにおけるプログラム命令に従って本技法を実行するようプログラムされた一つまたは複数の汎用ハードウェア・プロセッサを含んでいてもよい。そのような特殊目的コンピューティング装置は、カスタムの固定構成論理、ASICまたはFPGAをカスタムのプログラミングと組み合わせて本技法を達成してもよい。特殊目的コンピューティング装置はデスクトップ・コンピュータ・システム、ポータブル・コンピュータ・システム、ハンドヘルド装置、ネットワーキング装置または本技法を実装するために固定構成および/またはプログラム論理を組み込んでいる他の任意の装置であってもよい。
たとえば、図9は、本発明のある実施形態が実装されうるコンピュータ・システム900を示すブロック図である。コンピュータ・システム900は、情報を通信するためのバス902または他の通信機構と、情報を処理するための、バス902に結合されたハードウェア・プロセッサ904とを含む。ハードウェア・プロセッサ904はたとえば汎用マイクロプロセッサであってもよい。
コンピュータ・システム900は、ランダム・アクセス・メモリ(RAM)または他の動的記憶装置のような、情報およびプロセッサ904によって実行されるべき命令を記憶するための、バス902に結合されたメイン・メモリ906をも含む。メイン・メモリ906はまた、一時変数または他の中間的な情報を、プロセッサ904によって実行されるべき命令の実行の間、記憶しておくために使われてもよい。そのような命令は、プロセッサ904にとってアクセス可能な非一時的な記憶媒体に記憶されたとき、コンピュータ・システム900を、前記命令において指定されている処理を実行するよう装置固有の特殊目的機械にする。
コンピュータ・システム900はさらに、バス902に結合された、静的な情報およびプロセッサ904のための命令を記憶するための読み出し専用メモリ(ROM)908または他の静的記憶装置を含む。磁気ディスクまたは光ディスクのような記憶装置910が提供され、情報および命令を記憶するためにバス902に結合される。
コンピュータ・システム900は、コンピュータ・ユーザーに対して情報を表示するための、液晶ディスプレイ(LCD)のようなディスプレイ912にバス902を介して結合されていてもよい。英数字その他のキーを含む入力装置914が、情報およびコマンド選択をプロセッサ904に伝えるためにバス902に結合される。もう一つの型のユーザー入力装置は、方向情報およびコマンド選択をプロセッサ904に伝えるとともにディスプレイ912上でのカーソル動きを制御するための、マウス、トラックボールまたはカーソル方向キーのようなカーソル・コントロール916である。この入力装置は典型的には、第一軸(たとえばx)および第二軸(たとえばy)の二つの軸方向において二つの自由度をもち、これにより該装置は平面内での位置を指定できる。
コンピュータ・システム900は、本稿に記載される技法を実施するのに、装置固有の固定構成論理、一つまたは複数のASICもしくはFPGA、コンピュータ・システムと組み合わさってコンピュータ・システム900を特殊目的機械にするまたはプログラムするファームウェアおよび/またはプログラム論理を使ってもよい。ある実施形態によれば、本稿の技法は、プロセッサ904がメイン・メモリ906に含まれる一つまたは複数の命令の一つまたは複数のシーケンスを実行するのに応答して、コンピュータ・システム900によって実行される。そのような命令は、記憶装置910のような別の記憶媒体からメイン・メモリ906に読み込まれてもよい。メイン・メモリ906に含まれる命令のシーケンスの実行により、プロセッサ904は、本稿に記載されるプロセス段階を実行する。代替的な実施形態では、ソフトウェア命令の代わりにまたはソフトウェア命令と組み合わせて固定構成の回路が使用されてもよい。
本稿で用いられる用語「記憶媒体」は、データおよび/または機械に特定の仕方で動作させる命令を記憶する任意の非一時的な媒体を指す。そのような記憶媒体は、不揮発性媒体および/または揮発性媒体を含んでいてもよい。不揮発性媒体は、たとえば、記憶装置910のような光学式または磁気ディスクを含む。揮発性媒体は、メイン・メモリ906のような動的メモリを含む。記憶媒体の一般的な形は、たとえば、フロッピーディスク、フレキシブルディスク、ハードディスク、半導体ドライブ、磁気テープまたは他の任意の磁気データ記憶媒体、CD-ROM、他の任意の光学式データ記憶媒体、孔のパターンをもつ任意の物理的媒体、RAM、PROMおよびEPROM、フラッシュEPROM、NVRAM、他の任意のメモリ・チップまたはカートリッジを含む。
記憶媒体は、伝送媒体とは異なるが、伝送媒体と関連して用いられてもよい。伝送媒体は、記憶媒体間で情報を転送するのに参加する。たとえば、伝送媒体は同軸ケーブル、銅線および光ファイバーを含み、バス902をなすワイヤを含む。伝送媒体は、電波および赤外線データ通信の際に生成されるような音響波または光波の形を取ることもできる。
さまざまな形の媒体が、一つまたは複数の命令の一つまたは複数のシーケンスを実行のためにプロセッサ904に搬送するのに関与しうる。たとえば、命令は最初、リモート・コンピュータの磁気ディスクまたは半導体ドライブ上に担持されていてもよい。リモート・コンピュータは該命令をその動的メモリにロードし、該命令をモデムを使って電話線を通じて送ることができる。コンピュータ・システム900にローカルなモデムが、電話線上のデータを受信し、赤外線送信器を使ってそのデータを赤外線信号に変換することができる。赤外線検出器が赤外線信号において担持されるデータを受信することができ、適切な回路がそのデータをバス902上に載せることができる。バス902はそのデータをメイン・メモリ906に搬送し、メイン・メモリ906から、プロセッサ904が命令を取り出し、実行する。メイン・メモリ906によって受信される命令は、任意的に、プロセッサ904による実行の前または後に記憶装置910上に記憶されてもよい。
コンピュータ・システム900は、バス902に結合された通信インターフェース918をも含む。通信インターフェース918は、ローカル・ネットワーク922に接続されているネットワーク・リンク920への双方向データ通信結合を提供する。たとえば、通信インターフェース918は、統合サービス・デジタル通信網(ISDN)カード、ケーブル・モデム、衛星モデムまたは対応する型の電話線へのデータ通信接続を提供するためのモデムであってもよい。もう一つの例として、通信インターフェース918は、互換LANへのデータ通信接続を提供するためのローカル・エリア・ネットワーク(LAN)カードであってもよい。無線リンクも実装されてもよい。そのようないかなる実装でも、通信インターフェース918は、さまざまな型の情報を表すデジタル・データ・ストリームを搬送する電気的、電磁的または光学的信号を送受信する。
ネットワーク・リンク920は典型的には、一つまたは複数のネットワークを通じた他のデータ装置へのデータ通信を提供する。たとえば、ネットワーク・リンク920は、ローカル・ネットワーク922を通じてホスト・コンピュータ924またはインターネット・サービス・プロバイダー(ISP)926によって運営されているデータ設備への接続を提供してもよい。ISP 926は、現在一般に「インターネット」928と称される世界規模のパケット・データ通信網を通じたデータ通信サービスを提供する。ローカル・ネットワーク922およびインターネット928はいずれも、デジタル・データ・ストリームを担持する電気的、電磁的または光学的信号を使う。コンピュータ・システム900に/からデジタル・データを搬送する、さまざまなネットワークを通じた信号およびネットワーク・リンク920上および通信インターフェース918を通じた信号は、伝送媒体の例示的な形である。
コンピュータ・システム900は、ネットワーク(単数または複数)、ネットワーク・リンク920および通信インターフェース918を通じて、メッセージを送り、プログラム・コードを含めデータを受信することができる。インターネットの例では、サーバー930は、インターネット928、ISP 926、ローカル・ネットワーク922および通信インターフェース918を通じてアプリケーション・プログラムのための要求されたコードを送信してもよい。
受信されたコードは、受信される際にプロセッサ904によって実行されても、または、のちの実行のために記憶装置910または他の不揮発性記憶に記憶されてもよい。
〈9.等価物、拡張、代替その他〉
以上の明細書では、本発明の例示的実施形態について、実装によって変わりうる数多くの個別的詳細に言及しつつ述べてきた。このように、何が本発明であるか、何が出願人によって本発明であると意図されているかの唯一にして排他的な指標は、この出願に対して付与される特許の請求項の、その後の訂正があればそれも含めてかかる請求項が特許された特定の形のものである。かかる請求項に含まれる用語について本稿で明示的に記載される定義があったとすればそれは請求項において使用される当該用語の意味を支配する。よって、請求項に明示的に記載されていない限定、要素、属性、特徴、利点もしくは特性は、いかなる仕方であれかかる請求項の範囲を限定すべきではない。よって、明細書および図面は制約する意味ではなく例示的な意味で見なされるべきものである。

Claims (34)

  1. 参照オーディオ・チャネル表現の複数のオーディオ・チャネルにわたって分配されている、参照オーディオ・チャネル表現における混合オーディオ・コンテンツを受領する段階であって、前記混合オーディオ・コンテンツは発話コンテンツおよび非発話オーディオ・コンテンツの混合を有する、段階と;
    前記参照オーディオ・チャネル表現の前記複数のオーディオ・チャネルにおける二つ以上の非ミッド/サイド(M/S)チャネルにわたって分配されている前記混合オーディオ・コンテンツの一つまたは複数の部分を、M/Sオーディオ・チャネル表現の一つまたは複数のM/Sチャネルにわたって分配されているM/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの一つまたは複数の部分に変換する段階であって、前記M/Sオーディオ・チャネル表現は少なくともミッド・チャネルおよびサイド・チャネルを含み、前記ミッド・チャネルは前記参照オーディオ・チャネル表現の二つのチャネルの重み付けされたまたは重み付けされない和を表わし、前記サイド・チャネルは前記参照オーディオ・チャネル表現の二つのチャネルの重み付けされたまたは重み付けされない差を表わす、段階と;
    前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分の発話向上のためのメタデータを決定する段階と;
    前記混合オーディオ・コンテンツと、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分の発話向上のための前記メタデータとを含むオーディオ信号を生成する段階とを含む、
    一つまたは複数のコンピューティング装置によって実行される方法。
  2. 前記混合オーディオ・コンテンツが非M/Sオーディオ・チャネル表現になっている、請求項1記載の方法。
  3. 前記混合オーディオ・コンテンツとは別個の、前記M/Sオーディオ・チャネル表現における、前記発話コンテンツのバージョンを生成する段階と;
    前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンとともにエンコードされた、前記オーディオ信号を出力する段階とをさらに含む、
    請求項1または2記載の方法。
  4. 受領側オーディオ・デコーダによって生成されるべき第一および第二の型の発話向上の特定の定量的な組み合わせを指示するブレンド指示データを生成する段階であって、前記第一の型の発話向上は、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンに基づく発話向上であり前記第二の型の発話向上は、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの再構成されたバージョンに基づくパラメトリック発話向上である、段階と;
    前記ブレンド指示データとともにエンコードされた、前記オーディオ信号を出力する段階とをさらに含む、
    請求項記載の方法。
  5. 発話向上のための前記メタデータの少なくとも一部が、受領側オーディオ・デコーダが、前記参照オーディオ・チャネル表現における前記混合オーディオ・コンテンツから前記M/S表現における前記発話コンテンツの前記再構成されたバージョンを再構成できるようにする、請求項4記載の方法。
  6. 前記ブレンド指示データは、少なくとも部分的には、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分についての一つまたは複数のSNR値に基づいて生成され、前記一つまたは複数のSNR値は、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分の発話コンテンツと非発話オーディオ・コンテンツとのパワーの比または前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分の発話コンテンツと全オーディオ・コンテンツとのパワーの比のうちの一つまたは複数を表わす、請求項4または5記載の方法。
  7. 前記第一および第二の型の発話向上の前記特定の定量的な組み合わせは聴覚マスキング・モデルを用いて決定され、その際、前記第一の型の話向上が、前記第一および第二の型の発話向上の複数の組み合わせにおける、出力される発話向上されたオーディオ・プログラムにおける符号化ノイズが不快なほど可聴でないことを保証する、発話向上の最大の相対量を表わす、請求項4ないし6のうちいずれか一項記載の方法。
  8. 話向上のための前記メタデータの少なくとも一部は、受領側オーディオ・デコーダが、前記参照オーディオ・チャネル表現における前記混合オーディオ・コンテンツから前記M/S表現における前記発話コンテンツのバージョンを再構成できるようにする、請求項1ないし7のうちいずれか一項記載の方法。
  9. 話向上のための前記メタデータは、前記発話コンテンツの前記バージョンに基づく前記M/Sオーディオ・チャネル表現における発話向上動作または前記M/Sオーディオ・チャネル表現におけるパラメトリック発話向上動作の一つまたは複数に関係するメタデータを含む、請求項1ないし8のうちいずれか一項記載の方法。
  10. 前記参照オーディオ・チャネル表現がサラウンド・スピーカーに関係するオーディオ・チャネルを含む、請求項1ないし9のうちいずれか一項記載の方法。
  11. 前記参照オーディオ・チャネル表現の前記二つ以上の非M/Sチャネルは、中央チャネル、左チャネルまたは右チャネルのうちの二つ以上を含み、一方、前記M/Sオーディオ・チャネル表現の前記一つまたは複数のM/Sチャネルは、ミッド・チャネルまたはサイド・チャネルの一つまたは複数を含む、請求項1ないし10のうちいずれか一項記載の方法。
  12. 話向上のための前記メタデータは、前記M/Sオーディオ・チャネル表現のミッド・チャネルに関係する発話向上メタデータの単一のセットを含む、請求項1ないし11のうちいずれか一項記載の方法。
  13. 前記M/Sオーディオ・チャネル表現における変換されたオーディオ・コンテンツの前記一つまたは複数の部分を前記オーディオ信号の一部としてエンコードすることを防止することをさらに含む、請求項1ないし12のうちいずれか一項記載の方法。
  14. 話向上のための前記メタデータが前記オーディオ信号においてエンコードされる全体的なオーディオ・メタデータの一部を表わす、請求項1ないし13のうちいずれか一項記載の方法。
  15. 前記オーディオ信号においてエンコードされるオーディオ・メタデータが、発話向上のための前記メタデータの存在を示すデータ・フィールを含む、請求項1ないし14のうちいずれか一項記載の方法。
  16. 前記オーディオ信号が、オーディオビジュアル信号の一部である、請求項1ないし15のうちいずれか一項記載の方法。
  17. 参照オーディオ・チャネル表現における混合オーディオ・コンテンツと、発話向上のためのメタデータとを含むオーディオ信号を受領する段階であって、前記混合オーディオ・コンテンツは発話コンテンツおよび非発話オーディオ・コンテンツをもつ、段階と;
    前記参照オーディオ・チャネル表現の複数のオーディオ・チャネルにおける二つ以上の非M/Sチャネルにわたって分散する前記混合オーディオ・コンテンツの一つまたは複数の部分を、M/Sオーディオ・チャネル表現の一つまたは複数のM/Sチャネルにわたって拡散するM/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの一つまたは複数の部分に変換する段階であって、前記M/Sオーディオ・チャネル表現は少なくともミッド・チャネルおよびサイド・チャネルを含み、前記ミッド・チャネルは前記参照オーディオ・チャネル表現の二つのチャネルの重み付けされたまたは重み付けされない和を表わし、前記サイド・チャネルは前記参照オーディオ・チャネル表現の二つのチャネルの重み付けされたまたは重み付けされない差を表わす、段階と;
    話向上のための前記メタデータに基づいて、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分に対して一つまたは複数の発話向上動作を実行する段階であって、前記M/S表現における向上された発話コンテンツの一つまたは複数の部分を生成する段階と;
    前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分を、前記M/S表現における向上された発話コンテンツの前記一つまたは複数の部分と組み合わせる段階であって、前記M/S表現における発話向上された混合オーディオ・コンテンツの一つまたは複数の部分を生成する段階とを含む、
    一つまたは複数のコンピューティング装置によって実行される、方法。
  18. 前記変換する段階、前記実行する段階および前記組み合わせる段階が、前記参照オーディオ・チャネル表現の前記複数のオーディオ・チャネルにおける二つ以上の非M/Sチャネルにわたって分散する前記混合オーディオ・コンテンツの前記一つまたは複数の部分に対して実行される単一の動作において実装される、請求項17記載の方法。
  19. 前記M/S表現における発話向上された混合オーディオ・コンテンツの前記一つまたは複数の部分を、前記参照オーディオ・チャネル表現における発話向上された混合オーディオ・コンテンツの一つまたは複数の部分に逆変換する段階をさらに含む、請求項17または18記載の方法。
  20. 前記オーディオ信号から、前記混合オーディオ・コンテンツとは別個の、前記M/Sオーディオ・チャネル表現における、前記発話コンテンツのバージョンを抽出し;
    前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンの一つまたは複数の部分に対して、発話向上のための前記メタデータの少なくとも一部に基づいて一つまたは複数の発話向上動作を実行して、前記M/Sオーディオ・チャネル表現における向上された発話コンテンツの一つまたは複数の第二の部分を生成することを実行する段階をさらに含む、
    請求項17ないし19のうちいずれか一項記載の方法。
  21. 発話向上のためのブレンド指示データを決定する段階と;
    発話向上のための前記ブレンド指示データに基づいて、二つの型の発話向上の特定の定量的な組み合わせを生成する段階であって、第一の型の発話向上は、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンに基づき、第二の型の発話向上は、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの再構成されたバージョンに基づくパラメトリック発話向上である、段階とをさらに含む、
    請求項20記載の方法。
  22. 前記ブレンド指示データが、前記オーディオ信号を生成する上流のオーディオ・エンコーダまたは前記オーディオ信号を受領する受領側オーディオ・デコーダの一方によって、少なくとも部分的には、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分についての一つまたは複数のSNR値に基づいて生成され、前記一つまたは複数のSNR値は、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分の発話コンテンツと非発話オーディオ・コンテンツとのパワーの比または前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツもしくは参照オーディオ・チャネル表現における混合オーディオ・コンテンツの一方の前記一つまたは複数の部分の発話コンテンツと全オーディオ・コンテンツとのパワーの比のうちの一つまたは複数を表わす、請求項21記載の方法。
  23. 前記二つの型の発話向上の前記特定の定量的な組み合わせは、前記オーディオ信号を生成する上流のオーディオ・エンコーダまたは前記オーディオ信号を受領する受領側オーディオ・デコーダの一方によって構築される聴覚マスキング・モデルを用いて決定され、その際、第一の型の発話向上が、第一および第二の型の発話向上の複数の組み合わせのうちでの、出力される発話向上されたオーディオ・プログラムにおける符号化ノイズが不快なほど可聴でないことを保証する、発話向上の最大の相対量を表わす、請求項21または22記載の方法。
  24. 話向上のための前記メタデータの少なくとも一部は、受領側オーディオ・デコーダが、前記参照オーディオ・チャネル表現における前記混合オーディオ・コンテンツから前記M/S表現における前記発話コンテンツのあるバージョンを再構成できるようにする、請求項17ないし23のうちいずれか一項記載の方法。
  25. 話向上のための前記メタデータは、前記発話コンテンツの前記バージョンに基づく前記M/Sオーディオ・チャネル表現における発話向上動作または前記M/Sオーディオ・チャネルにおけるパラメトリック発話向上動作の一つまたは複数に関係するメタデータを含む、請求項17ないし24のうちいずれか一項記載の方法。
  26. 前記参照オーディオ・チャネル表現はサラウンド・スピーカーに関係するオーディオ・チャネルを含む、請求項17ないし25のうちいずれか一項記載の方法。
  27. 前記参照オーディオ・チャネル表現の前記二つ以上の非M/Sチャネルは、中央チャネル、左チャネルまたは右チャネルのうちの一つまたは複数を含み、前記M/Sオーディオ・チャネル表現の前記一つまたは複数のM/Sチャネルは、ミッド・チャネルまたはサイド・チャネルの一つまたは複数を含む、請求項17ないし26のうちいずれか一項記載の方法。
  28. 話向上のための前記メタデータは、前記M/Sオーディオ・チャネル表現のミッド・チャネルに関係する発話向上メタデータの単一のセットを含む、請求項17ないし27のうちいずれか一項記載の方法。
  29. 話向上のための前記メタデータは前記オーディオ信号においてエンコードされた全体的なオーディオ・メタデータの一部を表わす、請求項17ないし28のうちいずれか一項記載の方法。
  30. 前記オーディオ信号においてエンコードされたオーディオ・メタデータは、発話向上のための前記メタデータの存在を示すデータ・フィールを含む、請求項17ないし29のうちいずれか一項記載の方法。
  31. 前記オーディオ信号は、オーディオビジュアル信号の一部である、請求項17ないし30のうちいずれか一項記載の方法。
  32. 請求項1ないし31のうちいずれか一項記載の方法を実行するよう構成されたメディア処理システム。
  33. 請求項1ないし31のうちいずれか一項記載の方法を実行するよう構成された、プロセッサを有する装置。
  34. 一つまたは複数のプロセッサによって実行されたときに請求項1ないし31のうちいずれか一項記載の方法の実行を引き起こすソフトウェア命令を有している非一時的なコンピュータ可読記憶媒体。
JP2016515937A 2013-08-28 2014-08-27 ハイブリッドの波形符号化およびパラメトリック符号化発話向上 Active JP6001814B1 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201361870933P 2013-08-28 2013-08-28
US61/870,933 2013-08-28
US201361895959P 2013-10-25 2013-10-25
US61/895,959 2013-10-25
US201361908664P 2013-11-25 2013-11-25
US61/908,664 2013-11-25
PCT/US2014/052962 WO2015031505A1 (en) 2013-08-28 2014-08-27 Hybrid waveform-coded and parametric-coded speech enhancement

Publications (2)

Publication Number Publication Date
JP6001814B1 true JP6001814B1 (ja) 2016-10-05
JP2016534377A JP2016534377A (ja) 2016-11-04

Family

ID=51535558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016515937A Active JP6001814B1 (ja) 2013-08-28 2014-08-27 ハイブリッドの波形符号化およびパラメトリック符号化発話向上

Country Status (10)

Country Link
US (2) US10141004B2 (ja)
EP (2) EP3503095A1 (ja)
JP (1) JP6001814B1 (ja)
KR (1) KR101790641B1 (ja)
CN (2) CN105493182B (ja)
BR (2) BR112016004299B1 (ja)
ES (1) ES2700246T3 (ja)
HK (1) HK1222470A1 (ja)
RU (1) RU2639952C2 (ja)
WO (1) WO2015031505A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI3444818T3 (fi) 2012-10-05 2023-06-22 Fraunhofer Ges Forschung Laitteisto puhesignaalin koodaamiseksi ACELPia käyttäen autokorrelaatiotasossa
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
RU2696952C2 (ru) 2014-10-01 2019-08-07 Долби Интернешнл Аб Аудиокодировщик и декодер
CN108702582B (zh) 2016-01-29 2020-11-06 杜比实验室特许公司 用于双耳对话增强的方法和装置
US10535360B1 (en) * 2017-05-25 2020-01-14 Tp Lab, Inc. Phone stand using a plurality of directional speakers
GB2563635A (en) * 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
USD882547S1 (en) 2017-12-27 2020-04-28 Yandex Europe Ag Speaker device
RU2707149C2 (ru) * 2017-12-27 2019-11-22 Общество С Ограниченной Ответственностью "Яндекс" Устройство и способ модифицирования вывода аудиосигнала устройства
CN110060696B (zh) * 2018-01-19 2021-06-15 腾讯科技(深圳)有限公司 混音方法及装置、终端及可读存储介质
US11894006B2 (en) * 2018-07-25 2024-02-06 Dolby Laboratories Licensing Corporation Compressor target curve to avoid boosting noise
US10547927B1 (en) * 2018-07-27 2020-01-28 Mimi Hearing Technologies GmbH Systems and methods for processing an audio signal for replay on stereo and multi-channel audio devices
JP7019096B2 (ja) * 2018-08-30 2022-02-14 ドルビー・インターナショナル・アーベー 低ビットレート符号化オーディオの増強を制御する方法及び機器
USD947152S1 (en) 2019-09-10 2022-03-29 Yandex Europe Ag Speaker device
US20220270626A1 (en) * 2021-02-22 2022-08-25 Tencent America LLC Method and apparatus in audio processing
GB2619731A (en) * 2022-06-14 2023-12-20 Nokia Technologies Oy Speech enhancement

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001245237A (ja) * 2000-02-28 2001-09-07 Victor Co Of Japan Ltd 放送受信装置
JP2008301427A (ja) * 2007-06-04 2008-12-11 Onkyo Corp マルチチャンネル音声再生装置
JP2009194877A (ja) * 2008-02-18 2009-08-27 Sharp Corp 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体
JP2010518455A (ja) * 2007-02-12 2010-05-27 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 高齢又は聴覚障害聴取者のための非スピーチオーディオに対するスピーチオーディオの改善された比率
JP2013521541A (ja) * 2010-03-08 2013-06-10 ドルビー ラボラトリーズ ライセンシング コーポレイション 多重チャネル音声信号中の発話に関連したチャネルのダッキングをスケーリングするための方法およびシステム
JP2014535182A (ja) * 2011-09-29 2014-12-25 ドルビー・インターナショナル・アーベー 予測ベースのfmステレオ・ノイズ削減

Family Cites Families (148)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5991725A (en) * 1995-03-07 1999-11-23 Advanced Micro Devices, Inc. System and method for enhanced speech quality in voice storage and retrieval systems
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US20050065786A1 (en) * 2003-09-23 2005-03-24 Jacek Stachurski Hybrid speech coding and system
US7415120B1 (en) * 1998-04-14 2008-08-19 Akiba Electronics Institute Llc User adjustable volume control that accommodates hearing
CA2328353A1 (en) * 1998-04-14 1999-10-21 Hearing Enhancement Company, Llc User adjustable volume control that accommodates hearing
US6928169B1 (en) * 1998-12-24 2005-08-09 Bose Corporation Audio signal processing
US6985594B1 (en) * 1999-06-15 2006-01-10 Hearing Enhancement Co., Llc. Voice-to-remaining audio (VRA) interactive hearing aid and auxiliary equipment
US6442278B1 (en) * 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
US6691082B1 (en) * 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
US7222070B1 (en) * 1999-09-22 2007-05-22 Texas Instruments Incorporated Hybrid speech coding and system
US7039581B1 (en) * 1999-09-22 2006-05-02 Texas Instruments Incorporated Hybrid speed coding and system
US7139700B1 (en) * 1999-09-22 2006-11-21 Texas Instruments Incorporated Hybrid speech coding and system
US6351733B1 (en) * 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US7266501B2 (en) 2000-03-02 2007-09-04 Akiba Electronics Institute Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US7010482B2 (en) * 2000-03-17 2006-03-07 The Regents Of The University Of California REW parametric vector quantization and dual-predictive SEW vector quantization for waveform interpolative coding
US20040096065A1 (en) * 2000-05-26 2004-05-20 Vaudrey Michael A. Voice-to-remaining audio (VRA) interactive center channel downmix
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
US7363219B2 (en) * 2000-09-22 2008-04-22 Texas Instruments Incorporated Hybrid speech coding and system
US7386444B2 (en) * 2000-09-22 2008-06-10 Texas Instruments Incorporated Hybrid speech coding and system
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
FI114770B (fi) * 2001-05-21 2004-12-15 Nokia Corp Matkaviestimen äänidatan kontrollointi solukkojärjestelmässä
KR100400226B1 (ko) 2001-10-15 2003-10-01 삼성전자주식회사 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법
US7158572B2 (en) * 2002-02-14 2007-01-02 Tellabs Operations, Inc. Audio enhancement communication techniques
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
US20050228648A1 (en) * 2002-04-22 2005-10-13 Ari Heikkinen Method and device for obtaining parameters for parametric speech coding of frames
JP2003323199A (ja) * 2002-04-26 2003-11-14 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置及び符号化方法、復号化方法
US7231344B2 (en) * 2002-10-29 2007-06-12 Ntt Docomo, Inc. Method and apparatus for gradient-descent based window optimization for linear prediction analysis
US7394833B2 (en) * 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification
KR100480341B1 (ko) * 2003-03-13 2005-03-31 한국전자통신연구원 광대역 저전송률 음성 신호의 부호화기
US7551745B2 (en) * 2003-04-24 2009-06-23 Dolby Laboratories Licensing Corporation Volume and compression control in movie theaters
US7251337B2 (en) * 2003-04-24 2007-07-31 Dolby Laboratories Licensing Corporation Volume control in movie theaters
CA2475282A1 (en) * 2003-07-17 2005-01-17 Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Industry Through The Communications Research Centre Volume hologram
JP2004004952A (ja) * 2003-07-30 2004-01-08 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法
DE10344638A1 (de) * 2003-08-04 2005-03-10 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene
WO2005024780A2 (en) * 2003-09-05 2005-03-17 Grody Stephen D Methods and apparatus for providing services using speech recognition
US20050065787A1 (en) * 2003-09-23 2005-03-24 Jacek Stachurski Hybrid speech coding and system
US20050091041A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for speech coding
US7523032B2 (en) * 2003-12-19 2009-04-21 Nokia Corporation Speech coding method, device, coding module, system and software program product for pre-processing the phase structure of a to be encoded speech signal to match the phase structure of the decoded signal
KR20060131798A (ko) * 2004-01-20 2006-12-20 돌비 레버러토리즈 라이쎈싱 코오포레이션 블록 그룹화에 기반한 오디오 코딩
GB0410321D0 (en) * 2004-05-08 2004-06-09 Univ Surrey Data transmission
US20050256702A1 (en) * 2004-05-13 2005-11-17 Ittiam Systems (P) Ltd. Algebraic codebook search implementation on processors with multiple data paths
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
WO2006075269A1 (en) * 2005-01-11 2006-07-20 Koninklijke Philips Electronics N.V. Scalable encoding/decoding of audio signals
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US20060215683A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for voice quality enhancement
US20060217971A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for modifying an encoded signal
US8874437B2 (en) * 2005-03-28 2014-10-28 Tellabs Operations, Inc. Method and apparatus for modifying an encoded signal for voice quality enhancement
US20060217969A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for echo suppression
US20060217988A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for adaptive level control
US20060217970A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for noise reduction
US20070160154A1 (en) * 2005-03-28 2007-07-12 Sukkar Rafid A Method and apparatus for injecting comfort noise in a communications signal
US20060217972A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for modifying an encoded signal
EP1864281A1 (en) * 2005-04-01 2007-12-12 QUALCOMM Incorporated Systems, methods, and apparatus for highband burst suppression
PL1875463T3 (pl) * 2005-04-22 2019-03-29 Qualcomm Incorporated Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
DE602006018618D1 (de) * 2005-07-22 2011-01-13 France Telecom Verfahren zum umschalten der raten- und bandbreitenskalierbaren audiodecodierungsrate
US7853539B2 (en) * 2005-09-28 2010-12-14 Honda Motor Co., Ltd. Discriminating speech and non-speech with regularized least squares
GB2432765B (en) * 2005-11-26 2008-04-30 Wolfson Microelectronics Plc Audio device
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
US8190425B2 (en) * 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
WO2007086042A2 (en) * 2006-01-25 2007-08-02 Nice Systems Ltd. Method and apparatus for segmentation of audio interactions
US8260620B2 (en) * 2006-02-14 2012-09-04 France Telecom Device for perceptual weighting in audio encoding/decoding
RU2420816C2 (ru) * 2006-02-24 2011-06-10 Франс Телеком Способ двоичного кодирования показателей квантования огибающей сигнала, способ декодирования огибающей сигнала и соответствующие модули кодирования и декодирования
WO2007107670A2 (fr) * 2006-03-20 2007-09-27 France Telecom Procede de post-traitement d'un signal dans un decodeur audio
EP1853092B1 (en) * 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
US20080004883A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Scalable audio coding
WO2008006108A2 (en) * 2006-07-07 2008-01-10 Srs Labs, Inc. Systems and methods for multi-dialog surround audio
EP2070392A2 (en) * 2006-09-14 2009-06-17 Koninklijke Philips Electronics N.V. Sweet spot manipulation for a multi-channel signal
CA2874451C (en) * 2006-10-16 2016-09-06 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
JP4569618B2 (ja) * 2006-11-10 2010-10-27 ソニー株式会社 エコーキャンセラ及び通話音声処理装置
DE102007017254B4 (de) * 2006-11-16 2009-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung zum Kodieren und Dekodieren
EP2095365A4 (en) * 2006-11-24 2009-11-18 Lg Electronics Inc METHOD FOR ENCODING AND DECODING AUDIO SIGNALS BASED ON OBJECTS AND APPARATUS THEREOF
US8352257B2 (en) * 2007-01-04 2013-01-08 Qnx Software Systems Limited Spectro-temporal varying approach for speech enhancement
US8195454B2 (en) * 2007-02-26 2012-06-05 Dolby Laboratories Licensing Corporation Speech enhancement in entertainment audio
US7853450B2 (en) * 2007-03-30 2010-12-14 Alcatel-Lucent Usa Inc. Digital voice enhancement
US9191740B2 (en) * 2007-05-04 2015-11-17 Personics Holdings, Llc Method and apparatus for in-ear canal sound suppression
JP2008283385A (ja) * 2007-05-09 2008-11-20 Toshiba Corp 雑音抑制装置
EP2158587A4 (en) * 2007-06-08 2010-06-02 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING AUDIO SIGNAL
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
JP2010539792A (ja) * 2007-09-12 2010-12-16 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スピーチ増強
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
US20110026581A1 (en) * 2007-10-16 2011-02-03 Nokia Corporation Scalable Coding with Partial Eror Protection
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
TWI351683B (en) * 2008-01-16 2011-11-01 Mstar Semiconductor Inc Speech enhancement device and method for the same
JP5302980B2 (ja) * 2008-03-04 2013-10-02 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 複数の入力データストリームのミキシングのための装置
ES2796493T3 (es) * 2008-03-20 2020-11-27 Fraunhofer Ges Forschung Aparato y método para convertir una señal de audio en una representación parametrizada, aparato y método para modificar una representación parametrizada, aparato y método para sintetizar una representación parametrizada de una señal de audio
MY159890A (en) * 2008-04-18 2017-02-15 Dolby Laboratories Licensing Corp Method and apparatus for maintaining speech audibiliy in multi-channel audio with minimal impact on surround experience
JP4327886B1 (ja) * 2008-05-30 2009-09-09 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
WO2009151578A2 (en) 2008-06-09 2009-12-17 The Board Of Trustees Of The University Of Illinois Method and apparatus for blind signal recovery in noisy, reverberant environments
KR101756834B1 (ko) * 2008-07-14 2017-07-12 삼성전자주식회사 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
KR101381513B1 (ko) * 2008-07-14 2014-04-07 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
US8265299B2 (en) * 2008-07-29 2012-09-11 Lg Electronics Inc. Method and an apparatus for processing an audio signal
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
WO2010073187A1 (en) * 2008-12-22 2010-07-01 Koninklijke Philips Electronics N.V. Generating an output signal by send effect processing
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
CN105225667B (zh) * 2009-03-17 2019-04-05 杜比国际公司 编码器***、解码器***、编码方法和解码方法
CN102414743A (zh) * 2009-04-21 2012-04-11 皇家飞利浦电子股份有限公司 音频信号合成
EP2446435B1 (en) * 2009-06-24 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
JP4621792B2 (ja) * 2009-06-30 2011-01-26 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
WO2011025532A1 (en) * 2009-08-24 2011-03-03 NovaSpeech, LLC System and method for speech synthesis using frequency splicing
US9031834B2 (en) * 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
TWI433137B (zh) * 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
EP2360681A1 (en) * 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
EP2372700A1 (en) * 2010-03-11 2011-10-05 Oticon A/S A speech intelligibility predictor and applications thereof
RU2559899C2 (ru) * 2010-04-09 2015-08-20 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
BR112012026324B1 (pt) * 2010-04-13 2021-08-17 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E. V Codificador de aúdio ou vídeo, decodificador de aúdio ou vídeo e métodos relacionados para o processamento do sinal de aúdio ou vídeo de múltiplos canais usando uma direção de previsão variável
JP5554876B2 (ja) * 2010-04-16 2014-07-23 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. ガイドされた帯域幅拡張およびブラインド帯域幅拡張を用いて広帯域信号を生成するため装置、方法およびコンピュータプログラム
US20120215529A1 (en) * 2010-04-30 2012-08-23 Indian Institute Of Science Speech Enhancement
US8600737B2 (en) * 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
IL295473B2 (en) * 2010-07-02 2023-10-01 Dolby Int Ab After–selective bass filter
JP4837123B1 (ja) * 2010-07-28 2011-12-14 株式会社東芝 音質制御装置及び音質制御方法
CN103098131B (zh) * 2010-08-24 2015-03-11 杜比国际公司 调频立体声无线电接收器的间歇单声道接收的隐藏
TWI516138B (zh) * 2010-08-24 2016-01-01 杜比國際公司 從二聲道音頻訊號決定參數式立體聲參數之系統與方法及其電腦程式產品
BR112012031656A2 (pt) * 2010-08-25 2016-11-08 Asahi Chemical Ind dispositivo, e método de separação de fontes sonoras, e, programa
RU2013110317A (ru) * 2010-09-10 2014-10-20 Панасоник Корпорэйшн Кодирующее устройство и способ кодирования
WO2012076044A1 (en) * 2010-12-08 2012-06-14 Widex A/S Hearing aid and a method of improved audio reproduction
EP2661912B1 (en) * 2011-01-05 2018-08-22 Koninklijke Philips N.V. An audio system and method of operation therefor
US20120300960A1 (en) * 2011-05-27 2012-11-29 Graeme Gordon Mackay Digital signal routing circuit
TWI543642B (zh) * 2011-07-01 2016-07-21 杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
EP2544466A1 (en) * 2011-07-05 2013-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral subtractor
WO2013061584A1 (ja) * 2011-10-28 2013-05-02 パナソニック株式会社 音信号ハイブリッドデコーダ、音信号ハイブリッドエンコーダ、音信号復号方法、及び音信号符号化方法
CN103890841B (zh) * 2011-11-01 2017-10-17 皇家飞利浦有限公司 音频对象编码和解码
US20130136282A1 (en) * 2011-11-30 2013-05-30 David McClain System and Method for Spectral Personalization of Sound
US9418674B2 (en) * 2012-01-17 2016-08-16 GM Global Technology Operations LLC Method and system for using vehicle sound information to enhance audio prompting
US9263040B2 (en) * 2012-01-17 2016-02-16 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance speech recognition
US9934780B2 (en) * 2012-01-17 2018-04-03 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch
EP2805326B1 (en) * 2012-01-19 2015-10-14 Koninklijke Philips N.V. Spatial audio rendering and encoding
KR101662680B1 (ko) * 2012-02-14 2016-10-05 후아웨이 테크놀러지 컴퍼니 리미티드 멀티-채널 오디오 신호의 적응적 다운-믹싱 및 업-믹싱을 수행하기 위한 방법 및 장치
US20130211846A1 (en) * 2012-02-14 2013-08-15 Motorola Mobility, Inc. All-pass filter phase linearization of elliptic filters in signal decimation and interpolation for an audio codec
EP2849180B1 (en) * 2012-05-11 2020-01-01 Panasonic Corporation Hybrid audio signal encoder, hybrid audio signal decoder, method for encoding audio signal, and method for decoding audio signal
US9898566B2 (en) 2012-06-22 2018-02-20 Universite Pierre Et Marie Curie (Paris 6) Method for automated assistance to design nonlinear analog circuit with transient solver
US9479886B2 (en) * 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
US9094742B2 (en) * 2012-07-24 2015-07-28 Fox Filmed Entertainment Event drivable N X M programmably interconnecting sound mixing device and method for use thereof
US9031836B2 (en) * 2012-08-08 2015-05-12 Avaya Inc. Method and apparatus for automatic communications system intelligibility testing and optimization
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
US8824710B2 (en) * 2012-10-12 2014-09-02 Cochlear Limited Automated sound processor
WO2014062859A1 (en) * 2012-10-16 2014-04-24 Audiologicall, Ltd. Audio signal manipulation for speech enhancement before sound reproduction
US9344826B2 (en) * 2013-03-04 2016-05-17 Nokia Technologies Oy Method and apparatus for communicating with audio signals having corresponding spatial characteristics
KR101632238B1 (ko) * 2013-04-05 2016-06-21 돌비 인터네셔널 에이비 인터리브된 파형 코딩을 위한 오디오 인코더 및 디코더
EP4300488A3 (en) * 2013-04-05 2024-02-28 Dolby International AB Stereo audio encoder and decoder
EP2830064A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
EP2882203A1 (en) * 2013-12-06 2015-06-10 Oticon A/s Hearing aid device for hands free communication
US9293143B2 (en) * 2013-12-11 2016-03-22 Qualcomm Incorporated Bandwidth extension mode selection

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001245237A (ja) * 2000-02-28 2001-09-07 Victor Co Of Japan Ltd 放送受信装置
JP2010518455A (ja) * 2007-02-12 2010-05-27 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 高齢又は聴覚障害聴取者のための非スピーチオーディオに対するスピーチオーディオの改善された比率
JP2008301427A (ja) * 2007-06-04 2008-12-11 Onkyo Corp マルチチャンネル音声再生装置
JP2009194877A (ja) * 2008-02-18 2009-08-27 Sharp Corp 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体
JP2013521541A (ja) * 2010-03-08 2013-06-10 ドルビー ラボラトリーズ ライセンシング コーポレイション 多重チャネル音声信号中の発話に関連したチャネルのダッキングをスケーリングするための方法およびシステム
JP2014535182A (ja) * 2011-09-29 2014-12-25 ドルビー・インターナショナル・アーベー 予測ベースのfmステレオ・ノイズ削減

Also Published As

Publication number Publication date
US10607629B2 (en) 2020-03-31
US20190057713A1 (en) 2019-02-21
EP3503095A1 (en) 2019-06-26
US20160225387A1 (en) 2016-08-04
ES2700246T3 (es) 2019-02-14
CN110890101B (zh) 2024-01-12
EP3039675B1 (en) 2018-10-03
EP3039675A1 (en) 2016-07-06
BR112016004299B1 (pt) 2022-05-17
KR20160037219A (ko) 2016-04-05
RU2639952C2 (ru) 2017-12-25
BR122020017207B1 (pt) 2022-12-06
BR112016004299A2 (ja) 2017-08-01
CN105493182B (zh) 2020-01-21
JP2016534377A (ja) 2016-11-04
WO2015031505A1 (en) 2015-03-05
CN105493182A (zh) 2016-04-13
US10141004B2 (en) 2018-11-27
CN110890101A (zh) 2020-03-17
HK1222470A1 (zh) 2017-06-30
KR101790641B1 (ko) 2017-10-26
RU2016106975A (ru) 2017-08-29

Similar Documents

Publication Publication Date Title
JP6001814B1 (ja) ハイブリッドの波形符号化およびパラメトリック符号化発話向上
AU2006233504B2 (en) Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
KR100913987B1 (ko) 다중-채널 출력 신호를 발생시키기 위한 다중-채널합성장치 및 방법
JP4664431B2 (ja) アンビエンス信号を生成するための装置および方法
EP2109861B1 (en) Audio decoder
AU2010305717B2 (en) Apparatus, method and computer program for providing one or more adjusted parameters for provision of an upmix signal representation on the basis of a downmix signal representation and a parametric side information associated with the downmix signal representation, using an average value
US20240185865A1 (en) Method and device for multi-channel comfort noise injection in a decoded sound signal
JP2023545197A (ja) オーディオ帯域幅検出およびオーディオコーデックにおけるオーディオ帯域幅切り替えのための方法およびデバイス

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160808

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160901

R150 Certificate of patent or registration of utility model

Ref document number: 6001814

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250