JP6001814B1 - ハイブリッドの波形符号化およびパラメトリック符号化発話向上 - Google Patents
ハイブリッドの波形符号化およびパラメトリック符号化発話向上 Download PDFInfo
- Publication number
- JP6001814B1 JP6001814B1 JP2016515937A JP2016515937A JP6001814B1 JP 6001814 B1 JP6001814 B1 JP 6001814B1 JP 2016515937 A JP2016515937 A JP 2016515937A JP 2016515937 A JP2016515937 A JP 2016515937A JP 6001814 B1 JP6001814 B1 JP 6001814B1
- Authority
- JP
- Japan
- Prior art keywords
- audio
- speech
- content
- channel
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000203 mixture Substances 0.000 claims abstract description 179
- 238000000034 method Methods 0.000 claims abstract description 132
- 230000006872 improvement Effects 0.000 claims abstract description 98
- 238000011144 upstream manufacturing Methods 0.000 claims abstract description 7
- 230000005236 sound signal Effects 0.000 claims description 146
- 238000002156 mixing Methods 0.000 claims description 55
- 230000000873 masking effect Effects 0.000 claims description 46
- 230000014509 gene expression Effects 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 17
- 230000036961 partial effect Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 108091006146 Channels Proteins 0.000 claims 91
- 238000009877 rendering Methods 0.000 description 53
- 230000004044 response Effects 0.000 description 35
- 239000011159 matrix material Substances 0.000 description 27
- 239000013598 vector Substances 0.000 description 27
- 230000009466 transformation Effects 0.000 description 18
- 238000004891 communication Methods 0.000 description 16
- 230000005540 biological transmission Effects 0.000 description 15
- 230000002123 temporal effect Effects 0.000 description 15
- 238000013459 approach Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 10
- 230000002829 reductive effect Effects 0.000 description 8
- 230000006399 behavior Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000005284 excitation Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000011965 cell line development Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
本願は2013年8月28日に出願された米国仮特許出願第61/870,933号、2013年10月25日に出願された米国仮特許出願第61/895,959号、2013年11月25日に出願された米国仮特許出願第61/908,664号の優先権を主張する。各出願はここに参照によってその全体において組み込まれる。
本発明は、オーディオ信号処理に、より詳細にはオーディオ・プログラムの発話コンテンツの、該プログラムの他のコンテンツに対する向上に関する。ここで、発話コンテンツは、いくつかの信号条件のもとでは波形符号化された向上(または相対的に、より波形符号化された向上)を、他の信号条件のもとではパラメトリック符号化された向上(または相対的に、よりパラメトリック符号化された向上)を含むという意味で「ハイブリッド」である。他の側面は、そのようなハイブリッド発話向上を可能にするのに十分なデータを含むオーディオ・プログラムのエンコード、デコードおよびレンダリングである。
1.全般的概観
2.記法および命名法
3.予測パラメータの生成
4.発話向上動作
5.発話レンダリング
6.ミッド/サイド表現
7.例示的なプロセス・フロー
8.実装機構――ハードウェアの概観
9.等価物、拡張、代替その他。
この概観は、本発明の実施形態のいくつかの側面の基本的な記述を提示する。この概観は該実施形態の諸側面の包括的ないし網羅的な要約ではないことは注意しておくべきである。さらに、この概観は、該実施形態の何らかの特に有意な側面もしくは要素を特定するものと理解されることも、一般には本発明の、特に該実施形態の何らかの範囲を画定するものと理解されることも、意図されていないことを注意しておくべきである。この概観は単に、その例示的実施形態に関係するいくつかの概念を凝縮された単純化された形式で提示するものであり、単に後続の例示的な諸実施形態のより詳細な説明への概念的な導入部として理解されるべきである。別個の諸実施形態が本稿において論じられるが、本稿で論じられる実施形態および/または部分実施形態の任意の組み合わせがさらなる実施形態をなすよう組み合わされてもよいことを注意しておく。
T=αPw+(1−α)Pp (1)
を生成するようにする。
請求項を含む本開示を通じて、用語「ダイアログ」および「発話」は同義語として交換可能に使用されて、人間(または仮想世界ではキャラクター)による伝達の形として知覚されるオーディオ信号コンテンツを表わす。
(本発明の実施形態に基づくハイブリッド発話向上を含む)発話向上を実行するためには、向上されるべき発話信号へのアクセスを有する必要がある。発話向上が実行されるべき時点において(向上されるべき混合された信号の発話および非発話コンテンツの混合とは別個に)発話信号が利用可能でない場合には、パラメトリック技法が使用されて、利用可能な混合の発話の再構成を生成してもよい。
Dr=diag(P)・M (5)
と表わすことができる。
Dr=p1・Mc1+p2・Mc2+p3・Mc3 (6)
または信号行列の形では、
Dr=PM
となる。
本稿では、「SNR」(信号対雑音比)は、オーディオ・プログラムのあるセグメントの(またはプログラム全体の)発話成分(すなわち発話コンテンツ)のパワーの、該セグメントまたはプログラムの非発話成分(すなわち非発話コンテンツ)のパワーに対する比(またはレベルの差)、あるいは該セグメントまたはプログラムのコンテンツ全体(発話および非発話)のパワーに対する比(またはレベルの差)を表わすために使われる。いくつかの実施形態では、SNRは、(発話向上を受ける)オーディオ信号および該オーディオ信号の発話コンテンツを示す別個の信号(たとえば、波形符号化された向上において使うために生成された発話コンテンツの低品質コピー)から導出される。いくつかの実施形態では、SNRは、(発話向上を受ける)オーディオ信号からおよび(オーディオ信号のパラメトリック符号化向上において使うために生成された)パラメトリック・データから導出される。
任意的に、本方法は、(未向上のオーディオ信号の各セグメントに対して、)各セグメントについてのブレンド・インジケータに応答して、波形符号化向上およびパラメトリック符号化向上の組み合わせが当該セグメントについて所定の発話向上総量を生じるようブレンド・インジケータによって決定された、波形符号化向上およびパラメトリック符号化向上の組み合わせを実行する段階をも含む。
max(fc|T*N(f<fc,t)<Θ(f,t)) (8)
となる。
Me=M+g・Dr (9)
である。
g=10G/20−1 (10)
が適用される。
Me=M・(1+diag(P)・g) (11)
として得られる。
Me=M+R・g・Dr (13)
となる。
Me=M+R・g・P・M=(I+R・g・P)・M (14)
と書き換えられる。ここで、Iは恒等行列である。
図4は、
Me=M+R・g・Dr (15)
の形の通常の発話向上混合を実装する発話レンダリング・システムのブロック図である。
Me=M+R・g・P・M=(I+R・g・P)・M (16)
の形の通常の発話向上混合を実装する発話レンダリング・システムのブロック図である。
Me=R・g1・Dr+(I+R・g2・P)・M (23)
によって記述されうる。ここで、R・g1・Drは従来の図4のシステムによって実装される型の波形符号化発話向上であり、R・g2・P・Mは従来の図5のシステムによって実装される型のパラメトリック符号化発話向上であり、パラメータg1およびg2が全体的な向上利得および二つの発話向上方法の間のトレードオフを制御する。パラメータg1およびg2の定義の例は、
g1=αc・(10G/20−1) (24)
g2=(1−αc)・(10G/20−1) (25)
である。パラメータαcはパラメトリック符号化発話向上およびパラメトリック符号化発話向上方法の間のトレードオフを定義する。αc=1の値では、発話の低品質コピーのみが波形符号化発話向上のために使われる。パラメトリック符号化発話向上モードはαc=0のときにフルに向上に寄与する。0と1の間のαcの値は二つの方法をブレンドする。いくつかの実装では、αcは広帯域パラメータである(オーディオ・データのすべての周波数帯域に適用される)。同じ原理は、個々の周波数帯域内に適用されることができる。それにより、ブレンドは、各周波数帯域についてのパラメータαcの異なる値を使って、周波数依存の仕方で最適化される。
αc=0 SNR>τの場合 (26)
1 SNR≦τの場合
ここで、τは閾値である(たとえば、τは0に等しくてもよい)。
本稿に記載される発話向上動作は、M/S表現での制御データ、制御パラメータなどに少なくとも部分的には基づいてオーディオ・デコーダによって実行されてもよい。M/S表現での制御データ、制御パラメータなどは、上流のオーディオ・エンコーダによって生成され、該上流のオーディオ・エンコーダによって生成されたエンコードされたオーディオ信号から当該オーディオ・デコーダによって抽出されてもよい。
図8のAおよびBは、例示的なプロセス・フローを示している。いくつかの実施形態では、メディア処理システムにおける一つまたは複数のコンピューティング装置またはユニットがこのプロセス・フローを実行してもよい。
ある実施形態によれば、本稿に記載される技法は、一つまたは複数の特殊目的コンピューティング装置によって実装される。特殊目的コンピューティング装置は、本技法を実行するよう固定構成とされていてもよいし、あるいは一つまたは複数の特定用途向け集積回路(ASIC)またはフィールド・プログラマブル・ゲート・アレイ(FPGA)のような、本技法を実行するよう持続的にプログラムされたデジタル電子デバイスを含んでいてもよいし、あるいはファームウェア、メモリ、他の記憶または組み合わせにおけるプログラム命令に従って本技法を実行するようプログラムされた一つまたは複数の汎用ハードウェア・プロセッサを含んでいてもよい。そのような特殊目的コンピューティング装置は、カスタムの固定構成論理、ASICまたはFPGAをカスタムのプログラミングと組み合わせて本技法を達成してもよい。特殊目的コンピューティング装置はデスクトップ・コンピュータ・システム、ポータブル・コンピュータ・システム、ハンドヘルド装置、ネットワーキング装置または本技法を実装するために固定構成および/またはプログラム論理を組み込んでいる他の任意の装置であってもよい。
以上の明細書では、本発明の例示的実施形態について、実装によって変わりうる数多くの個別的詳細に言及しつつ述べてきた。このように、何が本発明であるか、何が出願人によって本発明であると意図されているかの唯一にして排他的な指標は、この出願に対して付与される特許の請求項の、その後の訂正があればそれも含めてかかる請求項が特許された特定の形のものである。かかる請求項に含まれる用語について本稿で明示的に記載される定義があったとすればそれは請求項において使用される当該用語の意味を支配する。よって、請求項に明示的に記載されていない限定、要素、属性、特徴、利点もしくは特性は、いかなる仕方であれかかる請求項の範囲を限定すべきではない。よって、明細書および図面は制約する意味ではなく例示的な意味で見なされるべきものである。
Claims (34)
- 参照オーディオ・チャネル表現の複数のオーディオ・チャネルにわたって分配されている、参照オーディオ・チャネル表現における混合オーディオ・コンテンツを受領する段階であって、前記混合オーディオ・コンテンツは発話コンテンツおよび非発話オーディオ・コンテンツの混合を有する、段階と;
前記参照オーディオ・チャネル表現の前記複数のオーディオ・チャネルにおける二つ以上の非ミッド/サイド(M/S)チャネルにわたって分配されている前記混合オーディオ・コンテンツの一つまたは複数の部分を、M/Sオーディオ・チャネル表現の一つまたは複数のM/Sチャネルにわたって分配されているM/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの一つまたは複数の部分に変換する段階であって、前記M/Sオーディオ・チャネル表現は少なくともミッド・チャネルおよびサイド・チャネルを含み、前記ミッド・チャネルは前記参照オーディオ・チャネル表現の二つのチャネルの重み付けされたまたは重み付けされない和を表わし、前記サイド・チャネルは前記参照オーディオ・チャネル表現の二つのチャネルの重み付けされたまたは重み付けされない差を表わす、段階と;
前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分の発話向上のためのメタデータを決定する段階と;
前記混合オーディオ・コンテンツと、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分の発話向上のための前記メタデータとを含むオーディオ信号を生成する段階とを含む、
一つまたは複数のコンピューティング装置によって実行される方法。 - 前記混合オーディオ・コンテンツが非M/Sオーディオ・チャネル表現になっている、請求項1記載の方法。
- 前記混合オーディオ・コンテンツとは別個の、前記M/Sオーディオ・チャネル表現における、前記発話コンテンツのバージョンを生成する段階と;
前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンとともにエンコードされた、前記オーディオ信号を出力する段階とをさらに含む、
請求項1または2記載の方法。 - 受領側オーディオ・デコーダによって生成されるべき第一および第二の型の発話向上の特定の定量的な組み合わせを指示するブレンド指示データを生成する段階であって、前記第一の型の発話向上は、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンに基づく発話向上であり、前記第二の型の発話向上は、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの再構成されたバージョンに基づくパラメトリック発話向上である、段階と;
前記ブレンド指示データとともにエンコードされた、前記オーディオ信号を出力する段階とをさらに含む、
請求項3記載の方法。 - 発話向上のための前記メタデータの少なくとも一部が、受領側オーディオ・デコーダが、前記参照オーディオ・チャネル表現における前記混合オーディオ・コンテンツから前記M/S表現における前記発話コンテンツの前記再構成されたバージョンを再構成できるようにする、請求項4記載の方法。
- 前記ブレンド指示データは、少なくとも部分的には、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分についての一つまたは複数のSNR値に基づいて生成され、前記一つまたは複数のSNR値は、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分の発話コンテンツと非発話オーディオ・コンテンツとのパワーの比または前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分の発話コンテンツと全オーディオ・コンテンツとのパワーの比のうちの一つまたは複数を表わす、請求項4または5記載の方法。
- 前記第一および第二の型の発話向上の前記特定の定量的な組み合わせは聴覚マスキング・モデルを用いて決定され、その際、前記第一の型の話向上が、前記第一および第二の型の発話向上の複数の組み合わせにおける、出力される発話向上されたオーディオ・プログラムにおける符号化ノイズが不快なほど可聴でないことを保証する、発話向上の最大の相対量を表わす、請求項4ないし6のうちいずれか一項記載の方法。
- 発話向上のための前記メタデータの少なくとも一部は、受領側オーディオ・デコーダが、前記参照オーディオ・チャネル表現における前記混合オーディオ・コンテンツから前記M/S表現における前記発話コンテンツのバージョンを再構成できるようにする、請求項1ないし7のうちいずれか一項記載の方法。
- 発話向上のための前記メタデータは、前記発話コンテンツの前記バージョンに基づく前記M/Sオーディオ・チャネル表現における発話向上動作または前記M/Sオーディオ・チャネル表現におけるパラメトリック発話向上動作の一つまたは複数に関係するメタデータを含む、請求項1ないし8のうちいずれか一項記載の方法。
- 前記参照オーディオ・チャネル表現がサラウンド・スピーカーに関係するオーディオ・チャネルを含む、請求項1ないし9のうちいずれか一項記載の方法。
- 前記参照オーディオ・チャネル表現の前記二つ以上の非M/Sチャネルは、中央チャネル、左チャネルまたは右チャネルのうちの二つ以上を含み、一方、前記M/Sオーディオ・チャネル表現の前記一つまたは複数のM/Sチャネルは、ミッド・チャネルまたはサイド・チャネルの一つまたは複数を含む、請求項1ないし10のうちいずれか一項記載の方法。
- 発話向上のための前記メタデータは、前記M/Sオーディオ・チャネル表現のミッド・チャネルに関係する発話向上メタデータの単一のセットを含む、請求項1ないし11のうちいずれか一項記載の方法。
- 前記M/Sオーディオ・チャネル表現における変換されたオーディオ・コンテンツの前記一つまたは複数の部分を前記オーディオ信号の一部としてエンコードすることを防止することをさらに含む、請求項1ないし12のうちいずれか一項記載の方法。
- 発話向上のための前記メタデータが前記オーディオ信号においてエンコードされる全体的なオーディオ・メタデータの一部を表わす、請求項1ないし13のうちいずれか一項記載の方法。
- 前記オーディオ信号においてエンコードされるオーディオ・メタデータが、発話向上のための前記メタデータの存在を示すデータ・フィールを含む、請求項1ないし14のうちいずれか一項記載の方法。
- 前記オーディオ信号が、オーディオビジュアル信号の一部である、請求項1ないし15のうちいずれか一項記載の方法。
- 参照オーディオ・チャネル表現における混合オーディオ・コンテンツと、発話向上のためのメタデータとを含むオーディオ信号を受領する段階であって、前記混合オーディオ・コンテンツは発話コンテンツおよび非発話オーディオ・コンテンツをもつ、段階と;
前記参照オーディオ・チャネル表現の複数のオーディオ・チャネルにおける二つ以上の非M/Sチャネルにわたって分散する前記混合オーディオ・コンテンツの一つまたは複数の部分を、M/Sオーディオ・チャネル表現の一つまたは複数のM/Sチャネルにわたって拡散するM/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの一つまたは複数の部分に変換する段階であって、前記M/Sオーディオ・チャネル表現は少なくともミッド・チャネルおよびサイド・チャネルを含み、前記ミッド・チャネルは前記参照オーディオ・チャネル表現の二つのチャネルの重み付けされたまたは重み付けされない和を表わし、前記サイド・チャネルは前記参照オーディオ・チャネル表現の二つのチャネルの重み付けされたまたは重み付けされない差を表わす、段階と;
発話向上のための前記メタデータに基づいて、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分に対して一つまたは複数の発話向上動作を実行する段階であって、前記M/S表現における向上された発話コンテンツの一つまたは複数の部分を生成する段階と;
前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分を、前記M/S表現における向上された発話コンテンツの前記一つまたは複数の部分と組み合わせる段階であって、前記M/S表現における発話向上された混合オーディオ・コンテンツの一つまたは複数の部分を生成する段階とを含む、
一つまたは複数のコンピューティング装置によって実行される、方法。 - 前記変換する段階、前記実行する段階および前記組み合わせる段階が、前記参照オーディオ・チャネル表現の前記複数のオーディオ・チャネルにおける二つ以上の非M/Sチャネルにわたって分散する前記混合オーディオ・コンテンツの前記一つまたは複数の部分に対して実行される単一の動作において実装される、請求項17記載の方法。
- 前記M/S表現における発話向上された混合オーディオ・コンテンツの前記一つまたは複数の部分を、前記参照オーディオ・チャネル表現における発話向上された混合オーディオ・コンテンツの一つまたは複数の部分に逆変換する段階をさらに含む、請求項17または18記載の方法。
- 前記オーディオ信号から、前記混合オーディオ・コンテンツとは別個の、前記M/Sオーディオ・チャネル表現における、前記発話コンテンツのバージョンを抽出し;
前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンの一つまたは複数の部分に対して、発話向上のための前記メタデータの少なくとも一部に基づいて一つまたは複数の発話向上動作を実行して、前記M/Sオーディオ・チャネル表現における向上された発話コンテンツの一つまたは複数の第二の部分を生成することを実行する段階をさらに含む、
請求項17ないし19のうちいずれか一項記載の方法。 - 発話向上のためのブレンド指示データを決定する段階と;
発話向上のための前記ブレンド指示データに基づいて、二つの型の発話向上の特定の定量的な組み合わせを生成する段階であって、第一の型の発話向上は、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンに基づき、第二の型の発話向上は、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの再構成されたバージョンに基づくパラメトリック発話向上である、段階とをさらに含む、
請求項20記載の方法。 - 前記ブレンド指示データが、前記オーディオ信号を生成する上流のオーディオ・エンコーダまたは前記オーディオ信号を受領する受領側オーディオ・デコーダの一方によって、少なくとも部分的には、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分についての一つまたは複数のSNR値に基づいて生成され、前記一つまたは複数のSNR値は、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分の発話コンテンツと非発話オーディオ・コンテンツとのパワーの比または前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツもしくは参照オーディオ・チャネル表現における混合オーディオ・コンテンツの一方の前記一つまたは複数の部分の発話コンテンツと全オーディオ・コンテンツとのパワーの比のうちの一つまたは複数を表わす、請求項21記載の方法。
- 前記二つの型の発話向上の前記特定の定量的な組み合わせは、前記オーディオ信号を生成する上流のオーディオ・エンコーダまたは前記オーディオ信号を受領する受領側オーディオ・デコーダの一方によって構築される聴覚マスキング・モデルを用いて決定され、その際、第一の型の発話向上が、第一および第二の型の発話向上の複数の組み合わせのうちでの、出力される発話向上されたオーディオ・プログラムにおける符号化ノイズが不快なほど可聴でないことを保証する、発話向上の最大の相対量を表わす、請求項21または22記載の方法。
- 発話向上のための前記メタデータの少なくとも一部は、受領側オーディオ・デコーダが、前記参照オーディオ・チャネル表現における前記混合オーディオ・コンテンツから前記M/S表現における前記発話コンテンツのあるバージョンを再構成できるようにする、請求項17ないし23のうちいずれか一項記載の方法。
- 発話向上のための前記メタデータは、前記発話コンテンツの前記バージョンに基づく前記M/Sオーディオ・チャネル表現における発話向上動作または前記M/Sオーディオ・チャネルにおけるパラメトリック発話向上動作の一つまたは複数に関係するメタデータを含む、請求項17ないし24のうちいずれか一項記載の方法。
- 前記参照オーディオ・チャネル表現はサラウンド・スピーカーに関係するオーディオ・チャネルを含む、請求項17ないし25のうちいずれか一項記載の方法。
- 前記参照オーディオ・チャネル表現の前記二つ以上の非M/Sチャネルは、中央チャネル、左チャネルまたは右チャネルのうちの一つまたは複数を含み、前記M/Sオーディオ・チャネル表現の前記一つまたは複数のM/Sチャネルは、ミッド・チャネルまたはサイド・チャネルの一つまたは複数を含む、請求項17ないし26のうちいずれか一項記載の方法。
- 発話向上のための前記メタデータは、前記M/Sオーディオ・チャネル表現のミッド・チャネルに関係する発話向上メタデータの単一のセットを含む、請求項17ないし27のうちいずれか一項記載の方法。
- 発話向上のための前記メタデータは前記オーディオ信号においてエンコードされた全体的なオーディオ・メタデータの一部を表わす、請求項17ないし28のうちいずれか一項記載の方法。
- 前記オーディオ信号においてエンコードされたオーディオ・メタデータは、発話向上のための前記メタデータの存在を示すデータ・フィールを含む、請求項17ないし29のうちいずれか一項記載の方法。
- 前記オーディオ信号は、オーディオビジュアル信号の一部である、請求項17ないし30のうちいずれか一項記載の方法。
- 請求項1ないし31のうちいずれか一項記載の方法を実行するよう構成されたメディア処理システム。
- 請求項1ないし31のうちいずれか一項記載の方法を実行するよう構成された、プロセッサを有する装置。
- 一つまたは複数のプロセッサによって実行されたときに請求項1ないし31のうちいずれか一項記載の方法の実行を引き起こすソフトウェア命令を有している非一時的なコンピュータ可読記憶媒体。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361870933P | 2013-08-28 | 2013-08-28 | |
US61/870,933 | 2013-08-28 | ||
US201361895959P | 2013-10-25 | 2013-10-25 | |
US61/895,959 | 2013-10-25 | ||
US201361908664P | 2013-11-25 | 2013-11-25 | |
US61/908,664 | 2013-11-25 | ||
PCT/US2014/052962 WO2015031505A1 (en) | 2013-08-28 | 2014-08-27 | Hybrid waveform-coded and parametric-coded speech enhancement |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6001814B1 true JP6001814B1 (ja) | 2016-10-05 |
JP2016534377A JP2016534377A (ja) | 2016-11-04 |
Family
ID=51535558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016515937A Active JP6001814B1 (ja) | 2013-08-28 | 2014-08-27 | ハイブリッドの波形符号化およびパラメトリック符号化発話向上 |
Country Status (10)
Country | Link |
---|---|
US (2) | US10141004B2 (ja) |
EP (2) | EP3503095A1 (ja) |
JP (1) | JP6001814B1 (ja) |
KR (1) | KR101790641B1 (ja) |
CN (2) | CN105493182B (ja) |
BR (2) | BR112016004299B1 (ja) |
ES (1) | ES2700246T3 (ja) |
HK (1) | HK1222470A1 (ja) |
RU (1) | RU2639952C2 (ja) |
WO (1) | WO2015031505A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI3444818T3 (fi) | 2012-10-05 | 2023-06-22 | Fraunhofer Ges Forschung | Laitteisto puhesignaalin koodaamiseksi ACELPia käyttäen autokorrelaatiotasossa |
TWI602172B (zh) * | 2014-08-27 | 2017-10-11 | 弗勞恩霍夫爾協會 | 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法 |
RU2696952C2 (ru) | 2014-10-01 | 2019-08-07 | Долби Интернешнл Аб | Аудиокодировщик и декодер |
CN108702582B (zh) | 2016-01-29 | 2020-11-06 | 杜比实验室特许公司 | 用于双耳对话增强的方法和装置 |
US10535360B1 (en) * | 2017-05-25 | 2020-01-14 | Tp Lab, Inc. | Phone stand using a plurality of directional speakers |
GB2563635A (en) * | 2017-06-21 | 2018-12-26 | Nokia Technologies Oy | Recording and rendering audio signals |
USD882547S1 (en) | 2017-12-27 | 2020-04-28 | Yandex Europe Ag | Speaker device |
RU2707149C2 (ru) * | 2017-12-27 | 2019-11-22 | Общество С Ограниченной Ответственностью "Яндекс" | Устройство и способ модифицирования вывода аудиосигнала устройства |
CN110060696B (zh) * | 2018-01-19 | 2021-06-15 | 腾讯科技(深圳)有限公司 | 混音方法及装置、终端及可读存储介质 |
US11894006B2 (en) * | 2018-07-25 | 2024-02-06 | Dolby Laboratories Licensing Corporation | Compressor target curve to avoid boosting noise |
US10547927B1 (en) * | 2018-07-27 | 2020-01-28 | Mimi Hearing Technologies GmbH | Systems and methods for processing an audio signal for replay on stereo and multi-channel audio devices |
JP7019096B2 (ja) * | 2018-08-30 | 2022-02-14 | ドルビー・インターナショナル・アーベー | 低ビットレート符号化オーディオの増強を制御する方法及び機器 |
USD947152S1 (en) | 2019-09-10 | 2022-03-29 | Yandex Europe Ag | Speaker device |
US20220270626A1 (en) * | 2021-02-22 | 2022-08-25 | Tencent America LLC | Method and apparatus in audio processing |
GB2619731A (en) * | 2022-06-14 | 2023-12-20 | Nokia Technologies Oy | Speech enhancement |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001245237A (ja) * | 2000-02-28 | 2001-09-07 | Victor Co Of Japan Ltd | 放送受信装置 |
JP2008301427A (ja) * | 2007-06-04 | 2008-12-11 | Onkyo Corp | マルチチャンネル音声再生装置 |
JP2009194877A (ja) * | 2008-02-18 | 2009-08-27 | Sharp Corp | 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体 |
JP2010518455A (ja) * | 2007-02-12 | 2010-05-27 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | 高齢又は聴覚障害聴取者のための非スピーチオーディオに対するスピーチオーディオの改善された比率 |
JP2013521541A (ja) * | 2010-03-08 | 2013-06-10 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 多重チャネル音声信号中の発話に関連したチャネルのダッキングをスケーリングするための方法およびシステム |
JP2014535182A (ja) * | 2011-09-29 | 2014-12-25 | ドルビー・インターナショナル・アーベー | 予測ベースのfmステレオ・ノイズ削減 |
Family Cites Families (148)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5991725A (en) * | 1995-03-07 | 1999-11-23 | Advanced Micro Devices, Inc. | System and method for enhanced speech quality in voice storage and retrieval systems |
US6167375A (en) * | 1997-03-17 | 2000-12-26 | Kabushiki Kaisha Toshiba | Method for encoding and decoding a speech signal including background noise |
WO1999010719A1 (en) * | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
US20050065786A1 (en) * | 2003-09-23 | 2005-03-24 | Jacek Stachurski | Hybrid speech coding and system |
US7415120B1 (en) * | 1998-04-14 | 2008-08-19 | Akiba Electronics Institute Llc | User adjustable volume control that accommodates hearing |
CA2328353A1 (en) * | 1998-04-14 | 1999-10-21 | Hearing Enhancement Company, Llc | User adjustable volume control that accommodates hearing |
US6928169B1 (en) * | 1998-12-24 | 2005-08-09 | Bose Corporation | Audio signal processing |
US6985594B1 (en) * | 1999-06-15 | 2006-01-10 | Hearing Enhancement Co., Llc. | Voice-to-remaining audio (VRA) interactive hearing aid and auxiliary equipment |
US6442278B1 (en) * | 1999-06-15 | 2002-08-27 | Hearing Enhancement Company, Llc | Voice-to-remaining audio (VRA) interactive center channel downmix |
US6691082B1 (en) * | 1999-08-03 | 2004-02-10 | Lucent Technologies Inc | Method and system for sub-band hybrid coding |
US7222070B1 (en) * | 1999-09-22 | 2007-05-22 | Texas Instruments Incorporated | Hybrid speech coding and system |
US7039581B1 (en) * | 1999-09-22 | 2006-05-02 | Texas Instruments Incorporated | Hybrid speed coding and system |
US7139700B1 (en) * | 1999-09-22 | 2006-11-21 | Texas Instruments Incorporated | Hybrid speech coding and system |
US6351733B1 (en) * | 2000-03-02 | 2002-02-26 | Hearing Enhancement Company, Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
US7266501B2 (en) | 2000-03-02 | 2007-09-04 | Akiba Electronics Institute Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
US7010482B2 (en) * | 2000-03-17 | 2006-03-07 | The Regents Of The University Of California | REW parametric vector quantization and dual-predictive SEW vector quantization for waveform interpolative coding |
US20040096065A1 (en) * | 2000-05-26 | 2004-05-20 | Vaudrey Michael A. | Voice-to-remaining audio (VRA) interactive center channel downmix |
US6898566B1 (en) * | 2000-08-16 | 2005-05-24 | Mindspeed Technologies, Inc. | Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal |
US7363219B2 (en) * | 2000-09-22 | 2008-04-22 | Texas Instruments Incorporated | Hybrid speech coding and system |
US7386444B2 (en) * | 2000-09-22 | 2008-06-10 | Texas Instruments Incorporated | Hybrid speech coding and system |
US20030028386A1 (en) * | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
FI114770B (fi) * | 2001-05-21 | 2004-12-15 | Nokia Corp | Matkaviestimen äänidatan kontrollointi solukkojärjestelmässä |
KR100400226B1 (ko) | 2001-10-15 | 2003-10-01 | 삼성전자주식회사 | 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법 |
US7158572B2 (en) * | 2002-02-14 | 2007-01-02 | Tellabs Operations, Inc. | Audio enhancement communication techniques |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
US20050228648A1 (en) * | 2002-04-22 | 2005-10-13 | Ari Heikkinen | Method and device for obtaining parameters for parametric speech coding of frames |
JP2003323199A (ja) * | 2002-04-26 | 2003-11-14 | Matsushita Electric Ind Co Ltd | 符号化装置、復号化装置及び符号化方法、復号化方法 |
US7231344B2 (en) * | 2002-10-29 | 2007-06-12 | Ntt Docomo, Inc. | Method and apparatus for gradient-descent based window optimization for linear prediction analysis |
US7394833B2 (en) * | 2003-02-11 | 2008-07-01 | Nokia Corporation | Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification |
KR100480341B1 (ko) * | 2003-03-13 | 2005-03-31 | 한국전자통신연구원 | 광대역 저전송률 음성 신호의 부호화기 |
US7551745B2 (en) * | 2003-04-24 | 2009-06-23 | Dolby Laboratories Licensing Corporation | Volume and compression control in movie theaters |
US7251337B2 (en) * | 2003-04-24 | 2007-07-31 | Dolby Laboratories Licensing Corporation | Volume control in movie theaters |
CA2475282A1 (en) * | 2003-07-17 | 2005-01-17 | Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Industry Through The Communications Research Centre | Volume hologram |
JP2004004952A (ja) * | 2003-07-30 | 2004-01-08 | Matsushita Electric Ind Co Ltd | 音声合成装置および音声合成方法 |
DE10344638A1 (de) * | 2003-08-04 | 2005-03-10 | Fraunhofer Ges Forschung | Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene |
WO2005024780A2 (en) * | 2003-09-05 | 2005-03-17 | Grody Stephen D | Methods and apparatus for providing services using speech recognition |
US20050065787A1 (en) * | 2003-09-23 | 2005-03-24 | Jacek Stachurski | Hybrid speech coding and system |
US20050091041A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for speech coding |
US7523032B2 (en) * | 2003-12-19 | 2009-04-21 | Nokia Corporation | Speech coding method, device, coding module, system and software program product for pre-processing the phase structure of a to be encoded speech signal to match the phase structure of the decoded signal |
KR20060131798A (ko) * | 2004-01-20 | 2006-12-20 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 블록 그룹화에 기반한 오디오 코딩 |
GB0410321D0 (en) * | 2004-05-08 | 2004-06-09 | Univ Surrey | Data transmission |
US20050256702A1 (en) * | 2004-05-13 | 2005-11-17 | Ittiam Systems (P) Ltd. | Algebraic codebook search implementation on processors with multiple data paths |
SE0402652D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Methods for improved performance of prediction based multi- channel reconstruction |
WO2006075269A1 (en) * | 2005-01-11 | 2006-07-20 | Koninklijke Philips Electronics N.V. | Scalable encoding/decoding of audio signals |
US7573912B2 (en) * | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
US20060215683A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for voice quality enhancement |
US20060217971A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for modifying an encoded signal |
US8874437B2 (en) * | 2005-03-28 | 2014-10-28 | Tellabs Operations, Inc. | Method and apparatus for modifying an encoded signal for voice quality enhancement |
US20060217969A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for echo suppression |
US20060217988A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for adaptive level control |
US20060217970A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for noise reduction |
US20070160154A1 (en) * | 2005-03-28 | 2007-07-12 | Sukkar Rafid A | Method and apparatus for injecting comfort noise in a communications signal |
US20060217972A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for modifying an encoded signal |
EP1864281A1 (en) * | 2005-04-01 | 2007-12-12 | QUALCOMM Incorporated | Systems, methods, and apparatus for highband burst suppression |
PL1875463T3 (pl) * | 2005-04-22 | 2019-03-29 | Qualcomm Incorporated | Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia |
FR2888699A1 (fr) * | 2005-07-13 | 2007-01-19 | France Telecom | Dispositif de codage/decodage hierachique |
DE602006018618D1 (de) * | 2005-07-22 | 2011-01-13 | France Telecom | Verfahren zum umschalten der raten- und bandbreitenskalierbaren audiodecodierungsrate |
US7853539B2 (en) * | 2005-09-28 | 2010-12-14 | Honda Motor Co., Ltd. | Discriminating speech and non-speech with regularized least squares |
GB2432765B (en) * | 2005-11-26 | 2008-04-30 | Wolfson Microelectronics Plc | Audio device |
US7831434B2 (en) * | 2006-01-20 | 2010-11-09 | Microsoft Corporation | Complex-transform channel coding with extended-band frequency coding |
US8190425B2 (en) * | 2006-01-20 | 2012-05-29 | Microsoft Corporation | Complex cross-correlation parameters for multi-channel audio |
WO2007086042A2 (en) * | 2006-01-25 | 2007-08-02 | Nice Systems Ltd. | Method and apparatus for segmentation of audio interactions |
US8260620B2 (en) * | 2006-02-14 | 2012-09-04 | France Telecom | Device for perceptual weighting in audio encoding/decoding |
RU2420816C2 (ru) * | 2006-02-24 | 2011-06-10 | Франс Телеком | Способ двоичного кодирования показателей квантования огибающей сигнала, способ декодирования огибающей сигнала и соответствующие модули кодирования и декодирования |
WO2007107670A2 (fr) * | 2006-03-20 | 2007-09-27 | France Telecom | Procede de post-traitement d'un signal dans un decodeur audio |
EP1853092B1 (en) * | 2006-05-04 | 2011-10-05 | LG Electronics, Inc. | Enhancing stereo audio with remix capability |
US20080004883A1 (en) * | 2006-06-30 | 2008-01-03 | Nokia Corporation | Scalable audio coding |
WO2008006108A2 (en) * | 2006-07-07 | 2008-01-10 | Srs Labs, Inc. | Systems and methods for multi-dialog surround audio |
EP2070392A2 (en) * | 2006-09-14 | 2009-06-17 | Koninklijke Philips Electronics N.V. | Sweet spot manipulation for a multi-channel signal |
CA2874451C (en) * | 2006-10-16 | 2016-09-06 | Dolby International Ab | Enhanced coding and parameter representation of multichannel downmixed object coding |
JP4569618B2 (ja) * | 2006-11-10 | 2010-10-27 | ソニー株式会社 | エコーキャンセラ及び通話音声処理装置 |
DE102007017254B4 (de) * | 2006-11-16 | 2009-06-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung zum Kodieren und Dekodieren |
EP2095365A4 (en) * | 2006-11-24 | 2009-11-18 | Lg Electronics Inc | METHOD FOR ENCODING AND DECODING AUDIO SIGNALS BASED ON OBJECTS AND APPARATUS THEREOF |
US8352257B2 (en) * | 2007-01-04 | 2013-01-08 | Qnx Software Systems Limited | Spectro-temporal varying approach for speech enhancement |
US8195454B2 (en) * | 2007-02-26 | 2012-06-05 | Dolby Laboratories Licensing Corporation | Speech enhancement in entertainment audio |
US7853450B2 (en) * | 2007-03-30 | 2010-12-14 | Alcatel-Lucent Usa Inc. | Digital voice enhancement |
US9191740B2 (en) * | 2007-05-04 | 2015-11-17 | Personics Holdings, Llc | Method and apparatus for in-ear canal sound suppression |
JP2008283385A (ja) * | 2007-05-09 | 2008-11-20 | Toshiba Corp | 雑音抑制装置 |
EP2158587A4 (en) * | 2007-06-08 | 2010-06-02 | Lg Electronics Inc | METHOD AND DEVICE FOR PROCESSING AUDIO SIGNAL |
US8046214B2 (en) * | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
US8295494B2 (en) * | 2007-08-13 | 2012-10-23 | Lg Electronics Inc. | Enhancing audio with remixing capability |
JP2010539792A (ja) * | 2007-09-12 | 2010-12-16 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | スピーチ増強 |
DE102007048973B4 (de) * | 2007-10-12 | 2010-11-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung |
US20110026581A1 (en) * | 2007-10-16 | 2011-02-03 | Nokia Corporation | Scalable Coding with Partial Eror Protection |
EP2077551B1 (en) * | 2008-01-04 | 2011-03-02 | Dolby Sweden AB | Audio encoder and decoder |
TWI351683B (en) * | 2008-01-16 | 2011-11-01 | Mstar Semiconductor Inc | Speech enhancement device and method for the same |
JP5302980B2 (ja) * | 2008-03-04 | 2013-10-02 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 複数の入力データストリームのミキシングのための装置 |
ES2796493T3 (es) * | 2008-03-20 | 2020-11-27 | Fraunhofer Ges Forschung | Aparato y método para convertir una señal de audio en una representación parametrizada, aparato y método para modificar una representación parametrizada, aparato y método para sintetizar una representación parametrizada de una señal de audio |
MY159890A (en) * | 2008-04-18 | 2017-02-15 | Dolby Laboratories Licensing Corp | Method and apparatus for maintaining speech audibiliy in multi-channel audio with minimal impact on surround experience |
JP4327886B1 (ja) * | 2008-05-30 | 2009-09-09 | 株式会社東芝 | 音質補正装置、音質補正方法及び音質補正用プログラム |
WO2009151578A2 (en) | 2008-06-09 | 2009-12-17 | The Board Of Trustees Of The University Of Illinois | Method and apparatus for blind signal recovery in noisy, reverberant environments |
KR101756834B1 (ko) * | 2008-07-14 | 2017-07-12 | 삼성전자주식회사 | 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치 |
KR101381513B1 (ko) * | 2008-07-14 | 2014-04-07 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
US8265299B2 (en) * | 2008-07-29 | 2012-09-11 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
EP2175670A1 (en) * | 2008-10-07 | 2010-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Binaural rendering of a multi-channel audio signal |
WO2010073187A1 (en) * | 2008-12-22 | 2010-07-01 | Koninklijke Philips Electronics N.V. | Generating an output signal by send effect processing |
US8457975B2 (en) * | 2009-01-28 | 2013-06-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program |
CN105225667B (zh) * | 2009-03-17 | 2019-04-05 | 杜比国际公司 | 编码器***、解码器***、编码方法和解码方法 |
CN102414743A (zh) * | 2009-04-21 | 2012-04-11 | 皇家飞利浦电子股份有限公司 | 音频信号合成 |
EP2446435B1 (en) * | 2009-06-24 | 2013-06-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages |
JP4621792B2 (ja) * | 2009-06-30 | 2011-01-26 | 株式会社東芝 | 音質補正装置、音質補正方法及び音質補正用プログラム |
WO2011025532A1 (en) * | 2009-08-24 | 2011-03-03 | NovaSpeech, LLC | System and method for speech synthesis using frequency splicing |
US9031834B2 (en) * | 2009-09-04 | 2015-05-12 | Nuance Communications, Inc. | Speech enhancement techniques on the power spectrum |
TWI433137B (zh) * | 2009-09-10 | 2014-04-01 | Dolby Int Ab | 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法 |
US9324337B2 (en) * | 2009-11-17 | 2016-04-26 | Dolby Laboratories Licensing Corporation | Method and system for dialog enhancement |
EP2360681A1 (en) * | 2010-01-15 | 2011-08-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information |
US8423355B2 (en) * | 2010-03-05 | 2013-04-16 | Motorola Mobility Llc | Encoder for audio signal including generic audio and speech frames |
US8428936B2 (en) * | 2010-03-05 | 2013-04-23 | Motorola Mobility Llc | Decoder for audio signal including generic audio and speech frames |
EP2372700A1 (en) * | 2010-03-11 | 2011-10-05 | Oticon A/S | A speech intelligibility predictor and applications thereof |
RU2559899C2 (ru) * | 2010-04-09 | 2015-08-20 | Долби Интернешнл Аб | Стереофоническое кодирование на основе mdct с комплексным предсказанием |
BR112012026324B1 (pt) * | 2010-04-13 | 2021-08-17 | Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E. V | Codificador de aúdio ou vídeo, decodificador de aúdio ou vídeo e métodos relacionados para o processamento do sinal de aúdio ou vídeo de múltiplos canais usando uma direção de previsão variável |
JP5554876B2 (ja) * | 2010-04-16 | 2014-07-23 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | ガイドされた帯域幅拡張およびブラインド帯域幅拡張を用いて広帯域信号を生成するため装置、方法およびコンピュータプログラム |
US20120215529A1 (en) * | 2010-04-30 | 2012-08-23 | Indian Institute Of Science | Speech Enhancement |
US8600737B2 (en) * | 2010-06-01 | 2013-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for wideband speech coding |
IL295473B2 (en) * | 2010-07-02 | 2023-10-01 | Dolby Int Ab | After–selective bass filter |
JP4837123B1 (ja) * | 2010-07-28 | 2011-12-14 | 株式会社東芝 | 音質制御装置及び音質制御方法 |
CN103098131B (zh) * | 2010-08-24 | 2015-03-11 | 杜比国际公司 | 调频立体声无线电接收器的间歇单声道接收的隐藏 |
TWI516138B (zh) * | 2010-08-24 | 2016-01-01 | 杜比國際公司 | 從二聲道音頻訊號決定參數式立體聲參數之系統與方法及其電腦程式產品 |
BR112012031656A2 (pt) * | 2010-08-25 | 2016-11-08 | Asahi Chemical Ind | dispositivo, e método de separação de fontes sonoras, e, programa |
RU2013110317A (ru) * | 2010-09-10 | 2014-10-20 | Панасоник Корпорэйшн | Кодирующее устройство и способ кодирования |
WO2012076044A1 (en) * | 2010-12-08 | 2012-06-14 | Widex A/S | Hearing aid and a method of improved audio reproduction |
EP2661912B1 (en) * | 2011-01-05 | 2018-08-22 | Koninklijke Philips N.V. | An audio system and method of operation therefor |
US20120300960A1 (en) * | 2011-05-27 | 2012-11-29 | Graeme Gordon Mackay | Digital signal routing circuit |
TWI543642B (zh) * | 2011-07-01 | 2016-07-21 | 杜比實驗室特許公司 | 用於適應性音頻信號的產生、譯碼與呈現之系統與方法 |
EP2544466A1 (en) * | 2011-07-05 | 2013-01-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral subtractor |
WO2013061584A1 (ja) * | 2011-10-28 | 2013-05-02 | パナソニック株式会社 | 音信号ハイブリッドデコーダ、音信号ハイブリッドエンコーダ、音信号復号方法、及び音信号符号化方法 |
CN103890841B (zh) * | 2011-11-01 | 2017-10-17 | 皇家飞利浦有限公司 | 音频对象编码和解码 |
US20130136282A1 (en) * | 2011-11-30 | 2013-05-30 | David McClain | System and Method for Spectral Personalization of Sound |
US9418674B2 (en) * | 2012-01-17 | 2016-08-16 | GM Global Technology Operations LLC | Method and system for using vehicle sound information to enhance audio prompting |
US9263040B2 (en) * | 2012-01-17 | 2016-02-16 | GM Global Technology Operations LLC | Method and system for using sound related vehicle information to enhance speech recognition |
US9934780B2 (en) * | 2012-01-17 | 2018-04-03 | GM Global Technology Operations LLC | Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch |
EP2805326B1 (en) * | 2012-01-19 | 2015-10-14 | Koninklijke Philips N.V. | Spatial audio rendering and encoding |
KR101662680B1 (ko) * | 2012-02-14 | 2016-10-05 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 멀티-채널 오디오 신호의 적응적 다운-믹싱 및 업-믹싱을 수행하기 위한 방법 및 장치 |
US20130211846A1 (en) * | 2012-02-14 | 2013-08-15 | Motorola Mobility, Inc. | All-pass filter phase linearization of elliptic filters in signal decimation and interpolation for an audio codec |
EP2849180B1 (en) * | 2012-05-11 | 2020-01-01 | Panasonic Corporation | Hybrid audio signal encoder, hybrid audio signal decoder, method for encoding audio signal, and method for decoding audio signal |
US9898566B2 (en) | 2012-06-22 | 2018-02-20 | Universite Pierre Et Marie Curie (Paris 6) | Method for automated assistance to design nonlinear analog circuit with transient solver |
US9479886B2 (en) * | 2012-07-20 | 2016-10-25 | Qualcomm Incorporated | Scalable downmix design with feedback for object-based surround codec |
US9094742B2 (en) * | 2012-07-24 | 2015-07-28 | Fox Filmed Entertainment | Event drivable N X M programmably interconnecting sound mixing device and method for use thereof |
US9031836B2 (en) * | 2012-08-08 | 2015-05-12 | Avaya Inc. | Method and apparatus for automatic communications system intelligibility testing and optimization |
US9129600B2 (en) * | 2012-09-26 | 2015-09-08 | Google Technology Holdings LLC | Method and apparatus for encoding an audio signal |
US8824710B2 (en) * | 2012-10-12 | 2014-09-02 | Cochlear Limited | Automated sound processor |
WO2014062859A1 (en) * | 2012-10-16 | 2014-04-24 | Audiologicall, Ltd. | Audio signal manipulation for speech enhancement before sound reproduction |
US9344826B2 (en) * | 2013-03-04 | 2016-05-17 | Nokia Technologies Oy | Method and apparatus for communicating with audio signals having corresponding spatial characteristics |
KR101632238B1 (ko) * | 2013-04-05 | 2016-06-21 | 돌비 인터네셔널 에이비 | 인터리브된 파형 코딩을 위한 오디오 인코더 및 디코더 |
EP4300488A3 (en) * | 2013-04-05 | 2024-02-28 | Dolby International AB | Stereo audio encoder and decoder |
EP2830064A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection |
EP2882203A1 (en) * | 2013-12-06 | 2015-06-10 | Oticon A/s | Hearing aid device for hands free communication |
US9293143B2 (en) * | 2013-12-11 | 2016-03-22 | Qualcomm Incorporated | Bandwidth extension mode selection |
-
2014
- 2014-08-27 BR BR112016004299-9A patent/BR112016004299B1/pt active IP Right Grant
- 2014-08-27 BR BR122020017207-0A patent/BR122020017207B1/pt active IP Right Grant
- 2014-08-27 KR KR1020167005223A patent/KR101790641B1/ko active IP Right Grant
- 2014-08-27 CN CN201480048109.0A patent/CN105493182B/zh active Active
- 2014-08-27 EP EP18197853.7A patent/EP3503095A1/en not_active Ceased
- 2014-08-27 JP JP2016515937A patent/JP6001814B1/ja active Active
- 2014-08-27 EP EP14762180.9A patent/EP3039675B1/en active Active
- 2014-08-27 RU RU2016106975A patent/RU2639952C2/ru active
- 2014-08-27 ES ES14762180T patent/ES2700246T3/es active Active
- 2014-08-27 CN CN201911328515.3A patent/CN110890101B/zh active Active
- 2014-08-27 WO PCT/US2014/052962 patent/WO2015031505A1/en active Application Filing
- 2014-08-27 US US14/914,572 patent/US10141004B2/en active Active
-
2016
- 2016-09-06 HK HK16110573.6A patent/HK1222470A1/zh unknown
-
2018
- 2018-10-22 US US16/167,373 patent/US10607629B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001245237A (ja) * | 2000-02-28 | 2001-09-07 | Victor Co Of Japan Ltd | 放送受信装置 |
JP2010518455A (ja) * | 2007-02-12 | 2010-05-27 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | 高齢又は聴覚障害聴取者のための非スピーチオーディオに対するスピーチオーディオの改善された比率 |
JP2008301427A (ja) * | 2007-06-04 | 2008-12-11 | Onkyo Corp | マルチチャンネル音声再生装置 |
JP2009194877A (ja) * | 2008-02-18 | 2009-08-27 | Sharp Corp | 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体 |
JP2013521541A (ja) * | 2010-03-08 | 2013-06-10 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 多重チャネル音声信号中の発話に関連したチャネルのダッキングをスケーリングするための方法およびシステム |
JP2014535182A (ja) * | 2011-09-29 | 2014-12-25 | ドルビー・インターナショナル・アーベー | 予測ベースのfmステレオ・ノイズ削減 |
Also Published As
Publication number | Publication date |
---|---|
US10607629B2 (en) | 2020-03-31 |
US20190057713A1 (en) | 2019-02-21 |
EP3503095A1 (en) | 2019-06-26 |
US20160225387A1 (en) | 2016-08-04 |
ES2700246T3 (es) | 2019-02-14 |
CN110890101B (zh) | 2024-01-12 |
EP3039675B1 (en) | 2018-10-03 |
EP3039675A1 (en) | 2016-07-06 |
BR112016004299B1 (pt) | 2022-05-17 |
KR20160037219A (ko) | 2016-04-05 |
RU2639952C2 (ru) | 2017-12-25 |
BR122020017207B1 (pt) | 2022-12-06 |
BR112016004299A2 (ja) | 2017-08-01 |
CN105493182B (zh) | 2020-01-21 |
JP2016534377A (ja) | 2016-11-04 |
WO2015031505A1 (en) | 2015-03-05 |
CN105493182A (zh) | 2016-04-13 |
US10141004B2 (en) | 2018-11-27 |
CN110890101A (zh) | 2020-03-17 |
HK1222470A1 (zh) | 2017-06-30 |
KR101790641B1 (ko) | 2017-10-26 |
RU2016106975A (ru) | 2017-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6001814B1 (ja) | ハイブリッドの波形符号化およびパラメトリック符号化発話向上 | |
AU2006233504B2 (en) | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing | |
KR100913987B1 (ko) | 다중-채널 출력 신호를 발생시키기 위한 다중-채널합성장치 및 방법 | |
JP4664431B2 (ja) | アンビエンス信号を生成するための装置および方法 | |
EP2109861B1 (en) | Audio decoder | |
AU2010305717B2 (en) | Apparatus, method and computer program for providing one or more adjusted parameters for provision of an upmix signal representation on the basis of a downmix signal representation and a parametric side information associated with the downmix signal representation, using an average value | |
US20240185865A1 (en) | Method and device for multi-channel comfort noise injection in a decoded sound signal | |
JP2023545197A (ja) | オーディオ帯域幅検出およびオーディオコーデックにおけるオーディオ帯域幅切り替えのための方法およびデバイス |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20160808 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160816 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160901 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6001814 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |