JP6545815B2 - 音声デコーダ、およびその動作方法およびその方法を記憶したコンピュータ可読記憶デバイス - Google Patents

音声デコーダ、およびその動作方法およびその方法を記憶したコンピュータ可読記憶デバイス Download PDF

Info

Publication number
JP6545815B2
JP6545815B2 JP2017551621A JP2017551621A JP6545815B2 JP 6545815 B2 JP6545815 B2 JP 6545815B2 JP 2017551621 A JP2017551621 A JP 2017551621A JP 2017551621 A JP2017551621 A JP 2017551621A JP 6545815 B2 JP6545815 B2 JP 6545815B2
Authority
JP
Japan
Prior art keywords
audio
band
mode
audio frame
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017551621A
Other languages
English (en)
Other versions
JP2018513411A (ja
JP2018513411A5 (ja
Inventor
ヴェンカトラマン・エス・アッティ
ヴェンカタ・スブラマニアム・チャンドラ・セカール・チェビーヤム
ヴィヴェク・ラジェンドラン
Original Assignee
クアルコム,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by クアルコム,インコーポレイテッド filed Critical クアルコム,インコーポレイテッド
Publication of JP2018513411A publication Critical patent/JP2018513411A/ja
Publication of JP2018513411A5 publication Critical patent/JP2018513411A5/ja
Application granted granted Critical
Publication of JP6545815B2 publication Critical patent/JP6545815B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

関連出願の相互参照
本出願は、その全体が参照により本明細書に明確に組み込まれる、2016年3月29日に出願された「AUDIO BANDWIDTH SELECTION」と題する米国特許出願第15/083,717号、および2015年4月5日に出願された「AUDIO BANDWIDTH SELECTION」と題する米国仮特許出願第62/143,158号の利益を主張する。
本開示は一般に、オーディオ帯域幅選択に関する。
デバイス間のオーディオコンテンツの送信は、1つまたは複数の周波数範囲を使用して行われ得る。オーディオコンテンツは、エンコーダ帯域幅未満で、デコーダ帯域幅未満の帯域幅を有することができる。オーディオコンテンツの符号化および復号後、復号オーディオコンテンツは、元のオーディオコンテンツの帯域幅を上回る周波数範囲へのスペクトルエネルギー漏れを含む場合があり、これは復号オーディオコンテンツの品質に悪影響を及ぼし得る。たとえば、狭帯域コンテンツ(たとえば、0〜4キロヘルツ(kHz)の第1の周波数範囲内のオーディオコンテンツ)は、0〜8kHzの第2の周波数範囲内で動作する広帯域コーダを使用して符号化および復号され得る。狭帯域コンテンツが広帯域コーダを使用して符号化/復号されるとき、広帯域コーダの出力は、元の狭帯域信号の帯域幅を上回る周波数帯域におけるスペクトルエネルギー漏れを含む場合がある。そのノイズは、元の狭帯域コンテンツのオーディ品質を劣化させる可能性がある。オーディオ品質の劣化は、狭帯域コンテンツを出力するモバイルデバイスの音声処理チェーンにおいて実施され得る、非線形電力増幅またはダイナミックレンジ圧縮によって拡大する可能性がある。
特定の態様において、デバイスは、オーディオストリームのオーディオフレームを受信するように構成されている受信機を含む。デバイスはまた、オーディオフレームと関連付けられる第1の復号スピーチを生成し、帯域制限コンテンツと関連付けられるものとして分類されるオーディオフレームのカウントを決定するように構成されているデコーダを含む。デコーダは、第1の復号スピーチに基づいて第2の復号スピーチを出力するようにさらに構成されている。第2の復号スピーチは、デコーダの出力モードに従って生成することができる。出力モードは、オーディオフレームのカウントに少なくとも部分的に基づいて選択することができる。
別の特定の態様において、方法は、デコーダにおいて、オーディオストリームのオーディオフレームと関連付けられる第1の復号スピーチを生成するステップを含む。方法はまた、帯域幅制限コンテンツと関連付けられるものとして分類されるオーディオフレームの数に少なくとも部分的に基づいて、デコーダの出力モードを決定するステップを含む。方法は、第1の復号スピーチに基づいて第2の復号スピーチを出力するステップをさらに含む。第2の復号スピーチは、出力モードに従って生成することができる。
別の特定の態様において、方法は、デコーダにおいてオーディオストリームの複数のオーディオフレームを受信するステップを含む。方法は、デコーダにおいて、第1のオーディオフレームの受信に応答して、帯域制限コンテンツと関連付けられる複数のオーディオフレームの相対オーディオフレームカウントに対応するメトリックを決定するステップをさらに含む。方法はまた、デコーダの出力モードに基づいて閾値を選択するステップと、メトリックと閾値との比較に基づいて、出力モードを第1のモードから第2のモードへと更新するステップを含む。
別の特定の態様において、方法は、デコーダにおいてオーディオストリームの第1のオーディオフレームを受信するステップを含む。方法はまた、デコーダにおいて受信され、広帯域コンテンツと関連付けられるものとして分類される、第1のオーディオフレームを含む連続するオーディオフレームの数を決定するステップを含む。方法は、連続するオーディオフレームの数が閾値以上であることに応答して、第1のオーディオフレームと関連付けられる出力モードが広帯域モードであると決定するステップをさらに含む。
別の特定の態様において、装置は、オーディオストリームのオーディオフレームと関連付けられる第1の復号スピーチを生成するための手段を含む。装置はまた、帯域幅制限コンテンツと関連付けられるものとして分類されるオーディオフレームの数に少なくとも部分的に基づいて、デコーダの出力モードを決定するための手段を含む。装置は、第1の復号スピーチに基づいて第2の復号スピーチを出力するための手段をさらに含む。第2の復号スピーチは、出力モードに従って生成することができる。
別の特定の態様において、コンピュータ可読記憶デバイスは、プロセッサによって実行されると、プロセッサに、オーディオストリームのオーディオフレームと関連付けられる第1の復号スピーチを生成するステップと、帯域制限コンテンツと関連付けられるものとして分類されるオーディオフレームのカウントに少なくとも部分的に基づいて、デコーダの出力モードを決定するステップとを含む動作を実行させる命令を記憶している。動作はまた、第1の復号スピーチに基づいて第2の復号スピーチを出力するステップを含む。第2の復号スピーチは、出力モードに従って生成することができる。
本開示の他の態様、利点、および特徴は、以下のセクション、すなわち、図面の簡単な説明、発明を実施するための形態、および特許請求の範囲を含む本出願の検討後に明らかになるであろう。
デコーダを含み、オーディオフレームに基づいて出力モードを選択するように動作可能であるシステムの一例のブロック図である。 帯域幅に基づくオーディオフレームの分類の一例を示すグラフ図である。 図1のデコーダの動作の態様を示す表である。 図1のデコーダの動作の態様を示す表である。 デコーダの動作方法の一例を示すフローチャートである。 オーディオフレームを分類する方法の一例を示すフローチャートである。 デコーダの動作方法の別の例を示すフローチャートである。 デコーダの動作方法の別の例を示すフローチャートである。 帯域制限コンテンツを検出するように動作可能なデバイスの特定の例示的な実施例のブロック図である。 エンコーダを選択するように動作可能な基地局の特定の例示的な態様のブロック図である。
本開示の特定の態様が、図面を参照して以下で説明される。説明において、共通の特徴は共通の参照番号により指定される。本明細書で使用される場合、様々な用語は、特定の実施態様を説明することのみを目的として使用され、実施態様を限定することは意図されない。たとえば、単数形「a」、「an」、および「the」は、文脈が別段に明確に示さない限り複数形を含むことを意図する。「備える」(「comprises」および「comprising」)という用語は、「含む」(「includes」または「including」)と互換的に使用することができることがさらに理解され得る。加えて、「wherein」という用語は、「where」と互換的に使用することが理解されよう。本明細書において使用される場合、構造、構成要素、動作などのような要素を修飾するために使用される序数の用語(たとえば、「第1の」、「第2の」、「第3の」など)は、それ自体が要素の別の要素に対する任意の優先度または順序を示すものではなく、むしろ、(序数の用語を使用しなければ)同じ名称を有する別の要素から、その要素を区別するものにすぎない。本明細書において使用される場合、「セット」という用語は、1つまたは複数の(one or more)特定の要素を指し、「複数(plurality)」という用語は、複数(multiple)(たとえば、2つ以上)の特定の要素を指す。
本開示において、デコーダにおいて受信されるオーディオパケット(たとえば、符号化オーディオフレーム)は、広帯域周波数範囲のような周波数範囲と関連付けられる復号スピーチを生成するために復号され得る。デコーダは、復号スピーチが、周波数範囲の第1の部分範囲(たとえば、低帯域)と関連付けられる帯域制限コンテンツを含むか否かを検出することができる。復号スピーチが帯域制限コンテンツを含む場合、デコーダは、復号スピーチをさらに処理して、周波数範囲の第2の部分範囲(たとえば、高帯域)と関連付けられるオーディオコンテンツを除去することができる。高帯域と関連付けられるオーディオコンテンツ(たとえば、スペクトルエネルギー漏れ)を除去することによって、デコーダは、最初により大きい帯域幅(たとえば、広帯域周波数範囲にわたる)を有するようにオーディオパケットを復号するにもかかわらず、帯域制限(たとえば、狭帯域)スピーチを出力することができる。加えて、高帯域と関連付けられるオーディオコンテンツ(たとえば、スペクトルエネルギー漏れ)を除去することによって、帯域制限コンテンツを符号化および復号した後のオーディオ品質を改善することができる(たとえば、入力信号帯域幅にわたってスペクトル漏れを減衰させることによって)。
例として、デコーダにおいて受信される各オーディオフレームについて、デコーダは、オーディオフレームを、広帯域コンテンツまたは狭帯域コンテンツ(たとえば、狭帯域帯域制限コンテンツ)と関連付けられるものとして分類することができる。たとえば、特定のオーディオフレームについて、デコーダは、低帯域と関連付けられる第1のエネルギー値を決定することができ、高帯域と関連付けられる第2のエネルギー値を決定することができる。いくつかの実施態様において、第1のエネルギー値は、低帯域の平均エネルギー値と関連付けることができ、第2のエネルギー値は、高帯域のピークエネルギー値と関連付けることができる。第1のエネルギー値と第2のエネルギー値との比が閾値(たとえば、512)よりも大きい場合、特定のフレームは、帯域制限コンテンツと関連付けられるものとして分類することができる。デシベル(dB)領域では、この比は差として解釈され得る。(たとえば、(第1のエネルギー)/(第2のエネルギー)>512は、10*log10(第1のエネルギー/第2のエネルギー)=10*log10(第1のエネルギー)-10*log10(第2のエネルギー)>27.097dBと等価である。)
デコーダの出力スピーチモードのような出力モード(たとえば、広帯域モードまたは帯域制限モード)は、複数のオーディオフレームの分類に基づいて選択することができる。たとえば、出力モードは、デコーダの合成器の合成モードのような、デコーダの合成器の動作モードに対応することができる。出力モードを選択するために、デコーダは、最近受信したオーディオフレームのグループを識別し、帯域制限コンテンツと関連付けられるものとして分類されるフレームの数を決定することができる。出力モードが広帯域モードに設定される場合、帯域制限コンテンツを有するものとして分類されるフレームの数を、特定の閾値と比較することができる。帯域制限コンテンツと関連付けられるフレームの数が特定の閾値以上である場合、出力モードは、広帯域モードから帯域制限モードへと変更することができる。出力モードが帯域制限モード(たとえば、狭帯域モード)に設定される場合、帯域制限コンテンツを有するものとして分類されるフレームの数を、第2の閾値と比較することができる。第2の閾値は、特定の閾値よりも低い値とすることができる。フレームの数が第2の閾値以下である場合、出力モードは、帯域制限モードから広帯域モードへと変更することができる。出力モードに基づいて異なる閾値を使用することによって、デコーダは、異なる出力モード間で頻繁に切り替えられることを回避するのに役立つことができるヒステリシスをもたらすことができる。たとえば、単一の閾値が実装されるとすると、フレームの数が、単一の閾値以上と単一の閾値未満との間でフレームごとに行きつ戻りつ揺動するとき、出力モードは広帯域モードと帯域制限モードとの間に頻繁に切り替わることになる。
付加的にまたは代替的に、デコーダが、広帯域オーディオフレームとして分類される特定数の連続するオーディオフレームを受信するのに応答して、出力モードは帯域制限モードから広帯域モードへと変化してもよい。たとえば、デコーダは、広帯域フレームとして分類される特定数の連続して受信されるオーディオフレームを検出するために、受信オーディオフレームをモニタリングすることができる。出力モードが帯域制限モード(たとえば、狭帯域モード)であり、連続して受信されるオーディオフレームの特定数が閾値(たとえば、20)以上である場合、デコーダは、出力モードを、帯域制限モードから広帯域モードへと遷移することができる。帯域制限出力モードから広帯域出力モードへと遷移することによって、デコーダは、そうでなくデコーダが帯域制限出力モードのままであったとしたら抑制されていた広帯域コンテンツを提供することができる。
開示されている態様のうちの少なくとも1つによって与えられる1つの特定の利点は、広帯域周波数範囲にわたるオーディオフレームを復号するように構成されているデコーダが、狭帯域周波数範囲にわたる帯域制限コンテンツを選択的に出力することができることである。たとえば、デコーダは、高帯域周波数のスペクトルエネルギー漏れを除去することによって、帯域制限コンテンツを選択的に出力することができる。スペクトルエネルギー漏れを除去することによって、そうでなくスペクトルエネルギー漏れが除去されなかったとしたら被っていた帯域制限コンテンツのオーディオ品質の劣化を低減することができる。加えて、デコーダは、複数の異なる閾値を使用して、いつ出力モードを広帯域モードから帯域制限モードへと切り替えるべきか、および、いつ帯域制限モードから広帯域モードへと切り替えるべきかを決定することができる。複数の異なる閾値を使用することによって、デコーダは、短期間の間に複数のモード間を繰り返し遷移するのを回避することができる。加えて、広帯域フレームとして分類される特定数の連続して受信されるオーディオフレームを検出するために、受信オーディオフレームをモニタリングすることによって、デコーダは、そうでなくデコーダが帯域制限モードのままであったとしたら抑制されることになる広帯域コンテンツを提供するために、帯域制限モードから広帯域モードへと迅速に遷移することができる。
図1を参照すると、帯域制限コンテンツを検出するように動作可能なシステムの特定の例示的な態様が開示され、全体が100で示されている。システム100は、第1のデバイス102(たとえば、送信元デバイス)と、第2のデバイス120(たとえば、宛先デバイス)とを含むことができる。第1のデバイス102は、エンコーダ104を含むことができ、第2のデバイス120は、デコーダ122を含むことができる。第1のデバイス102は、ネットワーク(図示せず)を介して第2のデバイス120と通信することができる。たとえば、第1のデバイス102は、オーディオフレーム112のようなオーディオデータ(たとえば、符号化オーディオデータ)を第2のデバイス120に送信するように構成することができる。付加的にまたは代替的に、第2のデバイス120が、オーディオデータを第1のデバイス102に送信するように構成されてもよい。
第1のデバイス102は、エンコーダ104を使用して入力オーディオデータ110(たとえば、スピーチデータ)を符号化するように構成することができる。たとえば、エンコーダ104は、入力オーディオデータ110(たとえば、リモートマイクロフォンまたは第1のデバイス102に対してローカルなマイクロフォンを介してワイヤレスに受信されるスピーチデータ)を符号化してオーディオフレーム112を生成するように構成することができる。エンコーダ104は、入力オーディオデータ110を分析して1つまたは複数のパラメータを抽出することができ、パラメータを量子化して、オーディオフレーム112のようなバイナリ表現、たとえば、ビットのセットまたはバイナリデータパケットにすることができる。例として、エンコーダ104は、スピーチ信号の時間ブロックへの圧縮、分割、またはその両方を行って、フレームを生成するように構成することができる。各時間ブロック(または「フレーム」)の継続時間は、信号のスペクトルエンベロープが相対的に静止したままであると期待することができるのに十分に短くなるように選択することができる。いくつかの実施態様において、第1のデバイス102は、スピーチコンテンツを符号化するように構成されているエンコーダ104および非スピーチコンテンツ(たとえば、音楽コンテンツ)を符号化するように構成されている別のエンコーダ(図示せず)のような、複数のエンコーダを含むことができる。
エンコーダ104は、一定のサンプリングレート(Fs)において入力オーディオデータ110をサンプリングするように構成することができる。ヘルツ(Hz)単位のサンプリングレート(Fs)は、入力オーディオデータ110の秒あたりのサンプル数である。入力オーディオデータ110(たとえば、入力コンテンツ)の信号帯域幅は、理論的には、[0,(Fs/2)]の範囲のような、ゼロとサンプリングレートの2分の1(Fs/2)との間であり得る。信号帯域幅がFs/2未満である場合、入力信号(たとえば、入力オーディオデータ110)は、帯域制限として参照され得る。加えて、帯域制限信号のコンテンツは、帯域制限コンテンツとして参照され得る。
コード化帯域幅は、オーディオコーダ(CODEC)がコード化する周波数範囲を示すことができる。いくつかの実施態様において、オーディオコーダ(CODEC)は、エンコーダ104のようなエンコーダ、デコーダ122のようなデコーダ、またはその両方を含むことができる。本明細書において説明するように、システム100例は、可能性として8kHzの信号帯域幅に対応する16キロヘルツ(kHz)としての復号スピーチのサンプリングレートを使用して提供される。8kHzの帯域幅は、広帯域(「WB」)に対応し得る。4kHzのコード化帯域幅は狭帯域(「NB」)に対応し得、0〜4kHzの範囲内の情報がコード化され、0〜4kHzの範囲外の他の情報は廃棄されることを示し得る。
いくつかの態様において、エンコーダ104は、入力オーディオデータ110の信号帯域幅に等しい符号化帯域幅をもたらすことができる。符号化帯域幅が信号帯域幅(たとえば、入力信号帯域幅)よりも大きい場合は、信号符号化および送信は、入力オーディオデータ110が信号情報を含まない周波数範囲のコンテンツを符号化するためにデータが使用されることに起因して、効率が低減する可能性がある。加えて、コード化帯域幅が信号帯域幅よりも大きい場合、代数符号励振線形予測(ACELP)コーダのような、時間領域コーダが使用される事例において、入力信号がエネルギーを有しない信号帯域幅を上回る周波数の領域へのエネルギー漏れが発生する可能性がある。スペクトルエネルギー漏れは、コード化信号と関連付けられる信号品質にとって有害である可能性がある。代替的に、コード化帯域幅が入力信号帯域幅未満である場合、コーダは、入力信号に含まれる情報の全体を送信することができない(たとえば、Fs/2を上回る周波数にある入力信号に含まれる情報が、コード化信号において省かれる場合がある)。入力信号の情報全体を送信できないことによって、復号スピーチの了解度およびライブリネスが低減する可能性がある。
いくつかの実施態様において、エンコーダ104は、適応マルチレート広帯域(AMR-WB)エンコーダを含むか、または、これに対応することができる。AMR-WBエンコーダは、8kHzのコード化帯域幅を有することができ、入力オーディオデータ110は、コード化帯域幅未満の入力信号帯域幅を有することができる。例として、入力オーディオデータ110は、たとえば、グラフ150に示すようなNB入力信号(たとえば、NBコンテンツ)に対応することができる。グラフ150において、NB入力信号は、4〜8kHz領域においてゼロエネルギーを有する(すなわちスペクトルエネルギー漏れを含まない)。エンコーダ104(たとえば、AMR-WBエンコーダ)は、復号されるとグラフ160内の4〜8kHz範囲内に漏れエネルギーを含むオーディオフレーム112を生成し得る。いくつかの実施態様において、入力オーディオデータ110は、第1のデバイス102に結合されているデバイス(図示せず)からのワイヤレス通信内で第1のデバイス102において受信され得る。代替的に、入力オーディオデータ110は、第1のデバイス102のマイクロフォンなどを介して第1のデバイス102によって受信されるオーディオデータを含むことができる。いくつかの実施態様において、入力オーディオデータ110は、オーディオストリームに含まれてもよい。オーディオストリームの一部分は、第1のデバイス102に結合されているデバイスから受信され得、オーディオストリームの別の部分は、第1のデバイス102のマイクロフォンを介して受信され得る。
他の実施態様において、エンコーダ104は、AMR-WB相互運用モードを有する強化音声サービス(EVS)CODECを含むか、または、これに対応することができる。AMR-WB相互運用モードにおいて動作するように構成されるとき、エンコーダ104は、AMR-WBエンコーダと同じコード化帯域幅をサポートするように構成することができる。
オーディオフレーム112は、第1のデバイス102から第2のデバイス120へと送信する(たとえば、ワイヤレスに送信する)ことができる。たとえば、オーディオフレーム112は、有線ネットワーク接続、ワイヤレスネットワーク接続、またはそれらの組合せのような通信チャネルを介して、第2のデバイス120の受信機(図示せず)に送信することができる。いくつかの実施態様において、オーディオフレーム112は、第1のデバイス102から第2のデバイス120へと送信される一連のオーディオフレーム(たとえば、オーディオストリーム)に含めることができる。いくつかの実施態様において、オーディオフレーム112に対応するコード化された帯域幅を示す情報を、オーディオフレーム112に含めることができる。オーディオフレーム112は、第3世代パートナーシッププロジェクト(3GPP)EVSプロトコルに基づくワイヤレスネットワークを介して通信することができる。
第2のデバイス120は、第2のデバイス120の受信機を介してオーディオフレーム112を受信するように構成されているデコーダ122を含むことができる。いくつかの実施態様において、デコーダ122は、AMR-WBエンコーダの出力を受信するように構成することができる。たとえば、デコーダ122は、AMR-WB相互運用モードを有するEVS CODECを含むことができる。AMR-WB相互運用モードにおいて動作するように構成されるとき、デコーダ122は、AMR-WBエンコーダと同じコード化帯域幅をサポートするように構成することができる。デコーダ122は、データパケット(たとえば、オーディオフレーム)を処理して、処理済みデータパケットを逆量子化してオーディオパラメータを生成し、また、逆量子化オーディオパラメータを使用してスピーチフレームを再合成するように構成することができる。
デコーダ122は、第1の復号段123と、検出器124と、第2の復号段132とを含むことができる。第1の復号段123は、オーディオフレーム112を処理して、第1の復号スピーチ114および音声活性判定(VAD)140を生成するように構成することができる。第1の復号スピーチ114は、検出器124、第2の復号段132に提供することができる。VAD140は、デコーダ122によって、本明細書において説明するように、1つまたは複数の判定を行うために使用することができ、デコーダ122によって、デコーダ122の1つまたは複数の他の構成要素、またはそれらの組合せに出力することができる。
VAD140は、オーディオフレーム112が有用なオーディオコンテンツを含むか否かを示すことができる。有用なオーディオコンテンツの例は、静寂の間のただの背景雑音とは対照的な、能動的なスピーチである。たとえば、デコーダ122は、第1の復号スピーチ114に基づいてオーディオフレーム112がアクティブである(すなわち、能動的なスピーチを含む)か否かを判定することができる。VAD140は、特定のフレームが「アクティブ」または「有用」であることを示すために、1の値に設定することができる。代替的に、VAD140は、特定のフレームが、オーディオコンテンツを欠く(たとえば、ただ背景雑音を含む)フレームのような「非アクティブ」フレームであることを示すために、0の値に設定され得る。VAD140はデコーダ122によって判定されるものとして説明されているが、他の実施態様において、VAD140は、デコーダ122とは別個の第2のデバイス120の構成要素によって判定されてもよく、デコーダ122に提供されてもよい。付加的または代替的に、VAD140は第1の復号スピーチ114に基づくものとして説明されているが、他の実施態様において、VAD140は、オーディオフレーム112に直に基づいてもよい。
検出器124は、オーディオフレーム112(たとえば、第1の復号スピーチ114)を、広帯域コンテンツまたは帯域制限コンテンツ(たとえば、狭帯域コンテンツ)と関連付けられるものとして分類するように構成することができる。たとえば、デコーダ122は、オーディオフレーム112を、狭帯域フレームまたは広帯域フレームとして分類するように構成されてもよい。狭帯域フレームの分類は、オーディオフレーム112が、帯域制限コンテンツを有する(たとえば、それと関連付けられる)ものとして分類されることに対応し得る。オーディオフレーム112の分類に少なくとも部分的に基づいて、デコーダ122は、狭帯域(NB)モードまたは広帯域(WB)モードのような、出力モード134を選択することができる。たとえば、出力モードは、デコーダの合成器の動作モード(たとえば、合成モード)に対応することができる。
例として、検出器124は、分類器126と、トラッカ128と、平滑化論理130とを含むことができる。分類器126は、オーディオフレーム112を、帯域制限コンテンツ(たとえば、NBコンテンツ)または広帯域コンテンツ(たとえば、WBコンテンツ)と関連付けられるものとして分類するように構成することができる。いくつかの実施態様において、分類器126は、アクティブフレームに対する分類は生成するが、非アクティブフレームの分類は生成しない。
オーディオフレーム112の分類を判定するために、分類器126は、第1の復号スピーチ114の周波数範囲を、複数の帯域に分割することができる。例示的な実施例190は、複数の帯域に分割されている周波数範囲を示す。周波数範囲(たとえば、広帯域)は、0〜8kHzの帯域幅を有することができる。周波数範囲は、低帯域(たとえば、狭帯域)および高帯域を含むことができる。低帯域は、周波数範囲のうちの、0〜4kHzのような第1の部分範囲(たとえば、第1のセット)に対応することができる(たとえば、狭帯域)。高帯域は、周波数範囲のうちの、4〜8kHzのような第2の部分範囲(たとえば、第2のセット)に対応することができる。広帯域は、帯域B0〜B7のような、複数の帯域に分割することができる。複数の帯域の各々が、同じ帯域幅(たとえば、実施例190においては1kHzの帯域幅)を有することができる。高帯域のうちの1つまたは複数の帯域は、遷移帯域として指定され得る。遷移帯域のうちの少なくとも1つは、低帯域に隣接し得る。広帯域は、8つの帯域に分割されるものとして示されているが、他の実施態様において、広帯域は、8よりも多いまたは少ない帯域に分割されてもよい。たとえば、広帯域は、例示的な非限定例として、各々が400Hzの帯域幅を有する20の帯域に分割されてもよい。
分類器126の動作の例として、第1の復号スピーチ114(広帯域と関連付けられる)は、20の帯域に分割され得る。分類器126は、低帯域の帯域と関連付けられる第1のエネルギーメトリック、および、高帯域の帯域と関連付けられる第2のエネルギーメトリックを決定することができる。たとえば、第1のエネルギーメトリックは、低帯域の帯域の平均エネルギー(または電力)であってもよい。別の例として、第1のエネルギーメトリックは、低帯域の帯域のサブセットの平均エネルギーであってもよい。例として、サブセットは、800〜3600Hzの周波数範囲内の帯域を含んでもよい。いくつかの実施態様において、第1のエネルギーメトリックを決定する前に、重み値(たとえば、乗数)が低帯域の1つまたは複数の帯域に適用され得る。特定の帯域に重み値を適用することによって、第1のエネルギーメトリックを計算するときに、特定の帯域に対するより高い優先度を与えることができる。いくつかの実施態様において、優先度は、高帯域に近接する低帯域の1つまたは複数の帯域に与えることができる。
特定の帯域に対応するエネルギーの量を決定するために、分類器126は、直交ミラーフィルタバンク、バンドパスフィルタ、複素低遅延フィルタバンク、別の構成要素、または別の技法を使用してもよい。付加的にまたは代替的に、分類器126は、各帯域の信号成分の2乗を合計することによって、特定の帯域のエネルギーの量を決定することができる。
第2のエネルギーメトリックは、高帯域を構成する1つまたは複数の帯域(たとえば、遷移帯域として考えられる帯域を含まない1つまたは複数の帯域)のピークエネルギー値に基づいて決定することができる。さらに説明すると、ピークエネルギーを決定するために、高帯域の1つまたは複数の遷移帯域は、考慮されなくてもよい。1つまたは複数の遷移帯域には、高帯域の他の帯域よりも、低帯域コンテンツからのスペクトル漏れが多い可能性があるため、1つまたは複数の遷移帯域は無視され得る。したがって、1つまたは複数の遷移帯域は、高帯域が意味のあるコンテンツを含むかまたはスペクトルエネルギー漏れを含むのみであるかを示さない場合がある。たとえば、高帯域を構成する帯域のピークエネルギー値は、遷移帯域(たとえば、4.4kHzの上限を有する遷移帯域)を上回る、第1の復号スピーチ114の検出される最大の帯域エネルギー値であってもよい。
(低帯域の)第1のエネルギーメトリックおよび(高帯域の)第2のエネルギーメトリックが決定された後、分類器126は、第1のエネルギーメトリックおよび第2のエネルギーメトリックを使用して比較を実施することができる。たとえば、分類器126は、第1のエネルギーメトリックと第2のエネルギーメトリックとの間の比が、閾値量以上であるか否かを判定することができる。比が閾値量よりも大きい場合、第1の復号スピーチ114は、高帯域(たとえば、4〜8kHz)において意味のあるオーディオコンテンツを有しないと判定することができる。たとえば、高帯域は、(低帯域の)帯域制限コンテンツのコード化に起因して、スペクトル漏れを主に含むと判定することができる。したがって、比が閾値量よりも大きい場合、オーディオフレーム112は、帯域制限コンテンツ(たとえば、NBコンテンツ)を有するものとして分類することができる。比が閾値量以下である場合、オーディオフレーム112は、広帯域コンテンツ(たとえば、WBコンテンツ)と関連付けられるものとして分類することができる。閾値量は、例示的な非限定例として、512のような所定の値であってもよい。代替的に、閾値量は、第1のエネルギーメトリックに基づいて決定されてもよい。たとえば、閾値量は、第1のエネルギーメトリックを、512の値で除算した値に等しくてもよい。512の値はおおよそ、第1のエネルギーメトリックの対数と第2のエネルギーメトリックの対数との間の27dBの差に対応し得る(たとえば、10*log10(第1のエネルギーメトリック)-10*log10(第2のエネルギーメトリック))。他の実施態様において、第1のエネルギーメトリックと第2のエネルギーメトリックとの比が計算され、閾値量と比較されてもよい。帯域制限コンテンツおよび広帯域コンテンツを有するものとして分類されるオーディオ信号の例は、図2を参照して説明する。
トラッカ128は、分類器126によって生成される1つまたは複数の分類の記録を維持するように構成することができる。たとえば、トラッカ128は、メモリ、バッファ、または、分類を追跡するように構成することができる他のデータ構造を含むことができる。例として、トラッカ128は、最近に生成された特定数(たとえば、100)の分類子(たとえば、100個の最も最近のフレームに対する分類器126の分類出力)に対応するデータを維持するように構成されているバッファを含んでもよい。いくつかの実施態様において、トラッカ128は、フレームごとに(またはアクティブフレームごとに)更新されるスカラー値を維持してもよい。スカラー値は、分類器126によって帯域制限(たとえば、狭帯域)コンテンツと関連付けられるものとして分類されるフレームの相対カウントの長期メトリックを表すことができる。たとえば、スカラー値(たとえば、長期メトリック)は、帯域制限(たとえば、狭帯域)コンテンツと関連付けられるものとして分類される受信フレームの割合を表すことができる。いくつかの実施態様において、トラッカ128は1つまたは複数のカウンタを含み得る。たとえば、トラッカ128は、受信フレームの数(たとえば、アクティブフレームの数)をカウントするための第1のカウンタ、帯域制限コンテンツを有するものとして分類されるフレームの数をカウントするための第2のカウンタ、広帯域コンテンツを有するものとして分類されるフレームの数をカウントするための第3のカウンタ、またはこれらの組合せを含むことができる。付加的にまたは代替的に、1つまたは複数のカウンタは、帯域制限コンテンツを有するものとして分類される、連続的に(かつ最も最近に)受信されているフレームの数をカウントするための第4のカウンタ、広帯域コンテンツを有するものとして分類される、連続的に(かつ最近に)受信されているフレームの数をカウントするように構成されている第5のカウンタ、またはそれらの組合せを含むことができる。いくつかの実施態様において、少なくとも1つのカウンタは、増分されるように構成されてもよい。いくつかの実施態様において、少なくとも1つのカウンタは、減分されるように構成されてもよい。いくつかの実施態様において、トラッカ128は、VAD140が特定のフレームがアクティブフレームであると示すのに応答して、受信アクティブフレームの数のカウントを増分することができる。
平滑化論理130は、出力モード134を広帯域モードおよび帯域制限モード(たとえば、狭帯域モード)のうちの1つとして選択することのような、出力モード134を決定するように構成することができる。たとえば、平滑化論理130は、各オーディオフレーム(たとえば、各アクティブオーディオフレーム)に応答して出力モード134を決定するように構成することができる。平滑化論理130は、出力モード134が広帯域モードと帯域制限モードとの間で頻繁に入れ替わらないように、出力モード134を決定するための長期的手法を実施することができる。
平滑化論理130は、出力モード134を決定することができ、出力モード134の指示を第2の復号段132に与えることができる。平滑化論理130は、トラッカ128によって与えられる1つまたは複数のメトリックに基づいて出力モード134を決定することができる。1つまたは複数のメトリックは、例示的な非限定例として、アクティブフレーム(たとえば、音声活性判定によってアクティブ/有用であるとして示されるフレーム)の数、帯域制限コンテンツを有するものとして分類されるフレームの数、広帯域コンテンツを有するものとして分類されるフレームの数などを含むことができる。アクティブフレームの数は、帯域制限モードから広帯域へと切り替えられるなど、出力モードが明示的に切り替えられた最後の事象、通信(たとえば、電話呼)の開始、いずれか最近の事象からの、VAD140によって「アクティブ/有用」であるとして示される(たとえば、分類される)フレームの数として測定することができる。加えて、平滑化論理130は、以前のまたは既存の(たとえば、現在の)出力モードおよび1つまたは複数の閾値131に基づいて出力モード134を決定することができる。
いくつかの実施態様において、平滑化論理130は、受信フレームの数が第1の閾数以下である場合に、出力モード134を広帯域モードであるとして選択することができる。追加のまたは代替的な実施態様において、平滑化論理130は、アクティブフレームの数が第2の閾値未満である場合に、出力モード134を広帯域モードであるとして選択することができる。第1の閾数は、例示的な非限定例として、20、50、250、または500の値を有することができる。第2の閾数は、例示的な非限定例として、20、50、250、または500の値を有することができる。受信フレームの数が第1の閾数よりも大きい場合、平滑化論理130は、帯域制限コンテンツを有するものとして分類されるフレームの数、広帯域コンテンツを有するものとして分類されるフレームの数、分類器126によって帯域制限コンテンツと関連付けられるものとして分類されるフレームの相対カウントの長期メトリック、広帯域コンテンツを有するものとして分類される、連続的に(かつ最も最近に)受信されているフレームの数、またはそれらの組合せに基づいて、出力モード134を決定することができる。第1の閾数が満たされた後、検出器124は、本明細書においてさらに説明するように、平滑化論理130が出力モード134を選択することを可能にするための、累積された十分な分類を有するために、トラッカ128を考慮することができる。
例として、いくつかの実施態様において、平滑化論理130は、適応的閾値と比較したときの、帯域制限コンテンツを有するものとして分類される受信フレームの相対カウントの比較に基づいて、出力モード134を選択することができる。帯域制限コンテンツを有するものとして分類される受信フレームの相対カウントは、トラッカ128によって追跡される分類の総数から決定することができる。たとえば、トラッカ128は、特定の数(たとえば、100)の最も最近に分類されたアクティブフレームを追跡するように構成することができる。例として、受信アクティブフレームの数のカウントは、特定数において上限を定められ(たとえば、制限され)得る。いくつかの実施態様において、帯域制限コンテンツと関連付けられるものとして分類される受信フレームの数は、帯域制限コンテンツと関連付けられるものとして分類されるフレームの相対数を示すための比または割合として表すことができる。たとえば、受信アクティブフレームの数のカウントは、1つまたは複数のフレームのグループに対応することができ、平滑化論理130は、帯域制限コンテンツと関連付けられるものとして分類される1つまたは複数のフレームのグループの割合を決定することができる。したがって、受信フレームの数のカウントを初期値(たとえば、ゼロの値)に設定することによって、割合がゼロの値にリセットされるという効果を得ることができる。
適応的閾値は、平滑化論理130によって、デコーダ122によって処理されている以前のオーディオフレームに適用されている以前の出力モードのような、以前の出力モード134に従って選択(たとえば、設定)することができる。たとえば、以前の出力モードは、最も最近に使用されている出力モードであってもよい。以前の出力モードが広帯域コンテンツモードである場合、適応的閾値は、第1の適応的閾値として選択され得る。以前の出力モードが帯域制限コンテンツモードである場合、適応的閾値は、第2の適応的閾値として選択され得る。第1の適応的閾値の値は、第2の適応的閾値の値よりも大きくなり得る。たとえば、第1の適応的閾値は、90%の値と関連付けられ得、第2の適応的閾値は、80%の値と関連付けられ得る。別の例として、第1の適応的閾値は、80%の値と関連付けられ得、第2の適応的閾値は、71%の値と関連付けられ得る。以前の出力モードに基づいて適応的閾値を複数の閾値のうちの1つとして選択することによって、出力モード134が広帯域モードと帯域制限モードとの間で頻繁に切り替わることを防止するのを助けることができるヒステリシスをもたらすことができる。
適応的閾値が第1の適応的閾値である(たとえば、以前の出力モードが広帯域モードである)場合、平滑化論理130は、帯域制限コンテンツを有するものとして分類される受信フレームの数を、第1の適応的閾値と比較することができる。帯域制限コンテンツを有するものとして分類される受信フレームの数が第1の適応的閾値以上である場合、平滑化論理130は、出力モード134を、帯域制限モードであるとして選択することができる。帯域制限コンテンツを有するものとして分類される受信フレームの数が第1の適応的閾値未満である場合、平滑化論理130は、以前の出力モード(たとえば、広帯域モード)を、出力モード134として維持することができる。
適応的閾値が第2の適応的閾値である(たとえば、以前の出力モードが帯域制限モードである)場合、平滑化論理130は、帯域制限コンテンツを有するものとして分類される受信フレームの数を、第2の適応的閾値と比較することができる。帯域制限コンテンツを有するものとして分類される受信フレームの数が第2の適応的閾値以下である場合、平滑化論理130は、出力モード134を、広帯域モードであるとして選択することができる。帯域制限コンテンツと関連付けられるものとして分類される受信フレームの数が第2の適応的閾値よりも大きい場合、平滑化論理130は、以前の出力モード(たとえば、帯域制限モード)を、出力モード134として維持することができる。第1の適応的閾値(たとえば、高い方の適応的閾値)が満たされるときに広帯域モードから帯域制限モードへと切り替えることによって、検出器124は、帯域制限コンテンツがデコーダ122によって受信されているという高い確率を与えることができる。加えて、第2の適応的閾値(たとえば、低い方の適応的閾値)が満たされるときに帯域制限モードから広帯域モードへと切り替えることによって、検出器124は、帯域制限コンテンツがデコーダ122によって受信されているというより低い確率に応答して、モードを変更することができる。
平滑化論理130は、平滑回路帯域制限コンテンツを有するものとして分類される受信フレームの数を使用するものとして説明されているが、他の実施態様において、平滑化論理130は、広帯域コンテンツを有するものとして分類される受信フレームの相対カウントに基づいて出力モード134を選択することができる。たとえば、平滑化論理130は、広帯域コンテンツを有するものとして分類される受信フレームの相対カウントを、第3の適応的閾値および第4の適応的閾値のうちの1つとして設定される適応的閾値と比較することができる。第3の適応的閾値は、10%と関連付けられる値を有し得、第4の適応的閾値は、20%と関連付けられる値を有し得る。平滑化論理130は、以前の出力モードが広帯域モードであるとき、広帯域コンテンツを有するものとして分類される受信フレームの数を、第3の適応的閾値と比較することができる。広帯域コンテンツを有するものとして分類される受信フレームの数が第3の適応的閾値以下である場合、平滑化論理130は、出力モード134を、帯域制限モードであるとして選択することができ、そうでない場合、出力モード134を広帯域モードとして維持することができる。平滑化論理130は、以前の出力モードが狭帯域モードであるとき、広帯域コンテンツを有するものとして分類される受信フレームの数を、第4の適応的閾値と比較することができる。広帯域コンテンツを有するものとして分類される受信フレームの数が第4の適応的閾値以上である場合、平滑化論理130は、出力モード134を、広帯域モードであるとして選択することができ、そうでない場合、出力モード134を帯域制限モードとして維持することができる。
いくつかの実施態様において、平滑化論理130は、広帯域コンテンツを有するものとして分類される、連続的に(かつ最も最近に)受信されているフレームの数に基づいて、出力モード134を決定することができる。たとえば、トラッカ128は、広帯域コンテンツと関連付けられるものとして分類される(たとえば、帯域制限コンテンツと関連付けられるものとして分類されない)、連続的に受信されているアクティブフレームのカウントを維持することができる。いくつかの実施態様において、現在のフレームがアクティブフレームとして識別され、広帯域コンテンツと関連付けられるものとして分類される限り、カウントは、オーディオフレーム112のような現在のフレームに基づく(たとえば、これを含む)ことができる。平滑化論理130は、広帯域コンテンツと関連付けられるものとして分類される、連続的に受信されているアクティブフレームのカウントを取得することができ、カウントを閾数と比較することができる。閾数は、例示的な非限定例として、7または20の値を有することができる。カウントが閾数以上である場合、平滑化論理130は、出力モード134を広帯域モードであるとして選択することができる。いくつかの実施態様において、広帯域モードは、出力モード134のデフォルトモードと考えることができ、出力モード134は、カウントが閾数以上であるときは、広帯域モードとして変更されないままであり得る。
付加的にまたは代替的に、広帯域コンテンツを有するものとして分類される、連続的に(かつ最も最近に)受信されているフレームの数が閾数以上であることに応答して、平滑化論理130は、受信フレームの数(たとえば、アクティブフレームの数)を追跡するカウンタが、ゼロの値のような初期値に設定されるようにすることができる。受信フレームの数(たとえば、アクティブフレームの数)を追跡するカウンタをゼロの値に設定することによって、出力モード134が強制的に広帯域モードに設定されるという効果を得ることができる。たとえば、少なくとも、受信フレームの数(たとえば、アクティブフレームの数)が第1の閾数よりも大きくなるまで、出力モード134を広帯域モードに設定することができる。いくつかの実施態様において、出力モード134が帯域制限モード(たとえば、狭帯域モード)から広帯域モードへと切り替えられるときはいつでも、受信フレームの数のカウントを初期値に設定することができる。いくつかの実施態様において、広帯域コンテンツを有するものとして分類される、連続的に(かつ最も最近に)受信されているフレームの数が閾数以上であることに応答して、帯域制限コンテンツを有するものとして最近に分類されているフレームの相対カウントを追跡する長期メトリックが、ゼロの値のような初期値に設定されてもよい。代替的に、広帯域コンテンツを有するものとして分類される、連続的に(かつ最も最近に)受信されているフレームの数が閾数未満である場合、平滑化論理130は、本明細書において説明されているように、(オーディオフレーム112のような受信オーディオフレームと関連付けられる)出力モード134を選択するために、1つまたは複数の他の決定を行ってもよい。
広帯域コンテンツを有するものとして分類される、連続的に受信されているアクティブフレームのカウントを閾数と比較する平滑化論理130に加えて、または代替的に、平滑化論理130は、特定数の最も最近に受信されているアクティブフレームから、広帯域コンテンツを有するものとして分類される(たとえば、帯域制限コンテンツを有するものとして分類されない)、以前に受信されているアクティブフレームの数を決定してもよい。最も最近に受信されているアクティブフレームの特定数は、例示的な非限定例として、20であってもよい。平滑化論理130は、(特定数の最も最近に受信されているアクティブフレームからの)広帯域コンテンツを有するものとして分類される、以前に受信されているアクティブフレームの数を、第2の閾数(適応的閾値と同じまたは異なる値を有してもよい)と比較することができる。いくつかの実施態様において、第2の閾値は固定(たとえば、非適応的)閾値である。広帯域コンテンツを有するものとして分類される、以前に受信されているアクティブフレームの数が第2の閾数以上であるという判定に応答して平滑化論理130は、広帯域コンテンツと関連付けられるものとして分類される、連続的に受信されているアクティブフレームのカウントが閾数よりも大きいと判定している平滑化論理130を参照して説明されているものと同じ動作のうちの1つまたは複数を実施することができる。広帯域コンテンツを有するものとして分類される、以前に受信されているアクティブフレームの数が第2の閾数未満であると判定される判定に応答して、平滑化論理130は、本明細書において説明されているように、(オーディオフレーム112のような受信オーディオフレームと関連付けられる)出力モード134を選択するために、1つまたは複数の他の決定を行ってもよい。
いくつかの実施態様において、オーディオフレーム112がアクティブフレームであることをVAD140が示すのに応答して、平滑化論理130は、第1の復号スピーチ114の平均低帯域エネルギー(代替的に、低帯域の帯域のサブセットの平均エネルギー)のような、オーディオフレーム112の低帯域の平均エネルギー(または、低帯域の帯域のサブセットの平均エネルギー)を決定することができる。平滑化論理130は、オーディオフレーム112の平均低帯域エネルギー(または代替的に、低帯域の帯域のサブセットの平均エネルギー)を、長期メトリックのような閾値エネルギー値と比較することができる。たとえば、閾値エネルギー値は、複数の以前に受信されているフレームの平均低帯域エネルギー値の平均(または代替的に、低帯域の帯域のサブセットの平均エネルギーの平均)であってもよい。いくつかの実施態様において、複数の以前に受信されているフレームは、オーディオフレーム112を含んでもよい。オーディオフレーム112の低帯域の平均エネルギー値が、複数の以前に受信されているフレームの平均低帯域エネルギー値未満である場合、トラッカ128は、分類器126によって、オーディオフレーム112に関する126の分類判定によって帯域制限コンテンツと関連付けられるものとして分類されるフレームの相対カウントの長期メトリックに対応する値を更新しないことを選択することができる。代替的に、オーディオフレーム112の低帯域の平均エネルギー値が、複数の以前に受信されているフレームの平均低帯域エネルギー値以上である場合、トラッカ128は、分類器126によって、オーディオフレーム112に関する126の分類判定によって帯域制限と関連付けられるものとして分類されるフレームの相対カウントの長期メトリックに対応する値を更新することを選択することができる。
第2の復号段132は、出力モード134に従って第1の復号スピーチ114を処理することができる。たとえば、第2の復号段132は、第1の復号スピーチ114を受信することができ、出力モード134に従って、第2の復号スピーチ116を出力することができる。例として、出力モード134がWBモードに対応する場合、第2の復号段132は、第1の復号スピーチ114を第2の復号スピーチ116として出力(たとえば、生成)するように構成することができる。代替的に、出力モード134がNBモードに対応する場合、第2の復号段132は、選択的に、第1の復号スピーチの一部分を第2の復号スピーチとして出力することができる。たとえば、第2の復号段132は、第1の復号スピーチ114の高帯域コンテンツを「ゼロ」にし、または、代替的に、減衰させ、第1の復号スピーチ114の低帯域コンテンツに対する最終的な合成を実施して、第2の復号スピーチ116を生成するように構成することができる。グラフ170は、帯域制限コンテンツを有する(また、高帯域コンテンツを有しない)第2の復号スピーチ116の一例を示す。
動作中、第2のデバイス120は、複数のオーディオフレームのうちの第1のオーディオフレームを受信することができる。たとえば、第1のオーディオフレームは、オーディオフレーム112に対応し得る。VAD140(たとえば、データ)は、第1のオーディオフレームがアクティブフレームであることを示し得る。第1のオーディオフレームの受信に応答して、分類器126は、第1のオーディオフレームが帯域制限フレーム(たとえば、狭帯域フレーム)であるという第1の分類を生成することができる。第1の分類は、トラッカ128に記憶することができる。第1のオーディオフレームの受信に応答して、平滑化論理130は、受信オーディオフレームの数が、第1の閾数未満であることを判定することができる。代替的に、平滑化論理130は、アクティブフレームの数(出力モードが帯域制限モードから広帯域へと明示的に切り替えられた最後の事象、または呼の開始の、いずれか最近の事象からの、VAD140によって「アクティブ/有用」であるとして示される(たとえば、識別される)フレームの数として測定される)が、第2の閾数未満であることを判定することができる。受信オーディオフレームの数が第1の閾数未満であるため、平滑化論理130は、出力モード134に対応する第1の出力モード(たとえば、デフォルトモード)を、広帯域モードであるとして選択することができる。帯域制限モードと関連付けられる受信フレームの数にかかわりなく、かつ、各々が広帯域コンテンツを有する(たとえば、帯域制限コンテンツを有しない)ものとして分類されている、連続的に受信されているフレームの数にかかわりなく、受信オーディオフレームの数が第1の閾数未満である場合、デフォルトモードを選択することができる。
第1のオーディオフレームが受信された後、第2のデバイスは、複数のオーディオフレームのうちの第2のオーディオフレームを受信することができる。たとえば、第2のオーディオフレームは、第1のオーディオフレームの後に、次に受信されるフレームであってもよい。VAD140は、第2のオーディオフレームがアクティブフレームであることを示し得る。受信アクティブオーディオフレームの数が、第2のオーディオフレームがアクティブフレームであることに応答して増分され得る。
第2のオーディオフレームがアクティブフレームであることに基づいて、分類器126は、第2のオーディオフレームが帯域制限フレーム(たとえば、狭帯域フレーム)であるように第2の分類を生成することができる。第2の分類は、トラッカ128に記憶することができる。第2のオーディオフレームの受信に応答して、平滑化論理130は、受信オーディオフレーム(たとえば、受信アクティブオーディオフレーム)の数が、第1の閾数以上であることを判定することができる。(「第1の」および「第2の」というラベルは、フレーム間で区別するものであり、必ずしも、受信フレームシーケンス内でのフレームの順序または位置を指定するものではない。たとえば、第1のフレームは、フレームシーケンス内で受信される7番目のフレームであってもよく、第2のフレームは、フレームシーケンス内で受信される8番目のフレームであってもよい。)受信オーディオフレームの数が第1の閾数よりも大きいことに応答して、平滑化論理130は、以前の出力モード(たとえば、第1の出力モード)に基づいて適応的閾値を設定することができる。たとえば、第1の出力モードが広帯域モードであったため、適応的閾値は、第1の適応的閾値に設定することができる。
平滑化論理130は、帯域制限コンテンツを有するものとして分類される受信フレームの数を、第1の適応的閾値と比較することができる。平滑化論理130は、帯域制限コンテンツを有するものとして分類される受信フレームの数が第1の適応的閾値以上であることを判定することができ、第2のオーディオフレームに対応する第2の出力モードを、帯域制限モードであるとして設定することができる。たとえば、平滑化論理130は、出力モード134を、帯域制限コンテンツモード(たとえば、NBモード)であるとして更新することができる。
第2のデバイス120のデコーダ122は、オーディオフレーム112のような複数のオーディオフレームを受信し、帯域制限コンテンツを有する1つまたは複数のオーディオフレームを識別するように構成することができる。帯域制限コンテンツを有するものとして分類されるフレームの数(広帯域コンテンツを有するものとして分類されるフレームの数、またはその両方)に基づいて、デコーダ122は、受信フレームを選択的に処理して、帯域制限コンテンツを含む(また、高帯域コンテンツを含まない)復号スピーチを生成および出力するように構成することができる。デコーダ122は、平滑化論理130を使用して、デコーダ122が、広帯域復号スピーチの出力と帯域制限復号スピーチとの間で頻繁に切り替わらないことを保証することができる。加えて、広帯域フレームとして分類される、特定数の連続的に受信されるオーディオフレームを検出するために受信オーディオフレームをモニタリングすることによって、デコーダ122は、帯域制限出力モードから広帯域出力モードへと迅速に遷移することができる。帯域制限出力モードから広帯域出力モードへと迅速に遷移することによって、デコーダ122は、そうでなくデコーダ122が帯域制限出力モードのままであったとしたら抑制されていた広帯域コンテンツを提供することができる。図1のデコーダ122を使用することによって、信号復号品質の改善およびユーザ体験の改善をもたらすことができる。
図2は、オーディオ信号の分類を示すグラフを示している。オーディオ信号の分類は、図1の分類器126によって実行されてもよい。第1のグラフ200は、第1のオーディオ信号の、帯域制限コンテンツを含むものとしての分類を示す。第1のグラフ200において、第1のオーディオ信号の低帯域部分の平均エネルギーレベルと、第1のオーディオ信号の(遷移帯域を除く)高帯域部分のピークエネルギーレベルとの間の比は、閾値比よりも大きい。第2のグラフ250は、第2のオーディオ信号の、広帯域コンテンツを含むものとしての分類を示す。第2のグラフ250において、第2のオーディオ信号の低帯域部分の平均エネルギーレベルと、第2のオーディオ信号の(遷移帯域を除く)高帯域部分のピークエネルギーレベルとの間の比は、閾値比未満である。
図3および図4を参照すると、デコーダの動作と関連付けられる値を示す表が示されている。デコーダは、図1のデコーダ122に対応し得る。図3〜図4において使用されているものとしては、オーディオフレームシーケンスは、オーディオフレームがデコーダにおいて受信される順序を示している。分類は、受信オーディオフレームに対応する分類を示す。各分類は、図1の分類器126によって決定することができる。WBの分類は、広帯域コンテンツを有するものとして分類されるフレームに対応し、NBの分類は、帯域制限コンテンツを有するものとして分類されるフレームに対応する。狭帯域割合は、帯域制限コンテンツを有するものとして分類されている、最近に受信されているフレームの割合を示す。割合は、例示的な非限定例として、200または500フレームのような、最近に受信されているフレームの数に基づくことができる。適応的閾値は、特定のフレームと関連付けられるオーディオコンテンツを出力するために使用すべき出力モードを決定するために特定のフレームの狭帯域割合に適用することができる閾値を示す。出力モードは、特定のフレームと関連付けられるオーディオコンテンツを出力するために使用すべきモード(たとえば、広帯域モード(WB)または帯域制限(NB)モード)を示す。出力モードは、図1の出力モード134に対応することができる。連続WBカウントは、広帯域コンテンツを有するものとして分類されている、連続的に受信されているフレームの数を示すことができる。アクティブフレームカウントは、デコーダによって受信されているアクティブフレームの数を示す。フレームは、図1のVAD140のようなVADによって、アクティブフレーム(A)または非アクティブフレーム(I)として識別することができる。
第1の表300は、出力モードの変化、および、出力モードの変化に応答した適応的閾値の変化を示す。たとえば、フレーム(c)が受信され得、帯域制限コンテンツと関連付けられるもの(NB)として分類され得る。フレーム(c)が受信されるのに応答して、狭帯域フレームの割合が、90の適応的閾値以上になり得る。したがって、出力モードはWBからNBに変更され、適応的閾値が、フレーム(d)のような後続して受信されるフレームに適用されることになる83の値に更新され得る。適応的値は、フレーム(i)に応答して狭帯域フレームの割合が83の適応的閾値未満になるまで、83の値のままにされ得る。狭帯域フレームの割合が83の適応的閾値未満になるのに応答して、出力モードはNBからWBに変更され、適応的閾値は、フレーム(j)のような、後続して受信されるフレームに対する90の値に更新され得る。このように、第1の表300は適応的閾値の変化を示す。
第2の表350は、広帯域コンテンツを有するものとして分類されている、連続的に受信されているフレームの数(連続WBカウント)が閾値以上であるのに応答して、出力モードが変更され得ることを示している。たとえば、閾値は、7の値に等しくてもよい。例として、フレーム(h)は、広帯域フレームとして分類される、連続して7番目に受信されるフレームであり得る。フレーム(h)の受信に応答して、出力モードは、帯域制限モード(NB)から切り替えられて、広帯域モード(WB)に設定され得る。このように、第2の表350は、広帯域コンテンツを有するものとして分類されている、連続的に受信されているフレームの数に応答した出力モードの変化を示している。
第3の表400は、適応的閾値と比較したときの、帯域制限コンテンツを有するものとして分類されているフレームの割合の比較が、閾数のアクティブフレームがデコーダによって受信されるまで出力モードを決定するために使用されない実施態様を示す。たとえば、例示的な非限定例として、アクティブフレームの閾数は50に等しくてもよい。フレーム(a)〜(aw)が、帯域制限コンテンツを有するものとして分類されるフレームの割合にかかわらず、広帯域コンテンツと関連付けられる出力モードに対応し得る。フレーム(ax)に対応する出力モードは、帯域制限コンテンツを有するものとして分類されるフレームの割合の、適応的閾値に対する比較に基づいて決定することができる。これは、アクティブフレームカウントが閾数(たとえば、50)以上であり得るためである。このように、第3の表400は、閾数のアクティブフレームが受信されるまで出力モードの変更を禁止することを示す。
第4の表450は、フレームが非アクティブフレームとして分類されることに応答しての、デコーダの動作の一例を示す。加えて、第4の表450は、適応的閾値に対する、帯域制限コンテンツを有するものとして分類されているフレームの割合の比較が、閾数のアクティブフレームがデコーダによって受信されるまで出力モードを決定するために使用されないことを示す。たとえば、例示的な非限定例として、アクティブフレームの閾数は50に等しくてもよい。
第4の表450は、分類が、非アクティブフレームとして識別されているフレームについては決定することができないことを示す。加えて、非アクティブとして識別されているフレームは、帯域制限コンテンツを有するフレームの割合(狭帯域割合)を決定するために考慮することができない。したがって、適応的閾値は、特定のフレームが非アクティブとして識別される場合は、比較に利用されない。さらに、非アクティブとして識別されているフレームの出力モードは、最も最近に受信されているフレームと同じ出力モードであり得る。このように、第4の表450は、非アクティブフレームとして識別されている1つまたは複数のフレームを含むフレームシーケンスに応答したデコーダ動作を示す。
図5を参照すると、デコーダを動作させる方法の特定の例示的な実施例のフローチャートが示され、全体として500で示されている。デコーダは、図1のデコーダ122に対応し得る。たとえば、方法500は、図1の第2のデバイス120(たとえば、デコーダ122、第1の復号段123、検出器124、第2の復号段132)、またはそれらの組合せによって実施されてもよい。
502において、方法500は、デコーダにおいて、オーディオストリームのオーディオフレームと関連付けられる第1の復号スピーチを生成することを含む。オーディオフレームおよび第1の復号スピーチは、それぞれ図1のオーディオフレーム112および第1の復号スピーチ114に対応し得る。第1の復号スピーチは、低帯域成分と高帯域成分とを含み得る。高帯域成分は、スペクトルエネルギー漏れに対応する場合がある。
方法500はまた、504において、帯域幅制限コンテンツと関連付けられるものとして分類されるオーディオフレームの数に少なくとも部分的に基づいて、デコーダの出力モードを決定することを含む。たとえば、出力モードは、図1の出力モード134に対応することができる。いくつかの実施態様において、出力モードは、狭帯域モードまたは広帯域モードであるとして決定され得る。
方法500は、506において、第1の復号スピーチに基づいて第2の復号スピーチを出力することをさらに含み、第2の復号スピーチは、出力モードに従って出力される。たとえば、第2の復号スピーチは、図1の第2の復号スピーチ116を含み、またはそれに対応し得る。出力モードが広帯域モードである場合、第2の復号スピーチは、実質的に第1の復号スピーチと同じであり得る。たとえば、第2の復号スピーチが第1の復号スピーチと同じであるか、またはその許容差範囲内にある場合、第2の復号スピーチの帯域幅は、第1の復号スピーチの帯域幅と実質的に同じである。許容差範囲は、デコーダと関連付けられる設計許容差、製造許容差、動作許容差(たとえば、処理許容差)、またはそれらの組合せに対応し得る。出力モードが狭帯域モードである場合、第2の復号スピーチを出力することは、第1の復号スピーチの低帯域成分を維持することと、第1の復号スピーチの高帯域成分を減衰させることとを含むことができる。付加的にまたは代替的に、出力モードが狭帯域モードである場合、第2の復号スピーチを出力することは、第1の復号スピーチの高帯域成分と関連付けられる1つまたは複数の周波数帯域を減衰させることを含むことができる。いくつかの実施態様において、高帯域成分の減衰、または、高帯域と関連付けられる周波数帯域のうちの1つもしくは複数の減衰は、高帯域成分を「ゼロ」にすること、または、高帯域と関連付けられる周波数帯域のうちの1つもしくは複数を「ゼロ」にすることを意味し得る。
いくつかの実施態様において、方法500は、低帯域成分と関連付けられる第1のエネルギーメトリックおよび高帯域成分と関連付けられる第2のエネルギーメトリックに基づく比の値を決定することを含むことができる。方法500はまた、比の値を分類閾値と比較することと、比値が分類閾値よりも大きいことに応答して、オーディオフレームを、帯域制限コンテンツと関連付けられるものとして分類することとを含むことができる。オーディオフレームが帯域制限コンテンツと関連付けられる場合、第2の復号スピーチを出力することは、第1の復号スピーチの高帯域成分を減衰させて、第2の復号スピーチを生成することを含むことができる。代替的に、オーディオフレームが帯域制限コンテンツと関連付けられる場合、第2の復号スピーチを出力することは、高帯域成分と関連付けられる1つまたは複数の帯域のエネルギー値を特定の値に設定して、第2の復号スピーチを生成することを含むことができる。例示的な非限定例として、特定の値はゼロであってもよい。
いくつかの実施態様において、方法500は、オーディオフレームを、狭帯域フレームまたは広帯域フレームとして分類することを含むことができる。狭帯域フレームの分類は、帯域制限コンテンツと関連付けられることに対応する。方法500はまた、帯域制限コンテンツと関連付けられる複数のオーディオフレームのうちの第2のカウントのオーディオフレームに対応するメトリック値を決定することを含むことができる。複数のオーディオフレームは、図1の第2のデバイス120において受信されるオーディオフレームに対応することができる。複数のオーディオフレームは、当該オーディオフレーム(たとえば、図1のオーディオフレーム112)および第2のオーディオフレームを含むことができる。たとえば、帯域制限コンテンツと関連付けられるオーディオフレームの第2のカウントは、図1のトラッカ128に維持(たとえば、記憶)されてもよい。例として、帯域制限コンテンツと関連付けられるオーディオフレームの第2のカウントは、図1のトラッカ128に維持される特定のメトリック値に対応してもよい。方法500はまた、メトリック値(たとえば、オーディオフレームの第2のカウント)に基づいて、図1のシステム100を参照して説明した適応的閾値のような閾値を選択することを含むことができる。例として、オーディオフレームの第2のカウントを使用して、オーディオフレームと関連付けられる出力モードを選択することができ、適応的閾値は、出力モードに基づいて選択することができる。
いくつかの実施態様において、方法500は、第1の復号スピーチの低帯域成分と関連付けられる複数の周波数帯域の第1のセットと関連付けられる第1のエネルギーメトリックを決定することと、第1の復号スピーチの高帯域成分と関連付けられる複数の周波数帯域の第2のセットと関連付けられる第2のエネルギーメトリックを決定することとを含むことができる。第1のエネルギーメトリックを決定することは、複数の周波数帯域の第1のセットの帯域のサブセットの平均エネルギー値を決定することと、第1のエネルギーメトリックを平均エネルギー値に等しく設定することとを含むことができる。第2のエネルギーメトリックを決定することは、複数の周波数帯域の第2のセットのうちの、最高の検出エネルギー値を有する複数の周波数帯域の第2のセットの特定の周波数帯域を決定することと、第2のエネルギーメトリックを最高の検出エネルギー値に等しく設定することとを含むことができる。第1の部分範囲および第2の部分範囲は、相互に排他的であってもよい。いくつかの実施態様において、第1の部分範囲および第2の部分範囲は、上記周波数範囲の遷移帯域によって分離される。
いくつかの実施態様において、方法500は、オーディオストリームの第2のオーディオフレームの受信に応答して、デコーダにおいて受信され、広帯域コンテンツを有するものとして分類される、連続するオーディオフレームの第3のカウントを決定することを含むことができる。たとえば、広帯域コンテンツを有する連続するオーディオフレームの第3のカウントは、図1のトラッカ128に維持(たとえば、記憶)されてもよい。方法500は、広帯域コンテンツを有する連続するオーディオフレームの第3のカウントが閾値以上であるのに応答して、出力モードを広帯域モードに更新することをさらに含むことができる。例として、504において決定される出力モードが帯域制限モードと関連付けられる場合、広帯域コンテンツを有する連続するオーディオフレームの第3のカウントが閾値以上である場合、出力モードを広帯域モードに更新することができる。加えて、連続するオーディオフレームの第3のカウントが閾値以上である場合、出力モードは、帯域制限コンテンツを有するものとして分類されるオーディオフレームの数(または、広帯域コンテンツを有するものとして分類されるフレームの数)と、適応的閾値とに基づく比較とは無関係に更新することができる。
いくつかの実施態様において、方法500はまた、デコーダにおいて、帯域制限コンテンツと関連付けられる複数の第2のオーディオフレームのうちの第2のオーディオフレームの相対カウントに対応するメトリック値を決定することを含むことができる。特定の実施態様において、メトリック値を決定することは、オーディオフレームの受信に応答して実施することができる。たとえば、図1の分類器126が、図1を参照して説明されているように、帯域制限コンテンツと関連付けられるオーディオフレームのカウントに対応するメトリック値を決定することができる。方法500はまた、デコーダの出力モードに基づいて閾値を選択することを含むことができる。出力モードは、メトリック値と閾値との比較に基づいて、第1のモードから第2のモードへと選択的に更新することができる。たとえば、図1の平滑化論理130が、図1を参照して説明されているように、出力モードを第1のモードから第2のモードへと選択的に更新することができる。
いくつかの実施態様において、方法500は、オーディオフレームがアクティブフレームであるか否かを判定することを含むことができる。たとえば、図1のVAD140は、オーディオフレームがアクティブであるかまたは非アクティブであるかを示すことができる。オーディオフレームがアクティブフレームであるという判定に応答して、デコーダの出力モードを決定することができる。
いくつかの実施態様において、方法500は、デコーダにおいてオーディオストリームの第2のオーディオフレームを受信することを含むことができる。たとえば、デコーダ122は、図3のオーディオフレーム(b)を受信することができる。方法500はまた、第2のオーディオフレームが非アクティブフレームであるか否かを判定することを含むことができる。方法500は、第2のオーディオフレームが非アクティブフレームであるという判定に応答して、デコーダの出力モードを維持することをさらに含むことができる。たとえば、分類器126が、図1を参照して説明されているように、第2のオーディオフレームが非アクティブフレームであることをVAD140が示すのに応答して、分類を出力しないようにすることができる。別の例として、検出器124が、図1を参照して説明されているように、第2のオーディオフレームが非アクティブフレームであることをVAD140が示すのに応答して、以前の出力モードを維持して、第2のフレームの出力モード134を決定しないようにすることができる。
いくつかの実施態様において、方法500は、デコーダにおいてオーディオストリームの第2のオーディオフレームを受信することを含むことができる。たとえば、デコーダ122は、図3のオーディオフレーム(b)を受信することができる。方法500はまた、デコーダにおいて受信され、広帯域コンテンツと関連付けられるものとして分類される、第2のオーディオフレームを含む連続するオーディオフレームの数を決定するステップを含むことができる。たとえば、図1のトラッカ128が、図1および図3を参照して説明されているように、広帯域コンテンツと関連付けられるものとして分類される、連続するオーディオフレームの数をカウントおよび決定することができる。方法500は、広帯域コンテンツと関連付けられるものとして分類される、連続するオーディオフレームの数が閾値以上であることに応答して、第2のオーディオフレームと関連付けられる第2の出力モードを広帯域モードであるとして選択することをさらに含むことができる。たとえば、図1の平滑化論理130は、図3の第2の表350を参照して説明されているように、広帯域コンテンツと関連付けられるものとして分類される、連続するオーディオフレームの数が閾値以上であることに応答して、出力モードを選択することができる。
いくつかの実施態様において、方法500は、第2のオーディオフレームと関連付けられる第2の出力モードとして、広帯域モードを選択することを含むことができる。方法500はまた、広帯域モードが選択されることに応答して、第2のオーディオフレームと関連付けられる出力モードを、第1のモードから広帯域モードへと更新することを含むことができる。方法500は、図3の第2の表350を参照して説明されているように、出力モードが第1のモードから広帯域モードへと更新されるのに応答して、受信オーディオフレームのカウントを第1の初期値に設定すること、帯域制限コンテンツと関連付けられるオーディオストリームのオーディオフレームの相対カウントに対応するメトリック値を第2の初期値に設定すること、またはその両方をさらに含むことができる。いくつかの実施態様において、第1の初期値および第2の初期値は、ゼロのような同じ値であってもよい。
いくつかの実施態様において、方法500は、デコーダにおいてオーディオストリームの複数のオーディオフレームを受信することを含むことができる。複数のオーディオフレームは、上記オーディオフレームおよび第2のオーディオフレームを含むことができる。方法500はまた、第2のオーディオフレームが受信されるのに応答して、デコーダにおいて、帯域制限コンテンツと関連付けられる複数のオーディオフレームの相対オーディオフレームカウントに対応するメトリック値を決定することを含むことができる。方法500はまた、デコーダの出力モードの第1のモードに基づいて閾値を選択することを含むことができる。第1のモードは、第2のオーディオフレームの前に受信されるオーディオフレームと関連付けることができる。方法500は、メトリック値と閾値との比較に基づいて、出力モードを第1のモードから第2のモードへと更新することを含むことができる。第2のモードは、第2のオーディオフレームと関連付けることができる。
いくつかの実施態様において、方法500は、デコーダにおいて、帯域制限コンテンツと関連付けられるものとして分類されるオーディオフレームの数に対応するメトリック値を決定することを含むことができる。方法500はまた、デコーダの以前の出力モードに基づいて閾値を選択することを含むことができる。デコーダの出力モードはさらに、メトリック値と閾値との比較に基づいて決定することができる。
いくつかの実施態様において、方法500は、デコーダにおいてオーディオストリームの第2のオーディオフレームを受信することを含むことができる。方法500はまた、デコーダにおいて受信され、広帯域コンテンツと関連付けられるものとして分類される、第2のオーディオフレームを含む連続するオーディオフレームの数を決定するステップを含むことができる。方法500は、連続するオーディオフレームの数が閾値以上であることに応答して、第2のオーディオフレームと関連付けられる第2の出力モードを、広帯域モードであるとして選択するステップをさらに含むことができる。
このように、方法500は、デコーダが、オーディオフレームと関連付けられるオーディオコンテンツを出力すべき出力モードを選択することを可能にすることができる。たとえば、出力モードが狭帯域モードである場合、デコーダは、オーディオフレームと関連付けられる狭帯域コンテンツを出力することができ、オーディオフレームと関連付けられる高帯域コンテンツを出力しないようにすることができる。
図6を参照すると、オーディオフレームを処理する方法の特定の例示的な実施例のフローチャートが開示され、全体として600で示されている。オーディオフレームは、図1のオーディオフレーム112を含んでもよく、またはそれに対応してもよい。たとえば、方法600は、図1の第2のデバイス120(たとえば、デコーダ122、第1の復号段123、検出器124、分類器126、第2の復号段132)、またはそれらの組合せによって実施されてもよい。
方法600は、602において、デコーダにおいてオーディオストリームのオーディオフレームを受信することを含み、オーディオフレームは周波数範囲と関連付けられる。オーディオフレームは、図1のオーディオフレーム112に対応してもよい。周波数範囲は、0〜8kHzのような、広帯域周波数範囲(たとえば、広帯域帯域幅)と関連付けられ得る。広帯域周波数範囲は、低帯域周波数範囲および高帯域周波数範囲を含むことができる。
方法600はまた、604において、周波数範囲の第1の部分範囲と関連付けられる第1のエネルギーメトリックを決定することと、606において、周波数範囲の第2の部分範囲と関連付けられる第2のエネルギーメトリックを決定することとを含む。第1のエネルギーメトリックおよび第2のエネルギーメトリックは、図1のデコーダ122(たとえば、検出器124)によって生成されてもよい。第1の部分範囲は、低帯域(たとえば、狭帯域)の一部分に対応することができる。たとえば、低帯域が0〜4kHzの帯域幅を有する場合、第1の部分範囲は、0.8〜3.6kHzの帯域幅を有することができる。第1の部分範囲は、オーディオフレームの低帯域成分と関連付けることができる。第2の部分範囲は、高帯域の一部分に対応することができる。たとえば、高帯域が4〜8kHzの帯域幅を有する場合、第2の部分範囲は、4.4〜8kHzの帯域幅を有することができる。第2の部分範囲は、オーディオフレームの高帯域成分と関連付けることができる。
方法600は、608において、第1のエネルギーメトリックおよび第2のエネルギーメトリックに基づいて、オーディオフレームを帯域制限コンテンツと関連付けられるものとして分類すべきか否かを判定することをさらに含む。帯域制限コンテンツは、オーディオフレームの狭帯域コンテンツ(たとえば、低帯域コンテンツ)に対応することができる。オーディオフレームの高帯域に含まれるコンテンツは、スペクトルエネルギー漏れと関連付けられ得る。第1の部分範囲は、複数の第1の帯域を含むことができる。複数の第1の帯域の各帯域は、同じ帯域幅を有してもよく、第1のエネルギーメトリックを決定することは、複数の第1の帯域のうちの2つ以上の帯域の平均エネルギー値を計算することを含むことができる。第2の部分範囲は、複数の第2の帯域を含むことができる。複数の第2の帯域の各帯域は、同じ帯域幅を有してもよく、第2のエネルギーメトリックを決定することは、複数の第2の帯域のピークエネルギー値を決定することを含むことができる。
いくつかの実施態様において、第1の部分範囲および第2の部分範囲は、相互に排他的であってもよい。たとえば、第1の部分範囲および第2の部分範囲は、上記周波数範囲の遷移帯域によって分離され得る。遷移帯域は、高帯域と関連付けられ得る。
このように、方法600は、デコーダが、オーディオフレームが帯域制限コンテンツ(たとえば、狭帯域コンテンツ)を含むか否かを分類することを可能にすることができる。オーディオフレームを、帯域制限コンテンツを有するものとして分類することによって、デコーダが、デコーダの出力モード(たとえば、合成モード)を狭帯域モードに設定することを可能にすることができる。出力モードが狭帯域モードとして設定されるとき、デコーダは、受信オーディオフレームの帯域制限コンテンツ(たとえば、狭帯域コンテンツ)を出力することができ、受信オーディオフレームと関連付けられる高帯域コンテンツを出力しないようにすることができる。
図7を参照すると、デコーダを動作させる方法の特定の例示的な実施例のフローチャートが示され、全体として700で示されている。デコーダは、図1のデコーダ122に対応し得る。たとえば、方法700は、図1の第2のデバイス120(たとえば、デコーダ122、第1の復号段123、検出器124、第2の復号段132)、またはそれらの組合せによって実施されてもよい。
702において、方法700は、デコーダにおいてオーディオストリームの複数のオーディオフレームを受信することを含む。複数のオーディオフレームは、図1のオーディオフレーム112を含んでもよい。いくつかの実施態様において、方法700は、デコーダにおいて、複数のオーディオフレームの各オーディオフレームについて、フレームが帯域制限コンテンツと関連付けられるか否かを判定することを含むことができる。
704において、方法700は、デコーダにおいて、第1のオーディオフレームの受信に応答して、帯域制限コンテンツと関連付けられる複数のオーディオフレームの相対オーディオフレームカウントに対応するメトリック値を決定することを含む。たとえば、メトリック値は、NBフレームのカウントに対応することができる。いくつかの実施態様において、メトリック値(たとえば、帯域制限コンテンツと関連付けられるものとして分類されるオーディオフレームのカウント)は、フレームの数の割合(たとえば、100までの最も最近に受信されているアクティブフレーム)として決定することができる。
706において、方法700はまた、デコーダの(第1のオーディオフレームの前に受信されるオーディオストリームの第2のオーディオフレームと関連付けられる)出力モードに基づいて閾値を選択することを含むことができる。たとえば、出力モード(たとえば、出力モード)は、図1の出力モード134に対応することができる。出力モードは、広帯域モードまたは狭帯域モード(たとえば、帯域制限モード)であってもよい。閾値は、図1の1つまたは複数の閾値131に対応し得る。閾値は、第1の値を有する広帯域閾値または第2の値を有する狭帯域閾値として選択することができる。第1の値は、第2の値よりも大きくてもよい。出力モードが広帯域モードであるという判定に応答して、広帯域閾値を、閾値として選択することができる。出力モードが狭帯域モードであるという判定に応答して、狭帯域閾値を、閾値として選択することができる。
708において、方法700は、メトリック値と閾値との比較に基づいて、出力モードを第1のモードから第2のモードへと更新することをさらに含むことができる。
いくつかの実施態様において、第1のモードは、オーディオストリームの第2のオーディオフレームに少なくとも部分的に基づいて選択することができ、第2のオーディオフレームは、第1のオーディオフレームの前に受信される。たとえば、第2のオーディオフレームが受信されるのに応答して、出力モードは、広帯域モードに設定されていることができる(たとえば、この例において、第1のモードが広帯域モードである)。閾値を選択する前に、第2のオーディオフレームに対応する出力モードが、広帯域モードであるとして検出され得る。出力モード(第2のオーディオフレームに対応する)が広帯域モードであるという判定に応答して、広帯域閾値を、閾値として選択することができる。メトリック値が広帯域閾値以上である場合、出力モード(第1のオーディオフレームに対応する)を狭帯域モードに更新することができる。
他の実施態様において、第2のオーディオフレームが受信されるのに応答して、出力モードは、狭帯域モードに設定されていることができる(たとえば、この例において、第1のモードが狭帯域モードである)。閾値を選択する前に、第2のオーディオフレームに対応する出力モードが、狭帯域モードであるとして検出され得る。出力モード(第2のオーディオフレームに対応する)が狭帯域モードであるという判定に応答して、狭帯域閾値を、閾値として選択することができる。メトリック値が狭帯域閾値以下である場合、出力モード(第1のオーディオフレームに対応する)を広帯域モードに更新することができる。
いくつかの実施態様において、第1のオーディオフレームの低帯域成分と関連付けられる平均エネルギー値が、第1のオーディオフレームの低帯域成分の帯域のサブセットと関連付けられる特定の平均エネルギーに対応することができる。
いくつかの実施態様において、方法700は、デコーダにおいて、アクティブフレームとして示される複数のオーディオフレームのうちの少なくとも1つのオーディオフレームについて、少なくとも1つのオーディオフレームが帯域制限コンテンツと関連付けられるか否かを判定することを含むことができる。たとえば、デコーダ122は、図2を参照して説明されているように、オーディオフレーム112のエネルギーレベルに基づいて、オーディオフレーム112が帯域制限コンテンツと関連付けられると判定することができる。
いくつかの実施態様において、メトリック値を判定する前に、第1のオーディオフレームがアクティブフレームであると判定することができ、第1のオーディオフレームの低帯域成分と関連付けられる平均エネルギー値を決定することができる。平均エネルギー値が閾エネルギー値よりも大きいという判定に応答して、また、第1のオーディオフレームがアクティブフレームであるという判定に応答して、メトリック値は第1の値から第2の値へと更新することができる。メトリック値が第2の値に更新された後、メトリック値は、第1のオーディオフレームが受信されるのに応答して、第2の値を有するものとして識別することができる。方法700は、第1のオーディオフレームが受信されるのに応答して、第2の値を識別することを含むことができる。たとえば、第1の値は広帯域閾値に対応し得、第2の値は狭帯域閾値に対応し得る。デコーダ122は、以前に広帯域閾値に設定されている場合があり、デコーダは、図1および図2を参照して説明されているように、オーディオフレーム112が受信されるのに応答して、狭帯域閾値を選択することができる。
付加的にまたは代替的に、平均エネルギー値が閾値以下であること、または、第1のオーディオフレームがアクティブフレームではないことのいずれかの判定に応答して、メトリック値を維持する(たとえば、更新しない)ことができる。いくつかの実施態様において、閾エネルギー値は、過去20フレーム(第1のオーディオフレームを含んでもよく、または含まなくてもよい)の平均低帯域エネルギーの平均のような、複数の受信フレームの平均低帯域エネルギー値に基づいてもよい。いくつかの実施態様において、閾エネルギー値は、通信(たとえば、電話呼)の開始から受信される複数のアクティブフレーム(第1のオーディオフレームを含んでもよく、または含まなくてもよい)の平滑化平均低帯域エネルギーに基づいてもよい。一例として、閾エネルギー値は、通信の開始から受信されるすべてのアクティブフレームの平滑化平均低帯域エネルギーに基づいてもよい。例示を目的として、この平滑化論理の特定の例は、以下のとおりであり得る。
Figure 0006545815
式中、
Figure 0006545815
は、現在のオーディオフレーム(フレーム「n」、この例においては第1のオーディオフレームとしても参照される)の平均低帯域エネルギー(nrg_LB(n))に基づいて更新される、開始からの(たとえば、フレーム0からの)すべてのアクティブフレームの低帯域の平滑化平均エネルギーであり、
Figure 0006545815
は、現在のフレームのエネルギーを除く開始からのすべてのアクティブフレームの低帯域の平均エネルギー(たとえば、フレーム「n」を除く、フレーム0〜フレーム「n-1」のアクティブフレームの平均)である。
引き続きこの特定の例において、第1のオーディオフレームの平均低帯域エネルギー(nrg_LB(n))を、第1のオーディオフレームに先行するすべてのフレームの平均エネルギー(
Figure 0006545815
)に基づいて計算される低帯域の平滑化平均エネルギーと比較することができ、平均低帯域エネルギー(nrg_LB(n))が低帯域の平滑化平均エネルギー(
Figure 0006545815
)よりも大きいことが判明した場合、700において説明されている、複数のオーディオフレームのうちの、帯域制限コンテンツと関連付けられるオーディオフレームの相対カウントに対応するメトリック値を、図6を参照して608において説明されているように、第1のオーディオフレームを広帯域コンテンツまたは帯域制限と関連付けられるものとして分類すべきか否かの判定に基づいて更新することができる。平均低帯域エネルギー(nrg_LB(n))が低帯域の平滑化平均エネルギー(
Figure 0006545815
)以下であることが判明した場合、方法700を参照して説明されている、複数のオーディオフレームのうちの、帯域制限コンテンツと関連付けられるオーディオフレームの相対カウントに対応するメトリック値は、更新されないようにすることができる。
代替の実施態様において、第1のオーディオフレームの低帯域成分と関連付けられる平均エネルギー値は、第1のオーディオフレームの低帯域成分の帯域のサブセットと関連付けられる平均エネルギー値に置き換えられてもよい。加えて、閾エネルギー値はまた、過去20フレーム(第1のオーディオフレームを含んでもよく、または含まなくてもよい)の平均低帯域エネルギーの平均に基づいてもよい。代替的に、閾エネルギー値は、電話呼のような通信の開始からのすべてのアクティブフレームの低帯域成分に対応する帯域のサブセットと関連付けられる平滑化平均エネルギー値に基づいてもよい。アクティブフレームは、第1のオーディオフレームを含んでもよいし、または含まなくてもよい。
いくつかの実施態様において、複数のオーディオフレームのうちの、VADによって非アクティブフレームとして示される各オーディオフレームについて、デコーダは、出力モードを、最も最近に受信されているアクティブフレームの特定のモードと同じモードであるとして維持することができる。
このように、方法700は、デコーダが、受信オーディオフレームと関連付けられるオーディオコンテンツを出力すべき出力モードを更新(または維持)することを可能にすることができる。たとえば、デコーダは、受信オーディオフレームが帯域制限コンテンツを含むという判定に基づいて、出力モードを狭帯域モードに設定することができる。デコーダは、デコーダが帯域制限コンテンツを含まない追加のオーディオフレームを受信しているという判定に応答して、出力モードを狭帯域モードから広帯域モードへと変更することができる。
図8を参照すると、デコーダを動作させる方法の特定の例示的な実施例のフローチャートが示され、全体として800で示されている。デコーダは、図1のデコーダ122に対応し得る。たとえば、方法800は、図1の第2のデバイス120(たとえば、デコーダ122、第1の復号段123、検出器124、第2の復号段132)、またはそれらの組合せによって実施されてもよい。
802において、方法800は、デコーダにおいてオーディオストリームの第1のオーディオフレームを受信することを含む。たとえば、第1のオーディオフレームは、図1のオーディオフレーム112に対応してもよい。
804において、方法800はまた、デコーダにおいて受信され、広帯域コンテンツと関連付けられるものとして分類される、第1のオーディオフレームを含む連続するオーディオフレームのカウントを決定するステップを含む。いくつかの実施態様において、804において参照されるカウントは、代替的に、デコーダにおいて受信され、広帯域コンテンツと関連付けられるものとして分類される第1のオーディオフレームを含む、(図1のVAD140のような受信VADによって分類される)連続するアクティブフレームのカウントであってもよい。たとえば、連続するオーディオフレームのカウントは、図1のトラッカ128によって追跡される連続する広帯域フレームの数に対応してもよい。
806において、方法800は、連続するオーディオフレームのカウントが閾値以上であることに応答して、第1のオーディオフレームと関連付けられる出力モードが広帯域モードであると決定するステップをさらに含む。閾値は、1以上の値を有することができる。例示的な非限定例として、閾値の値は20であってもよい。
代替的な実施態様において、方法800は、特定のサイズの待ち行列バッファを維持することであって、待ち行列バッファのサイズは閾値(たとえば、例示的な非限定例として、20)に等しい、維持することと、第1のオーディオフレームの分類を含む、過去の連続する閾数のフレーム(またはアクティブフレーム)の、分類器126からの分類(広帯域コンテンツと関連付けられるか、または、帯域制限コンテンツと関連付けられるか)によって、待ち行列バッファを更新することとを含むことができる。待ち行列バッファは、図1のトラッカ128(またはその構成要素)を含むか、またはこれに対応してもよい。待ち行列バッファによって示されるものとしての、帯域制限コンテンツと関連付けられるものとして分類されるフレーム(またはアクティブフレーム)の数がゼロであると判明した場合、これは、広帯域として分類される第1のフレームを含む連続するフレーム(またはアクティブフレーム)の数が閾値以上であるという判定と等価である。たとえば、図1の平滑化論理130が、待ち行列バッファによって示されるものとしての、帯域制限コンテンツと関連付けられるものとして分類されるフレーム(またはアクティブフレーム)の数がゼロであると判明するか否かを判定してもよい。
いくつかの実施態様において、第1のオーディオフレームが受信されるのに応答して、方法800は、第1のオーディオフレームがアクティブフレームであることを判定することと、受信フレームのカウントを増分することとを含むことができる。たとえば、第1のオーディオフレームは、図1のVAD140のようなVADに基づいて、アクティブフレームであると決定することができる。いくつかの実施態様において、受信フレームのカウントが、第1のオーディオフレームがアクティブフレームであることに応答して増分され得る。いくつかの実施態様において、受信アクティブフレームのカウントは、最大値において上限を定められ(たとえば、制限され)得る。たとえば、例示的な非限定例として、最大値は100であってもよい。
加えて、第1のオーディオフレームが受信されるのに応答して、方法800は、第1のオーディオフレームの、広帯域コンテンツまたは狭帯域コンテンツに関連付けられるものとしての分類を判定することを含むことができる。第1のオーディオフレームの分類が判定された後、連続するオーディオフレームの数を決定することができる。連続するオーディオフレームの数が決定された後、方法800は、受信フレームのカウント(または受信アクティブフレームのカウント)が、例示的な非限定例として50の閾値のような、第2の閾値以上であるか否かを判定することができる。受信アクティブフレームのカウントが第2の閾値未満であるという判定に応答して、第1のオーディオフレームと関連付けら得る出力モードを、広帯域モードであると判定することができる。
いくつかの実施態様において、方法800は、連続するオーディオフレームの数が閾値以上であることに応答して、第1のオーディオフレームと関連付けられる出力モードを、第1のモードから広帯域モードに設定することを含むことができる。たとえば、第1のモードは、狭帯域モードであってよい。連続するオーディオフレームの数が閾値以上であるという判定に基づいて出力モードが第1のモードから広帯域モードに設定されるのに応答して、受信オーディオフレームのカウント(または受信アクティブフレームのカウント)を、例示的な非限定例としてゼロの値のような、初期値に設定することができる。付加的にまたは代替的に、連続するオーディオフレームの数が閾値以上であるという判定に基づいて出力モードが第1のモードから広帯域モードに設定されるのに応答して、図7の方法700を参照して説明されているような、複数のオーディオフレームのうちの、帯域制限コンテンツと関連付けられる相対オーディオフレームカウントに対応するメトリック値を、例示的な非限定例としてゼロの値のような、初期値に設定することができる。
いくつかの実施態様において、出力モードを更新する前に、方法800は、出力モードとして設定されている以前のモードを決定することを含むことができる。以前のモードは、第1のオーディオフレームに先行する、オーディオストリームの第2のオーディオフレームと関連付けることができる。以前のモードが広帯域モードであるという判定に応答して、以前のモードを維持することができ、第1のフレームと関連付けることができる(たとえば、第1のモードおよび第2のモードは両方とも広帯域モードであり得る)。代替的に、以前のモードが狭帯域モードであるという判定に応答して、出力モードは、第2のオーディオフレームと関連付けられる狭帯域モードから、第1のオーディオフレームと関連付けられる広帯域モードに設定(たとえば、変更)することができる。
このように、方法800は、デコーダが、受信オーディオフレームと関連付けられるオーディオコンテンツを出力すべき出力モード(たとえば、出力モード)を更新(または維持)することを可能にすることができる。たとえば、デコーダは、受信オーディオフレームが帯域制限コンテンツを含むという判定に基づいて、出力モードを狭帯域モードに設定することができる。デコーダは、デコーダが帯域制限コンテンツを含まない追加のオーディオフレームを受信しているという判定に応答して、出力モードを狭帯域モードから広帯域モードへと変更することができる。
特定の態様において、図5〜図8の方法は、フィールドプログラマブルゲートアレイ(FPGA)デバイス、特定用途向け集積回路(ASIC)、中央処理装置(CPU)のような処理ユニット、デジタル信号プロセッサ(DSP)、コントローラ、別のハードウェアデバイス、ファームウェアデバイス、またはこれらの任意の組合せによって実施され得る。例として、図9および図10に関連して説明されるように、図5〜図8の方法のうちの1つまたは複数は、個々に、または組み合わされて、命令を実行するプロセッサによって実行され得る。例として、図5の方法500一部分が、図6〜図8の方法のうちの1つの第2の部分と組み合わされ得る。
図9を参照すると、デバイス(たとえば、ワイヤレス通信デバイス)の特定の例示的な実施例のブロック図が描かれており、全体的に900と指定される。様々な実施態様において、デバイス900は、図9に示すよりも多いまたは少ない構成要素を有する場合がある。例示的な実施例において、デバイス900は、図1のシステムに対応してもよい。たとえば、デバイス900は、図1の第1のデバイス102または第2のデバイス120に対応してもよい。例示的な実施例において、デバイス900は、図5〜図8の方法のうちの1つまたは複数に従って動作し得る。
特定の実施態様において、デバイス900は、プロセッサ906(たとえば、CPU)を含む。デバイス900は、プロセッサ910(たとえば、DSP)のような、1つまたは複数の追加のプロセッサを含むことができる。プロセッサ910は、スピーチCODEC、音楽CODEC、またはそれらの組合せのようなCODEC908を含むことができる。プロセッサ910は、スピーチ/音楽CODEC908の動作を実施するように構成されている1つまたは複数の構成要素(たとえば、回路)を含むことができる。別の例として、プロセッサ910は、スピーチ/音楽CODEC908の動作を実施するための1つまたは複数のコンピュータ可読命令を実行するように構成することができる。したがって、CODEC908は、ハードウェアおよびソフトウェアを含むことができる。スピーチ/音楽CODEC908はプロセッサ910の構成要素として示されているが、他の実施例において、スピーチ/音楽CODEC908の1つまたは複数の構成要素は、プロセッサ906、CODEC934、別の処理構成要素、またはそれらの組合せに含まれてもよい。
スピーチ/音楽CODEC908は、ボコーダデコーダのような、デコーダ992を含むことができる。たとえば、デコーダ992は、図1のデコーダ122に対応してもよい。特定の態様において、デコーダ992は、オーディオフレームが帯域制限コンテンツを含むか否かを検出するように構成されている検出器994を含むことができる。たとえば、検出器994は、図1の検出器124に対応してもよい。
デバイス900は、メモリ932およびCODEC934を含むことができる。CODEC934は、デジタル-アナログ変換器(DAC)902およびアナログ-デジタル変換器(ADC)904を含むことができる。スピーカ936、マイクロフォン938、またはその両方が、CODEC934に結合され得る。CODEC934は、マイクロフォン938からアナログ信号を受信し、アナログ-デジタル変換器904を使用してアナログ信号をデジタル信号に変換し、デジタル信号をスピーチ/音楽CODEC908に提供することができる。スピーチ/音楽CODEC908は、デジタル信号を処理することができる。いくつかの実施態様において、スピーチ/音楽CODEC908は、デジタル信号をCODEC934に提供することができる。CODEC934は、デジタル-アナログ変換器902を使用してデジタル信号をアナログ信号に変換することができ、アナログ信号をスピーカ936に提供することができる。
デバイス900は、送受信機950(たとえば、送信機、受信機、またはその両方)を介してアンテナ942に結合されているワイヤレスコントローラ940を含むことができる。デバイス900は、コンピュータ可読記憶デバイスのようなメモリ932を含むことができる。メモリ932は、図5〜図8の方法のうちの1つまたは複数を実施するために、プロセッサ906、プロセッサ910、またはそれらの組合せによって実行可能な1つまたは複数の命令のような、命令960を含むことができる。
例示的な実施例として、メモリ932は、プロセッサ906、プロセッサ910、またはそれらの組合せによって実行されると、プロセッサ906、プロセッサ910、またはそれらの組合せに、オーディオフレーム(たとえば、図1のオーディオフレーム112)と関連付けられる第1の復号スピーチ(たとえば、図1の第1の復号スピーチ114)を生成することと、帯域制限コンテンツと関連付けられるものとして分類されるオーディオフレームのカウントに少なくとも部分的に基づいて、デコーダ(たとえば、図1のデコーダ122またはデコーダ992)の出力モードを決定することとを含む動作を実施させる命令を記憶することができる。動作は、第1の復号スピーチに基づいて第2の復号スピーチ(たとえば、図1の第2の復号スピーチ116)を出力することをさらに含むことができ、第2の復号スピーチは、出力モード(たとえば、図1の出力モード134)に従って生成される。
いくつかの実施態様において、動作は、オーディオフレームと関連付けられる周波数範囲の第1の部分範囲と関連付けられる第1のエネルギーメトリックを決定することと、周波数範囲の第2の部分範囲と関連付けられる第2のエネルギーメトリックを決定することとをさらに含むことができる。動作はまた、第1のエネルギーメトリックおよび第2のエネルギーメトリックに基づいて、オーディオフレーム(たとえば、図1のオーディオフレーム112)を、狭帯域フレームと関連付けられるものとして分類すべきか、または、広帯域フレームと関連付けられるものとして分類すべきかを判定することを含むことができる。
いくつかの実施態様において、動作は、オーディオフレーム(たとえば、図1のオーディオフレーム112)を、狭帯域フレームまたは広帯域フレームとして分類することをさらに含むことができる。動作はまた、複数のオーディオフレーム(たとえば、図3のオーディオフレームa〜i)のうちの、帯域制限コンテンツと関連付けられるオーディオフレームの第2のカウントに対応するメトリック値を決定することと、メトリック値に基づいて閾値を選択することとを含むことができる。
いくつかの実施態様において、動作は、オーディオストリームの第2のオーディオフレームの受信に応答して、広帯域コンテンツを有するものとして分類される、デコーダにおいて受信される連続するオーディオフレームの第3のカウントを決定することをさらに含むことができる。動作は、連続するオーディオフレームの第3のカウントが閾値以上であるのに応答して、出力モードを広帯域モードに更新することを含むことができる。
いくつかの実施態様において、メモリ932は、プロセッサ906、プロセッサ910、またはそれらの組合せによって、プロセッサ906、プロセッサ910、またはそれらの組合せに、図1の第2のデバイス120を参照して説明されているような機能、図5〜図8の方法のうちの1つもしくは複数の少なくとも一部分、またはそれらの組合せを実施させるために実行することができるコード(たとえば、解釈またはコンパイルされるプログラム命令)を含むことができる。さらに例示すると、実施例1は、コンパイルしてメモリ932に記憶することができる擬似コード(たとえば、浮動小数点において単純化されているCコード)を示す。擬似コードは、図1〜図8を参照して説明されている態様の可能な実施態様を示す。擬似コードは、実行可能コードの一部ではないコメントを含む。擬似コードにおいて、コメントの始まりはフォワードスラッシュおよびアスタリスクによって示され(たとえば、「/*」)、コメントの終わりは、アスタリスクおよびフォワードスラッシュによって示される(たとえば、「*/」)。例として、コメント「COMMENT」は、擬似コード内では「/* COMMENT */」として現われ得る。
与えられている実施例において、「==」演算子は等価性比較を示しており、それによって、「A==B」は、Aの値がBの値に等しいときにTRUE(真)の値を有し、そうでないときはFALSE(偽)の値を有する。「&&」演算子は、論理AND演算を示す。「||」演算子は、論理OR演算を示す。「>」(〜よりも大きい)演算子は、「〜よりも大きい」ことを表し、「>=」演算子は、「〜以上」を表し、「<」演算子は「〜未満」を示す。数字に後続する「f」という用語は、浮動小数点(たとえば、10進)数フォーマットを示す。「st->A」という用語は、Aが状態パラメータであることを示す(すなわち、「->」という文字は、論理演算または算術演算を表さない)。
与えられている実施例において、「*」は乗算演算を表すことができ、「+」または「sum」は加算演算を表すことができ、「-」は減算演算を示すことができ、「/」は除算演算を表すことができる。「=」演算子は、代入を表す(たとえば、「a=1」は、変数「a」に1の値を代入する)。他の実施態様は、実施例1の条件のセットに加えて、またはそれに代えて、1つまたは複数の条件を含んでもよい。
/*Cコード修正済み:*/
if(st->VAD == 1) /*VADが1に等しい場合、これは受信オーディオフレームがアクティブであることを示し、VADは図1のVAD140に対応し得る*/
{
st->flag_NB = 1;
/*bandstoZeroを決定するために主検出器論理を入力する*/
}
else
{
st->flag_NB = 0;
/*これは、受信オーディオフレームが非アクティブであることを示す(st-> VAD == 0)の場合に発生する。主検出器論理を入力せず、代わりにbandstoZeroが最後のbandstoZeroに設定される(すなわち、以前の出力モード選択を使用する)。*/
}
IF(st->flag_NB == 1) /*アクティブフレームの主検出器論理*/
{
/*変数を設定する*/
Word32 nrgQ31;
Word32 nrg_band[20], tempQ31, max_nrg;
Word16 realQ1, imagQ1, flag, offset, WBcnt;
Word16 perc_detect, perc_miss;
Word16 tmp1, tmp2, tmp3, tmp;
realQ1 = 0;
imagQ1 = 0;
set32_fx(nrg_band, 0, 20); /*広帯域範囲を20帯域に分割することと関連付けられる*/
max_nrg = 0;
offset = 50; /*帯域制限コンテンツを有するものとして分類されるフレームの割合を計算する前に受信されるべきフレームの閾数*/
WBcnt = 20; /*広帯域コンテンツと関連付けられる分類を有する、連続的に受信されているフレームの数と比較するために使用されるべき閾値*/
perc_miss = 80; /*図1のシステム100を参照して説明されているような第2の適応的閾値*/
perc_detect = 90; /*図1のシステム100を参照して説明されているような第1の適応的閾値*/
st->active_frame_counter=st->active_frame_counter+1;
if(st ->active_frame_cnt_bwddec > 99)
{/*active_frame_cntの上限を100以下になるように定める*/
st ->active_frame_cnt_bwddec = 100;
}
FOR (i = 0; i < 20; i++) /*図1の分類器126と関連付けられるエネルギーベースの帯域幅検出*/
{
nrgQ31 = 0; /* nrgQ31はエネルギー値と関連付けられる*/
FOR (k = 0; k < nTimeSlots; k++)
{
/*直交ミラーフィルタ(QMF)分析を使用して帯域内のエネルギーをバッファリングする*/
realQ1 = rAnalysis[k][i];
imagQ1 = iAnalysis[k][i];
nrgQ31 = (nrgQ31 + realQ1*realQ1);
nrgQ31 = (nrgQ31 + imagQ1*imagQ1);
}
nrg_band[i] = (nrgQ31);
}
for(i = 2; i < 9; i++)
/*低帯域と関連付けられる平均エネルギーを計算する。800Hz〜3600Hzのサブセットが使用される。高帯域と関連付けられる最大エネルギーと比較する。512の係数が使用される(たとえば、エネルギー比閾値を決定するために)。*/
{
tempQ31 = tempQ31 + w[i]*nrg_band[i]/7.0;
}
for(i = 11; i < 20; i++) /*max_nrgはHB帯域のサブセット内の最大帯域エネルギーをデータ投入される。4.4kHz〜8kHzの帯域のみが考慮される*/
{
max_nrg = max(max_nrg, nrg_band[i]);
}
if(max_nrg < tempQ31/512.0) /*平均低帯域エネルギーをピーク高帯域エネルギーと比較する*/
flag = 1; /*帯域制限モードに分類される*/
else
flag = 0; /*広帯域モードに分類される*/
/* このパラメータフラグは分類器126の決定を保持する*/
/*フラグバッファを最新のフラグで更新する。最新のフラグをflag_bufferの最上位位置にプッシュし、残りの値を1だけシフトする、したがって、flag_bufferは最新20フレームのフラグ情報を有する。フラグバッファは、広帯域コンテンツを有するものとして分類される、連続するフレームの数を追跡するために使用することができる。*/
FOR(i = 0; i < WBcnt-1; i++)
{
st->flag_buffer[i] = st->flag_buffer[i+1];
}
st->flag_buffer[WBcnt-1] = flag;
st->avg_nrg_LT = 0.99*avg_nrg_LT + 0.01*tempQ31;
if(st->VAD == 0 || tempQ31 < st->avg_nrg_LT/200)
{
update_perc = 0;
}
else
{
update_perc = 1;
}
if(update_perc == 1) /*信頼性基準が満たされる場合。帯域制限コンテンツと関連付けられると分類されるフレームの割合を決定する*/
{
if(flag == 1) /*瞬間的な判定が満たされる場合、percを増大させる*/
{
st->perc_bwddec = st->perc_bwddec + (100-st->perc_bwddec)/(active_frame_cnt_bwddec); /*アクティブフレームの数*/
}
else /*そうでなければpercを低減する*/
{
st->perc_bwddec = st->perc_bwddec - st->perc_bwddec/(active_frame_cnt_bwddec);
}
}
if( (st->active_frame_cnt_bwddec > 50) )
/* アクティブカウントが50未満になるまで、出力モードをNBに変更しない。これは、出力モードを広帯域モードとするというデフォルトの決定が採用されることを意味する*/
{
if ((st->perc_bwddec >= perc_detect) || (st->perc_bwddec >= perc_miss && st->last_flag_filter_NB == 1) && (sum(st->flag_buffer, WBcnt) > WBcnt_thr))
{
/*最終決定(出力モード)はNB(帯域制限モード)である*/
st->cldfbSyn_fx->bandsToZero = st->cldfbSyn fx-> total_bands - 10;
/*16kHzのサンプリングレートにおける合計帯域は20である。実際には、スペクトル雑音漏れを除去するために狭帯域コンテンツに対応する最初の10帯域を上回るすべての帯域を減衰させることができる*/
st->last_flag_filter_NB = 1;
}
else
{
/*最終決定はWBである*/
st->last_flag_filter_NB = 0;
}
}
if(sum_s(st->flag_buffer, WBcnt) == 0)
/*連続するWBフレームの数がWBcntを超えるときはいつでも、出力モードをNBに変更しない。実際には、デフォルトのWBモードが出力モードとして採用される。「WBである連続するフレームの数に起因して」WBモードが採用されるときはいつでも、active_frame_cntおよびperc_bwddecをリセットする(たとえば、初期値に設定する)*/
{
st->perc_bwddec = 0.0f;
st->active_frame_cnt_bwddec = 0;
st->last_flag_filter_NB = 0;
}
}
else if (st->flag_NB == 0)
/*非アクティブフレームの検出器論理、決定を最後のフレームと同じままにする*/
{
st->cldfbSyn_fx->bandsToZero = st->last_frame_bandstoZero;
}
/*bandstoZeroが決定された後*/
if(st->cldfbSyn_fx->bandsToZero == st->cldfbSyn_fx->total_bands - 10)
{
/*4000Hzを上回るすべての帯域を0に設定する*/
}
/*QMF合成を実施して帯域幅検出器後の最終的な復号スピーチを得る*/
メモリ932は、図5〜図8の方法のうちの1つまたは複数のような、本明細書において開示されている方法およびプロセスを実施するために、プロセッサ906、プロセッサ910、CODEC934、デバイス900の別の処理装置、またはそれらの組合せによって実行可能な命令960を含むことができる。図1のシステム100の1つまたは複数の構成要素は、専用ハードウェア(たとえば、回路)、1つまたは複数のタスクを実施するための命令(たとえば、命令960)を実行するプロセッサ、またはそれらの組合せによって実装することができる。一例として、メモリ932またはプロセッサ906、プロセッサ910、CODEC934の1つもしくは複数の構成要素、またはそれらの組合せは、ランダムアクセスメモリ(RAM)、磁気抵抗ランダムアクセスメモリ(MRAM)、スピントルクトランスファーMRAM(STT-MRAM)、フラッシュメモリ、読取り専用メモリ(ROM)、プログラマブル読取り専用メモリ(PROM)、消去可能プログラマブル読取り専用メモリ(EPROM)、電気的消去可能プログラマブル読取り専用メモリ(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、またはコンパクトディスク読取り専用メモリ(CD-ROM)などのメモリデバイスであり得る。メモリデバイスは、コンピュータ(たとえば、CODEC934内のプロセッサ、プロセッサ906、プロセッサ910、またはそれらの組合せ)によって実行されるとき、図5〜図8の方法のうちの1つまたは複数の少なくとも一部分をコンピュータに実行させ得る命令(たとえば、命令960)を含み得る。一例として、メモリ932またはプロセッサ906、プロセッサ910、CODEC934の1つもしくは複数の構成要素は、コンピュータ(たとえば、CODEC934内のプロセッサ、プロセッサ906、プロセッサ910、またはそれらの組合せ)によって実行されると、コンピュータプラットフォームに、図5〜図8の方法のうちの1つまたは複数の少なくとも一部分を実施させる命令(たとえば、命令960)を含む非一時的コンピュータ可読媒体であってもよい。たとえば、コンピュータ可読記憶デバイスは、プロセッサによって実行されると、プロセッサに、オーディオストリームのオーディオフレームと関連付けられる第1の復号スピーチを生成するステップと、帯域制限コンテンツと関連付けられるものとして分類されるオーディオフレームのカウントに少なくとも部分的に基づいて、デコーダの出力モードを決定するステップとを含む動作を実行させることができる命令を含んでもよい。動作はまた、第1の復号スピーチに基づいて第2の復号スピーチを出力することを含むことができ、第2の復号スピーチは、出力モードに従って生成される。
特定の実施態様において、デバイス900は、システムインパッケージまたはシステムオンチップデバイス922内に含めることができる。いくつかの実施態様において、メモリ932、プロセッサ906、プロセッサ910、ディスプレイコントローラ926、CODEC934、ワイヤレスコントローラ940、および送受信機950は、システムインパッケージデバイスまたはシステムオンチップデバイス922に含まれる。いくつかの実施態様において、入力デバイス930および電源944は、システムオンチップデバイス922に結合される。さらに、特定の実施態様において、図9に示されるように、ディスプレイ928、入力デバイス930、スピーカ936、マイクロフォン938、アンテナ942、および電源944は、システムオンチップデバイス922の外部にある。他の実施態様において、ディスプレイ928、入力デバイス930、スピーカ936、マイクロフォン938、アンテナ942、および電源944の各々は、システムオンチップデバイス922のインターフェースまたはコントローラなどの、システムオンチップデバイス922の構成要素に結合されてもよい。例示的な実施例において、デバイス900は、通信デバイス、モバイル通信デバイス、スマートフォン、携帯電話、ラップトップコンピュータ、コンピュータ、タブレットコンピュータ、携帯情報端末、セットトップボックス、表示デバイス、テレビ、ゲーミングコンソール、音楽プレーヤ、無線機、デジタルビデオプレーヤ、デジタルビデオディスク(DVD)プレーヤ、光ディスクプレーヤ、チューナ、カメラ、ナビゲーションデバイス、デコーダシステム、エンコーダシステム、基地局、車両、またはそれらの任意の組合せに対応する。
例示的な実施例において、プロセッサ910は、図1〜図8を参照して説明されている方法または動作のすべてまたは一部分を実施するように動作可能であってもよい。たとえば、マイクロフォン938は、ユーザスピーチ信号に対応するオーディオ信号を捕捉することができる。ADC904は、捕捉されたオーディオ信号を、アナログ波形から、デジタルオーディオサンプルから構成されるデジタル波形に変換することができる。プロセッサ910は、デジタルオーディオサンプルを処理することができる。
CODEC908のエンコーダ(たとえば、ボコーダエンコーダ)は、処理済みスピーチ信号に対応するデジタルオーディオサンプルを圧縮することができ、パケットシーケンス(たとえば、デジタルオーディオサンプルの圧縮ビットの表現)を形成することができる。パケットは、メモリ932内に記憶することができる。送受信機950は、シーケンスの各パケットを変調することができ、アンテナ942を介して変調データを送信することができる。
さらなる例として、アンテナ942は、ネットワークを介して別のデバイスによって送られるパケットシーケンスに対応する、着信パケットを受信することができる。着信パケットは、図1のオーディオフレーム112のようなオーディオフレーム(たとえば、符号化オーディオフレーム)を含むことができる。デコーダ992は、受信パケットを展開および復号して、再構築オーディオサンプル(たとえば、図1の第1の復号スピーチ114のような合成オーディオ信号に対応する)を生成することができる。検出器994は、オーディオフレームが帯域制限コンテンツを含むか否かを検出し、フレームを、広帯域コンテンツもしくは狭帯域コンテンツ(たとえば、帯域制限コンテンツ)またはそれらの組合せと関連付けられるものとして分類するように構成することができる。付加的にまたは代替的に、検出器994は、デコーダのオーディオ出力がNBであるべきか、または、WBであるべきかを示す、図1の出力モード134のような出力モードを選択することができる。DAC902は、デコーダ992の出力をデジタル波形からアナログ波形に変換することができ、変換された波形を出力のためにスピーカ936に与えることができる。
図10を参照すると、基地局1000の特定の例示的な実施例のブロック図が示されている。様々な実施態様において、基地局1000は、図10に示すよりも多いまたは少ない構成要素を有する場合がある。例示的な実施例では、基地局1000は、図1の第2のデバイス120を含んでもよい。例示的な実施例において、基地局1000は、図5〜図6の方法のうちの1つもしくは複数、実施例1〜5のうちの1つもしくは複数、またはそれらの組合せに従って動作することができる。
基地局1000は、ワイヤレス通信システムの一部分であってもよい。ワイヤレス通信システムは、複数の基地局および複数のワイヤレスデバイスを含むことができる。ワイヤレス通信システムは、ロングタームエボリューション(LTE)システム、符号分割多元接続(CDMA)システム、Global System for Mobile Communications(GSM(登録商標))システム、ワイヤレスローカルエリアネットワーク(WLAN)システム、またはいくつかの他のワイヤレスシステムであってよい。CDMAシステムは、広帯域CDMA(WCDMA(登録商標))、CDMA 1X、エボリューションデータオプティマイズド(EVDO)、時分割同期CDMA(TD-SCDMA)、またはCDMAの何らかの他のバージョンを実装することができる。
ワイヤレスデバイスは、ユーザ機器(UE)、移動局、端末、アクセス端末、加入者装置、局などとして参照されることもある。ワイヤレスデバイスは、セルラー電話、スマートフォン、タブレット、ワイヤレスモデム、携帯情報端末(PDA)、ハンドヘルドデバイス、ラップトップコンピュータ、スマートブック、ネットブック、タブレット、コードレス電話、ワイヤレスローカルループ(WLL)局、Bluetooth(登録商標)デバイスなどを含んでもよい。ワイヤレスデバイスは、図9のデバイス900を含んでもよく、またはそれに対応してもよい。
メッセージおよびデータの送受信のような様々な機能は、基地局1000(および/または図示されていない他の構成要素)の1つまたは複数の構成要素によって実施することができる。特定の実施例において、基地局1000は、プロセッサ1006(たとえば、CPU)を含む。基地局1000はトランスコーダ1010を含むことができる。トランスコーダ1010は、スピーチおよび音楽CODEC1008を含むことができる。たとえば、トランスコーダ1010は、スピーチおよび音楽CODEC1008の動作を実施するように構成されている1つまたは複数の構成要素(たとえば、回路)を含むことができる。別の例として、トランスコーダ1010は、スピーチおよび音楽CODEC1008の動作を実施するための1つまたは複数のコンピュータ可読命令を実行するように構成することができる。スピーチおよび音楽CODEC1008はトランスコーダ1010の構成要素として示されているが、他の実施例において、スピーチおよび音楽CODEC1008の1つまたは複数の構成要素は、プロセッサ1006、別の処理構成要素、またはそれらの組合せに含まれてもよい。たとえば、デコーダ1038(たとえば、ボコーダデコーダ)は、受信機データプロセッサ1064に含まれてもよい。別の例として、エンコーダ1036(たとえば、ボコーダエンコーダ)は、送信データプロセッサ1066に含まれてもよい。
トランスコーダ1010は、メッセージおよびデータを2つ以上のネットワークの間でトランスコードするように機能することができる。トランスコーダ1010は、メッセージおよびオーディオデータを第1のフォーマット(たとえば、デジタルフォーマット)から第2のフォーマットへと変換するように構成することができる。例として、デコーダ1038は、第1のフォーマットを有する符号化信号を復号することができ、エンコーダ1036は、複合信号を符号化して、第2のフォーマットを有する符号化信号にすることができる。付加的にまたは代替的に、トランスコーダ1010は、データレート適合を実施するように構成されてもよい。たとえば、トランスコーダ1010は、オーディオデータのフォーマットを変更することなく、データレートをダウンコンバートし、または、データレートをアップコンバートすることができる。例として、トランスコーダ1010は、64kbit/s信号を16kbit/s信号にダウンコンバートすることができる。
スピーチおよび音楽CODEC1008は、エンコーダ1036およびデコーダ1038を含むことができる。エンコーダ1036は、図9を参照して説明されているように、検出器および複数の符号化段を含むことができる。デコーダ1038は、検出器および複数の復号段を含むことができる。
基地局1000はメモリ1032を含むことができる。コンピュータ可読記憶デバイスのようなメモリ1032は、命令を含むことができる。命令は、プロセッサ1006、トランスコーダ1010、またはそれらの組合せによって、図5〜図6の方法のうちの1つもしくは複数、実施例1〜5、またはそれらの組合せを実施するために実行可能な1つまたは複数の命令を含むことができる。基地局1000は、アンテナアレイに結合されている、第1の送受信機1052および第2の送受信機1054のような、複数の送信機および受信機(たとえば、送受信機)を含むことができる。アンテナアレイは、第1のアンテナ1042および第2のアンテナ1044を含むことができる。アンテナアレイは、図9のデバイス900のような1つまたは複数のワイヤレスデバイスとワイヤレス通信するように構成することができる。たとえば、第2のアンテナ1044は、ワイヤレスデバイスからデータストリーム1014(たとえば、ビットストリーム)を受信することができる。データストリーム1014は、メッセージ、データ(たとえば、符号化スピーチデータ)、またはそれらの組合せを含むことができる。
基地局1000は、バックホール接続のような、ネットワーク接続1060を含むことができる。ネットワーク接続1060は、ワイヤレス通信ネットワークのコアネットワークまたは1つもしくは複数の基地局と通信するように構成することができる。たとえば、基地局1000は、ネットワーク接続1060を介してコアネットワークから第2のデータストリーム(たとえば、メッセージまたはオーディオデータ)を受信することができる。基地局1000は、第2のデータストリームを処理してメッセージまたはオーディオデータを生成し、アンテナアレイの1つもしくは複数のアンテナを介して1つもしくは複数のワイヤレスデバイス、または、ネットワーク接続1060を介して別の基地局に、メッセージまたはオーディオデータを提供することができる。特定の実施態様において、ネットワーク接続1060は、例示的な非限定例として、ワイドエリアネットワーク(WAN)接続であってもよい。
基地局1000は、送受信機1052、1054、受信機データプロセッサ1064、およびプロセッサ1006に結合されている復調器1062を含むことができ、受信機データプロセッサ1064は、プロセッサ1006に結合することができる。復調器1062は、送受信機1052、1054から受信される変調信号を復調し、受信機データプロセッサ1064に復調データを提供するように構成することができる。受信機データプロセッサ1064は、復調データからメッセージまたはオーディオデータを抽出し、メッセージまたはオーディオデータをプロセッサ1006に送るように構成することができる。
基地局1000は、送信データプロセッサ1066、および、送信多入力多出力(MIMO)プロセッサ1068を含むことができる。送信データプロセッサ1066は、プロセッサ1006および送信MIMOプロセッサ1068に結合され得る。送信MIMOプロセッサ1068は、送受信機1052、1054およびプロセッサ1006に結合され得る。送信データプロセッサ1066は、プロセッサ1006からメッセージまたはオーディオデータを受信し、例示的な非限定例として、CDMAまたは直交周波数分割多重化(OFDM)のようなコード化方式に基づいてメッセージまたはオーディオデータをコード化するように構成することができる。送信データプロセッサ1066は、送信MIMOプロセッサ1068にコード化データを提供することができる。
コード化データには、CDMAまたはOFDM技法を使用して、パイロットデータのような他のデータを多重化して、多重化データを生成することができる。多重化データはその後、送信データプロセッサ1066によって、特定の変調方式(たとえば、バイナリ位相シフトキーイング(「BPSK」)、直交位相シフトキーイング(「QSPK」)、多値位相シフトキーイング(「M-PSK」)、多値直交振幅変調(「M-QAM」)など)に基づいて変調(すなわち、シンボルマッピング)して、変調シンボルを生成することができる。特定の実施態様において、コード化データおよび他のデータは、異なる変調方式を使用して変調されてもよい。データストリームごとのデータレート、コーディング、および変調は、プロセッサ1006によって実行される命令によって決定される場合がある。
送信MIMOプロセッサ1068は、送信データプロセッサ1066から変調シンボルを受信するように構成することができ、変調シンボルをさらに処理することができ、データに対するビームフォーミングを実施することができる。たとえば、送信MIMOプロセッサ1068は、変調シンボルにビームフォーミング重みを適用することができる。ビームフォーミング重みは、変調シンボルが送信されるアンテナアレイの1つまたは複数のアンテナに対応することができる。
動作中、基地局1000の第2のアンテナ1044が、データストリーム1014を受信し得る。第2の送受信機1054は、第2のアンテナ1044からデータストリーム1014を受信することができ、データストリーム1014を復調器1062に提供することができる。復調器1062は、データストリーム1014の変調信号を復調し、受信機データプロセッサ1064に復調データを提供することができる。受信機データプロセッサ1064は、復調データからオーディオデータを抽出し、抽出されたオーディオデータをプロセッサ1006に提供することができる。
プロセッサ1006は、トランスコードのためにオーディオデータをトランスコーダ1010に提供することができる。トランスコーダ1010のデコーダ1038は、オーディオデータを第1のフォーマットから復号して復号オーディオデータにすることができ、エンコーダ1036は、復号オーディオデータを符号化して第2のフォーマットにすることができる。いくつかの実施態様において、エンコーダ1036は、ワイヤレスデバイスから受信されるよりもより高いデータレート(たとえば、アップコンバート)またはより低いデータレート(たとえば、ダウンコンバート)を使用してオーディオデータを符号化することができる。他の実施態様において、オーディオデータは、トランスコードされなくてもよい。トランスコード(たとえば、復号および符号化)はトランスコーダ1010によって実施されるものとして示されているが、トランスコード動作(たとえば、復号および符号化)は、基地局1000の複数の構成要素によって実施されてもよい。たとえば、復号は、受信機データプロセッサ1064によって実施されてもよく、符号化は、送信データプロセッサ1066によって実施されてもよい。
デコーダ1038およびエンコーダ1036は、フレームごとに、データストリーム1014の各受信フレームが狭帯域フレームに対応するか、または、広帯域フレームに対応するかを判定することができ、対応する復号出力モード(たとえば、狭帯域出力モードまたは広帯域出力モード)および対応する符号化出力モードを選択して、フレームをトランスコード(たとえば、復号および符号化)することができる。トランスコードデータのような、エンコーダ1036において生成されている符号化オーディオデータは、プロセッサ1006を介して送信データプロセッサ1066またはネットワーク接続1060に提供することができる。
トランスコーダ1010からのトランスコードオーディオデータは、OFDMのような変調方式に従ってコード化して変調シンボルを生成するために、送信データプロセッサ1066に提供することができる。送信データプロセッサ1066は、さらなる処理およびビームフォーミングのために、送信MIMOプロセッサ1068に変調シンボルを提供することができる。送信MIMOプロセッサ1068は、ビームフォーミング重みを適用することができ、第1の送受信機1052を介して第1のアンテナ1042のような、アンテナアレイの1つまたは複数のアンテナに変調シンボルを提供することができる。したがって、基地局1000は、ワイヤレスデバイスから受信されるデータストリーム1014に対応するトランスコードデータストリーム1016を別のワイヤレスデバイスに提供することができる。トランスコードデータストリーム1016は、データストリーム1014とは異なる符号化フォーマット、データレート、またはその両方を有し得る。他の実施態様において、トランスコードデータストリーム1016は、別の基地局またはコアネットワークへの送信のために、ネットワーク接続1060に提供されてもよい。
それゆえ、基地局1000は、プロセッサ(たとえば、プロセッサ1006またはトランスコーダ1010)によって実行されると、プロセッサに、オーディオストリームのオーディオフレームと関連付けられる第1の復号スピーチを生成するステップと、帯域制限コンテンツと関連付けられるものとして分類されるオーディオフレームのカウントに少なくとも部分的に基づいて、デコーダの出力モードを決定するステップとを含む動作を実行させることができる命令を記憶しているコンピュータ可読記憶デバイス(たとえば、メモリ1032)を含んでもよい。動作はまた、第1の復号スピーチに基づいて第2の復号スピーチを出力することを含むことができ、第2の復号スピーチは、出力モードに従って生成される。
説明されている態様に関連して、装置は、オーディオフレームと関連付けられる第1の復号スピーチを生成するための手段を含むことができる。たとえば、生成するための手段は、図1のデコーダ122、第1の復号段123、図9のCODEC934、スピーチ/音楽CODEC908、デコーダ992、命令960を実行するようにプログラムされているプロセッサ906、910のうちの1つもしくは複数、図10のプロセッサ1006もしくはトランスコーダ1010、第1の復号スピーチを生成するための1つもしくは複数の他の構造、デバイス、回路、モジュール、もしくは命令、またはそれらの組合せを含むか、またはそれらに対応してもよい。
装置はまた、帯域幅制限コンテンツと関連付けられるものとして分類されるオーディオフレームの数に少なくとも部分的に基づいて、デコーダの出力モードを決定するための手段を含むことができる。たとえば、決定するための手段は、図1のデコーダ122、検出器124、平滑化論理130、図9のCODEC934、スピーチ/音楽CODEC908、デコーダ992、検出器994、命令960を実行するようにプログラムされているプロセッサ906、910のうちの1つもしくは複数、図10のプロセッサ1006もしくはトランスコーダ1010、出力モードを決定するための1つもしくは複数の他の構造、デバイス、回路、モジュール、もしくは命令、またはそれらの組合せを含むか、またはそれらに対応してもよい。
装置はまた、第1の復号スピーチに基づいて第2の復号スピーチを出力するための手段を含むことができる。第2の復号スピーチは、出力モードに従って生成することができる。たとえば、出力するための手段は、図1のデコーダ122、第2の復号段132、図9のCODEC934、スピーチ/音楽CODEC908、デコーダ992、命令960を実行するようにプログラムされているプロセッサ906、910のうちの1つもしくは複数、図10のプロセッサ1006もしくはトランスコーダ1010、第2の復号スピーチを出力するための1つもしくは複数の他の構造、デバイス、回路、モジュール、もしくは命令、またはそれらの組合せを含むか、またはそれらに対応してもよい。
装置は、帯域制限コンテンツと関連付けられる複数のオーディオフレームのうちのオーディオフレームのカウントに対応するメトリック値を決定するための手段を含むことができる。たとえば、メトリック値を決定するための手段は、図1のデコーダ122、分類器126、図9のデコーダ992、命令960を実行するようにプログラムされているプロセッサ906、910のうちの1つもしくは複数、図10のプロセッサ1006もしくはトランスコーダ1010、メトリック値を決定するための1つもしくは複数の他の構造、デバイス、回路、モジュール、もしくは命令、またはそれらの組合せを含むか、またはそれらに対応してもよい。
装置はまた、メトリック値に基づいて閾値を選択するための手段を含むことができる。たとえば、閾値を選択するための手段は、図1のデコーダ122、平滑化論理130、図9のデコーダ992、命令960を実行するようにプログラムされているプロセッサ906、910のうちの1つもしくは複数、図10のプロセッサ1006もしくはトランスコーダ1010、メトリック値に基づいて閾値を選択するための1つもしくは複数の他の構造、デバイス、回路、モジュール、もしくは命令、またはそれらの組合せを含むか、またはそれらに対応してもよい。
装置は、メトリック値と閾値との比較に基づいて、出力モードを第1のモードから第2のモードへと更新するための手段をさらに含むことができる。たとえば、出力モードを更新するための手段は、図1のデコーダ122、平滑化論理130、図9のデコーダ992、命令960を実行するようにプログラムされているプロセッサ906、910のうちの1つもしくは複数、図10のプロセッサ1006もしくはトランスコーダ1010、出力モードを更新するための1つもしくは複数の他の構造、デバイス、回路、モジュール、もしくは命令、またはそれらの組合せを含むか、またはそれらに対応してもよい。
いくつかの実施態様において、装置は、第1の復号スピーチを生成するための手段において受信され、広帯域コンテンツと関連付けられるものとして分類される、連続するオーディオフレームの数を決定するための手段を含むことができる。たとえば、連続するオーディオフレームの数を決定するための手段は、図1のデコーダ122、トラッカ128、図9のデコーダ992、命令960を実行するようにプログラムされているプロセッサ906、910のうちの1つもしくは複数、図10のプロセッサ1006もしくはトランスコーダ1010、連続するオーディオフレームの数を決定するための1つもしくは複数の他の構造、デバイス、回路、モジュール、もしくは命令、またはそれらの組合せを含むか、またはそれらに対応してもよい。
いくつかの実施態様において、第1の復号スピーチを生成するための手段は、スピーチモデルを含むか、またはそれに対応してもよく、出力モードを決定するための手段および第2の復号スピーチを出力するための手段は各々、プロセッサ、および、プロセッサによって実行可能な命令を記憶するメモリを含むか、またはそれに対応してもよい。付加的にまたは代替的に、第1の復号スピーチを生成するための手段、出力モードを決定するための手段、および、第2の復号スピーチを出力するための手段は、デコーダ、セットトップボックス、音楽プレーヤ、ビデオプレーヤ、エンターテインメントユニット、ナビゲーションデバイス、通信デバイス、携帯情報端末(PDA)、コンピュータ、またはそれらの組合せに組み込まれてもよい。
上述した説明の態様において、実施される様々な機能は、図1のシステム100、図9のデバイス900、図10の基地局1000の構成要素またはモジュール、またはそれらの組合せのような特定の構成要素またはモジュールによって実施されるものとして説明されている。しかしながら、この構成要素およびモジュールの分割は、例示を目的としたものにすぎない。代替的な実施例では、特定の構成要素またはモジュールによって実行される機能は、代わりに、複数の構成要素またはモジュールの間で分割されてもよい。その上、他の代替的な実施例では、図1、図9、および図10の2つ以上の構成要素またはモジュールが、単一の構成要素またはモジュールに組み込まれてもよい。図1、図9、および図10に示す各構成要素またはモジュールは、ハードウェア(たとえば、ASIC、DSP、コントローラ、FPGAデバイスなど)、ソフトウェア(たとえば、プロセッサによって実行可能な命令)、またはそれらの任意の組合せを使用して実装されてもよい。
当業者は、本明細書で開示する態様に関して説明した様々な例示的な論理ブロック、構成、モジュール、回路、およびアルゴリズムステップが、電子ハードウェア、プロセッサによって実行されるコンピュータソフトウェア、または両方の組合せとして実装され得ることをさらに諒解されよう。様々な例示的な構成要素、ブロック、構成、モジュール、回路、およびステップについて、上記ではそれらの機能に関して概略的に説明した。そのような機能がハードウェアとして実装されるか、またはプロセッサ実行可能命令として実装されるかは、特定の適用例および全体的なシステムに課される設計制約に依存する。当業者は、説明した機能を特定の適用例ごとに様々な方法で実装し得るが、そのような実装の判定は、本開示の範囲からの逸脱をもたらすものと解釈されるべきではない。
本明細書で開示する態様に関して説明した方法またはアルゴリズムのステップは、ハードウェアにおいて直接、プロセッサによって実行されるソフトウェアモジュールに、またはその2つの組合せに含まれてもよい。ソフトウェアモジュールは、RAM、フラッシュメモリ、ROM、PROM、EPROM、EEPROM、レジスタ、ハードディスク、リムーバブルディスク、CD-ROM、または当技術分野で知られている任意の他の形態の非一時的記憶媒体内に存在してもよい。プロセッサが記憶媒体から情報を読み取り、かつ記憶媒体に情報を書き込むことができるように、特定の記憶媒体がプロセッサに結合されてもよい。代替形態において、記憶媒体は、プロセッサと一体であってもよい。プロセッサおよび記憶媒体は、ASICに存在する場合がある。ASICは、コンピューティングデバイスまたはユーザ端末中に存在してよい。代替形態において、プロセッサおよび記憶媒体は、コンピューティングデバイスまたはユーザ端末の中に個別の構成要素として存在してもよい。
上記の説明は、開示した態様を当業者が作成または使用することを可能にするように与えられている。これらの態様への様々な変更は当業者には容易に明らかであり、本明細書で定義された原理は本開示の範囲から逸脱することなく他の態様に適用され得る。したがって、本開示は本明細書で示される態様に限定されるものではなく、以下の特許請求の範囲によって定義される原理および新規の特徴に一致する可能な最も広い範囲を与えられるべきである。
100 システム
102 第1のデバイス
104 エンコーダ
110 入力オーディオデータ
112 オーディオフレーム
114 第1の復号スピーチ
116 第2の復号スピーチ
120 第2のデバイス
122 デコーダ
123 第1の復号段
124 検出器
126 分類器
128 トラッカ
130 平滑化論理
131 閾値
132 第2の復号段
134 出力モード
140 音声活性判定
150 グラフ
160 グラフ
170 グラフ
200 第1のグラフ
250 第2のグラフ
300 第1の表
350 第2の表
400 第3の表
450 第4の表
500 方法
600 方法
700 方法
800 方法
900 デバイス
902 デジタル-アナログ変換器
904 アナログ-デジタル変換器
906 プロセッサ
908 CODEC
910 プロセッサ
922 システムインパッケージデバイスまたはシステムオンチップデバイス
926 ディスプレイコントローラ
928 ディスプレイ
930 入力デバイス
932 メモリ
934 CODEC
936 スピーカ
938 マイクロフォン
940 ワイヤレスコントローラ
942 アンテナ
944 電源
950 送受信機
960 命令
992 デコーダ
994 検出器
1000 基地局
1006 プロセッサ
1008 スピーチおよび音楽CODEC
1010 トランスコーダ
1014 データストリーム
1016 トランスコードデータストリーム
1032 メモリ
1036 エンコーダ
1038 デコーダ
1042 第1のアンテナ
1044 第2のアンテナ
1052 第1の送受信機
1054 第2の送受信機
1060 ネットワーク接続
1062 復調器
1064 受信機データプロセッサ
1066 送信データプロセッサ
1068 送信多入力多出力プロセッサ

Claims (55)

  1. オーディオストリームのオーディオフレームを受信するように構成される受信機と、
    デコーダであって、
    前記オーディオフレームに関連付けられる第1の復号スピーチを生成することと、
    前記オーディオフレームの狭帯域に関連付けられる第1のエネルギーメトリックと、前記オーディオフレームの広帯域に関連付けられる第2のエネルギーメトリックとを決定することと、
    前記第1のエネルギーメトリックおよび前記第2のエネルギーメトリックに基づいて、前記オーディオフレームが帯域制限コンテンツに関連付けられるとして分類すべきかどうかを判定することと、
    前記帯域制限コンテンツに関連付けられると分類されるオーディオフレームのカウントと、受信アクティブフレームのカウントとに少なくとも部分的に基づいて前記デコーダの出力モードを決定することと、
    前記第1の復号スピーチに基づいて第2の復号スピーチを出力することであって、前記第2の復号スピーチは、前記出力モードに従って生成される、出力することと
    を行うように構成される、デコーダと
    を備える、デバイス。
  2. 前記デコーダは、前記オーディオフレームを狭帯域フレームまたは広帯域フレームとして分類するように構成され、狭帯域フレームの分類は、前記帯域制限コンテンツに関連付けられることに対応する、請求項1に記載のデバイス。
  3. 前記出力モードが広帯域モードを含むとき、前記第2の復号スピーチは前記第1の復号スピーチに対応する、請求項1に記載のデバイス。
  4. 前記出力モードが狭帯域モードを含むとき、前記第2の復号スピーチは前記第1の復号スピーチの一部分である、請求項1に記載のデバイス。
  5. 前記デコーダは、帯域制限コンテンツに関連付けられると分類される前記オーディオフレームのカウントに関連付けられるメトリック値に基づき、かつ広帯域コンテンツに関連付けられると分類される連続するオーディオフレームの数に基づいて前記出力モードを選択するように構成される検出器を含む、請求項1に記載のデバイス。
  6. 前記デコーダは、
    前記オーディオフレームを広帯域コンテンツまたは前記帯域制限コンテンツに関連付けられると分類するように構成される分類器と、
    前記分類器によって生成される1つまたは複数の分類のレコードを維持するように構成されるトラッカであって、バッファ、メモリ、または1つもしくは複数のカウンタのうちの少なくとも1つを含む、トラッカと
    を含む、請求項1に記載のデバイス。
  7. 前記受信機および前記デコーダは、モバイル通信デバイスまたは基地局に組み込まれる、請求項1に記載のデバイス。
  8. 前記受信機に結合される復調器であって、前記オーディオストリームを復調するように構成される、復調器と、
    前記復調器に結合されるプロセッサと、
    エンコーダと
    をさらに備える、請求項1に記載のデバイス。
  9. 前記受信機、前記復調器、前記プロセッサ、および前記エンコーダは、モバイル通信デバイスに組み込まれる、請求項8に記載のデバイス。
  10. 前記受信機、前記復調器、前記プロセッサ、および前記エンコーダは、基地局に組み込まれる、請求項8に記載のデバイス。
  11. 前記デコーダは、帯域制限コンテンツに関連付けられると分類される前記オーディオフレームのカウントと、前記受信アクティブフレームのカウントとに基づきメトリック値を決定するようにさらに構成され、前記メトリック値は、帯域制限コンテンツに関連付けられると分類される受信アクティブフレームの割合として決定され、前記デコーダの前記出力モードは、前記メトリック値に基づいてさらに選択される、請求項1に記載のデバイス。
  12. デコーダを動作させる方法であって、
    デコーダにおいて、オーディオストリームのオーディオフレームに関連付けられる第1の復号スピーチを生成するステップと、 前記オーディオフレームの狭帯域に関連付けられる第1のエネルギーメトリックと、前記オーディオフレームの広帯域に関連付けられる第2のエネルギーメトリックとを決定するステップと、
    前記第1のエネルギーメトリックおよび前記第2のエネルギーメトリックに基づいて、前記オーディオフレームが帯域制限コンテンツに関連付けられるとして分類すべきかどうかを判定するステップと、
    前記帯域制限コンテンツに関連付けられると分類されるオーディオフレームの数と、受信アクティブフレームのカウントとに少なくとも部分的に基づいて前記デコーダの出力モードを決定するステップと、
    前記第1の復号スピーチに基づいて第2の復号スピーチを出力するステップであって、前記第2の復号スピーチは、前記出力モードに従って生成される、ステップと
    を含む、方法。
  13. 前記第1の復号スピーチは低帯域成分および高帯域成分を含む、請求項12に記載の方法。
  14. 前記1のエネルギーメトリックおよび前記2のエネルギーメトリックに基づく比の値を決定するステップと、
    前記比の値を分類閾値と比較するステップと、
    前記比の値が前記分類閾値よりも大きいことに応答して、前記オーディオフレームを前記帯域制限コンテンツに関連付けられると分類するステップと
    をさらに含む、請求項13に記載の方法。
  15. 前記オーディオフレームが前記帯域制限コンテンツに関連付けられるとき、前記第2の復号スピーチを生成するために前記第1の復号スピーチの前記高帯域成分を減衰させるステップをさらに含む、請求項14に記載の方法。
  16. 前記オーディオフレームが前記帯域制限コンテンツに関連付けられるとき、前記第2の復号スピーチを生成するために前記高帯域成分に関連付けられる1つまたは複数の帯域のエネルギー値をゼロに設定するステップをさらに含む、請求項14に記載の方法。
  17. 前記第1の復号スピーチの低帯域成分に関連付けられる複数の周波数帯域の第1のセットに関連付けられる第1のエネルギーメトリックを決定するステップをさらに含む、請求項12に記載の方法。
  18. 前記第1のエネルギーメトリックを決定するステップは、前記複数の周波数帯域の第1のセットの帯域のサブセットの平均エネルギー値を決定するステップと、前記第1のエネルギーメトリックを前記平均エネルギー値に等しく設定するステップとを含む、請求項17に記載の方法。
  19. 前記第1の復号スピーチの高帯域成分に関連付けられる複数の周波数帯域の第2のセットに関連付けられる第2のエネルギーメトリックを決定するステップをさらに含む、請求項17に記載の方法。
  20. 前記複数の周波数帯域の第2のセットの最高の検出エネルギー値を有する前記複数の周波数帯域の第2のセットの特定の周波数帯域を決定するステップと、
    前記第2のエネルギーメトリックを前記最高の検出エネルギー値に等しく設定するステップと
    をさらに含む、請求項19に記載の方法。
  21. 前記第1のセットおよび前記第2のセットは相互に排他的であり、前記複数の周波数帯域の第2のセットの各帯域は同じ帯域幅を有する、請求項19に記載の方法。
  22. 前記第1のセットおよび前記第2のセットは、前記オーディオフレームに関連付けられる周波数範囲の遷移帯域によって分離される、請求項21に記載の方法。
  23. 前記出力モードが広帯域モードを含むとき、前記第2の復号スピーチは実質的に前記第1の復号スピーチと同じである、請求項12に記載の方法。
  24. 前記出力モードが狭帯域モードを含むとき、前記第2の復号スピーチを生成するために、前記第1の復号スピーチの低帯域成分を維持し、かつ前記第1の復号スピーチの高帯域成分を減衰させるステップをさらに含む、請求項12に記載の方法。
  25. 前記出力モードが狭帯域モードを含むとき、前記第2の復号スピーチを生成するために、前記第1の復号スピーチの高帯域成分に関連付けられる周波数帯域の1つまたは複数のエネルギー値を減衰させるステップをさらに含む、請求項12に記載の方法。
  26. 前記オーディオフレームがアクティブフレームであるかどうかを判定するステップであって、前記デコーダの前記出力モードを決定するステップは、前記オーディオフレームが前記アクティブフレームであるという判定に応答して実施される、ステップを含む、請求項12に記載の方法。
  27. 前記デコーダにおいて前記オーディオストリームの第2のオーディオフレームを受信するステップと、
    前記第2のオーディオフレームが非アクティブフレームであるかどうかを判定するステップと、
    前記第2のオーディオフレームが前記非アクティブフレームであるという判定に応答して、前記デコーダの前記出力モードを維持するステップと
    をさらに含む、請求項12に記載の方法。
  28. 前記デコーダにおいて前記オーディオストリームの複数のオーディオフレームを受信するステップであって、前記複数のオーディオフレームは、前記オーディオフレームおよび第2のオーディオフレームを含む、ステップと、
    前記デコーダにおいて、前記第2のオーディオフレームの受信に応答して、前記帯域制限コンテンツに関連付けられる前記複数のオーディオフレームの相対オーディオフレームカウントに対応するメトリック値を決定するステップと、
    前記デコーダの前記出力モードの第1のモードに基づいて閾値を選択するステップであって、前記第1のモードは、前記第2のオーディオフレームの前に受信される前記オーディオフレームに関連付けられる、ステップと、
    前記メトリック値と前記閾値との比較に基づいて前記出力モードを前記第1のモードから第2のモードへと更新するステップであって、前記第2のモードは前記第2のオーディオフレームに関連付けられる、ステップと
    をさらに含む、請求項12に記載の方法。
  29. 前記メトリック値は、帯域制限コンテンツに関連付けられると分類される前記複数のオーディオフレームの割合として決定され、前記閾値は、第1の値を有する広帯域閾値または第2の値を有する狭帯域閾値として選択され、前記第1の値は前記第2の値よりも大きい、請求項28に記載の方法。
  30. 前記第1のモードは広帯域モードを含み、前記方法は、
    前記閾値を選択する前に、前記出力モードが前記広帯域モードであることを判定するステップと、
    前記出力モードが前記広帯域モードであるという判定に応答して、前記閾値として広帯域閾値を選択するステップと
    をさらに含む、請求項28に記載の方法。
  31. 前記メトリック値が前記広帯域閾値以上であるとき、前記出力モードは狭帯域モードに更新される、請求項30に記載の方法。
  32. 前記第1のモードは狭帯域モードを含み、前記方法は、
    前記閾値を選択する前に、前記出力モードが前記狭帯域モードであることを判定するステップと、
    前記出力モードが前記狭帯域モードであるという判定に応答して、前記閾値として狭帯域閾値を選択するステップと
    をさらに含む、請求項28に記載の方法。
  33. 前記メトリック値が前記狭帯域閾値以下であるとき、前記出力モードは広帯域モードに更新される、請求項32に記載の方法。
  34. 前記メトリック値を決定する前に、
    前記第2のオーディオフレームがアクティブフレームであることを判定するステップと、
    前記第2のオーディオフレームの低帯域成分に関連付けられる平均エネルギー値を決定するステップと、
    前記平均エネルギー値がエネルギー閾値よりも大きいという判定に応答して、かつ前記第2のオーディオフレームが前記アクティブフレームであるという判定に応答して、前記メトリック値を第1の値から第2の値へと更新するステップであって、前記第2のオーディオフレームの前記受信に応答して前記メトリック値を決定するステップは、前記第2の値を識別するステップを含む、ステップと
    をさらに含む、請求項28に記載の方法。
  35. 前記第2のオーディオフレームの前記低帯域成分に関連付けられる前記平均エネルギー値は、前記第2のオーディオフレームの前記低帯域成分の帯域のサブセットに関連付けられる特定の平均エネルギーを含む、請求項34に記載の方法。
  36. 前記エネルギー閾値は長期的メトリックであり、前記エネルギー閾値は前記複数のオーディオフレームの低帯域成分に関連付けられる平均エネルギー値の平均である、請求項34に記載の方法。
  37. 前記メトリック値を決定する前に、
    前記第2のオーディオフレームがアクティブフレームであることを判定するステップと、
    前記第2のオーディオフレームの低帯域成分に関連付けられる平均エネルギー値を決定するステップと、
    前記平均エネルギー値がエネルギー閾値以下という判定に応答して、かつ前記第2のオーディオフレームが前記アクティブフレームであるという判定に応答して、前記メトリック値を維持するステップと
    をさらに含む、請求項28に記載の方法。
  38. アクティブフレームとして示される前記複数のオーディオフレームのうちの少なくとも1つのオーディオフレームについて、前記デコーダにおいて前記少なくとも1つのオーディオフレームが前記帯域制限コンテンツに関連付けられるかどうかを判定するステップをさらに含む、請求項28に記載の方法。
  39. 前記デコーダにおいて、帯域制限コンテンツに関連付けられると分類される前記オーディオフレームの数に対応するメトリック値を決定するステップと、
    前記デコーダの以前の出力モードに基づいて閾値を選択するステップであって、前記デコーダの前記出力モードを決定するステップは、前記メトリック値と前記閾値との比較にさらに基づく、ステップと
    をさらに含む、請求項12に記載の方法。
  40. 前記デコーダにおいて前記オーディオストリームの第2のオーディオフレームを受信するステップと、
    前記デコーダにおいて受信され、かつ広帯域コンテンツに関連付けられると分類される、前記第2のオーディオフレームを含む連続するオーディオフレームの数を決定するステップと、
    前記連続するオーディオフレームの数が閾値以上であることに応答して、前記第2のオーディオフレームに関連付けられる第2の出力モードを広帯域モードであると選択するステップと
    をさらに含む、請求項12に記載の方法。
  41. 前記第2のオーディオフレームの受信に応答して、
    前記第2のオーディオフレームがアクティブフレームであることを判定するステップと、
    受信オーディオフレームのカウントを増分するステップと、
    前記第2のオーディオフレームの分類を広帯域フレームまたは狭帯域フレームとして決定するステップと
    をさらに含む、請求項40に記載の方法。
  42. 前記受信アクティブフレームのカウントが第2の閾値以上であるかどうかを判定するステップであって、前記第2のオーディオフレームの前記分類が決定した後に前記連続するオーディオフレームの数が決定される、ステップをさらに含む、請求項41に記載の方法。
  43. 前記受信アクティブフレームのカウントが前記第2の閾値未満であるという判定に応答して、前記第2のオーディオフレームに関連付けられる前記出力モードを前記広帯域モードであると判定するステップをさらに含む、請求項42に記載の方法。
  44. 前記第2の出力モードを選択するステップは、前記第2のオーディオフレームに関連付けられる前記出力モードを第1のモードから前記広帯域モードへと更新するステップを含み、前記出力モードが前記第1のモードから前記広帯域モードへと更新されるのに応答して、受信オーディオフレームのカウントを第1の初期値に設定すること、帯域制限コンテンツに関連付けられる前記オーディオストリームのオーディオフレームの相対カウントに対応するメトリック値を第2の初期値に設定すること、またはその両方を行うステップをさらに含む、請求項40に記載の方法。
  45. 前記デコーダにおいて受信され、かつ広帯域コンテンツに関連付けられると分類される、前記オーディオフレームを含む連続するオーディオフレームの数を決定するステップをさらに含み、前記デコーダの前記出力モードを決定することは、前記連続するオーディオフレームの数と閾値との比較にさらに基づく、請求項12に記載の方法。
  46. 前記デコーダは、モバイル通信デバイスまたは基地局を含むデバイスに含まれる、請求項12に記載の方法。
  47. 比の値に基づいて前記帯域制限コンテンツに関連付けられると前記オーディオフレームを分類するステップであって、前記比の値は、前記第1の復号スピーチの低帯域成分に関連付けられる第1のエネルギーメトリックと、前記第1の復号スピーチの高帯域成分に関連付けられる第2のエネルギーメトリックとに基づく、請求項12に記載の方法。
  48. オーディオストリームのオーディオフレームに関連付けられる第1の復号スピーチを生成するための手段と、
    前記オーディオフレームの狭帯域に関連付けられる第1のエネルギーメトリックと、前記オーディオフレームの広帯域に関連付けられる第2のエネルギーメトリックとを決定するための手段と、
    前記第1のエネルギーメトリックおよび前記第2のエネルギーメトリックに基づいて、前記オーディオフレームが帯域制限コンテンツに関連付けられるとして分類すべきかどうかを判定するための手段と、
    帯域制限コンテンツに関連付けられると分類されるオーディオフレームの数と、受信アクティブフレームのカウントとに少なくとも部分的に基づいてデコーダの出力モードを決定するための手段と、
    前記第1の復号スピーチに基づいて第2の復号スピーチを出力するための手段であって、前記第2の復号スピーチは、前記出力モードに従って生成される、手段と
    を備える、装置。
  49. 第1の復号スピーチを前記生成するための手段はスピーチモデルを含み、前記第1のエネルギーメトリックと前記第2のエネルギーメトリックとを前記決定するための手段、前記判定するための手段、出力モードを前記決定するための手段および第2の復号スピーチを前記出力するための手段は各々、プロセッサおよび前記プロセッサによって実行可能な命令を記憶するメモリを含む、請求項48に記載の装置。
  50. 前記帯域制限コンテンツに関連付けられる複数のオーディオフレームのオーディオフレームカウントに対応するメトリック値を決定するための手段と、
    前記メトリック値と前記出力モードとに基づいて閾値を選択するための手段と、
    前記メトリック値と前記閾値との比較に基づいて前記出力モードを第1のモードから第2のモードへと更新するための手段と
    をさらに備える、請求項48に記載の装置。
  51. 前記第1の復号スピーチを前記生成するための手段において受信され、広帯域コンテンツに関連付けられると分類される、連続するオーディオフレームの数を決定するための手段をさらに備える、請求項48に記載の装置。
  52. 前記生成するための手段、前記決定するための手段、および前記出力するための手段はモバイル通信デバイスまたは基地局に組み込まれる、請求項48に記載の装置。
  53. プロセッサによって実行されると、前記プロセッサに、
    オーディオストリームのオーディオフレームに関連付けられる第1の復号スピーチを生成するステップと、
    前記オーディオフレームの狭帯域に関連付けられる第1のエネルギーメトリックと、前記オーディオフレームの広帯域に関連付けられる第2のエネルギーメトリックとを決定するステップと、
    前記第1のエネルギーメトリックおよび前記第2のエネルギーメトリックに基づいて、前記オーディオフレームが帯域制限コンテンツに関連付けられるとして分類すべきかどうかを判定するステップと、
    前記帯域制限コンテンツに関連付けられると分類されるオーディオフレームのカウントと、受信アクティブフレームのカウントとに少なくとも部分的に基づいてデコーダの出力モードを決定するステップと、
    前記第1の復号スピーチに基づいて第2の復号スピーチを出力するステップであって、前記第2の復号スピーチは前記出力モードに従って生成される、ステップと
    を含む動作を実施させる命令を記憶する、コンピュータ可読記憶デバイス。
  54. 前記命令は、前記プロセッサに、
    前記オーディオフレームを狭帯域フレームまたは広帯域フレームとして分類するステップと、
    前記帯域制限コンテンツに関連付けられる複数のオーディオフレームの第2のオーディオフレームカウントに対応するメトリック値を決定するステップと、
    前記メトリック値に基づいて閾値を選択するステップと
    をさらに含む動作を実施させる、請求項53に記載のコンピュータ可読記憶デバイス。
  55. 前記命令は、前記プロセッサに、
    前記オーディオストリームの第2のオーディオフレームの受信に応答して、広帯域コンテンツを有すると分類される、前記デコーダにおいて受信される連続するオーディオフレームの第3のカウントを決定するステップと、
    前記連続するオーディオフレームの第3のカウントが閾値以上であるのに応答して、前記出力モードを広帯域モードに更新するステップと
    をさらに含む動作を実施させる、請求項53に記載のコンピュータ可読記憶デバイス。
JP2017551621A 2015-04-05 2016-03-30 音声デコーダ、およびその動作方法およびその方法を記憶したコンピュータ可読記憶デバイス Active JP6545815B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562143158P 2015-04-05 2015-04-05
US62/143,158 2015-04-05
US15/083,717 2016-03-29
US15/083,717 US10049684B2 (en) 2015-04-05 2016-03-29 Audio bandwidth selection
PCT/US2016/025053 WO2016164232A1 (en) 2015-04-05 2016-03-30 Audio bandwidth selection

Publications (3)

Publication Number Publication Date
JP2018513411A JP2018513411A (ja) 2018-05-24
JP2018513411A5 JP2018513411A5 (ja) 2018-12-20
JP6545815B2 true JP6545815B2 (ja) 2019-07-17

Family

ID=57017020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017551621A Active JP6545815B2 (ja) 2015-04-05 2016-03-30 音声デコーダ、およびその動作方法およびその方法を記憶したコンピュータ可読記憶デバイス

Country Status (9)

Country Link
US (2) US10049684B2 (ja)
EP (1) EP3281199B1 (ja)
JP (1) JP6545815B2 (ja)
KR (2) KR102047596B1 (ja)
CN (1) CN107408392B (ja)
AU (1) AU2016244808B2 (ja)
BR (1) BR112017021351A2 (ja)
TW (2) TWI693596B (ja)
WO (1) WO2016164232A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016017238A1 (ja) * 2014-07-28 2016-02-04 日本電信電話株式会社 符号化方法、装置、プログラム及び記録媒体
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
KR102398124B1 (ko) * 2015-08-11 2022-05-17 삼성전자주식회사 음향 데이터의 적응적 처리
US11054884B2 (en) * 2016-12-12 2021-07-06 Intel Corporation Using network interface controller (NIC) queue depth for power state management
CN117037804A (zh) * 2017-01-10 2023-11-10 弗劳恩霍夫应用研究促进协会 音频解码器和编码器、提供解码的音频信号的方法、提供编码的音频信号的方法、使用流标识符的音频流、音频流提供器和计算机程序
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483882A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
TWI748215B (zh) * 2019-07-30 2021-12-01 原相科技股份有限公司 聲音輸出之調整方法及執行該調整方法之電子裝置
US11172294B2 (en) * 2019-12-27 2021-11-09 Bose Corporation Audio device with speech-based audio signal processing
CN112530454B (zh) * 2020-11-30 2024-07-23 厦门亿联网络技术股份有限公司 一种窄带语音信号检测方法、装置、***和可读存储介质

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
AU2003260958A1 (en) * 2002-09-19 2004-04-08 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and method
WO2004090870A1 (ja) * 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
DE602006018618D1 (de) * 2005-07-22 2011-01-13 France Telecom Verfahren zum umschalten der raten- und bandbreitenskalierbaren audiodecodierungsrate
US8032370B2 (en) * 2006-05-09 2011-10-04 Nokia Corporation Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
CN101496099B (zh) * 2006-07-31 2012-07-18 高通股份有限公司 用于对有效帧进行宽带编码和解码的***、方法和设备
US8032359B2 (en) * 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
US8990073B2 (en) * 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification
DE102008009720A1 (de) 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Dekodierung von Hintergrundrauschinformationen
US8645129B2 (en) * 2008-05-12 2014-02-04 Broadcom Corporation Integrated speech intelligibility enhancement system and acoustic echo canceller
US8548460B2 (en) * 2010-05-25 2013-10-01 Qualcomm Incorporated Codec deployment using in-band signals
WO2011148230A1 (en) * 2010-05-25 2011-12-01 Nokia Corporation A bandwidth extender
US8924200B2 (en) * 2010-10-15 2014-12-30 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
US8868432B2 (en) * 2010-10-15 2014-10-21 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
ES2805308T3 (es) * 2011-11-03 2021-02-11 Voiceage Evs Llc Mejora del contenido insonoro para decodificador CELP de tasa baja
US8666753B2 (en) * 2011-12-12 2014-03-04 Motorola Mobility Llc Apparatus and method for audio encoding
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
PL3067890T3 (pl) * 2013-01-29 2018-06-29 Fraunhofer Ges Forschung Koder audio, dekoder audio, sposób dostarczania zakodowanej informacji audio, sposób dostarczania zdekodowanej informacji audio, program komputerowy i zakodowana reprezentacja, wykorzystujące adaptacyjne względem sygnału powiększanie szerokości pasma
US9711156B2 (en) 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
CN106169297B (zh) * 2013-05-30 2019-04-19 华为技术有限公司 信号编码方法及设备
CN104217727B (zh) * 2013-05-31 2017-07-21 华为技术有限公司 信号解码方法及设备
CN104347067B (zh) * 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
CN104269173B (zh) * 2014-09-30 2018-03-13 武汉大学深圳研究院 切换模式的音频带宽扩展装置与方法
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection

Also Published As

Publication number Publication date
US10777213B2 (en) 2020-09-15
AU2016244808A1 (en) 2017-09-14
KR20190130669A (ko) 2019-11-22
JP2018513411A (ja) 2018-05-24
KR20170134461A (ko) 2017-12-06
TWI693596B (zh) 2020-05-11
TW201703026A (zh) 2017-01-16
US10049684B2 (en) 2018-08-14
CN107408392A8 (zh) 2018-01-12
US20160293174A1 (en) 2016-10-06
EP3281199B1 (en) 2023-10-04
US20180342255A1 (en) 2018-11-29
CN107408392B (zh) 2021-07-30
KR102047596B1 (ko) 2019-11-21
CN107408392A (zh) 2017-11-28
EP3281199C0 (en) 2023-10-04
TWI661422B (zh) 2019-06-01
EP3281199A1 (en) 2018-02-14
TW201928946A (zh) 2019-07-16
BR112017021351A2 (pt) 2018-07-03
AU2016244808B2 (en) 2019-08-22
WO2016164232A1 (en) 2016-10-13
KR102308579B1 (ko) 2021-10-01

Similar Documents

Publication Publication Date Title
JP6545815B2 (ja) 音声デコーダ、およびその動作方法およびその方法を記憶したコンピュータ可読記憶デバイス
US11729079B2 (en) Selecting a packet loss concealment procedure
JP6377862B2 (ja) エンコーダ選択
JP6779280B2 (ja) ハイバンド目標信号制御
US9972334B2 (en) Decoder audio classification
JP2017503192A (ja) 帯域幅拡張モード選択
RU2419172C2 (ru) Системы и способы динамической нормализации для уменьшения потери точности для сигналов с низким уровнем
WO2014000559A1 (zh) 语音频信号处理方法和编码装置
JP6522781B2 (ja) 利得フレームパラメータを生成するための装置、方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181107

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181107

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20181107

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20181227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190402

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190527

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190619

R150 Certificate of patent or registration of utility model

Ref document number: 6545815

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250