JP7389651B2 - デジタルオーディオ信号における可変アルファベットサイズ - Google Patents

デジタルオーディオ信号における可変アルファベットサイズ Download PDF

Info

Publication number
JP7389651B2
JP7389651B2 JP2019558590A JP2019558590A JP7389651B2 JP 7389651 B2 JP7389651 B2 JP 7389651B2 JP 2019558590 A JP2019558590 A JP 2019558590A JP 2019558590 A JP2019558590 A JP 2019558590A JP 7389651 B2 JP7389651 B2 JP 7389651B2
Authority
JP
Japan
Prior art keywords
band
frame
reshaping
resolution
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019558590A
Other languages
English (en)
Other versions
JP2020518031A (ja
Inventor
アルバート チョウ
アントニウス カルカー
ガディエル セルーシ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DTS Inc
Original Assignee
DTS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DTS Inc filed Critical DTS Inc
Publication of JP2020518031A publication Critical patent/JP2020518031A/ja
Application granted granted Critical
Publication of JP7389651B2 publication Critical patent/JP7389651B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

(関連出願の相互参照)
本出願は、2017年4月25日出願の米国仮特許出願第62/489,867号の利益を主張する2018年3月20日出願の米国特許出願第15/926,089号に対し優先権を主張するものであり、これらの開示内容全体は、引用により本明細書に組み込まれる。
本開示は、オーディオ信号の符号化又は復号に関する。
オーディオコーデックは、時間領域オーディオ信号をデジタルファイル又はデジタルストリームに符号化して、デジタルファイル又はデジタルストリームを時間領域オーディオ信号に復号することができる。符号化されたファイル又はストリームのサイズを小さくすることなど、オーディオコーデックを改良する継続的な取り組みが行われている。
符号化システムの1つの実施例は、プロセッサと、該プロセッサによって実行可能な命令を格納するメモリデバイスであって、上記命令が、オーディオ信号を符号化するための方法を実行するように上記プロセッサによって実行可能であるメモリデバイスと、を含むことができ、上記方法は、デジタルオーディオ信号を受け取るステップと、該デジタルオーディオ信号を構文解析して、指定された数のオーディオサンプルを各々が含む複数のフレームにするステップと、各フレームのオーディオサンプルの変換を行って、各フレームに関する複数の周波数領域係数を生成するステップと、各フレームに関する複数の周波数領域係数を各フレームに関する複数の帯域に分割するステップであって、各帯域が時間分解能及び周波数分解能を表す再形成パラメータを有するステップと、デジタルオーディオ信号を符号化して、再形成パラメータを含むビットストリームにするステップであって、第1の帯域に関する再形成パラメータは、第1のアルファベットサイズを使用して符号化され、該第1の帯域と異なる第2帯域に関する再形成パラメータは、該第1のアルファベットサイズと異なる第2のアルファベットサイズを使用して符号化されるステップと、ビットストリームを出力するステップと、を含む。
復号システムの1つの実施例は、プロセッサと、プロセッサによって実行可能な命令を格納するメモリデバイスであって、上記命令が、符号化されたオーディオ信号を復号するための方法を実行するようにプロセッサによって実行可能である、メモリデバイスと、を含むことができ、上記方法は、複数の帯域に各々が分割された複数のフレームを含むビットストリームを受け取るステップと、各フレームの各帯域に対して、帯域に関する時間分解能及び周波数分解能を表す再形成パラメータをビットストリームから抽出するステップであって、第1の帯域に関する再形成パラメータは、第1のアルファベットサイズを使用してビットストリームに埋め込まれており、該第1の帯域と異なる第2帯域に関する再形成パラメータは、該第1のアルファベットサイズと異なる第2のアルファベットサイズを使用してビットストリームに埋め込まれているステップと、再形成パラメータを使用してビットストリームを復号して、復号されたデジタルオーディオ信号を生成するステップと、を含む。
符号化システムの別の実施例は、デジタルオーディオ信号を受け取るための受信器回路と、デジタルオーディオ信号を構文解析して、指定された数のオーディオサンプルを各々が含む複数のフレームにするためのフレーマ回路と、各フレームのオーディオサンプルの変換を行って、各フレームに関する複数の周波数領域係数を生成するための変換器回路と、各フレームに関する複数の周波数領域係数を各フレームに関する複数の帯域に分割するための周波数帯域分割器回路であって、各帯域が時間分解能及び周波数分解能を表す再形成パラメータを有する、周波数帯域分割器回路と、デジタルオーディオ信号を符号化して、各帯域の再形成パラメータを含むビットストリームにするためのエンコーダ回路であって、第1の帯域に関する再形成パラメータは、第1のアルファベットサイズを使用して符号化され、該第1の帯域と異なる第2帯域に関する再形成パラメータは、該第1のアルファベットサイズと異なる第2のアルファベットサイズを使用して符号化されるエンコーダ回路と、ビットストリームを出力するための出力回路と、を含むことができる。
幾つかの実施例による符号化システムの1つの実施例のブロック図を示す。 幾つかの実施例による符号化システムの別の実施例のブロック図を示す。 幾つかの実施例による復号システムの1つの実施例のブロック図を示す。 幾つかの実施例による復号システムの別の実施例のブロック図を示す。 幾つかの実施例による、デジタルオーディオ信号の符号化と関連する量のうちの幾つかを示す。 幾つかの実施例による、オーディオ信号を符号化するための方法の1つの実施例のフローチャートを示す。 幾つかの実施例による、符号化されたオーディオ信号を復号するための方法の1つの実施例のフローチャートを示す。 幾つかの実施例による、オーディオ信号を符号化及び復号するための擬似コードの実施例を示す。 幾つかの実施例による、オーディオ信号を符号化及び復号するための擬似コードの実施例を示す。 幾つかの実施例による、オーディオ信号を符号化及び復号するための擬似コードの実施例を示す。 幾つかの実施例による、オーディオ信号を符号化及び復号するための擬似コードの実施例を示す。 幾つかの実施例による符号化システムの1つの実施例のブロック図を示す。
対応する参照符号は、幾つかの図全体にわたって対応する要素を示す。図面中の要素は、必ずしも縮尺どおりに描かれていない。図面に示された構成は、単なる例証に過ぎず、どのようにしても本発明の範囲を限定するものではないと解釈されたい。
コーデックなどのオーディオ符号化及び/又は復号システムにおいて、異なる帯域における再形成パラメータは、異なるサイズを有するアルファベットを使用して符号化することができる。異なるアルファベットサイズを使用することは、以下でより詳細に説明するように、ビットストリーム(例えば、符号化されたデジタルオーディオ信号)においてよりコンパクトな圧縮を可能にすることができる。
図1は、幾つかの実施例による符号化システム100の1つの実施例のブロック図を示している。図1の構成は、符号化システムの一例に過ぎず、他の好適な構成も使用できる。
符号化システム100は、入力としてデジタルオーディオ信号102を受け取り、ビットストリーム104を出力することができる。入力信号102及び出力信号104は、各々、ローカルに又はアクセス可能なサーバ上に保存された1又は2以上の個別ファイル及び/又はローカルで又はアクセス可能なサーバ上で生成された1又は2以上のオーディオストリームを含むことができる。
符号化システム100は、プロセッサ106を含むことができる。符号化システム100は更に、プロセッサ106により実行可能な命令110を格納するメモリデバイス108を含むことができる。プロセッサ106が、オーディオ信号を符号化するための方法を実行するように命令110を実行することができる。オーディオ信号を符号化するためのこのような方法の1つの実施例が以下で詳細に説明される。
図1の構成では、符号化は、ソフトウェアで実行され、典型的には、コンピューティングデバイスにおいて追加のタスクも実行できるプロセッサによって実行される。別の方法として、符号化はまた、符号化を実行するようにハードウェアに組み込まれた専用チップ又は専用プロセッサなどによって、ハードウェアで実行することもできる。このようなハードウェアベースのエンコーダの実施例が図2に示されている。
図2は、幾つかの実施例による符号化システム200の別の実施例のブロック図を示している。図2の構成は、符号化システムの一例に過ぎず、他の好適な構成も使用できる。
符号化システム200は、入力としてデジタルオーディオ信号202を受け取り、ビットストリーム204を出力することができる。符号化システム200は、専用符号化プロセッサ206を含むことができ、特定の符号化方法を実行するようにハードウェアに組み込まれたチップを含むことができる。オーディオ信号を符号化するためのこのような方法の実施例は、以下で詳細に説明される。
図1及び図2の実施例は、それぞれソフトウェア及びハードウェアで動作できる符号化システムを示している。以下の図3及び4は、それぞれソフトウェア及びハードウェアで動作できる同等の復号システムを示している。
図3は、幾つかの実施例による復号システムの1つの実施例のブロック図を示している。図3の構成は、復号システムの一例に過ぎず、他の好適な構成も使用できる。
復号システム300は、入力としてビットストリーム302を受け取り、復号されたデジタルオーディオ信号304を出力することができる。入力信号302及び出力信号304は、各々、ローカルに又はアクセス可能なサーバ上に保存された1又は2以上の個別ファイル及び/又はローカルで又はアクセス可能なサーバ上で生成された1又は2以上のオーディオストリームを含むことができる。
復号システム300は、プロセッサ306を含むことができる。復号システム300は更に、プロセッサ306により実行可能な命令310を格納するメモリデバイス308を含むことができる。プロセッサ306が、オーディオ信号を復号するための方法を実行するように命令310を実行することができる。オーディオ信号を復号するためのこのような方法の実施例は、以下で詳細に説明される。
図3の構成では、復号は、ソフトウェアで実行され、典型的には、コンピューティングデバイスにおいて追加のタスクも実行できるプロセッサによって実行される。別の方法として、復号はまた、符号化を実行するようにハードウェアに組み込まれた専用チップ又は専用プロセッサなどによって、ハードウェアで実行することもできる。このようなハードウェアベースのデコーダの実施例が図4に示されている。
図4は、幾つかの実施例による復号システム400の別の実施例のブロック図を示している。図4の構成は、復号システムの一例に過ぎず、他の好適な構成も使用できる。
復号システム400は、入力としてビットストリーム402を受け取り、復号されたデジタルオーディオ信号404を出力することができる。復号システム400は、専用復号プロセッサ406を含むことができ、特定の復号方法を実行するようにハードウェアに組み込まれたチップを含むことができる。オーディオ信号を復号するためのこのような方法の実施例は、以下で詳細に説明される。
図5は、幾つかの実施例による、デジタルオーディオ信号の符号化と関連する量のうちの幾つかを示している。ビットストリームの復号は、一般に、ビットストリームの符号化と同じ量を伴うが、数学演算が逆に行われる量を伴う。図5に示されている量は、このような量の一例に過ぎず、他の好適な量が、同様に使用できる。図5に示されている量の各々は、図1から4に示されているエンコーダ又はデコーダの何れかと共に使用できる。
エンコーダは、デジタルオーディオ信号502を受け取ることができる。デジタルオーディオ信号502は、時間領域にあり、時間と共に展開するオーディオ信号振幅を表す一連の整数又は浮動小数点数を含むことができる。デジタルオーディオ信号502は、スタジオからの生放送などのストリーム(例えば、指定された開始及び/又は終了のない)の形態とすることができる。代替的に、デジタルオーディオ信号502は、サーバ上のオーディオファイル、コンパクトディスクからリッピングされた非圧縮オーディオファイル、又は非圧縮形式の曲のミックスダウンファイルなどの個別ファイル(例えば、開始及び終了と、指定された継続時間とを有する)とすることができる。
エンコーダは、デジタルオーディオ信号502を構文解析して複数のフレーム504にすることができ、ここで、各フレーム504は、指定された数のオーディオサンプル506を含む。例えば、フレーム504は、1024個のサンプル506又は別の好適な値を含むことができる。一般に、デジタルオーディオ信号502をフレーム504にグループ化することにより、エンコーダは、明確に規定された数のサンプル506にエンコーダの処理を効率的に適用することができるようになる。幾つかの実施例において、このような処理は、各フレームが他のフレームと独立して処理されるように、フレームごとに異なるものとすることができる。
エンコーダは、各フレーム504のオーディオサンプル506の変換508を実行することができる。幾つかの実施例において、この変換は、修正離散コサイン変換とすることができる。フーリエ、ラプラスなどの他の好適な変換が使用できる。変換508は、フレーム504内のサンプル506などの時間領域量を、フレーム504に関する周波数領域係数510などの周波数領域量に変換する。変換508は、各フレーム504に関する複数の周波数領域係数510を生成することができる。幾つかの実施例において、変換508によって生成される周波数領域係数510の数は、1024などのフレーム内のサンプル506の数に等しいとすることができる。周波数領域係数510は、特定の周波数の信号がフレーム内にどの程度存在するかを記述するものである。
幾つかの実施例において、時間領域フレームは、連続したサンプルからなるサブブロックに更に分割することができ、変換は、各サブブロックに適用することができる。例えば、1024個のサンプルからなるフレームは、それぞれ128個のサンプルからなる8つのサブブロックに分割することができ、このような各サブブロックは、128個の周波数係数からなるブロックに変換することができる。フレームがサブブロックに分割される例に関する変換は、短変換と呼ばれることがある。フレームがサブブロックに分割されない例の場合には、変換は、長変換と呼ばれることがある。
エンコーダは、各フレーム504に関する複数の周波数領域係数510を各フレーム504に関する複数の帯域512に分割することができる。幾つかの実施例において、フレームあたり22個の帯域512が存在することができるが、別の値が、同様に使用できる。各帯域512は、フレーム504内の周波数510の範囲を表して、全ての周波数範囲を連結したものが、フレーム504内で表される全ての周波数を含むことができるようになる。短変換を使用する例では、結果として生じる周波数係数の各ブロックは、長変換に使用される帯域と1対1で対応できる同じ数の帯域に分割することができる。短変換を使用する例では、ブロック内の所与の帯域の係数の数は、長変換の場合のその所与の帯域の係数の数と比較して比例的により少なくなる。例えば、フレームは、8つのサブブロックに分割でき、短変換ブロックにおける帯域は、長変換における対応する帯域における係数の数の8分の1を有する。長変換における帯域は、32個の係数を有することができ、短変換では、同じ帯域が、8つの周波数ブロックの各々に4つの係数を有することができる。短変換における帯域は、時間領域で8つ、周波数領域で4つの分解能を有する8×4行列に関連することができる。長変換における帯域は、時間領域で1つ、周波数領域で32個の分解能を有する1×32行列に関連することができる。従って、各帯域512は、時間分解能514及び周波数分解能516を表す再形成パラメータ518を含むことができる。幾つかの実施例において、再形成パラメータ518は、時間分解能514及び周波数分解能516のデフォルト値からの変化の値を提供することにより時間分解能514及び周波数分解能516を表すことができる。
一般に、コーデックの目標は、符号化されたファイルの特定のデータ転送速度又はビットレートによって支配される限定量のデータを使用して、特定のフレームの周波数領域表現が、このフレームの時間領域表現を可能な限り正確に表すことを保証することである。例えば、データ転送速度は、1411kbps(キロビット毎秒)、320kbps、256kbps、192kbps、160kbps、128kbps、又はその他の値を含むことができる。一般に、データ転送速度が高いほど、フレームの表現は、より正確になる。
限定されたデータ転送速度のみを使用して精度を高めるという目標を追求することにおいて、コーデックは、各帯域に関する時間分解能と周波数分解能との間でトレードオフすることができる。例えば、コーデックは、特定の帯域の時間分解能を2倍にし、その一方、その帯域の周波数分解能を半分にすることができる。このような演算の実行(例えば、時間分解能の周波数分解能への交換、又はその逆)は、帯域の時間周波数構造の再形成と呼ばれることがある。一般に、初期変換では、全ての帯域の時間分解能は同じであり得るが、再形成後、フレーム内の1つの帯域の時間周波数構造は、このフレーム内の他の帯域の時間周波数構造と無関係であり得るので、各帯域は、他の帯域と無関係に再形成することができる。
幾つかの実施例において、各帯域は、この帯域の時間分解能514と帯域の周波数分解能516との積に等しいサイズを有することができる。幾つかの実施例において、1つの帯域の時間分解能514は、8つのオーディオサンプルに等しく、別の帯域の時間分解能514は、1つのオーディオサンプルに等しいとすることができる。他の好適な時間分解能514が、同様に使用できる。
幾つかの実施例において、エンコーダは、帯域のサイズが変化することなく(例えば、時間分解能514と周波数分解能516との積が変化することなく)、各フレームの各帯域の時間分解能514及び周波数分解能516を補完的に調整することができる。エンコーダは、再形成パラメータを用いてこの調整を定量化することができる。
再形成パラメータは、選択された整数とすることができる。例えば、再形成パラメータが3である場合に、時間分解能は、量23を乗算でき、周波数分解能は、量2-3を乗算することができる。他の好適な整数が使用でき、これらの整数は、正の整数(時間分解能514が増加し、周波数分解能516が減少することを意味する)、負の整数(時間分解能が減少し、周波数分解能が増加することを意味する)、及びゼロ(時間分解能514及び周波数分解能516が変化しない、例えば、量20を乗算することを意味する)を含む。
幾つかの実施例において、許容される再形成パラメータ値の数は、有限数の整数に制限することができる。特定の実施例として、許容される再形成パラメータ値は、0、1、2、及び3を含み、合計4つの整数とすることができる。別の特定の実施例として、許容される再形成パラメータ値は、0、1、2、3、及び4を含み、合計5つの整数とすることができる。別の特定の実施例として、許容される再形成パラメータ値は、0、-1、-2、-3、及び-4を含み、合計5つの整数とすることができる。別の特定の実施例として、許容される再形成パラメータ値は、0、-1、-2、及び-3を含み、合計4つの整数とすることができる。これらの実施例において、これらの指定された整数範囲を記述する用語は、アルファベットサイズである。具体的には、ある範囲の整数に関するアルファベットサイズは、この範囲内の許容値の数である。上記の4つの実施例において、アルファベットサイズは4又は5である。
幾つかの実施例において、単一のフレームは、第1のアルファベットサイズを使用して符号化できる再形成パラメータを有する1又は2以上の帯域を含むことができ、更に、第1のアルファベットサイズと異なる第2のアルファベットサイズを使用して符号化できる再形成パラメータを有する1又は2以上の帯域を含むことができる。このようにして異なるアルファベットサイズを使用することは、より圧縮されたビットストリーム圧縮を可能にすることができる。
エンコーダは、各帯域に関する再形成パラメータを表すデータをビットストリームに符号化することができる。再形成パラメータのビットストリームへの符号化は、デコーダが、逆変換適用前に時間/周波数再形成を逆にすることを可能にすることができる。1つの単純な手法は、再形成シーケンスの各要素がフレーム内の帯域に関する再形成パラメータである状態で各フレームに関する再形成シーケンスを形成することとすることができる。22個の帯域を有するフレームの場合に、この手法は、22個の再形成パラメータで構成された再形成シーケンスを生成することになる。各フレームに関する再形成シーケンスは、各帯域に関する再形成パラメータを記述することができる。幾つかの実施例において、エンコーダは、各再形成シーケンスにおける各エントリをこのエントリに関する可能性のある値の範囲に正規化でき、可能性のある値の各範囲は、帯域に関する再形成パラメータの指定された範囲に対応する。
この単純な手法に対する改良策として、エンコーダは、これら22個の整数を完全に記述するのに必要なデータのサイズを削減することができる。この改良された手法では、エンコーダは、4つのシーケンスの長さ(例えば、4つのシーケンスの各々におけるビット又は整数の数)を計算して、4つのシーケンスのうちの最短シーケンスを選択して、この最短シーケンスを表すデータをビットストリームに埋め込むことができる。最短シーケンスは、最小ビット数を含むシーケンス、すなわち、22個の整数を最も簡潔に記述するシーケンスである。4つのシーケンスについて以下に説明する。
エンコーダは、単進(unary)符号を使用して、各帯域に関する再形成パラメータを表すシーケンスとしてフレームに関する再形成パラメータを記述する、各フレームに関する第1のシーケンスを形成することができる。エンコーダは、準一様符号を使用して、各帯域に関する再形成パラメータを表すシーケンスとしてフレームに関する再形成パラメータを記述する、各フレームに関する第2のシーケンスを形成することができる。エンコーダは、単進符号を使用して、隣接する帯域間の再形成パラメータの差分を表すシーケンスとしてフレームに関する再形成パラメータを記述する、各フレームに関する第3のシーケンスを形成することができる。エンコーダは、準一様符号を使用して、隣接する帯域間の再形成パラメータの差分を表すシーケンスとしてフレームに関する再形成パラメータを記述する、各フレームに関する第4のシーケンスを形成することができる。
エンコーダは、第1のシーケンス、第2のシーケンス、第3のシーケンス、第4のシーケンスのうちの最短シーケンスを選択することができる。エンコーダは、各フレームに対して、選択された最短シーケンスをビットストリームに埋め込むことができる。エンコーダは更に、各フレームに対して、インジケータを表すデータをビットストリームに埋め込むことができ、このインジケータは、4つのシーケンスのうちのどれがビットストリームに含まれるかを示す。
以下の付録は、上述した量の厳密な数学的定義を提示するものである。
図6は、幾つかの実施例による、オーディオ信号を符号化するための方法600の実施例のフローチャートを示している。方法600は、図1又は図2の符号化システム100又は200によって、或いは任意の他の好適な符号化システムによって実行することができる。方法600は、オーディオ信号を符号化するための方法の一例に過ぎず、他の好適な符号化方法が、同様に使用できる。
動作602において、符号化システムは、デジタルオーディオ信号を受け取ることができる。
動作604において、符号化システムは、デジタルオーディオ信号を構文解析して複数のフレームにすることができ、各フレームは、指定された数のオーディオサンプルを含む。
動作606において、符号化システムは、各フレームのオーディオサンプルの変換を行って、各フレームに関する複数の周波数領域係数を生成することができる。
動作608において、符号化システムは、各フレームに関する複数の周波数領域係数を各フレームに関する複数の帯域に分割することができ、各帯域は、時間分解能及び周波数分解能を表す再形成パラメータを有する。
動作610において、符号化システムは、デジタルオーディオ信号を符号化して、再形成パラメータを含むビットストリームにすることができる。第1の帯域に関する再形成パラメータは、第1のアルファベットサイズを使用して符号化することができる。第1の帯域と異なる第2帯域に関する再形成パラメータは、第1のアルファベットサイズと異なる第2のアルファベットサイズを使用して符号化することができる。
動作612において、符号化システムは、ビットストリームを出力することができる。
図7は、幾つかの実施例による、符号化されたオーディオ信号を復号するための方法700の実施例のフローチャートを示している。方法700は、図3又は図4の復号システム300又は400によって、或いは任意の他の好適な符号化システムによって実行することができる。方法700は、符号化されたオーディオ信号を復号するためのほんの一方法であり、他の好適な符号化方法が、同様に使用できる。
動作702において、復号システムは、複数の帯域に各々が分割された複数のフレームを含むビットストリームを受け取ることができる。
動作704において、復号システムは、各フレームの各帯域に対して、ビットストリームから再成形パラメータを抽出することができ、この再成形パラメータは、帯域に関する時間分解能及び周波数分解能を表す。第1の帯域に関する再形成パラメータは、第1のアルファベットサイズを使用して、ビットストリームに埋め込むことができる。第1の帯域と異なる第2の帯域に関する再形成パラメータは、第1のアルファベットサイズと異なる第2のアルファベットサイズを使用して、ビットストリームに埋め込むことができる。
動作706において、復号システムは、再形成パラメータを使用してビットストリームを復号して、復号されたデジタルオーディオ信号を生成することができる。
図12は、幾つかの実施例による符号化システム1200の1つの実施例のブロック図を示している。
受信器回路1202は、デジタルオーディオ信号を受け取ることができる。
フレーマ回路1304は、デジタルオーディオ信号を構文解析して複数のフレームにすることができ、各フレームは、指定された数のオーディオサンプルを含む。
変換器回路1206は、各フレームのオーディオサンプルの変換を行って、各フレームに関する複数の周波数領域係数を生成することができる。
周波数帯域分割器回路1208は、各フレームに関する複数の周波数領域係数を各フレームに関する複数の帯域に分割することができ、各帯域は、時間分解能及び周波数分解能を表す再形成パラメータを有する。
エンコーダ回路120は、デジタルオーディオ信号を符号化して、各帯域の再形成パラメータを含むビットストリームにすることができる。第1の帯域に関する再形成パラメータは、第1のアルファベットサイズを使用して符号化することができる。第1の帯域と異なる第2の帯域に関する再形成パラメータは、第1のアルファベットサイズと異なる第2のアルファベットサイズを使用して符号化することができる。
出力回路1212は、ビットストリームを出力することができる。
本明細書で説明するもの以外の多くの他の変形形態は、本明細書から明らかであろう。例えば、実施形態によっては、本明細書で説明した何らかの方法及びアルゴリズムの特定の動作、事象、又は機能は、異なる順序で実行することができ、追加、統合、又は完全に省略することができる(従って、ここで説明する全ての動作又は事象が、本方法及びアルゴリズムの実施に必要であるとは限らない)。更に、特定の実施形態において、動作又は事象は、連続的にではなく同時に、例えば、マルチスレッド処理、割り込み処理、又はマルチプロセッサ若しくはプロセッサコアによって、或いは他の並列アーキテクチャ上で実行することができる。加えて、様々なタスク又は処理は、一緒に機能することができる異なるマシン及びコンピューティングシステムによって実行することができる。
本明細書に開示する実施形態に関連して説明した様々な例示的論理ブロック、モジュール、方法、及びアルゴリズムの処理及び順序は、電子ハードウェア、コンピュータソフトウェア、又はこれら両方の組み合わせとして実装することができる。ハードウェアとソフトウェアとのこの互換性を明確に説明するために、様々な例示的コンポーネント、ブロック、モジュール、及び処理の動作は、上記では一般的にこれらの機能性に関して説明されている。このような機能性がハードウェアとして実装されるか又はソフトウェアとして実装されるかは、特定の用途、及びシステム全体に課された設計上の制約条件に依存する。説明した機能性は、特定の用途の各々に関して異なる方法で実施できるが、このような実施の決定が、本明細書の範囲からの逸脱を生じさせると解釈すべきでない。
本明細書に開示する実施形態に関連して説明する様々な例示的論理ブロック及びモジュールは、汎用プロセッサ、処理デバイス、1又は2以上の処理デバイスを有するコンピューティングデバイス、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)又は他のプログラム可能な論理デバイス、離散ゲート若しくはトランジスタ論理回路、離散ハードウェアコンポーネント、又は本明細書に記載の機能を実行するように設計されたこれらの任意の組み合わせなどのマシンによって実装又は実行することができる。汎用プロセッサ及び処理デバイスは、マイクロプロセッサとすることができるが、代替形態では、プロセッサは、コントローラ、マイクロコントローラ、ステートマシン、これらの組み合わせ、又は同様のものとすることができる。プロセッサは、DSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアと連動する1又は2以上のマイクロプロセッサ、又は他の任意のこのような構成などの、コンピューティングデバイスの組み合わせとして実装することもできる。
本明細書に記載のシステム及び方法の実施形態は、多くのタイプの汎用又は専用コンピューティングシステム環境又は構成内で動作可能である。一般に、コンピューティング環境は、幾つかの実施例を挙げると、限定されるものではないが、1又は2以上のマイクロプロセッサ、メインフレームコンピュータ、デジタル信号プロセッサ、携帯用コンピューティングデバイス、パーソナルオーガナイザ、デバイスコントローラ、電気製品内部の計算エンジン、携帯電話、デスクトップコンピュータ、モバイルコンピュータ、タブレットコンピュータ、スマートフォン、及び組込型コンピュータを備えた電気製品に基づくコンピュータシステムを含む任意のタイプのコンピュータシステムを含むことができる。
このようなコンピューティングデバイスは、通常、限定されるものではないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドコンピューティングデバイス、ラップトップ又はモバイルコンピュータ、携帯電話及びPDAなどの通信デバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、オーディオ又はビデオメディアプレーヤなどを含む、少なくとも何らかの最低限の計算能力を有するデバイスに見つけることができる。幾つかの実施形態において、コンピューティングデバイスは、1又は2以上のプロセッサを含むことになる。各プロセッサは、デジタル信号プロセッサ(DSP)、超長命令語(VLIW)、又は他のマイクロコントローラなどの特殊なマイクロプロセッサとすること、或いは、マルチコアCPU内の特殊なグラフィックス処理ユニット(GPU)ベースのコアを含む、1又は2以上の処理コアを有する従来型中央処理ユニット(CPU)とすることができる。
本明細書に開示する実施形態に関連して説明した方法、処理、又はアルゴリズムの処理動作は、ハードウェアで直接、プロセッサによって実行されるソフトウェアモジュールで、又はこれら2つの何れかの組み合わせで具現化することができる。ソフトウェアは、コンピューティングデバイスがアクセスできるコンピュータ可読媒体に含めることができる。コンピュータ可読媒体は、取り外し可能、取り外し不可能の何れかである揮発性媒体及び不揮発性媒体の両方、又はこれらの何れかの組み合わせを含む。コンピュータ可読媒体は、コンピュータ可読命令又はコンピュータ実行可能命令、データ構造、プログラムモジュール、又は他のデータなどの情報を格納するのに使用される。コンピュータ可読媒体は、限定されるものではなく例として、コンピュータ記憶媒体及び通信媒体を含むことができる。
コンピュータストレージ媒体は、限定されるものではないが、Bluray(登録商標)ディスク(BD)、デジタル多用途ディスク(DVD)、コンパクトディスク(CD)、フロッピーディスク、テープドライブ、ハードドライブ、光学ドライブ、ソリッドステートメモリデバイス、RAMメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、フラッシュメモリ、又は他のメモリ技術、磁気カセット、磁気テープ、磁気ディスクストレージ、又は他の磁気ストレージデバイス、或いは所望の情報を格納するのに使用可能で1又は2以上のコンピューティングデバイスによってアクセス可能な何らかの他のデバイスなどの、コンピュータ可読媒体又はマシン可読媒体又はストレージデバイスを含む。
ソフトウェアは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、取り外し可能ディスク、CDROM、或いは当該技術で公知の非一時的コンピュータ可読ストレージ媒体、メディア、又は物理コンピュータストレージの何らかの他の形態に存在することができる。例示的なストレージ媒体は、プロセッサがストレージ媒体から情報を読み出してそれに情報を書き込むことができるように、プロセッサに結合することができる。代替例では、ストレージ媒体は、プロセッサと一体化することができる。プロセッサ及びストレージ媒体は、特定用途向け集積回路(ASIC)に存在することができる。ASICは、ユーザ端末内に存在することができる。代替的に、プロセッサ及びストレージ媒体は、ユーザ端末内の個別コンポーネントとして存在することができる。
本明細書で使用される「非一時的」という語句は、「永続的又は長寿命」を意味する。「非一時的コンピュータ可読媒体」という語句は、任意の及び全てのコンピュータ可読媒体を含み、唯一の実施例外は、一時的な伝搬信号である。この語句は、限定されるものではなく例として、レジスタメモリ、プロセッサキャッシュ、及びランダムアクセスメモリ(RAM)などの非一時的コンピュータ可読媒体を含む。
「オーディオ信号」という語句は、物理的な音を表す信号である。
また、コンピュータ可読命令又はコンピュータ実行可能命令、データ構造、プログラムモジュールなどのような情報の保持は、1又は2以上の変調データ信号、電磁波(搬送波など)、又は他の伝送機構若しくは通信プロトコルを符号化するための様々な通信媒体を使用して実現することもでき、何らかの有線又は無線情報配信機構を含む。一般に、これらの通信媒体は、情報又は命令を信号内に符号化するような方法で設定又は変更される信号特性のうちの1又は2以上を有する信号を参照する。例えば、通信媒体は、1又は2以上の変調データ信号を搬送する有線ネットワーク又は直接有線接続などの有線媒体と、音響、無線周波数(RF)、赤外線、レーザなどの無線媒体と、1又は2以上の変調データ信号又は電磁波を送信、受信、又は送受信するための他の無線媒体とを含む。上記の何れかの組み合わせは、同様に、通信媒体の範囲内に含まれるはずである。
更に、本明細書に記載の符号化及び復号システム及び方法の様々な実施形態の一部又は全部を具現化するソフトウェア、プログラム、コンピュータプログラム製品のうちの1つ又は何れかの組み合わせ、或いはこれの一部分は、コンピュータ実行可能命令又は他のデータ構造の形式で、コンピュータ可読媒体又はマシン可読媒体又はストレージデバイス及び通信媒体の任意の所望の組み合わせに格納、受信、送信、又はこれらから読み出すことができる。
本明細書に記載のシステム及び方法の実施形態は更に、コンピューティングデバイスによって実行されるプログラムモジュールなどのコンピュータ実行可能命令という一般的状況で説明することができる。一般に、プログラムモジュールは、特定のタスクを実行するか又は特定の抽象データタイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。また、本明細書に記載の実施形態は、1又は2以上のリモート処理デバイスによって、又は1又は2以上のデバイスからなるクラウド内でタスクが実行される分散コンピューティング環境で実施することもでき、これらのデバイスは、1又は2以上の通信ネットワークを介してリンクされている。分散コンピューティング環境では、プログラムモジュールは、メディアストレージデバイスを含む、ローカル及びリモート両方のコンピュータストレージ媒体内に配置することができる。更に、上述した命令は、プロセッサを含むことがあるか又はプロセッサを含まないこともあるハードウェア論理回路として部分的に又は全体的に実装することができる。
本明細書で使用される条件語、とりわけ、「できる(can)」、「してよい(might)」、「できる(may)」、「例えば(e.g.)」、及び同様のものは、別途明確に言及されていない限り、又は使用される文脈内でそれ以外の意味で理解されない限り、一般に、特定の実施形態が、特定の特徴、要素、及び/又は状態を含むが、他の実施形態は、これらを含まないことを伝えることを意図している。従って、このような条件語は、一般に、特徴、要素、及び/又は状態が、1又は2以上の実施形態に必ず必要であることを示唆するものでなく、作成者の入力又は指示があってもなくても、何れかの特定の実施形態において、これらの特徴、要素、及び/又は状態が含まれるか又は実行されるか否かを決定するためのロジックを、1又は2以上の実施形態が必ず含むことを示唆するものでもない。「備える(comprising)」、「含む(including)」、「有する(having)」という用語、及び同様のものは、同義であり、包括的にオープンエンド方式で使用され、追加の要素、特徴、動作、操作などを除外するものではない。また、「又は」という用語は、その包括的な意味で(その排他的意味ではなく)使用され、従って、例えば、要素のリストを結び付けるのに使用される際に、「又は」という用語は、リスト内の要素の1つ、一部、又は全てを意味する。
上記の詳細な説明は、様々な実施形態に適用される新規性のある特徴を示し、説明し、指摘しているが、本開示の趣旨から逸脱することなく、様々な省略、置換、及び変更が、例証されたデバイス又はアルゴリズムの形態及び詳細において実施できることが理解されるであろう。認識されるように、一部の特徴は、他の特徴から切り離して使用又は実施することができるので、本明細書で説明する本発明の特定の実施形態は、本明細書に示した特徴及び利点の全てを提供するとは限らない形態の範囲内で具現化することができる。
更に、本主題は、構造的特徴及び方法論的動作に特有の用語で説明されているが、添付の請求項で規定される主題は、上述した特定の特徴又は動作に必ずしも限定されるものではないことを理解されたい。そうではなく、上述した特定の特徴及び動作は、請求項を実施する例示的な形態として開示される。
(付録)
本明細書で説明する時間周波数変更シーケンスコーデック及び方法の実施形態は、時間周波数再形成シーケンスを記述するシーケンスを効率的に符号化及び復号するための技法を含む。本コーデック及び方法の実施形態は、異種アルファベット上のシーケンスの効率的な符号化及び復号に対処する。
幾つかのコーデックは、既存のコーデックで通常使用されるシーケンスよりもはるかに複雑なシーケンスを生成する。この複雑性は、これらのシーケンスが、可能性のある時間周波数再形成変換のより豊富なセットを記述するという事実に起因する。幾つかの実施形態では、この複雑性の原因は、シーケンスの要素が、異なるサイズ又は範囲(座標に応じた)のものである4つの異なるアルファベットから、かつオーディオフレームが処理される状況に基づいて得られる可能性があることである。これらのシーケンスの単純な符号化は、コストのかかるものであり、より豊富なセットの利点を無効にする。
本コーデック及び方法の実施形態は、様々なアルファベット変換により異種アルファベットの一様処理を可能にして、符号化パラメータを最適にして、可能性のある最短記述が得られる非常に効率的な方法を説明する。本コーデック及び方法の実施形態の幾つかの特徴は、異種アルファベットの一様処理と、複数の符号化様式の定義と、符号化の長さを最小にする様式の選択とを含む。これらの特徴は、より豊富な時間周波数変換セットの使用を可能にすることを含む、本コーデック及び方法の実施形態の利点のうちの幾つかを提供するものの一部である。
セクション1:シーケンスの定義
修正離散コサイン変換(MDCT)変換エンジンは、現在、2つのモード、すなわち、長変換(デフォルトでほとんどのフレームで使用される)及び短変換(一時的なものを含むとみなされるフレームで使用される)で動作する。所与の帯域におけるMDCT係数の数が量Nである場合に、長変換モードでは、これらの係数は、N個の周波数スロット(1×N)を含む1つの時間スロットとして構成される。短変換モードでは、係数は、各スロットがN/8個の周波数スロットを含む8つの時間スロット(8×N/8)として構成される。
時間周波数変更シーケンス又はベクトルは、フレームに有効な有効帯域の数までの、帯域ごとに1つの整数シーケンスである。各整数は、変換によって規定された元の時間/周波数構造が、対応する帯域に対してどのように変更されるかを示す。帯域に関する元の構造が、T×F(T個の時間スロット、F個の周波数スロット)であり、変更値がcである場合には、適切なローカル変換の適用により、この構造は、2cT×2-cFに変更される。cの許容値の範囲は、元のモードが長変換であるか又は短変換であるか、及び帯域のサイズに依存する整数制約条件によって、並びにサポートされる時間周波数構成の数に対する制限によって決定される。
帯域は、そのサイズが16MDCTビンより小さい場合に、狭帯域と呼ばれる。それ以外の場合には、帯域は、広帯域と呼ばれる。全ての帯域サイズは、8の倍数とすることができ、現在の実装形態では、48kHzのサンプリングレートにおいて、0から7で番号付けされた帯域は、狭帯域であり、8から21で番号付けされた帯域は、広帯域とすることができ、44kHzのサンプリングレートでは、0から5で番号付けされた帯域は、狭帯域であり、6から21で番号付けされた帯域は、広帯域とすることができる。
次の段落は、長変換対短変換と狭帯域対広帯域との全ての組み合わせに対して可能性のある変更値cのセットを示している。
狭帯域かつ長変換の場合、{0、1、2、3}である。
広帯域かつ長変換の場合、{0、1、2、3、4}である。
狭帯域かつ短変換の場合、{-3、-2、-1、0}である。
広帯域かつ短変換の場合、{-3、-2、-1、0、1}である。
セクション2:シーケンス符号化
セクション2.1:基本要素
符号化処理への入力は、シーケンス又はベクトルc=[c0、c1、...、cM-1]であり、ここで、量Mは、有効帯域の数であり、値ciは、上記の段落からの適切な範囲にある。
シーケンスcから、第1の差分シーケンス又はベクトルd=[d0、d1、...、dM-1]を導出でき、ここで、d0=c0であり、di=ci-ci-l、0<i<Mである。符号化のパラメータdが規定され、このパラメータは、どのシーケンスがビットストリームに符号化されるか、すなわち、パラメータdが0である場合に、シーケンスc、パラメータdがlである場合に、シーケンスdを信号で伝えるものである。パラメータdがどのようにして決定されるかについての説明は、以下に従う。
シーケンス又はベクトルs=[s0、s1、...、sM-1]が与えられた場合に、シーケンスc又はシーケンスdのどちらであり得るかを符号化するために、以下が規定される。
Figure 0007389651000001
量head(s)は、最初の座標から最後の非ゼロ座標まで延びるシーケンスsのサブシーケンスの長さである。このサブシーケンスは、sのヘッドと呼ばれる。シーケンスsが全てゼロのシーケンスである場合でその場合にのみ、head(s)=0であることに留意されたい。
量head(s)は、以下のように符号化される。量head(s)がゼロに等しい場合に、エンコーダは、ゼロビットを書き込んで停止する。この場合、ゼロビットは、全てゼロである再形成ベクトル全体を表すので、更なる符号化は必要ない。量head(s)がゼロより大きい場合には、エンコーダは、サイズMのアルファベット上の準一様符号を使用して量head(s)-1を符号化する。
サイズαのアルファベット上の準一様符号は、以下のようにL1=[log2 α]ビット又はL2=[log2 α]ビットの何れかを使用して{0、1、...、α-1}における整数を符号化する。
Figure 0007389651000002
0<=x<n1であるシンボルxは、L1ビットにおけるこれらのバイナリ表現で符号化される。
1<=x<n1+n2であるシンボルx、は、L2ビットにおけるx+n1のバイナリ表現で符号化される。
sのヘッドでのシンボルは、シンボルごとに符号化される。符号化の前に、各シンボルは、パラメータd、長変換対短変換、及び狭帯域対広帯域の選択に依存するマッピングを使用してマッピングされる。このマッピングは、図8に示されている擬似コード関数MapTFSymbolで規定される。入力シンボルシーケンスs、変数d、ブール量is_long及びis_narrowが、パラメータとして与えられていると仮定する。
図8は、全ての場合において、範囲[0、α)内の非負整数(すなわち、{0、1、...、α-1})をもたらすマッピングを示しており、ここで、量αは、狭帯域の場合に4であり、広帯域の場合に5である。マッピングされたシンボルに対する2つのコード選択肢が存在し、これらのシンボルは、バイナリフラグkを用いてパラメータ化される。
k=0:サイズαのアルファベット上の単進符号である。この単進符号は、{0、1、...、α-2}における整数iを、i個の「0」に続く、符号化の終了を示す「1」からなるシーケンスで符号化する。整数α-1は、終端の「1」を伴わずにα-1個の「0」からなるシーケンスで符号化される。
k=l:サイズαのアルファベット上の準一様符号である。
バイナリフラグkがどのようにして決定されるかについて以下で説明する。
セクション2.2:符号化
パラメータd及びkは既知であると仮定する。ペア(d、k)は、図9に示されているように得られる1つのシンボルとして符号化される。結果として生じるシンボルは、Golombコードを用いて符号化され、置換配列map_dk_pairは、(d=1、k=0)が最も可能性が高く最短の符号語を受け取る状態で、ペア(d、k)の出現確率の降順でインデックスを割り当てる。
符号化手順は、図10の擬似コードに要約されている。変数seqは、入力シーケンスcを表す。帯域の数は、グローバル変数num_bandsで利用可能である。
セクション2.3:パラメータ最適化
パラメータd及びkを決定するために、エンコーダは、バイナリ値の4つの組み合わせの全てを試行し、最短符号長を与える1つを選択する。このことは、実際の符号化を必要としない符号長関数を使用して行われる。
セクション3:シーケンス復号
デコーダは、エンコーダのステップを単に逆にしたものであり、例外は、デコーダがビットストリームからパラメータd及びkを読み取り、これらのパラメータを最適にする必要がない点である。復号手順は、図11の擬似コードに要約されており、この図において、量num_bandsは、既知の帯域数である。
100 符号化システム
102 デジタルオーディオ信号
104 ビットストリーム
106 プロセッサ
108 メモリデバイス
110 命令

Claims (20)

  1. プロセッサと、
    前記プロセッサによって実行可能な命令を格納するメモリデバイスであって、前記命令が、オーディオ信号を符号化するための方法を実行するように前記プロセッサによって実行可能である、メモリデバイスと、
    を備える符号化システムにおいて、
    前記方法は、
    デジタルオーディオ信号を受け取るステップと、
    前記デジタルオーディオ信号を構文解析して、指定された数のオーディオサンプルを各々が含む複数のフレームにするステップと、
    前記各フレームの前記オーディオサンプルの変換を行って、前記各フレームに関する複数の周波数領域係数を生成するステップと、
    各フレームに関する複数の周波数領域係数を前記各フレームに関する複数の帯域に分割するステップであって、各帯域が前記変換の後の時間分解能及び周波数分解能のデフォルト値を有し、各帯域が調整された時間分解能及び調整された周波数分解能を表す再形成パラメータを有し、前記再形成パラメータが時間分解能及び周波数分解能の前記調整された値に対する時間分解能及び周波数分解能の前記調整された値への時間分解能及び周波数分解能の前記デフォルト値からの変化を示す値である、ステップと、
    前記構文解析され、変換され、分割されたデジタルオーディオ信号を符号化して、前記各帯域の再形成パラメータを含むビットストリームにするステップであって、第1の帯域に関する前記再形成パラメータは、第1のアルファベットサイズを使用して符号化され、前記第1の帯域と異なる第2の帯域に関する前記再形成パラメータは、前記第1のアルファベットサイズと異なる第2のアルファベットサイズを使用して符号化される、ステップと、
    前記ビットストリームを出力するステップと、
    を含む、
    ことを特徴とする符号化システム。
  2. 前記方法は更に、
    前記各フレームの各帯域の時間分解能及び周波数分解能を調整するステップを含み、第1の前記時間分解能及び第1の前記周波数分解能は、複数の指定された範囲の整数のうちの1つから選択された整数である値を有する前記再形成パラメータによって記述された大きさによって補完的に調整され、
    前記第1のアルファベットサイズは、前記複数の指定された範囲の整数のうちの第1の指定された範囲の整数における整数の数に等しく、
    前記第2のアルファベットサイズは、前記複数の指定された範囲の整数のうちの第2の指定された範囲の整数における整数の数に等しい、請求項1に記載の符号化システム。
  3. 前記第1のアルファベットサイズが4であり、前記第2のアルファベットサイズが5である、請求項2に記載の符号化システム。
  4. 前記調整の前、前記第1の帯域の前記時間分解能は、8つのオーディオサンプルに等しく、前記第2の帯域の前記時間分解能は、1つのオーディオサンプルに等しい、請求項2に記載の符号化システム。
  5. 各帯域は、前記帯域の前記時間分解能と前記帯域の前記周波数分解能との積に等しいサイズを有し、
    前記帯域の前記時間分解能及び前記帯域の前記周波数分解能は、前記帯域のサイズが変化することなく補完的に調整される、請求項2に記載の符号化システム。
  6. 前記時間分解能は2cの倍数だけ調整され、前記周波数分解能は2-cの倍数だけ変化し、量cは前記再形成パラメータである、請求項5に記載の符号化システム。
  7. 前記方法は更に、
    各帯域に関する前記再形成パラメータを記述する、各フレームに関する再形成シーケンスを形成するステップと、
    各再形成シーケンス内の各エントリを、前記エントリの可能性のある値の範囲に正規化するステップと、
    を含み、前記可能性のある値の各範囲は、前記帯域に関する前記指定された範囲の整数に対応する、請求項2から6の何れかに記載の符号化システム。
  8. 前記方法は更に、
    単進符号を使用して、各帯域に関する前記再形成パラメータを表すシーケンスとして前記フレームに関する前記再形成パラメータを記述する、各フレームに関する第1のシーケンスを形成するステップと、
    準一様符号を使用して、各帯域に関する前記再形成パラメータを表すシーケンスとして前記フレームに関する前記再形成パラメータを記述する、各フレームに関する第2のシーケンスを形成するステップと、
    単進符号を使用して、隣接する帯域間の前記再形成パラメータの差分を表すシーケンスとして前記フレームに関する前記再形成パラメータを記述する、各フレームに関する第3のシーケンスを形成するステップと、
    準一様符号を使用して、隣接する帯域間の前記再形成パラメータの差分を表すシーケンスとして前記フレームに関する前記再形成パラメータを記述する、各フレームに関する第4のシーケンスを形成するステップと、
    前記第1のシーケンス、前記第2のシーケンス、前記第3のシーケンス、及び前記第4のシーケンスのうちの最小数の要素を含むシーケンスである最短シーケンスを選択するステップと、
    各フレームに対して、前記選択された最短シーケンスを前記ビットストリームに埋め込むステップと、
    各フレームに対して、前記4つのシーケンスのうちのどれが前記ビットストリームに含まれるかを示すインジケータを表すデータを前記ビットストリームに埋め込むステップと、
    を含む、請求項1に記載の符号化システム。
  9. 前記変換は修正離散コサイン変換である、請求項1に記載の符号化システム。
  10. 前記各フレームは、正確に1024個のサンプルを含む、請求項1に記載の符号化システム。
  11. 前記それぞれの複数の周波数領域係数における周波数領域係数の数は、前記各フレーム内のオーディオサンプルの前記指定された数に等しい、請求項1に記載の符号化システム。
  12. 前記各フレームに関する前記複数の周波数領域係数は、正確に1024個の周波数領域係数を含む、請求項1に記載の符号化システム。
  13. 前記各フレームに関する前記複数の帯域は、正確に22個の帯域を含む、請求項1に記載の符号化システム。
  14. 前記符号化システムは、コーデックに含まれる、請求項1に記載の符号化システム。
  15. プロセッサと、
    前記プロセッサによって実行可能な命令を格納するメモリデバイスであって、前記命令が、符号化されたオーディオ信号を復号するための方法を実行するように前記プロセッサによって実行可能である、メモリデバイスと、
    を備える復号システムであって、
    前記方法は、
    複数の帯域に各々が分割された複数のフレームを含むビットストリームを受け取るステップと、
    前記各フレームの各帯域に対して、前記帯域に関する調整された時間分解能及び調整された周波数分解能を表す再形成パラメータを前記ビットストリームから抽出するステップであって、前記再形成パラメータが時間分解能及び周波数分解能の前記調整された値への時間分解能及び周波数分解能のデフォルト値からの変化を示す値であり、第1の帯域に関する前記再形成パラメータは、第1のアルファベットサイズを使用して前記ビットストリームに埋め込まれ、前記第1の帯域と異なる第2の帯域に関する前記再形成パラメータは、前記第1のアルファベットサイズと異なる第2のアルファベットサイズを使用して前記ビットストリームに埋め込まれる、ステップと、
    前記再形成パラメータを使用して前記ビットストリームを復号して、復号されたデジタルオーディオ信号を生成するステップと、
    を含み、
    前記復号することは、各フレームの各帯域の前記調整された時間分解能及び前記調整された周波数分解能を調整すること及びその後に逆変換を適用することを含み、前記調整された時間分解能及び前記調整された周波数分解能が、第1の時間分解能及び第1の周波数分解能の一方を増加させ、かつ、他方を減少させるか、又は、両方を変化させないように前記再形成パラメータを用いて調整される、ことを特徴とする復号システム。
  16. 前記方法は更に、
    前記各フレームの各帯域に対して、
    前記ビットストリーム内の前記再形成パラメータが単進符号として表されているか又は準一様符号として表されているか、及び
    前記ビットストリーム内の前記再形成パラメータが、前記各帯域に関する前記再形成パラメータを表すシーケンスとして表されているか、又は隣接する前記帯域間の前記再形成パラメータの差分を表すシーケンスとして表されているか、
    を示すデータを抽出するステップを含む、請求項15に記載の復号システム。
  17. 前記復号システムは、コーデックに含まれる、請求項15又は16に記載の復号システム。
  18. 符号化システムであって、
    デジタルオーディオ信号を受け取るための受信器回路と、
    前記デジタルオーディオ信号を構文解析して、指定された数のオーディオサンプルを各々が含む複数のフレームにするためのフレーマ回路と、
    前記各フレームの前記オーディオサンプルの変換を行って、前記各フレームに関する複数の周波数領域係数を生成するための変換器回路と、
    前記各フレームに関する前記複数の周波数領域係数を前記各フレームに関する複数の帯域に分割するための周波数帯域分割器回路であって、前記各帯域が調整された時間分解能及び調整された周波数分解能を表す再形成パラメータを有し、前記再形成パラメータが時間分解能及び周波数分解能の前記調整された値に対する時間分解能及び周波数分解能の前記調整された値への時間分解能及び周波数分解能のデフォルト値からの変化を示す値である、周波数帯域分割器回路と、
    前記構文解析され、変換され、分割されたデジタルオーディオ信号を符号化して、各帯域の再形成パラメータを含むビットストリームにするためのエンコーダ回路であって、第1の帯域に関する前記再形成パラメータは、第1のアルファベットサイズを使用して符号化され、前記第1の帯域と異なる第2の帯域に関する前記再形成パラメータは、前記第1のアルファベットサイズと異なる第2のアルファベットサイズを使用して符号化される、エンコーダ回路と、
    前記ビットストリームを出力するための出力回路と、
    を備える、ことを特徴とする符号化システム。
  19. 前記各フレームの各帯域の時間分解能及び周波数分解能を調整するための分解能調整回路を更に備え、第1の前記時間分解能及び第1の前記周波数分解能は、複数の指定された範囲の整数のうちの1つから選択された整数である値を有する前記再形成パラメータによって記述された大きさによって補完的に調整され、
    前記第1のアルファベットサイズは、前記複数の指定された範囲の整数のうちの第1の指定された範囲の整数における整数の数に等しく、
    前記第2のアルファベットサイズは、前記複数の指定された範囲の整数のうちの第2の指定された範囲の整数における整数の数に等しい、請求項18に記載の符号化システム。
  20. 前記時間分解能は2cの倍数だけ調整され、前記周波数分解能は2-cの倍数だけ変化し、量cは前記再形成パラメータである、請求項19に記載の符号化システム。
JP2019558590A 2017-04-25 2018-04-24 デジタルオーディオ信号における可変アルファベットサイズ Active JP7389651B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762489867P 2017-04-25 2017-04-25
US62/489,867 2017-04-25
US15/926,089 2018-03-20
US15/926,089 US10699723B2 (en) 2017-04-25 2018-03-20 Encoding and decoding of digital audio signals using variable alphabet size
PCT/US2018/028987 WO2018200426A1 (en) 2017-04-25 2018-04-24 Variable alphabet size in digital audio signals

Publications (2)

Publication Number Publication Date
JP2020518031A JP2020518031A (ja) 2020-06-18
JP7389651B2 true JP7389651B2 (ja) 2023-11-30

Family

ID=63852424

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019558590A Active JP7389651B2 (ja) 2017-04-25 2018-04-24 デジタルオーディオ信号における可変アルファベットサイズ

Country Status (6)

Country Link
US (1) US10699723B2 (ja)
EP (1) EP3616199A4 (ja)
JP (1) JP7389651B2 (ja)
KR (1) KR102613282B1 (ja)
CN (1) CN110800049B (ja)
WO (1) WO2018200426A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10699723B2 (en) 2017-04-25 2020-06-30 Dts, Inc. Encoding and decoding of digital audio signals using variable alphabet size
CN113518227B (zh) * 2020-04-09 2023-02-10 于江鸿 数据处理的方法和***
US11496289B2 (en) 2020-08-05 2022-11-08 Microsoft Technology Licensing, Llc Cryptography using varying sized symbol sets
CN112954356A (zh) * 2021-01-27 2021-06-11 西安万像电子科技有限公司 图像传输处理方法和装置、存储介质、电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070016412A1 (en) 2005-07-15 2007-01-18 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US20120069898A1 (en) 2010-09-17 2012-03-22 Jean-Marc Valin Methods and systems for adaptive time-frequency resolution in digital data coding
WO2014128275A1 (en) 2013-02-21 2014-08-28 Dolby International Ab Methods for parametric multi-channel encoding

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
KR20030040203A (ko) * 2001-05-11 2003-05-22 마쯔시다덴기산교 가부시키가이샤 부호화 장치, 복호화 장치 및 방송 시스템
CN101246689B (zh) * 2004-09-17 2011-09-14 广州广晟数码技术有限公司 音频编码***
ES2658942T3 (es) * 2007-08-27 2018-03-13 Telefonaktiebolaget Lm Ericsson (Publ) Análisis espectral/síntesis de baja complejidad utilizando resolución temporal seleccionable
US8515767B2 (en) 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
US20090180531A1 (en) * 2008-01-07 2009-07-16 Radlive Ltd. codec with plc capabilities
US8290782B2 (en) * 2008-07-24 2012-10-16 Dts, Inc. Compression of audio scale-factors by two-dimensional transformation
MY159444A (en) * 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
US9009036B2 (en) 2011-03-07 2015-04-14 Xiph.org Foundation Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding
US10699723B2 (en) 2017-04-25 2020-06-30 Dts, Inc. Encoding and decoding of digital audio signals using variable alphabet size

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070016412A1 (en) 2005-07-15 2007-01-18 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US20120069898A1 (en) 2010-09-17 2012-03-22 Jean-Marc Valin Methods and systems for adaptive time-frequency resolution in digital data coding
WO2014128275A1 (en) 2013-02-21 2014-08-28 Dolby International Ab Methods for parametric multi-channel encoding

Also Published As

Publication number Publication date
JP2020518031A (ja) 2020-06-18
CN110800049B (zh) 2023-09-19
CN110800049A (zh) 2020-02-14
EP3616199A1 (en) 2020-03-04
EP3616199A4 (en) 2021-01-06
US10699723B2 (en) 2020-06-30
US20180308497A1 (en) 2018-10-25
KR102613282B1 (ko) 2023-12-12
WO2018200426A1 (en) 2018-11-01
KR20200012862A (ko) 2020-02-05

Similar Documents

Publication Publication Date Title
JP7389651B2 (ja) デジタルオーディオ信号における可変アルファベットサイズ
JP5606433B2 (ja) オーディオエンコーダ及びオーディオデコーダ
TWI587640B (zh) 用於音訊/視訊樣本向量之錐型向量量化檢索/解檢索之方法及裝置
JP5162589B2 (ja) 音声復号化
JP7123910B2 (ja) インデックスコーディング及びビットスケジューリングを備えた量子化器
BR122021008581B1 (pt) Codificador de áudio, decodificador de áudio, método de codificação e informação de áudio, e método de decodificação de uma informação de áudio que utiliza uma tabela hash que descreve tanto valores de estado significativos como limites de intervalo
US20160086613A1 (en) Signal Decoding Method and Device
KR102615901B1 (ko) 디지털 오디오 신호에서의 차분 데이터
JP2019135551A (ja) オーディオ信号の時間包絡線を処理するための方法および装置、ならびにエンコーダ
US9100042B2 (en) High throughput decoding of variable length data symbols
CN109983535B (zh) 具有子带能量平滑的基于变换的音频编解码器和方法
US9425820B2 (en) Vector quantization with non-uniform distributions
US9413388B1 (en) Modified huffman decoding
US8487789B2 (en) Method and apparatus for lossless encoding and decoding based on context

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220328

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220628

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221011

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230111

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231019

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231117

R150 Certificate of patent or registration of utility model

Ref document number: 7389651

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150