JP3183637U - ラウドネス処理の状態を示すメタデータによるオーディオエンコーダ及びデコーダ - Google Patents

ラウドネス処理の状態を示すメタデータによるオーディオエンコーダ及びデコーダ Download PDF

Info

Publication number
JP3183637U
JP3183637U JP2013001321U JP2013001321U JP3183637U JP 3183637 U JP3183637 U JP 3183637U JP 2013001321 U JP2013001321 U JP 2013001321U JP 2013001321 U JP2013001321 U JP 2013001321U JP 3183637 U JP3183637 U JP 3183637U
Authority
JP
Japan
Prior art keywords
loudness
metadata
lpsm
audio
bitstream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2013001321U
Other languages
English (en)
Inventor
リードミラー ジェフリー
ワード ミシェル
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Application granted granted Critical
Publication of JP3183637U publication Critical patent/JP3183637U/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/005Tone control or bandwidth control in amplifiers of digital signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/025Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

【課題】ラウドネス処理の状態を示すメタデータによるオーディオエンコーダ及びデコーダを提供する。
【解決手段】ビットストリームのあるフレームの少なくとも1つのセグメントにラウドネス処理の状態を示すメタデータ(LPSM)を含め、フレームの少なくとも1つの他のセグメントにオーディオデータを含めることで、符号化されたオーディオビットストリームを生成し、LPSMを抽出し、典型的に、オーディオデータの適応的なラウドネス処理、又はLPSMを使用したLPSM及び/又はオーディオデータの認証及び/又は検証のうちの少なくとも1つを実行することで、係るビットストリームを復号化する。別の態様は、本方法の実施の形態を実行するために構成される音声処理ユニットであるか、又は本方法の実施の形態に従って生成されたオーディオビットストリームの少なくとも1つのフレームを記憶するバッファメモリを有する音声処理ユニットである。
【選択図】図2

Description

本考案は、音声信号処理に関し、より詳細には、オーディオコンテンツのラウドネス処理の状態を示すメタデータをもつオーディオデータビットストリームの符号化及び復号化に関する。
本考案の幾つかの実施の形態は、Dolby Digital(AC-3),Dolby Digital Plus (Enhanced AC-3又はE-AC-3)として知られるフォーマットのうちの1つでオーディオデータを生成又は復号化する。
本出願は、Michael Ward及びJefferey Riedmiller等による“Audio Encoder and Decoder with Loudness Processing State Metadata”と題された2013年1月21日に提出された米国特許仮出願第61/754,882号の優先権を主張するものである。
Dolby, Dolby Digital, Dolby Digital Plus及びDolby Eは、Dolby Laboratories Licensing Corporationの登録商標である。Dolby Laboratoriesは、Dolby Digital及びDolby Digital Plusとしてそれぞれ知られているAC-3及びE-AC-3の特許権により実施を提供する。
オーディオデータ処理ユニットは、ブラインド方式で一般に動作し、データ受信された前に生じたオーディオデータの処理履歴に注意を払わない。これは、単一のエンティティが様々なターゲットメディアレンダリング装置のための全てのオーディオデータ処理及び符号化を行う一方、ターゲットメディアレンダリング装置が、符号化されたオーディオデータの復号化及びレンダリングを行う処理のフレームワークで機能する。しかし、このブラインド処理は、複数の音声処理ユニットが様々なネットワークにわたり点在し、それらそれぞれのタイプの音声処理を最適に行うことが期待される状況において上手く(又は全く)機能しない。例えば、幾つかのオーディオデータは、高性能メディアシステム向けに符号化され、メディア処理チェインに沿ってモバイル装置に適した低減された形式に変換されなければならない場合がある。従って、音声処理ユニットは、既に行われているオーディオデータへのあるタイプの処理を必ずしも行わない場合がある。例えば、ボリュームレべリングユニットは、同じ又は類似のボリュームレべリングが入力オーディオチップに予め行われているか否かに係わらず、入力オーディオチップに処理を行う場合がある。結果として、ボリュームレべリングユニットは、必要でないときでさえ、レべリングを実行する場合がある。また、この不要な処理は、オーディオデータのコンテンツをレンダリングしている間、特定の特徴の低下及び/又は除去を引き起こす場合がある。
典型的なオーディオデータのストリームは、オーディオコンテンツ(例えば1以上のオーディオコンテンツのチャネル)と、オーディオコンテンツの少なくとも1つの特性を示すメタデータとの両者を含む。例えばAC-3ビットストリームでは、傾聴環境に伝達されるプログラムの音声を変更するために使用されることが特に意図される幾つかのオーディオメタデータが存在する。メタデータパラメータの1つは、ダイアローグ正規化(DIALNORM)パラメータであり、このパラメータは、オーディオプログラムを生じる会話の平均レベルを示すことが意図され、音声の再生信号のレベルを決定するために使用される。
(それぞれが異なるDIALNORMパラメータを有する)異なるオーディオプログラムのセグメントの系列を含むビットストリームの再生の間、AC-3デコーダは、それぞれのセグメントのDIALNORMパラメータを使用して、セグメントの系列の会話の知覚されるラウドネスが一貫性のあるレベルにあるように、再生レベル又はラウドネスを変更する、あるタイプのラウドネス処理を実行する。符号化されたオーディオアイテムの系列におけるそれぞれの符号化されたオーディオセグメント(アイテム)は、(一般に)異なるDIALNORMパラメータを有し、デコーダは、それぞれのアイテムの会話の再生レベルまたはラウドネスが同じ又は類似であるように、アイテムのそれぞれのレベルをスケーリングするが、これは、再生の間に、アイテムのうちの異なるアイテムに異なる量のゲインを適用することを必要とする。
DIALNORMは、一般的にユーザにより設定され、自動的に生成されないが、ユーザにより値が設定されない場合には、デフォルトのDIALNORMの値が存在する。例えばコンテンツクリエータは、AC-3エンコーダの外部にある装置によりラウドネス測定を行い、次いで、DIALNORM値を設定するため、(オーディオプログラムの会話のラウドネスを示す)結果をエンコーダに転送する。従って、DIALNORMパラメータを正しく設定するため、コンテンツクリエータへの依存が存在する。
AC-3ビットストリームにおけるDIALNORMパラメータが何故間違っているかについて、幾つかの異なる理由が存在する。第一に、それぞれのAC-3エンコーダは、DIALNORM値がコンテンツクリエータにより設定されない場合に、ビットストリームの生成の間に使用されるデフォルトのDIALNORMを有する。このデフォルト値は、音声の実際の会話のラウドネスレベルとは実質的に異なる場合がある。第二に、コンテンツクリエータがラウドネスを測定して、これに応じてDIALNORM値を設定したとしても、推奨されるAC-3ラウドネス測定方法に準拠しないラウドネス測定アルゴリズム又はメータが使用される場合があり、結果として誤ったDIALNORM値となる。第三に、AC-3ビットストリームが測定されたDIALNORMで形成され、コンテンツクリエータにより正しく設定されているとしても、ビットストリームの送信及び/又は記憶の間に誤った値に変化している場合がある。例えば、テレビジョンブロードキャストの応用において、AC-3ビットストリームが、誤ったDIALNORMメタデータ情報を使用して復号化され、変更され、次いで再び符号化されることは、珍しくない。このように、AC-3ビットストリームに含まれるDIALNORM値は、間違い又は不正確であり、従って、傾聴体験の品質に悪影響を与える場合がある。
さらに、DIALNORMパラメータは、(例えばどのようなタイプのラウドネス処理がオーディオデータに行われているか、といった)対応するオーディオデータのラウドネス処理の状態を示さない。本考案までは、オーディオビットストリームは、本明細書の開示で記載されるタイプのフォーマットで、(例えば、適用されるラウドネス処理のタイプといった)ラウドネス処理の状態、オーディオビットストリームのオーディオコンテンツ、又はラウドネス処理の状態及びビットストリームのオーディオコンテンツのラウドネスを示すメタデータを含んでいない。係るフォーマットでのラウドネス処理の状態を示すメタデータは、特に効果的なやり方で、オーディオビットストリームの適応ラウドネス処理及び/又はラウドネス処理状態の妥当性の確認、及びオーディオコンテンツのラウドネスを容易にすることに有効である。
PCT国際出願公開WO 2012/075246 A2は、2011年12月1日付けの国際出願日を有し、本出願と同一出願人に譲渡されたものであり、オーディオコンテンツの(例えばラウドネス処理の状態といった)処理状態及び(例えばラウドネスといった)特性を示すメタデータを含むオーディオビットストリームを生成し、復号化及び処理する方法及びシステムを開示する。また、この文献は、メタデータを使用してビットストリームのオーディオコンテンツの適応処理、並びに、メタデータを使用したラウドネス処理の状態及びビットストリームのオーディオコンテンツのラウドネスの妥当性の確認を開示している。しかし、この文献は、本明細書で記載されるタイプのフォーマットで、ラウドネス処理の状態及びオーディオコンテンツのラウドネスを示すメタデータ(LPSM)をオーディオビットストリームに含めることを記載していない。上述したように、係るフォーマットでのLPSMは、特に効果的なやり方で、適応的なラウドネス処理、及び/又は、ラウドネス処理の状態及びオーディオコンテンツのラウドネスの妥当性の検証を容易にするために有効である。
本考案は、AC-3ビットストリーム、E-ACビットストリーム、又はDolby Eビットストリームで使用することに限定されないが、便宜上、ラウドネス処理の状態を示すメタデータを含む係るビットストリームを生成し、復号化し、又はさもなければ処理する実施の形態において記載される。
AC-3符号化ビットストリームは、メタデータと、1から6までのオーディオコンテンツのチャネルとを含む。オーディオコンテンツは、知覚的な音声符号化を使用して圧縮されているオーディオデータである。メタデータは、傾聴環境に伝達されるプログラムの音声の変更において使用することが意図される幾つかのオーディオメタデータパラメータを含む。
AC-3符号化(Dolby Digitalとしても知られる)の詳細は、知られており、以下を含む多くの刊行物で説明されている。
ATSC Standard A52/A: Digital Audio Compression Standard (AC-3), Revision A, Advanced television Systems Committee, 20 Aug.2001; and United States Patents 5,583,962; 5,632,005; 5,633,981; 5,727,119; and 6,021,386。
Dolby Digital Plus 符号化(E-AC-3)の詳細は、“Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System”,AES Conversion Paper 6196, 117th AES Convention, October 28, 2004で説明されている。
Dolby E符号化の詳細は、“Efficient Bit Allocation, Quantization, and Coding in an Audio Distribution System”, AES Preprint 5068, 107th AES Conference, August 1999 and “Professional Audio Coder Optimized for Use with Video”, AES Preprint 5033, 107th AES Conference August 1999。
AC-3符号化オーディオビットストリームのそれぞれのフレームは、オーディオコンテンツ及びデジタルオーディオの1536サンプルのメタデータを含む。48kHzのサンプリングレートについて、これは、デジタルオーディオの32ミリ秒又は音声の毎秒31.25フレームのレートを表す。
E-AC-3符号化オーディオビットストリームのそれぞれのフレームは、オーディオコンテンツと、フレームが1,2,3又は6つのオーディオデータのブロックをそれぞれ含むかに依存して、デジタルオーディオの256,512,768又は1536のデジタルオーディオのサンプルのメタデータとを含む。
図4に示されるように、それぞれのAC-3フレームは、(図5に示されるように)同期ワード(SW)及び2つの誤り訂正ワードのうちの第一の誤り訂正ワード(CRC1)を含む同期情報(SI: Synchronization Information)セクション、メタデータの大部分を含むビットストリーム情報(BSI: Bitstream Information)セクション、データが圧縮されたオーディオコンテンツ(及びメタデータを含む)6つのオーディオブロック(AB0〜AB5)、オーディオコンテンツが圧縮された後に残される不使用ビットを含む排気ビット(W)、より多くのメタデータを含む補助情報(AUX)、及び2つの誤り訂正ワードのうちの第二の誤り訂正ワード(CRC2)を含むセクション(セグメント)に分割される。
図7に示されるように、それぞれのE-AC-3フレームは、同期ワード(SW)を(図5に示されるように)含む同期情報(SI)、大部分のメタデータを含むビットストリーム情報(BSI)セクション、データ圧縮されたオーディオコンテンツ(及びメタデータをも含む)1〜6のオーディオブロック(AB0〜AB5)、オーディオコンテンツが圧縮された後に残された不使用ビットを含む廃棄ビット(W)、より多くのメタデータを含む補助情報セクション(AUX)、及び誤り訂正ワード(CRC)を含むセクション(セグメント)に分割される。
AC-3(又はE-AC-3)ビットストリームでは、傾聴環境に伝達されるプログラムの音声を変更するために使用されることが特に意図される幾つかのオーディオメタデータパラメータが存在する。メタデータパラメータのうちの1つは、DIALNORMパラメータであり、このパラメータは、BSIセグメントに含まれる。
図6に示されるように、AC-3フレームのBSIセグメントは、プログラムのDIALNORM値を示す5ビットのパラメータ(DIALNORM)を含む。同じAC-3フレームで搬送される第二のオーディオプログラムのDIALNORM値を示す5ビットのパラメータ(DIALNORM2)は、AC-3フレームのオーディオ符号化モード(acmod)が“0”を示す場合、すなわちデュアルモノ又は“1+1”チャネルコンフィギュレーションが使用中であることを示す場合に含まれる。
また、BSIセグメントは、“addbsie”ビットに後続する更なるビットストリーム情報の存在(又は不存在)を示すフラグ(addbsie)、“addbsil”値に後続する更なるビットストリームの情報の長さを示すパラメータ(addbsil)、及び“addbsil”値に後続する最大で64ビットの更なるビットストリームの情報(addbsi)を含む。
BSIセグメントは、図6に特に示されない他のメタデータの値を含む。
本実施の形態のあるクラスでは、本考案は、オーディオデータを符号化して符号化されたオーディオストリームを生成する段階を含む方法であり、ビットストリームの少なくとも1つのフレームの少なくとも1つのセグメントに、ラウドネス処理の状態を示すメタデータ(LPSM: Loudness Processing State Metadata)を含め、前記フレームの少なくとも1つの他のセグメントにオーディオデータを含める段階を含む。典型的な実施の形態では、本方法は、ビットストリームのそれぞれのフレームにおいて、オーディオデータをLPSMと多重化する段階を含む。典型的な復号化では、デコーダは、(LPSM及びオーディオデータを分析及び分離することを含めて)ビットストリームからLPSMを抽出し、オーディオデータを処理して、オーディオデータを処理して復号化されたオーディオデータのストリームを生成する(及び幾つかのケースでは、オーディオデータの適応ラウドネス処理、又はLPSMを使用したLPSM及び/又はオーディオデータの認証及び/又は検証のうちの少なくとも1つを実行する)。幾つかのケースでは、復号化オーディオデータ及びLPSMは、LPSMを使用して復号化されたオーディオデータへの適応ラウドネス処理を行うために構成されるポストプロセッサにデコーダから転送される。適応ラウドネス処理は、ダイナミックレンジ及び/又はラウドネス制御(例えば会話のラウドネスレべリング又は他のボリュームレべリング)を含むか、ダイナミックレンジ及び/又はラウドネス制御からなる。LPSMに応答して、音声処理ユニットは、対応するオーディオコンテンツに(LPSMにより示されるように)既に実行されたラウドネス処理を無効にする。
本考案の典型的な実施の形態に係る、オーディオビットストリームに埋め込まれたラウドネス処理の状態を示すメタデータは、例えば特定のプログラムのラウドネスが指定された範囲に既にあるか、及び対応するオーディオデータ自身が変更されていない(これにより適用法令とのコンプライアンスを補償することができる)かを検証するため、ラウドネス規制エンティティを有効にする。ラウドネス処理の状態を示すメタデータを含むデータブロックに含まれるラウドネス値は、ラウドネスを再び計算することの代わりに、これを検証するために読み出される。LPSMに応答して、規制代理手段(regulatory agency)は、オーディオコンテンツのラウドネスを計算する必要なしに、対応するオーディオコンテンツがラウドネスの法令及び/又は規制の要件(例えば“CALM” Actとしても知られる、Commercial Advertisement Loudness Mitigation Actの下で公布された規制)に準拠することを判定する。
本考案の別の態様は、本考案の方法の実施の形態を行うために構成される音声処理ユニット(APU)である。本実施の形態の別のクラスでは、本考案は、本考案の方法の実施の形態により生成された符号化されたオーディオストリームの少なくとも1つのフレームを(例えば持続的なやり方で)記憶するバッファメモリ(バッファ)を含むAPUである。APUの例は、エンコーダ(例えばトランスコーダ)、デコーダ、コーデック、前処理システム(プリプロセッサ)、後処理システム(ポストプロセッサ)、オーディオビットストリーム処理システム、及び係るエレメントの組み合わせを含む。
本実施の形態の別のクラスでは、本考案は、オーディオデータセグメントとメタデータセグメントを含む符号化されたオーディオビットストリームを生成するために構成される音声処理ユニット(APU)であり、オーディオデータセグメントは、オーディオデータを示し、メタデータの少なくとも幾つかのそれぞれは、ラウドネス処理の状態を示すメタデータ(LPSM: Loudness Processing State Metadata)を含む。典型的に、ビットストリームのフレームにおける少なくとも1つの係るメタデータセグメントは、第一のタイプのラウドネス処理がフレームのオーディオデータ(すなわち、フレームの少なくとも1つのオーディオデータセグメントにおけるオーディオデータ)で実行されているかを示すLPSMの少なくとも1つのセグメント、フレームのオーディオデータの少なくとも幾つかのラウドネス(例えば、会話を示すフレームのオーディオデータの少なくとも幾つかの会話のラウドネス)を示すLPSMの少なくとも1つの他のセグメントを含む。このクラスの1つの実施の形態では、APUは、入力音声を符号化して、符号化された音声を生成するために構成されるエンコーダであり、オーディオデータセグメントは、符号化された音声を含む。このクラスの典型的な実施の形態では、メタデータセグメントのそれぞれは、本明細書で記載されるように好適なフォーマットを有する。
1つの好適なフォーマットでは、符号化されたビットストリームは、AC-3ビットストリーム又はE-AC-3ビットストリームであり、LPSMを含むメタデータセグメントのそれぞれは、ビットストリームのフレームのビットストリーム情報(BSI)セグメントの“addbsi”フィールドにおいて更なるビットストリーム情報として含められる。LPSMを含むそれぞれのメタデータセグメントは、以下の表1及び表2を参照して本明細書で指定されるフォーマットを有する(すなわち、メタデータセグメントは、表1で指定されるコアエレメント又はそのバリエーションを含み、続いて、(LPSMとしてメタデータを識別する)ペイロードID及びペイロードサイズの値、続いて、ペイロード(表2に示されるフォーマット、又は本明細書で記載される表2に関するバリエーションに示されるフォーマットを有するLPSMデータ)を含む)。
別の好適なフォーマットでは、符号化されたビットストリームは、AC-3ビットストリーム又はE-AC-3ビットストリームであり、LPSMを含むメタデータセグメントのそれぞれは、ビットストリームのフレームのビットストリーム情報(BSI)セグメントの“addbsi”フィールドに含まれるか、又はビットストリームのフレームの終わりで(例えば図4に示されるAUXセグメントといった)補助データフィールドに含まれる。フレームは、1又は2のメタデータセグメントを含み、メタデータセグメントのそれぞれは、LPSMを含み、フレームが2つのメタデータセグメントを含む場合、一方は、フレームのaddbsiフィールドに存在し、他方は、フレームのAUXフィールドに含まれる。LPSMを含むそれぞれのメタデータセグメントは、以下の表1及び表2を参照して本明細書で指定されるフォーマットを有する(すなわち、メタデータセグメントは、表1で指定されるコアエレメント又はそのバリエーション、続いて(LPSMとしてメタデータを識別する)ペイロードID及びペイロードサイズ値、続いてペイロード(表2に示されるフォーマットを有するか、又は本明細書で記載される表2のバリエーションで示されるフォーマットを有するLPSMデータ)を含む)。
別の好適なフォーマットでは、符号化されたビットストリームは、AC-3ビットストリーム又はE-AC-3ビットストリームではないビットストリームであり、LPSMを含むメタデータセグメントのそれぞれは、更なるデータの記憶のために確保されるビットストリームのセグメント(又はフィールド又はスロット)に含められる。LPSMを含むそれぞれのメタデータセグメントは、以下の表1及び表2を参照して、本明細書で指定されたフォーマットに類似又は同一のフォーマットを有する(すなわち、メタデータセグメントは、表1で指定されたエレメントに類似又は同一のコアエレメント、続いて(LPSMとしてメタデータを識別する)ペイロードエレメント及びペイロードサイズの値、続いて、ペイロード(表2に示されるフォーマットに類似又は同一のフォーマットを含むか、又は本明細書で記載される表2のバリエーションを有するLPSMデータ)を含む)。
幾つかの実施の形態では、符号化されたビットストリームは、フレームの系列を含み、フレームのそれぞれは、“addbsi”フィールド(セグメント又はスロットと呼ばれることがある)、及び(例えば符号化されたビットストリームは、AC-3ビットストリーム又はE-AC-3ビットストリームといった)補助フィールド又はスロットを含むビットストリーム情報(BSI)セグメントを含む。また、符号化されたビットストリームは、オーディオデータセグメント(例えば図4に示されるフレームのAB0〜AB5セグメント)及びメタデータセグメントを含み、オーディオデータセグメントは、オーディオデータを示し、メタデータセグメントの少なくとも幾つかのそれぞれは、ラウドネス処理の状態を示すメタデータ(LPSM)を含む。LPSMは、以下のフォーマットでビットストリームに存在する。LPSMを含むメタデータセグメントのそれぞれは、ビットストリームのフレームのBSIセグメントの“addbsi”フィールドに含まれるか、又はビットストリームのフレームの補助フィールドに含まれる。ビットストリームのフレームは、1又は2のメタデータセグメントを含み、メタデータセグメントのそれぞれはLPSMを含み、フレームが2つのメタデータセグメントを含む場合、一方は、フレームのaddbsiフィールドに存在し、他方は、フレームのAUXフィールドに存在する。LPSMを含むそれぞれのメタデータセグメントは、以下のフォーマットを有するLPSMペイロード(又はコンテナ)を含む。
ヘッダ(典型的に、例えばLPSMフォーマットのバージョン、長さ、期間、カウント、及び以下の表2に示されるサブストリームとの関連値といった、少なくとも1つの識別値を含む)。
ヘッダの後に:
(例えば対応するオーディオデータのうちのどのチャネルが会話を示すかといった)対応するオーディオデータが会話を示すか又は会話を示さないかを示す少なくとも1つの会話識別値(例えば、表2のパラメータ「ダイアログチャネル」)。会話を示す値は、会話が対応するオーディオデータのチャネルのうちの組み合わせに存在するか、又は対応するオーディオデータの全てのチャネルに存在するかを示す。
対応するオーディオデータがラウドネスの規制の示されたセットに準拠するかを示す少なくとも1つのラウドネスの規制の準拠値(例えば、表2のパラメータ「ラウドネスレギュレーションタイプ“Loudness Regulation Type”」)。
対応するオーディオデータで実行されたラウドネス処理の少なくとも1つのタイプを示す、少なくとも1つのラウドネス処理値(例えば、表2のパラメータ「ダイアログゲート・ラウドネスコレクションフラグ“Dialog gated Loudness Correction flag”」、「ラウドネスコレクションタイプ」のうちの1以上)。
対応するオーディオデータの少なくとも1つのラウドネス(例えば、ピーク又は平均ラウドネス)の特性を示す、少なくとも1つのラウドネス値(例えば、表2のパラメータ「ITUリラティブゲート・ラウドネス“ITU Relative gated Loudness”」、「ITUスピーチゲート・ラウドネス“ITU Speech gated loudness”」、「ITU(EBU3341)Short-term 3s・ラウドネス“ITU(EBU3341) Short-term 3s Loudness”」、及び「トゥルーピーク“True Peak”」のうちの1以上)。
対応するオーディオデータを示す少なくとも1つのラウドネス値を考慮、使用又は生成する本考案の実施の形態では、ラウドネスの値は、オーディオデータのラウドネス及び/又はダイナミックレンジを処理するために利用される少なくとも1つのラウドネスの測定の特性を示す。
幾つかの実現では、ビットストリームのフレームの“addbsi”フィールド又は補助フィールドにおけるメタデータセグメントのそれぞれは、以下のフォーマットを有する。
コアヘッダ(典型的に、メタデータセグメントの開始を識別する同期ワード、続いて、例えばコアエレメントのバージョン、長さ及び期間、拡張されたエレメントカウント、以下の表1に示されるサブストリームの関連値といった識別値)。
コアヘッダの後にある、少なくとも1つのプロテクション値(例えばHMACダイジェスト及びオーディオフィンガープリント値、HMACダイジェストは、表1に示される、全体のフレームのオーディオデータ、コアエレメント、及び全ての拡張されたエレメントを通して計算される(SHA-2アルゴリズムを使用した)256ビットのHMACダイジェストであり、ラウドネス処理の状態のメタデータ又は対応するオーディオデータの少なくとも1つの暗号化解読、認証又は妥当性確認のうちの少なくとも1つについて有効である)。
また、コアヘッダの後にある、メタデータセグメントがLPSMを含む場合、LPSMペイロードとして後続のメタデータを識別し、LPSMペイロードのサイズを示すLPSMペイロード識別子(ID)及びLPSMペイロードサイズ値。(好ましくは先に指定されたフォーマットを有する)LPSMペイロードセグメントは、LPSMペイロードID及びLPSMペイロードサイズの値に後続する。
前のパラグラフで記載されたタイプの幾つかの実施の形態では、フレームの補助フィールド(又は“addbsi”フィールド)のそれぞれは、3つのレベルの構造を有する。
高水準の構造は、補助データフィールド(又はaddbsi)がメタデータを含むかを示すフラグ、どのようなタイプのメタデータが存在するかを示す少なくとも1つのID値、どの位多くの(例えばそれぞれのタイプの)メタデータのビットが存在するか(メタデータが存在する場合)を示す値を含む。存在するあるタイプのメタデータは、LPSMであり、存在する別のタイプのメタデータは、メディアリサーチメタデータである(例えば、Nielsen Media Researchメタデータ)。
中間水準の構造は、それぞれ識別されたメタデータのタイプについてコアエレメントを有する(例えば、それぞれ識別されたメタデータのタイプについて、上述されたタイプのコアヘッダ、プロテクション値、及びペイロードID並びにペイロードサイズの値)。
低水準の構造は、1つのコアエレメントについてそれぞれのペイロードを有する(例えば、コアエレメントにより存在するとしてペイロードが識別された場合には、LPSMペイロード。コアエレメントにより存在するとしてペイロードが識別された場合には、別のタイプのメタデータペイロード)。
係る3レベル構造におけるデータ値はネスト化される。例えば、あるコアエレメントにより識別されるLPSMペイロード及び/又は別のメタデータペイロードのプロテクション値は、コアエレメントにより識別されるそれぞれのペイロードの後(従ってコアエレメントのコアヘッダの後)に含まれる。1つの例では、コアヘッダは、LPSMペイロード及び別のメタデータペイロードを識別し、(例えばLPSMペイロードである)第一のペイロードのペイロードID及びペイロードサイズの値は、コアヘッダに後続し、第一のペイロード自身は、ID及びサイズ値に後続し、第二のペイロードについてペイロードID及びペイロードサイズの値は、第一のペイロードに後続し、第二のペイロード自身は、これらのID及びサイズ値に後続し、ペイロードの一方又は両方(又はコアエレメント値及びペイロードの一方又は両方)のプロテクション値は、最後のペイロードに後続する。
幾つかの実施の形態では、あるフレームの補助フィールド(又は“addbsi”フィールド)におけるメタデータセグメントのコアエレメントは、(典型的に例えばコアエレメントのバージョンといった識別値を含む)コアヘッダを有し、コアヘッダの後に、フィンガープリントデータがメタデータセグメントのメタデータについて含まれるかを示す値、(メタデータセグメントのメタデータに対応するオーディオデータに関連する)外部データが存在するかを示す値、コアエレメントにより識別された(例えば、LPSM、及び/又はLPSM以外のタイプのメタデータといった)メタデータのそれぞれのタイプのペイロードID及びペイロードサイズの値、及びコアエレメントにより識別されたメタデータの少なくとも1つのタイプのプロテクション値を含む。メタデータセグメントのメタデータペイロードは、コアヘッダに後続し、(幾つかのケースでは)コアエレメントの値内でネスト化される。別の好適なフォーマットでは、符号化されたビットストリームは、Dolby Eビットストリームであり、LPSMを含むメタデータセグメントのそれぞれは、Dolby Eガードバンドインターバルの最初のNサンプルに含まれる。
本実施の形態の別のクラスでは、本考案は、オーディオデータセグメント及びメタデータセグメントを有する符号化されたオーディオビットストリームを受信するように結合及び構成されるAPU(例えばデコーダ)であり、オーディオデータセグメントは、オーディオデータを示し、メタデータセグメントの少なくとも幾つかのそれぞれは、ラウドネス処理の状態を示すメタデータ(LPSM)を含む。APUは、ビットストリームからLPSMを抽出し、オーディオデータに応答して復号化されたオーディオデータを生成し、LPSMを使用してオーディオデータに少なくとも1つの適応ラウドネス処理演算を実行する。また、このクラスにおける幾つかの実施の形態は、APUに結合されるポストプロセッサを含み、ポストプロセッサは、LPSMを使用して、オーディオデータに少なくとも1つの適応ラウドネス処理演算を実行するように結合及び構成される。
実施の形態の別のクラスでは、本考案は、音声処理ユニット(APU)であり、バッファメモリ(バッファ)及びバッファに結合される処理サブシステムを含み、APUは、オーディオデータセグメント及びメタデータセグメントを有する符号化されたオーディオビットストリームを受信するように結合され、オーディオデータセグメントは、オーディオデータを示し、メタデータセグメントの少なくとも幾つかのそれぞれは、ラウドネス処理の状態を示すメタデータ(LPSM)を含み、バッファは、符号化されたオーディオビットストリームの少なくとも1つのフレームを(例えば持続的なやり方で)記憶し、処理サブシステムは、ビットストリームからLPSMを抽出し、LPSMを使用してオーディオデータに少なくとも1つの適応ラウドネス処理演算を実行するように構成される。このクラスにおける典型的な実施の形態では、APUは、エンコーダ、デコーダ、ポストプロセッサのうちの1つである。
本考案の方法の幾つかの実現では、生成されるオーディオビットストリームは、他のメタデータ(例えばDIALNORMメタデータパラメータ、ダイナミックレンジ制御メタデータパラメータ、及び他のメタデータパラメータ)と同様に、ラウドネス処理の状態を示すメタデータを含めて、AC-3符号化ビットストリーム、E-AC-3ビットストリーム、又はDolby Eビットストリームのうちの1つである。本方法の幾つかの他の実現では、生成されるオーディオビットストリームは、別のタイプの符号化ビットストリームである。
本考案の態様は、本考案の方法の実施の形態を実行する(例えばプログラムされた)システム又は装置、及び、本考案の方法又は方法の段階の実施の形態を実現するコードを(例えば持続的なやり方で)記憶するコンピュータ読み取り可能な媒体(例えばディスク)を含む。例えば、本システムは、プログラム可能な汎用プロセッサ、デジタルシグナルプロセッサ、又は、ソフトウェア又はファームウェアでプログラムされるか、本方法又は方法の段階の実施の形態を含めて、データに様々な動作の何れかを実行するために構成されるマイクロプロセッサであるか、これらを含む。係る汎用プロセッサは、入力装置、メモリ、アサートされたデータに応答して、本方法(又は方法の段階)の実施の形態を実行するようにプログラムされる(及び/又はさもなければ構成される)処理回路であるか、これらを含むコンピュータシステムである。
[表記及び用語]
特許請求の範囲を含めてこの開示を通して、ある処理を信号又はデータに行う表現(例えばフィルタリング、スケーリング、変換、又は信号又はデータにゲインを適用する)は、信号又はデータに直接に処理を施すこと、或いは処理されたバージョンの信号又はデータに処理を施すこと(例えば予備のフィルタリングを受けている信号のバージョン、又は動作の実行前の前処理を受けた信号のバージョン)を示すために広義で使用される。
特許請求の範囲を含めてこの開示を通して、表現「システム」は、装置、システム又はサブシステムを示すために広義に使用される。例えば、デコーダを実現するサブシステムは、デコーダシステムと呼ばれ、係るサブシステムを含むシステム(例えば複数の入力に応答してX出力信号を生成するシステム。サブシステムは、入力のうちのM個を生成し、他のX−M入力は、外部ソースから受信される)は、デコーダシステムとも呼ばれる。
特許請求の範囲を含めてこの開示を通して、用語「プロセッサ」は、データ(例えば)、音声、又はビデオ或いは他の画像データ)に処理を施すために(例えばソフトウェア又はファームウェアにより)プログラマブル又はさもなければ機器構成可能なシステム又は装置を示すために、広義で使用される。プロセッサの例は、フィールドプログラマブルゲートアレイ(又は他の機器構成可能な集積回路又はチップセット)、音声又は他のオーディオデータにパイプライン処理を施すためにプログラム及び/又は機器構成されるデジタルシグナルプロセッサ、プログラマブル汎用プロセッサ又はコンピュータ、及びプログラマブルマイクロプロセッサチップ又はチップセットを含む。
特許請求の範囲を含めてこの開示を通して、表現「オーディオプロセッサ」及び「音声処理ユニット」は、交換可能に使用され、オーディオデータを処理するために構成されるシステムを示すために広義で使用される。音声処理ユニットの例は、限定されるものではないが、エンコーダ(例えばトランスコーダ)、デコーダ、コーデック、前処理システム、後処理システム、及びビットストリーム処理システム(ビットストリーム処理ツールと呼ばれることがある)を含む。
特許請求の範囲を含めてこの開示を通して、(例えば表現「ラウドネス処理の状態のメタデータ」におけるような)表現「状態メタデータの処理」は、対応するオーディオデータ(処理状態のメタデータも含む、オーディオデータストリームのオーディオコンテンツ)とは個別且つ異なるデータを示す。処理状態のメタデータは、オーディオデータと関連付けされ、対応するオーディオデータのラウドネス処理の状態を示し(例えばどのようなタイプの処理がオーディオデータに既に施されているか)、典型的に、オーディオデータの少なくとも1つの特徴又は特性を示す。処理状態のメタデータをオーディオデータと関連付けることは、時間同期である。従って、現在の(最も最近に受信された又は更新された)処理状態のメタデータは、対応するオーディオデータがオーディオデータの処理の指示されたタイプの結果を同時に含む。幾つかのケースでは、処理状態のメタデータは、処理の履歴、及び/又は、指示されたタイプの処理で使用されるか、及び/又は指示されたタイプの処理から導出されるパラメータの一部又は全部を含む。さらに、処理状態のメタデータは、オーディオデータから計算又は抽出されている、対応するオーディオデータの少なくとも1つの特徴又は特性を含む。処理状態のメタデータは、対応するオーディオデータの何れかの処理に関連するか、対応するオーディオデータの何れかの処理から導出される他のメタデータを含む。例えば、第三者のデータ、追跡情報、識別子、機密又は標準の情報、ユーザ注釈データ、ユーザ選択データ等は、他の音声処理ユニットに移るため、特定の音声処理ユニットにより追加される。
特許請求の範囲を含めてこの開示を通して、表現「ラウドネス処理の状態のメタデータ」(又は“LPSM”)は、対応するオーディオデータのラウドネス処理の状態を示す処理状態のメタデータ(例えば、どのようなタイプのラウドネス処理がオーディオデータに施されているか)、及び一般に対応するオーディオデータの少なくとも1つの特徴又は特性(例えばラウドネス)をも示す。ラウドネス処理の状態のメタデータは、ラウドネス処理の状態のメタデータではない(すなわち単独で考えられるとき)データ(例えば、他のデータ)を含む。
特許請求の範囲を含めてこの開示を通して、用語「結合する“couples”」又は「結合された“coupled”」は、直接的又は間接的な接続の何れかを意味するために使用される。従って、第一の装置が第二の装置に結合される場合、その接続は、直接的な接続を通して、又は他の装置及び接続を介しての間接的な接続を通しての接続である。
本考案の方法の実施の形態を実行するように構成されるシステムの実施の形態のブロック図である。 本考案の音声処理ユニットの実施の形態であるエンコーダのブロック図である。 本考案の音声処理ユニットの実施の形態であるデコーダ、及び音声処理ユニットに結合され、本考案の音声処理ユニットの別の実施の形態であるポストプロセッサのブロック図である。 分割されるセグメントを含むAC-3フレームの図である。 分割されるセグメントを含むAC-3フレームの同期情報(SI)セグメントの図である。 分割されるセグメントを含むAC-3フレームのビットストリーム情報(BSI)の図である。 分割されるセグメントを含むE-AC-3フレームの図である。
本考案の典型的な実施の形態によれば、ラウドネス処理の状態のメタデータ(LPSM)は、他のセグメント(オーディオデータのセグメント)にオーディオデータを含むオーディオビットストリームのメタデータのセグメントの1以上の予約されたフィールド(又はスロット)に埋め込まれる。典型的に、ビットストリームのそれぞれのフレームの少なくとも1つのセグメントは、LPSMを含み、フレームの少なくとも1つの他のセグメントは、対応するオーディオデータ(すなわち、そのラウドネス処理の状態及びラウドネスがLPSMにより示されるオーディオデータ)を含む。幾つかの実施の形態では、LPSMのデータボリュームは、オーディオデータを搬送するために割り当てられるビットレートに影響を及ぼすことなしに、搬送されるように十分に小さい。
オーディオデータの処理チェインにおいてラウドネス処理の状態のメタデータを伝達することは、2以上の音声処理ユニットが処理チェイン(又はコンテンツのライフサイクル)を通して互いに協力して機能することが必要とされるときに特に有効である。オーディオビットストリームにラウドネス処理の状態のメタデータを包含しないことで、2以上のオーディオコーデックがチェインにおいて利用され、且つシングルエンドのボリュームレべリングがビットストリームのメディア消費装置(又はビットストリームのオーディオコンテンツのレンダリングポイント)への転送の間に一度を超えて適用されるときに、品質、レベル及び空間的な品質の低下のような厳しいメディア処理の問題が生じる場合がある。
図1は、例示的な音声処理チェイン(オーディオデータ処理システム)のブロック図であり、システムの1以上のエレメントは、本考案の実施の形態に従って構成される。本システムは、図示されるように互いに結合される以下の構成要素を含む。前処理ユニット、エンコーダ、信号分析及びメタデータ訂正ユニット、トランスコーダ、及び後処理ユニット。図示されるシステムのバリエーションにおいて、1以上のエレメントが省略されるか、更なる音声処理ユニットが含まれる。
幾つかの実現では、図1の前処理ユニットは、入力としてオーディオコンテンツを含むPCM(時間領域)サンプルを受け、処理されたPCMサンプルを出力する。エンコーダは、PCMサンプルを入力として受け、オーディオコンテンツを示す符号化された(例えば圧縮された)オーディオビットストリームを出力する。オーディオコンテンツを示すビットストリームのデータは、「オーディオデータ」と呼ばれることがある。エンコーダが本考案の典型的な実施の形態に従って構成される場合、エンコーダから出力されたオーディオビットストリームは、オーディオデータと同様に、ラウドネス処理の状態のメタデータ(及び典型的に他のメタデータ)を含む。
図1の信号分析及びメタデータ補正ユニットは、1以上の符号化されたオーディオビットストリームを入力として受け、信号解析を実行することで、それぞれの符号化されたオーディオビットストリームにおける処理状態のメタデータが正しいかを判定(例えば評価)する。含まれたメタデータが無効であると信号解析及びメタデータ訂正ユニットが判定した場合、信号解析及びメタデータ訂正ユニットは、誤った値を、信号解析から得られた正しい値で置き換える。従って、信号解析及びメタデータ訂正ユニットから出力された、それぞれ符号化されたオーディオビットストリームは、符号化されたオーディオデータと同様に、訂正された(又は訂正されていない)処理状態のメタデータを含む。
図1のトランスコーダは、符号化されたオーディオビットストリームを入力として受け、これに応じて、(例えば入力ビットストリームを復号化し、復号化されたストリームを異なる符号化フォーマットで、符号化し直すことで)変更された(例えば異なって符号化された)オーディオビットストリームを出力する。トランスコーダは本考案の典型的な実施の形態に従って構成される場合、トランスコーダから出力されるオーディオビットストリームは、符号化されたオーディオデータと同様に、ラウドネス処理の状態のメタデータ(及び典型的に他のメタデータ)を含む。メタデータは、ビットストリームに含まれる場合がある。
図1のデコーダは、符号化された(例えば圧縮された)オーディオビットストリームを入力として受け、これに応じて、復号化されたPCMオーディオサンプルのストリームを出力する。デコーダが本考案の典型的な実施の形態に従って構成される場合、典型的な処理におけるデコーダの出力は、以下のものであるか、又は以下の何れかを含む。
オーディオサンプルのストリーム、及び入力の符号化されたビットストリームから抽出されたラウドネス処理の状態のメタデータ(及び典型的に他のメタデータ)の対応するストリーム。
オーディオサンプルのストリーム、入力の符号化されたビットストリームから抽出されたラウドネス処理の状態のメタデータ(及び典型的に他のメタデータ)から決定された制御ビットの対応するストリーム。
処理状態のメタデータ、又は処理状態のメタデータから決定される制御ビットの対応するストリームがない、オーディオサンプルのストリーム。この最後のケースでは、デコーダは、たとえデコーダが抽出されたメタデータ又は処理状態のメタデータから決定された制御ビットを出力しないとしても、入力の符号化されたビットストリームからラウドネス処理の状態のメタデータ(及び/又は他のメタデータ)を抽出し、抽出されたメタデータに少なくとも1つの処理(例えば検証)を施す。
本考案の典型的な実施の形態に係る図1の後処理ユニットを構成することで、後処理ユニットは、復号化されたPCMオーディオサンプルのストリームを受け、サンプルと共に受信されたラウドネス処理の状態のメタデータ(及び典型的に他のメタデータ)、又はサンプルと共に受信された(ラウドネス処理の状態のメタデータ及び典型的に他のメタデータからデコーダにより決定された)制御ビットを使用して、後処理(例えばオーディオコンテンツのボリュームレべリング)を施す。また、後処理ユニットは、1以上のスピーカによる再生のため、後処理されたオーディオコンテンツをレンダリングするために構成される。
本考案の典型的な実施の形態は、拡張された音声処理チェインを提供するものであり、この処理チェインでは、音声処理ユニット(例えばエンコーダ、デコーダ、トランスコーダ、前処理及び後処理ユニット)は、音声処理ユニットによりそれぞれ受信されたラウドネス処理の状態のメタデータにより示されるメディアデータの同時の状態に従って、オーディオデータに適用されるべきそれぞれの処理を適用する。図1のシステムの音声処理ユニット(図1のエンコーダ又はトランスコーダ)に入力されるオーディオデータは、オーディオデータ(例えば符号化されたオーディオデータ)と同様に、ラウドネス処理の状態のメタデータ(及び任意に他のメタデータ)を含む。このメタデータは、本考案の実施の形態に従って、図1のシステムの別のエレメント(又は図1に示されない別のソース)により、入力された音声に含まれる。(メタデータと共に)入力された音声を受信した処理ユニットは、少なくとも1つの処理(例えば検証)をメタデータに施すか、又はメタデータに応答して少なくとも1つの処理(例えば入力された音声の適応処理)を施し、典型的に、その出力音声にメタデータ、処理されたバージョンのメタデータ、又はメタデータから決定された制御ビットを含める。
本考案の音声処理ユニット(又はオーディオプロセッサ)の典型的な実施の形態では、オーディオデータに対応するラウドネス処理の状態のメタデータにより示される、オーディオデータの状態に基づいて、オーディオデータの適応処理を行う。幾つかの実施の形態では、適応処理は、(ラウドネス処理、又はラウドネス処理に類似した処理がオーディオデータに既に施されていないことをメタデータは示す場合)ラウドネス処理であるか又はラウドネス処理を含むか、(係るラウドネス処理又はラウドネス処理に類似した処理がオーディオデータに既に施されていることをメタデータが示す場合)ラウドネス処理でないか(及びラウドネス処理を含まない)。幾つかの実施の形態では、適応処理は、ラウドネス処理の状態のメタデータにより示される、オーディオデータの状態に基づいて、オーディオデータの他の適応的な処理を音声処理ユニットが実行することを保証するため、(メタデータの検証のサブユニットで実行される)メタデータの検証であるか又はメタデータの検証を含む。幾つかの実施の形態では、検証は、オーディオデータと関連される(例えばオーディオデータと共にビットストリームに含まれる)ラウドネス処理の状態のメタデータの信頼性を判定する。例えば、メタデータが信頼できると認証された場合、あるタイプの前に実行された音声処理からの結果が再び使用され、同じタイプの音声処理の新たな性能が回避される場合がある。他方で、メタデータが改ざんされたと分かった場合(又は信頼できないと分かった場合)、(信頼できないメタデータにより示される)意図的に前に施されたタイプのメディア処理は音声処理ユニットにより繰り返され、及び/又は他の処理は、メタデータ及び/又はオーディオデータに音声処理ユニットにより施される。また、音声処理ユニットは、音声処理ユニットが(例えば抽出された暗号値と基準の暗号値との整合に基づいて)処理状態のメタデータが有効であると判定した場合に、拡張されたメディア処理チェインにおいてダウンストリームにある他の音声処理ユニットに、(例えばメディアビットストリームに存在する)ラウドネス処理の状態のメタデータが有効であることを指示する。
図2は、本考案の音声処理ユニットの実施の形態であるエンコーダ100のブロック図である。エンコーダ100のコンポーネント又はエレメントの何れかは、1以上のプロセス及び/又は1以上の回路(例えばASIC,FPGA、又は他の集積回路)として、ハードウェア、ソフトウェア、或いはハードウェアとソフトウェアとの組み合わせで実現される。エンコーダ100は、図示されるように接続される、フレームバッファ110、分析手段111、デコーダ101、音声状態の検証手段102、ラウドネス処理ステージ103、オーディオストリーム選択ステージ104、エンコーダ105、スタッファ/フォーマッタステージ107、メタデータ生成ステージ106、会話のラウドネス測定サブシステム108及びフレームバッファ109を備える。また、典型的に、エンコーダ100は、他の処理エレメント(図示せず)を含む。
(トランスコーダである)エンコーダ100は、(例えばAC-3ビットストリーム、E-AC-3ビットストリーム、又はDolby Eビットストリームのうちの1つである)入力オーディオビットストリームを、入力ビットストリームに含まれるラウドネス処理の状態のメタデータを使用して適応及び自動化されたラウドネス処理を行うことを含めて、(例えばAC-3ビットストリーム、E-AC-3ビットストリーム又はDolby Eビットストリームのうちの別の1つである)符号化された出力オーディオビットストリームに変換する。例えば、エンコーダ100は、入力のDolby Eビットストリーム(制作及びブロードキャスト施設で典型的に使用されるフォーマットであるが、コンシューマ装置にブロードキャストされるオーディオプログラムを受信するコンシューマ装置において使用されない)を、AC-3又はE-AC-3フォーマットで(コンシューマ装置へのブロードキャストに適した)符号化された出力オーディオビットストリームに変換する。
また、図2のシステムは、(エンコーダ100から出力された符号化ビットストリームを記憶及び/又は配信する)符号化されたオーディオデリバリサブシステム及びデコーダ152を含む。エンコーダ100から出力された符号化されたオーディオビットストリームは、サブシステム150により記憶されるか、又は(送信リンク又はネットワークを実現する)サブシステム150により送信されるか、或いはサブシステム150により記憶及び送信される場合がある。デコーダ152は、ビットストリームのそれぞれのフレームからラウドネス処理の状態のメタデータ(LPSM)を抽出し、復号化されたオーディオデータを生成することを含めて、デコーダ152がサブシステム150を介して受信する(エンコーダ100により生成された)符号化されたオーディオビットストリームを復号化する。典型的に、デコーダ152は、LPSMを使用して復号化されたオーディオデータに適応ラウドネス処理を施し、及び/又は復号化されたオーディオデータ及びLPSMを、LPSMを使用して復号化されたオーディオデータに適応ラウドネス処理を施す後処理プロセッサに送出する。典型的に、デコーダ152は、サブシステム150から受信された符号化されたオーディオビットストリームを(例えば一時的なやり方で)記憶するバッファを含む。
エンコーダ100及びデコーダ152の様々な実現は、本考案の方法の異なる実施の形態を実行する。
フレームバッファ110は、符号化された入力のオーディオビットストリームを受信するために結合されるバッファメモリである。動作において、バッファ110は、符号化されたオーディオビットストリームの少なくとも1つのフレームを(例えば持続性のあるやり方で)記憶し、符号化されたオーディオビットストリームのフレームの系列は、バッファ110から分析手段110に送出される。
分析手段111は、符号化された入力音声のそれぞれのフレームからラウドネス処理の状態のメタデータ(LPSM)及び他のメタデータを抽出し、少なくともLPSMをオーディオ状態検証手段102、ラウドネス処理ステージ103、ステージ106及びサブシステム108に送出し、符号化された入力音声からオーディオデータを抽出し、オーディオデータをデコーダ101に送出する。エンコーダ100のデコーダ101は、オーディオデータを復号化して、復号化されたオーディオデータを生成し、復号化されたオーディオデータをラウドネス処理ステージ103、オーディオストリームの選択ステージ104、サブシステム108、及び典型的に状態検証手段102に送出する。
状態検証手段102は、状態検証手段に送出されるLPSM(及び任意に他のメタデータ)を認証及び検証する。幾つかの実施の形態では、LPSMは、(例えば本考案の実施の形態に従う)入力ビットストリームに含まれているデータブロックである(又は入力ビットストリームに含まれているデータブロックに含まれる)。ブロックは、LPSM(及び任意に他のメタデータ)、及び/又は(デコーダ101から検証手段102に提供される)オーディオデータを処理するため、暗号学的ハッシュ(ハッシュに基づくメッセージ認証コード又は“HMAC”)を含む。データブロックは、ダウンストリームの音声処理ユニットが処理状態のメタデータを比較的容易に認証及び検証するように、これらの実施の形態でデジタル署名される。
例えば、HMACは、ダイジェストを生成するために使用され、本考案のビットストリームに含まれるプロテクション値は、ダイジェストを含む。ダイジェストは、AC-3フレームについて、以下のように生成される。
1.AC-3データ及びLPSMが符号化された後、フレームデータバイト(連結されたframe_data#1及びframe_data#2)及びLPSMデータバイトは、ハッシュ関数HMACの入力として使用される。補助フィールド内に存在する場合がある他のデータは、ダイジェストを計算するために考慮されない。係る他のデータは、AC-3データ及びLSPSMデータの何れにも属さないバイトである。LPSMに含まれるプロテクションビットは、HMACダイジェストを計算するために考慮されない。
2.ダイジェストが計算された後、ダイジェストは、プロテクションビットについて確保されたフィールドにおいて、ビットストリームに書き込まれる。
3.完全なAC-3フレームの生成の最後のステップは、CRCチェックの計算である。これは、フレームの最後の最後で書き込まれ、このフレームに属している全てのデータは、LPSMビットを含めて考慮される。
限定されるものではないが、1以上の非HMAC暗号化方法の何れかを含む他の暗号化方法は、LPSM及び/又は基本のオーディオデータの安全な送信及び受信を保証するため、(例えば検証手段102において)LPSMの検証のために使用される。例えば、(係る暗号化方法を使用した)検証は、それぞれ音声処理ユニットで実行され、それぞれの音声処理ユニットは、本考案のオーディオビットストリームの実施の形態を受けて、ビットストリームに含まれるラウドネス処理の状態のメタデータ及び対応するオーディオデータが(メタデータにより示される)特定のラウドネス処理を受けたか(及び/又は特定のラウドネス処理によって生じたか)、係る特定のラウドネス処理の実行後に変更されていないかを判定する。
状態検証手段102は、制御データをオーディオストリーム選択ステージ104、メタデータジェネレータ106、及び会話ラウドネス測定サブシステム108に送出して、検証処理の結果を示す。制御データに応答して、ステージ104は、以下の何れかを選択する(及び、エンコーダ105に移す)。
ラウドネス処理ステージ103の適応的に処理された出力(例えば、デコーダ101から出力されたオーディオデータが特定のタイプのラウドネス処理を受けていないことをLPSMが示し、LPSMが有効であることを検証手段102からの制御ビットが示すとき)。
デコーダ101から出力されるオーディオデータ(デコーダ101から出力されるオーディオデータがステージ103により行われた特定のタイプのラウドネス処理を既に受けていることをLPSMが示し、LPSMが有効であることを検証手段102からの制御ビットが示すとき)。
エンコーダ100のステージ103は、デコーダ101により抽出されたLPSMにより示される1以上のオーディオデータの特性に基づいて、デコーダ101から出力される復号化されたオーディオデータに適応的なラウドネス処理を施す。ステージ103は、適応的な変換領域のリアルタイムのラウドネス及びダイナミックレンジの制御プロセッサである。ステージ103は、ユーザ入力(例えばターゲットラウドネス/ダウナミックレンジ値又はダイアローグ正規化(dialnorm)値)、又は他のメタデータ入力(1以上のタイプの第三者データ、トラッキング情報、識別子、独占所有権又は標準の情報、ユーザ注釈データ、ユーザ選択データ等)、及び/又は(例えばフィンガープリントプロセスからの)他の入力を受け、係る入力を使用して、デコーダ101から出力された復号化されたオーディオデータを処理する。
会話ラウドネス測定サブシステム108は、例えば、LPSMが無効であることを検証手段102からの制御ビットが示すとき、デコーダ101により抽出されたLPSM(及び/又は他のメタデータ)を使用して、会話(又は他の音声)を示す(デコーダ101からの)復号化された音声のセグメントのラウドネスを決定するように動作する。会話ラウドネス測定サブシステム108の動作は、LPSMが有効であることを検証手段102からの制御ビットが示すとき、(デコーダ101からの)復号化された音声の会話(又は他の音声)のセグメントの前に決定されたラウドネスをLPSMが示すときに無効にされる。
オーディオコンテンツにおける会話のレベルを便利且つ容易に測定する有効なツールが存在する(例えばDolby LM100ラウドネスメータ)。本考案のAPUの幾つかの実施の形態(エンコーダ100のステージ108)は、(例えばエンコーダ100のデコーダ101からステージ108に送出された復号化されたAC-3ビットストリームといった)オーディオビットストリームのオーディオコンテンツの平均の会話のラウドネスを測定するツールを含む(又は平均の会話のラウドネスを測定するツールの機能を実行する)ように実現される。
ステージ108がオーディオデータの真の平均の会話のラウドネスを測定するように実現される場合、測定は、会話を主に含むオーディオコンテンツのセグメントを分離するステップを含む。主に会話であるオーディオセグメントは、次いで、ラウドネス測定アルゴリズムに従って処理される。AC-3ビットストリームから復号化されたオーディオデータについて、このアルゴリズムは、(国際標準ITU-R BS.1770に従う)標準的なK-weightedラウドネス測定である。代替的に、(例えばラウドネスの心理音響的なモデルに基づくような)他のラウドネス測定が使用される。
会話のセグメントの分離は、オーディオデータの平均の会話のラウドネスを測定するために必須ではない。この分離は、測定の精度を改善し、典型的に、傾聴者の観点からより満足される結果を提供する。全てのオーディオコンテンツが会話(スピーチ)を含むものではないため、全体のオーディオコンテンツのラウドネス測定は、音声が存在しており、音声の会話のレベルの十分な近似を提供する。
メタデータジェネレータ106は、エンコーダ100から出力されるべき符号化ビットストリームに、ステージ107により含まれるメタデータを生成する。メタデータジェネレータ106は、(例えばLPSM及び/又は他のメタデータが有効であることを検証手段102からの制御ビットが示すとき)エンコーダ101により抽出されたLPSM(及び/又は他のメタデータ)をステージ107に移すか、又は、新たなLPSM(及び/又は他のメタデータ)を生成し、(例えばデコーダ101により抽出されたLPSM及び/又は他のメタデータが無効であることを検証手段102からの制御ビットが示すとき)新たなメタデータをステージ107に送出するか、又はデコーダ101により抽出されたメタデータと新たに生成されたメタデータとの組み合わせをステージ107に送出する。メタデータジェネレータ106は、サブシステム108により生成されたラウドネスデータ、サブシステム108により実行されたラウドネス処理のタイプを示す少なくとも1つの値をLPSMに含め、メタデータジェネータ106は、エンコーダ100から出力されるべき符号化されたビットストリームに含めるため、ステージ107に送出する。
メタデータジェネレータ106は、符号化されたビットストリームに含まれるLPSM(及び任意の他のメタデータ)、及び/又は符号化されたビットストリームに含まれるべき基本となるオーディオデータの復号、認証又は検証の少なくとも1つの有効な(ハッシュに基づくメッセージ認証コード又は“HMAC”から構成されるか又はハッシュに基づくメッセージ認証コード又は“HMAC”を含む)プロテクションビットを生成する。メタデータジェネレータ106は、符号化されたビットストリームに含めるため、係るプロテクションビットをステージ107に提供する。
典型的な動作では、会話のラウドネス測定サブシステム108は、デコーダ101からのオーディオデータ出力を処理して、この処理に応答して、ラウドネス値(例えばゲート及びアンゲートされた会話のラウドネスの値)及びダイナミックレンジの値を生成する。これらの値に応答して、メタデータジェネレータ106は、エンコーダ100から出力される符号化されたビットストリームに(スタッファ/フォーマッタ107により)含めるため、ラウドネス処理の状態のメタデータ(LPSM)を生成する。
付加的に、任意に、又は代替的に、エンコーダ100のサブシステム106及び/又は108は、オーディオデータの更なる分析を行い、ステージ107から出力されるべき符号化されたビットストリームに含めるため、オーディオデータの少なくとも1つの特性を示すメタデータを生成する。
エンコーダ105は、選択ステージ104から出力されたオーディオデータを(例えばオーディオデータへの圧縮を施すことで)符号化し、符号化されたオーディオデータを、ステージ107から出力されるべき符号化されたビットストリームに含めるためにステージ107に送出する。
ステージ107は、エンコーダ105からの符号化されたオーディオデータとジェネレータ106からの(LPSMを含む)メタデータとを多重化して、符号化されたビットストリームが本考案の好適な実施の形態により指定されたフォーマットを有するように、ステージ107から出力されるべき符号化されたビットストリームを生成する。
フレームバッファ109は、ステージ107から出力された符号化されたオーディオビットストリームの少なくとも1つのフレームを(例えば持続的なやり方で)記憶するバッファメモリであり、符号化されたオーディオビットストリームのフレーム系列は、次いで、エンコーダ100からの出力としてバッファ109からデリバリシステム150に送出される。
メタデータジェネレータ106により生成され、ステージ107により符号化されたビットストリームに含まれるLPSMは、(例えばどのようなタイプのラウドネス処理がオーディオデータに施されたかといった)対応するオーディオデータのラウドネス処理の状態、及び対応するオーディオデータの(例えば測定された会話のラウドネス、ゲート及び/又はアンゲートされたラウドネス、及び/又はダイナミックレンジといった)ラウドネスを示す。
ここで、オーディオデータに施されウラウドネス及び/又はレベル測定のゲート“gating”とは、特定のレベル又はラウドネスの閾値を示し、この場合、閾値を超える計算された値は、最終的な測定に含まれる(例えば最終的に測定された値における−60dBFS以下の短期間のラウドネス値を無視すること)。ある絶対値に関するゲートとは、固定されたレベル又はラウドネスを示し、相対値に関するゲートとは、現在の「アンゲート“ungated”」測定値に依存する値を示す。
エンコーダ100の幾つかの実現では、メモリ109に記憶される(及びデリバリシステム150に出力される)符号化されたビットストリームは、AC-3ビットストリーム又はE-AC-3ビットストリームであり、オーディオデータのセグメント(例えば図4に示されるフレームのAB0-AB5セグメント)及びメタデータのセグメントを含み、この場合、オーディオデータのセグメントは、オーディオデータを示し、メタデータのセグメントの少なくとも幾つかのそれぞれは、ラウドネス処理の状態のメタデータ(LPSM)を含む。ステージ107は、以下のフォーマットでビットストリームにLPSMを挿入する。LPSMを含むメタデータのセグメントのそれぞれは、ビットストリームのフレームのビットストリーム情報(BSI)セグメントの“addbsi”フィールドに含まれるか、又はビットストリームのフレームの終わりにある補助データフィールド(例えば図4に示されるAUXセグメント)に含まれる。ビットストリームのフレームは、1又は2のメタデータセグメントを含み、それぞれのセグメントは、LPSMを含み、フレームが2つのメタデータセグメントを含む場合、一方は、フレームのaddbsiフィールドに存在し、他方は、フレームのAUXフィールドに存在する。LPSMを含むそれぞれのメタデータのセグメントは、以下のフォーマットを有するLPSMペイロード(又はコンテナ)セグメントを含む。
ヘッダ(典型的に、以下の表2に示されるLPSMフォーマットバージョン、長さ、期間、カウント、及びサブストリームの関連値といった少なくとも1つの識別値により後続される、LPSMペイロードの開始を識別する同期ワードを含む)。
ヘッダの後に、以下が存在する。
(例えば対応するオーディオデータのどのチャネルが会話を示すかといった)対応するオーディオデータが会話を示すか、又は会話を示さないかを示す少なくとも1つの会話を示す値(例えば表2のパラメータ“Dialog channel(s)”)。
対応するオーディオデータが指示されたセットのラウドネス規制に従うかを示す少なくともラウドネス規制の準拠値(例えば表2のパラメータ“Loudness Regulation Type”)。
対応するオーディオデータで施されたラウドネス処理の少なくとも1つのタイプを示す少なくとも1つのラウドネス処理値(例えば1以上のパラメータ“Dialog gated Loudness Correction flag”、“Loudness Correction Type”)。
対応するオーディオデータの少なくとも1つのラウドネス(例えばピーク又は平均ラウドネス)特性を示す少なくとも1つのラウドネス値(例えば、1以上のパラメータ“ITU Relative Gated Loudness”、“ITU Speech gated Loudness”、“ITU(EBU3341) Short-term 3s Loudness”及び“True Peak”)。
幾つかの実現では、ビットストリームのフレームの“addbsi”フィールド又は補助フィールドにステージ107により挿入されるメタデータセグメントのそれぞれは、以下のフォーマットを有する。
コアヘッダ(典型的に、以下の表1に示される例えばコアエレメントのバージョン、長さ、期間、拡張されたエレメントカウント、及びサブストリームに関連する値といった識別値により後続される、メタデータのセグメントの開始を識別する同期ワードを含む)。
また、コアヘッダの後に、メタデータセグメントがLPSMを含む場合、LPSMペイロードとして後続のメタデータを識別し、LPSMペイロードのサイズを示すLPSMペイロード識別子(ID)及びLPSMペイロードサイズ値。
(好ましくは、先に指定されたフォーマットを有する)LPSMペイロード(又はコンテナ)セグメントは、LPSMペイロードID及びLPSMペイロードのサイズ値に続く。
幾つかの実施の形態では、あるフレームの補助フィールド(又は“addbsi”フィールド)におけるメタデータセグメントのそれぞれは、3つのレベルの構造を有する。
ハイレベル構造は、補助データ(又はaddbsi)フィールドがメタデータを含むかを示すフラグ、どのタイプのメタデータが存在するかを示す少なくとも1つのID値、及び典型的に、どの位多くの(例えばそれぞれのタイプの)メタデータのビットが(メタデータが存在する場合に)存在するかを示す値を含む。存在することのできるあるタイプのメタデータは、LSPMであり、存在することのできる別のタイプのメタデータは、(例えばNielsen Media Researchメタデータといった)メディアリサーチメタデータである。
ミドルレベル構造は、それぞれ識別されたタイプのメタデータについてコアエレメント(例えば、それぞれ識別されたタイプのメタデータについて、上述されたコアヘッダ、プロテクション値、及びLPSMペイロードID及びLPSMペイロードサイズ値)を含む。
ロウレベル構造は、1つのコアエレメントのそれぞれのペイロードを含む(例えばペイロードが存在するとしてコアエレメントにより識別された場合にはLPSMペイロード、及び/又はペイロードが存在するとしてコアエレメントにより識別された場合には別のタイプのメタデータペイロード)。
係る3つのレベルの構造におけるデータ値は、ネスト化させることができる。例えば、コアエレメントにより識別されたLPSMペイロード及び/又は別のメタデータペイロードのプロテクション値は、コアエレメントにより識別されたそれぞれのペイロードの後(及び従ってコアエレメントのコアヘッダの後)に含まれる。1つの例では、コアヘッダは、LPSMペイロード及び別のメタデータペイロードを識別し、(例えばLPSMペイロードといった)最初のペイロードのペイロードIDとペイロードサイズの値は、コアヘッダに続き、最初のペイロード自身は、ID及びサイズ値に続き、第二のペイロードのペイロードIDとペイロードサイズ値は、最初のペイロードに続き、第二のペイロード自身は、これらID及びサイズ値に続き、両方のペイロード(又はコアエレメント及び両方のペイロードについて)のプロテクションビットは、最後のペイロードに続く。
幾つかの実施の形態では、デコーダ101が暗号学的ハッシュにより本考案の実施の形態に従って生成されたオーディオビットストリームを受信したとき、デコーダは、ビットストリームから決定されたデータブロックから暗号学的ハッシュを分析及び検索し、前記ブロックは、ラウドネス処理の状態のメタデータ(LPSM)を含む。検証手段102は、暗号学的ハッシュを使用して、受信されたビットストリーム及び/又は関連するメタデータを検証する。例えば検証手段102は、基準の暗号学的ハッシュとデータブロックから取得された暗号学的ハッシュとの間の整合に基づいてLPSMを有効であると判定し、次いで、対応するオーディオデータへのプロセッサ103の処理を無効にし、選択ステージ104にオーディオデータを移させる(変化させない)。付加的に、任意に、又は代替的に、暗号学的ハッシュに基づく方法の代わりに、他のタイプの暗号技術が使用される。
図2のエンコーダ100は、(デコーダ101により抽出されたLPSMに応答して)前処理ユニット/後処理ユニットが(エレメント105,106及び107において)符号化されるべきオーディオデータにあるタイプのラウドネス処理を施したことを判定し、従って予め実行されたラウドネス処理で使用された特定のパラメータ、及び/又は予め実行されたラウドネス処理から導出された特定のパラメータを含むラウドネス処理の状態のメタデータを(ジェネレータ106において)作成する。幾つかの実現では、エンコーダ100は、オーディオコンテンツで施されている処理のタイプをエンコーダが知っている限り、オーディオコンテンツに関する処理の履歴を示す処理状態のメタデータを作成する(及び処理状態のメタデータからの出力を符号化されたビットストリームに含める)。
図3は、本考案の音声処理ユニットの実施の形態であるデコーダ200、及びデコーダに結合される後処理プロセッサ300のブロック図である。また、後処理プロセッサ300は、本考案の音声処理ユニットの実施の形態である。デコーダ200及び後処理プロセッサ300のコンポーネント又はエレメントの何れかは、図示されるように接続される、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアの組み合わせで、1以上のプロセス及び/又は(例えばASIC,FPGA又は他の集積回路といった)1以上の回路として実現される。デコーダ200は、フレームバッファ201、分析手段205、オーディオデコーダ202、音声状態の検証ステージ(検証手段)203、及び制御ビット生成ステージ204を含む。典型的に、デコーダ200は、他の処理エレメント(図示せず)を含む。
フレームバッファ201(バッファメモリ)は、デコーダ200により受信された符号化されたオーディオビットストリームの少なくとも1つのフレームを(持続的なやり方で)記憶する。符号化されたオーディオビットストリームのフレームの系列は、バッファ201から分析手段205に送出される。
分析手段205は、符号化された入力音声のそれぞれのフレームから、ラウドネス処理の状態のメタデータ(LPSM)を抽出し、少なくともLPSMを音声状態の検証手段203及びステージ204に送出し、LPSMを出力として(例えば後処理プロセッサ300に)送出し、符号化された入力音声からオーディオデータを抽出し、抽出されたオーディオデータをデコーダ202に送出するように結合及び構成される。
デコーダ200に入力された符号化されたオーディオビットストリームは、AC-3ビットストリーム、E-ACビットストリーム、又はDolby Eビットストリームのうちの1つである。
また、図3のシステムは、後処理プロセッサ300を含む。後処理プロセッサ300は、フレームバッファ301、及びバッファ301に結合される少なくとも1つの処理エレメントを含む他の処理エレメント(図示せず)を備える。フレームバッファ301は、デコーダ200から後処理プロセッサ300により受信された復号化されたオーディオビットストリームの少なくとも1つのフレームを(例えば、持続的なやり方で)記憶する。後処理プロセッサ300の処理エレメントは、デコーダ202から出力されたメタデータ(LPSMを含む)及び/又はデコーダ200のステージ204から出力された制御ビットを使用して、バッファ301から出力された復号化されたオーディオビットストリームのフレームの系列を受信して、適応的に処理するために結合及び構成される。典型的に、後処理プロセッサ300は、(例えば、LPSMにより示される、ラウドネス処理状態、及び/又は1以上のオーディオデータ特性に基づいて)LPSM値を使用して、復号化されたオーディオデータに適応的なラウドネス処理を施すために構成される。
デコーダ200及び後処理プロセッサ300の様々な実現は、本考案の方法の異なる実施の形態を実行するために構成される。
デコーダ200のオーディオデコーダ202は、分析手段205により抽出されたオーディオデータを復号化して、復号化されたオーディオデータを生成し、復号化されたオーディオデータを出力として(例えば後処理プロセッサ300に)送出する。
状態検証手段203は、状態検証手段に送出されるLPSM(及び任意に他のメタデータ)を認証及び検証する。幾つかの実施の形態では、LPSMは、(例えば本考案の実施の形態に係る)入力ビットストリームに含まれているデータブロックである(又はデータブロックに含まれる)。ブロックは、LPSM(及び任意に他のメタデータ)及び/又は(分析手段205及び/又はデコーダ202から検証手段202に提供される)基礎となるオーディオデータを処理する暗号学的ハッシュ(ハッシュに基づくメッセージ認証コード又は“HMAC”)を含む。データブロックは、ダウンストリームの音声処理ユニットが処理状態のメタデータを比較的容易に認証及び検証するように、これらの実施の形態でデジタル署名される。
限定されるものではないが、LPSM及び/又は基本となるオーディオデータの安全な送信及び受信を保証するため、LPSMの(例えば検証手段203における)検証のため、1以上の非HMAC暗号化方法の何れかを含む他の暗号化方法が使用される場合がある。例えば、本考案のオーディオビットストリームの実施の形態を受けるそれぞれの音声処理ユニットにおいて(係る暗号化方法を使用した)検証を実行し、ビットストリームに含まれるラウドネス処理状態のメタデータ及び対応するオーディオデータが(メタデータにより示される)特定のラウドネス処理を受けているか(及び/又は特定のラウドネス処理から生じているか)、係る特定のラウドネス処理の実行後に変更されていないかを判定する。
状態検証手段203は、制御データを制御ビットジェネレータ204に送出し、及び/又は、検証処理の結果を示すように、制御データを出力として(例えば後処理プロセッサ300に)送出する。制御データ(及び、任意に入力ビットストリームから抽出された他のメタデータ)に応答して、ステージ204は、以下の何れかを生成する(及び後処理プロセッサ300に送出する)。
デコーダ202から出力された復号化されたオーディオデータが特定のタイプのラウドネス処理を受けていることを示す制御ビット(デコーダ202から出力されるオーディオデータが特定の対応のラウドネス処理を受けていることをLPSMが示し、LPSMが有効であることを検証手段203からの制御ビットが示すとき)。
デコーダ202から出力された復号化されたオーディオデータが特定のタイプのラウドネス処理を受けるべきことを示す制御ビット(例えば、デコーダ202から出力されたオーディオデータが特定のタイプのラウドネス処理を受けていないことをLPSMが示すか、又はデコーダ202から出力されたオーディオデータが特定のタイプのラウドネス処理を受けていることをLPSMが示すが、LPSMが有効でないことを検証手段203からの制御ビットが示すとき)。
代替的に、デコーダ200は、入力ビットストリームからデコーダ202により抽出されたLPSM(及び他のメタデータ)を後処理プロセッサ300に送出する。後処理プロセッサ300は、LPSMを使用して復号化されたオーディオデータにラウドネス処理を施すか、LPSMの検証を実行して、次いでLPSMが有効であることを検証が示す場合に、LPSMを使用して復号化されたオーディオデータにラウドネス処理を施す。
幾つかの実施の形態では、デコーダ201が暗号学的ハッシュにより本考案の実施の形態に従って生成されたオーディオストリームを受信した場合、デコーダは、ビットストリームから決定されたデータブロックからの暗号化ハッシュを分析及び取得し、前記ブロックは、ラウドネス処理の状態のメタデータ(JPSM)を含む。検証手段203は、暗号学的ハッシュを使用して、受信されたビットストリーム及び/又は関連するメタデータを検証する。例えば、検証手段203が基準の暗号学的ハッシュとデータブロックから取得された暗号学的ハッシュとの間の整合に基づいてLPSMが有効であると判定した場合、検証手段は、(例えばボリュームレべリングユニットであるか、又はボリュームレべリングを含む後処理プロセッサ300といった)ダウンストリームの音声処理ユニットに、ビットストリームのオーディオデータを移す(変更しない)ように指示する。付加的に、任意に又は代替的に、他のタイプの暗号化技術は、暗号学的ハッシュに基づく方法の代わりに使用される場合がある。
デコーダ100の幾つかの実施の形態では、受信された(及びメモリ201に記憶された)符号化されたビットストリームは、AC-3ビットストリーム又はE-AC-3ビットストリームであり、オーディオデータセグメント(例えば図4に示されるフレームのAB0-AB5セグメントといった)オーディオデータセグメント、及びメタデータセグメントを含み、この場合、オーディオデータセグメントは、オーディオデータを示し、メタデータセグメントの少なくとも幾つかのそれぞれは、ラウドネス処理の状態のメタデータ(LPSM)を含む。デコーダステージ202は、以下のフォーマットを有するLPSMをビットストリームから抽出する。LPSMを含むメタデータセグメントのそれぞれは、ビットストリームのフレームのビットストリーム情報(BSI)の“addbsi”フィールドに含まれるか、又はビットストリームのフレームの終わりにある(例えば図4に示されるAUXセグメントといった)補助データフィールドに含まれる。ビットストリームのフレームは、1又は2のメタデータセグメントを含み、それぞれのセグメントは、LPSMを含み、フレームが2つのメタデータセグメントを含む場合、一方は、フレームのaddbsiフィールドに存在し、他方は、フレームのAUXフィールドに存在する。LPSMを含むそれぞれのメタデータセグメントは、以下のフォーマットを有するLPSMペイロード(又はコンテナ)セグメントを含む。
ヘッダ(典型的に、例えば以下の表2に示されるLPSMフォーマットのバージョン、長さ、期間、カウント及びサブストリームに関連する値といった識別値により後続されるLPSMペイロードの開始を識別する同期ワードを含む)。
ヘッダの後ろに以下が存在する。
対応するオーディオデータが会話を示すか、(例えば対応するオーディオデータのどのチャネルが会話を示すか)会話を示さないかを示す(例えば表2のパラメータ“Dialog channel(s)”といった)少なくとも1つの会話を指示する値。
対応するオーディオデータが指示されたセットのラウドネスの規制に準拠するかを示す(例えば表2のパラメータ“Loudness Regulation Type”といった)少なくとも1つのラウドネス規制に準拠する値。
対応するオーディオデータに施されている少なくとも1つのタイプのラウドネス処理を示す(例えば表2の1以上のパラメータ“Dialog gated Loudness Correction flag”、“Loudness Correction Type”といった)少なくとも1つのラウドネス処理値。
対応するオーディオデータの少なくとも1つの(例えば、ピーク又は平均のラウドネスといった)ラウドネス特性を示す(例えば、表2の1以上のパラメータ“ITU Relative Gated Loudness”、“ITU Speech gated Loudness”、“ITU (EBU3341) Short Term 3s Loudness”及び“True Peak”といった)少なくとも1つのラウドネス値。
幾つかの実現では、デコーダステージ202は、ビットストリームのフレームの“addbsi”フィールド又は補助フィールドから、以下のフォーマットを有するそれぞれのメタデータセグメントを抽出する。
コアヘッダ(典型的に、例えば以下の表1で示されるコアエレメントのバージョン、長さ、及び期間、拡張されたエレメントのカウント、及びサブストリームの関連値といった少なくとも1つの識別値により後続される、メタデータセグメントの開始を識別する同期ワードを含む)。
コアヘッダの後に、ラウドネス処理の状態のメタデータ又は対応するオーディオデータの復号、認証又は検証のうちの少なくとも1つに有効な(例えば表1のMHACダイジェスト及びオーディオフィンガープリント値といった)少なくとも1つのプロテクション値。
コアヘッダの後に、メタデータセグメントがLPSMを含む場合、後続のメタデータをLPSMペイロードとして識別し、LPSMペイロードのサイズを識別するLPSMペイロードの識別子(ID)及びLPSMペイロードのサイズ値。
(好ましくは、先に指定されたフォーマットを有する)LPSMペイロード(又はコンテナ)セグメントは、LPSMペイロードID及びLPSMペイロードサイズの値に後続する。
より一般的には、本考案の好適な実施の形態により生成された符号化されたオーディオビットストリームは、メタデータエレメント及びサブエレメントをコア(強制)又は拡張(任意のエレメント)としてラベル付けするメカニズムを提供する構造を有する。これは、(そのメタデータを含む)ビットストリームのデータレートが様々な用途にわたりスケーリングされるのを可能にする。好適なビットストリームのコア(強制)のエレメントは、オーディオコンテンツに関連する拡張(任意)のエレメントが存在するか(インバンド)及び/又は遠隔地にあるか(アウトオブバンド)を指示することができる。
コアエレメントは、ビットストリームの各フレームに存在することが必要とされる。コアエレメントの幾つかのサブエレメントは任意であり、何れかの組み合わせで存在する場合がある。拡張されたエレメントは、(ビットレートのオーバヘッドを制限するため)各フレームに存在することが必要とされない。従って、拡張されたエレメントは、幾つかのフレームに存在し、他のフレームにおいて存在しない。拡張されたエレメントの幾つかのサブエレメントは任意であり、何れかの組み合わせで存在する場合があり、拡張されたエレメントの幾つかのサブエレメントは、強制である場合がある(すなわち、拡張されたエレメントがビットストリームのフレームに存在する場合)。
実施の形態のクラスでは、(例えば、本考案を実施する音声処理ユニットにより)オーディオデータのセグメント及びメタデータのセグメントの系列を含む符号化されたオーディオビットストリームは生成される。オーディオデータセグメントは、オーディオデータを示し、メタデータセグメントの少なくとも幾つかのそれぞれは、ラウドネス処理状態のメタデータ(LPSM)を含み、オーディオデータセグメントは、メタデータセグメントと時分割多重される。このクラスの好適な実施の形態では、メタデータセグメントのそれぞれは、本明細書で記載される好適なフォーマットを有する。
1つの好適なフォーマットでは、符号化されたビットストリームは、AC-3ビットストリーム又はE-AC-3ビットストリームであり、LPSMを含むメタデータセグメントのそれぞれは、ビットストリームのフレームのビットストリーム情報(BSI)セグメントの(図6に示される)“addbsi”フィールド、又はビットストリームのフレームの補助データフィールドに更なるビットストリーム情報として(例えばエンコーダ100の好適な実現のステージ107により)含まれる。
好適なフォーマットでは、フレームのそれぞれは、フレームのaddbsiフィールドにおいて、以下の表1に示されるフォーマットを有するコアエレメントを含む。
Figure 0003183637
好適なフォーマットでは、LPSMを含むaddsbi(又は補助データ)フィールドのそれぞれは、コアヘッダ(及び任意に、更なるコアエレメント)を含み、コアヘッダ(又はコアヘッダ及び他のコアエレメント)の後に、以下のLPSM値(パラメータ)を含む。
(例えば表1で指定される)コアエレメントに後続する(メタデータをLPSMとして識別する)ペイロードID、ペイロードIDに後続する(LPSMペイロードのサイズを示す)パイロードサイズ、及び以下の表(表2)に示されるフォーマットを有する(ペイロードID及びペイロードサイズ値に後続する)LPSMデータ。
Figure 0003183637
Figure 0003183637
Figure 0003183637
本考案に従って生成された符号化されたビットストリームの別の好適なフォーマットでは、ビットストリームは、AC-3ビットストリーム又はE-AC-3ビットストリームであり、LPSMを含むメタデータセグメントのそれぞれは、以下の何れかに(例えばエンコーダ100の好適な実現のステージ107により)含まれる。ビットストリームのフレームのビットストリーム情報(BSI)セグメント、又はビットストリームのフレームの終わりにある(例えば図4に示されるAUXセグメントである)補助フィールド。フレームは、1又は2のメタデータセグメントを含み、それぞれのセグメントは、LPSMを含み、フレームが2つのメタデータセグメントを含む場合、一方はフレームのaddbsiフィールドに存在し、他方はフレームのAUXフィールドに存在する。LPSMを含むそれぞれのメタデータセグメントは、先の表1及び表2を参照して先に指定されたフォーマットを有する(すなわち、それぞれのメタデータセグメントは、表1で指定されるコアエレメント、続いて(LPSMとしてメタデータを識別する)ペイロードエレメント、(表2で示されたフォーマットを有するLPSMデータといった)ペイロードにより後続される、先に指定されたペイロードのサイズ値)。
別の好適なフォーマットでは、符号化されたビットストリームは、Dolby Eビットストリームであり、LPSMを含むメタデータセグメントのそれぞれは、Dolby Eガードバンドインターバルの最初のNサンプルの位置である。LPSMを含む係るメタデータセグメントを含むDolby Eビットストリームは、SMPTE 337MプリアンブルのPdワードで指示されるLPSMペイロード長さを示す値を含む(SMPTE 337M Paワード反復率は、関連するビデオフレームレートと同じままであることが好ましい)。
好適なフォーマットでは、符号化されたビットストリームは、E-AC-3ビットストリームであり、LPSMを含むメタデータセグメントのそれぞれは、ビットストリームのフレームのビットストリーム情報(BSI)セグメントのaddbsiフィールドにおいて更なるビットストリーム情報として(たとえばエンコーダ100の好適な実現のステージ107により)含まれる。次に、この好適なフォーマットにおける、LPSMをもつE-AC-3ビットストリームを符号化する更なる態様が記述される。
1.E-AC-3ビットストリームの生成の間、(LPSM値をビットストリームに挿入する)E-AC-3エンコーダは、生成された各フレーム(同期フレーム)について「アクティブ」であり、ビットストリームは、フレームのaddbsiフィールドで搬送された(LPSMを含む)メタデータブロックを含む。メタデータブロックを搬送することが要求されるビットは、エンコーダのビットレート(フレーム長)を増加すべきではない。
2.(LPSMを含む)各メタデータブロックは、以下の情報を含むべきではない。
2-1.loudness_correction_type_flag:“1”は、対応するオーディオデータのラウドネスがエンコーダからアップストリームで訂正されたことを示し、“0”は、(例えば図2のエンコーダ100のラウドネスプロセッサ103である)エンコーダに埋め込まれたラウドネスコレクタによりラウドネスが訂正されたことを示す。
2-2.Speech_channel:(前の0.5秒を通して)どのソースチャネルが会話を含むかを示す。会話が検出されない場合、これは以下のように示される。
2-3.Speech_loudness:(前の0.5秒を通して)会話を含むそれぞれ対応する音声チャネルの統合された会話のラウドネスを示す。
2-4.ITU_loudness:それぞれ対応する音声チャネルの統合されたITU BS.1770-2ラウドネスを示す。
2-5.gain:(可逆性を示すため)デコーダにおける反転のラウドネスコンポジットゲイン。
3.(LPSM値をビットストリームに挿入する)E-AC-3エンコーダが「アクティブ」であり、“trust”フラグをもつACフレームを受信している間、(図2のエンコーダ100のラウドネスプロセッサ103である)エンコーダにおけるラウドネスコントローラは、バイパスされる。「信頼される」ソースダイアローグ正規化及びDRC値は、(エンコーダ100のジェネレータ106により)E-AC-3エンコーダコンポーネント(例えばエンコーダ100のステージ107)に通過される。LPSMブロック生成は係属し、loudness_correction_type_flagは“1”に設定される。ラウドネスコントローラのバイパスシーケンスは、“trust”フラグが現れる、復号化されたAC-3フレームの開始で同期される。ラウドネスコントローラのバイパスシーケンスは、以下のように実現される。leveler_amountの制御は、10のオーディオブロック周期(すなわち53.3msec)を通して値9から値0にデクリメントされ、leveler_back_end_meterの制御は、バイパスモードに配置される(この動作は、シームレスな遷移となる)。用語「レベラーの「信頼される」バイパス」は、ソースビットストリームのダイアローグ正規化の値は、エンコーダの出力で再び利用されることを意味する。(例えば、「信頼される」ソースビットストリームが〜30のダイアローグ正規化の値を有する場合、エンコーダの出力は、アウトバウンドのダイアローグ正規化値について〜30を利用する)。
4.(LPSM値をビットストリームに挿入する)E-AC-3エンコーダが「アクティブ」であり、“trust”フラグをもたないAC-3フレームを受信している間、(例えば図2のエンコーダ100のラウドネスプロセッサ103である)エンコーダに埋め込まれたラウドネスコントローラは、「アクティブである」。LPSMブロック生成は継続し、loudness_correction_type_flagは“0”に設定される。ラウドネスコントローラのアクチベーションシーケンスは、“trust”フラグが消える、復号化されたAC-3フレームの開始で同期される。ラウドネスコントローラのアクチベーションシーケンスは、以下のように実現される。Leveler_amountの制御は、1のオーディオブロック周期(すなわち5.3msec)を通して値0から値9まで実現され、leveler_back_end_meterの制御は、「アクティブ」モードに配置される(この動作は、シームレスな遷移となり、back_end_meterの統合のリセットを含む)。
5.符号化の間、グラフィックユーザインタフェース(GUI)は、以下のパラメータをユーザに示す。
“Input Audio Program: [Trusted/Untrusted]”:このパラメータの状態は、入力信号内の“trust”フラグの存在に基づく。
“Real-time Loudness Correction: [Enabled/Disabled]”:このパラメータの状態は、エンコーダに埋め込まれたこのラウドネスコントローラがアクティであるかに基づく。
ビットストリームのそれぞれのフレームのビットストリーム情報(BSI)セグメントの“addbsi”フィールドに含まれる(好適なフォーマットにおいて)LPSMを有するAC-3又はE-AC-3ビットストリームを復号化するとき、デコーダは、(addbsiフィールドにおける)LPSMブロックデータを分析し、抽出されたLPSM値の全てをグラフィックユーザインタフェース(GUI)に通過させる。抽出されたLPSM値は、フレーム毎にリフレッシュされる。
本考案に従って生成された符号化されたビットストリームの別の好適なフォーマットでは、符号化されたビットストリームは、AC-3ビットストリーム又はE-AC-3ビットストリームであり、LPSMを含むメタデータセグメントのそれぞれは、ビットストリームのフレームのビットストリーム情報(BSI)セグメントの(図6に示される)“addbsi”フィールド(Auxセグメント)において、更なるビットストリーム情報として(例えばエンコーダ100の好適な実現のステージ107により)含められる。(表1及び表2を参照して先に記載されたフォーマットに関するバリエーションである)このフォーマットでは、LPSMを含むaddbsi(又はAux)フィールドのそれぞれは、以下のLPSM値を含む。
(LPSMとしてメタデータを識別する)ペイロードIDにより後続される、表1で指定されるコアエレメント、(先の表2に示される強制エレメントに類似する)以下のフォーマットを有するペイロード(LPSMデータ)により後続される、ペイロードサイズ値。
LPSMペイロードのバージョン:LPSMペイロードのバージョンを示す2ビットフィールド。
dialchan:対応するオーディオデータの左チャネル、右チャネル、中央チャネルが会話を含んでいるかを示す3ビットフィールド。dialchanフィールドのビット割り当ては、以下の通り。ビット0は、左チャネルにおける会話の存在を示す、dialchanフィールドの最重要ビットで記憶される。ビット2は、中央チャネルにおける会話の存在を示し、dialchanフィールドの最下位ビットに記憶される。dialchanフィールドのそれぞれのビットは、対応するチャネルがプログラムの先行する0.5秒の間に会話を含む場合に“1”に設定される。
loudregtyp:プログラムのラウドネスがどのラウドネス規制の標準と準拠するかを示す3ビットフィールド。“loudregtyp”フィールドを“000”に設定することは、LPSMがラウドネス規制の準拠を示さないことを示す。(例えば000といった)このフィールドのある値は、ラウドネス規制の標準との準拠が示されないことを示し、(例えば0001といった)このフィールドの別の値は、プログラムのオーディオデータがATSC A/85規格と準拠することを示し、(例えば010といった)このフィールドの別の値は、プログラムのオーディオデータがEBU R128規格と準拠することを示す。例えば、フィールドが“000”以外の任意の値に設定される場合、loudcorrdialgat及びloudcorrtypは、ペイロードにおいて後続する。
loudcorrdialgat:会話がゲートされるラウドネス訂正が適用されているかを示す1ビットフィールド。プログラムのラウドネスが会話のゲートを使用して訂正されている場合、loudcorrdialgatフィールドの値は、“1”に設定される。さもなかれば、“0”に設定される。
loudcorrtyp:プログラムに適用されるラウドネス訂正のタイプを示す1ビットフィールド。プログラムのラウドネスが無限ルックアヘッド(ファイルに基づく)ラウドネス訂正プロセスで訂正される場合、loudcorrtypフィールドの値は“0”に設定される。プログラムのラウドネスがリアルタイムのラウドネス測定及びダイナミックレンジの制御の組み合わせを使用して訂正されている場合、このフィールドの値は、“1”に設定される。
loudrelgate:リラティブゲート(relative-gated)・ラウドネスデータ(ITU)が存在するかを示す1ビットフィールド。loudrelgateフィールドが“1”に設定された場合、7ビットのituloudrelgatフィールドがペイロードにおいて後続する。
loudrelgat:リラティブゲートプログラム(relative-gated program)のラウドネス(ITU)を示す7ビットフィールド。このフィールドは、ダイアローグ正規化及びダイナミックレンジの圧縮によるゲイン調節が適用されることなしに、ITU-R BS.1770-2に従って測定され、音声プログラムの統合されたラウドネスを示す。値0〜127は、0.5LKFSステップで、−58LKFS〜+5.5LKFSとして解釈される。
loudspchgate:スピーチゲート(speech-gated)・ラウドネスデータ(ITU)が存在するかを示す1ビットフィールド。loudspchgateフィールドが“1”に設定される場合、7ビットのloudspchgateフィールドは、ペイロードにおいて後続される。
loudspchgat:スピーチゲートプログラム(speech-gated program)のラウドネスを示す7ビットフィールド。このフィールドは、ITU-R BS.1770-3の式(2)に従い、ダイアローグ正規化及びダイナミックレンジの圧縮による任意のゲイン調節が適用されることなしに測定されら、全体の対応する音声プログラムの統合されたラウドネスを示す。値0〜127は、0.5LKFSステップで、−58LKFSから+5.5LKFSとして解釈される。
loudstrm3se:短期間(3秒)のラウドネスデータが存在するかを示す1ビットフィールド。フィールドが“1”に設定された場合、7ビットのloudstrm3sフィールドは、ペイロードにおいて後続する。
loudstrm3s:ITU-R BS.1771-1に従い、ダイアローグ正規化及びダイナミックレンジの圧縮によるゲイン調節が適用されることなしに測定された、対応するオーディオプログラムの先行する3秒のゲートされないラウドネスを示す7ビットフィールド。値0〜256は、0.5LKFSステップで、−116LKFSから+11.5LKFSとして解釈される。
truepke:トゥルーピークのラウドネスデータが存在するかを示す1ビットフィールド。truepkeフィールドが“1”に設定される場合、8ビットのtruepkeフィールドは、ペイロードにおいて後続される。
trupk:ITU-R BS.1770-3のAnnex 2に従い、ダイアローグ正規化及びダイナミックレンジの圧縮によるゲイン調節が適用されることなしに測定された、プログラムのトゥルーピークのサンプリ値を示す8ビットフィールド。値0〜256は、0.5LKFSステップで、−116LKFSから+11.5LKFSとして解釈される。
幾つかの実施の形態では、AC-3ビットストリーム又はE-AC-3ビットストリームのフレームの補助フィールド(又は“addbsi”フィールド)におけるメタデータセグメントのコアエレメントは、(典型的に、例えばコアエレメントのバージョンといった識別値を含む)コアヘッダ、コアヘッダの後に、フィンガープリントデータ(又は他のプロテクション値)がメタデータセグメントのメタデータについて含まれるかを示す値、(メタデータセグメントのメタデータに対応するオーディオデータに関連する)外部データが存在するかを示す値、コアエレメントにより識別される(例えば、LPSM、及び/又はLPSM以外のタイプのメタデータといった)メタデータのそれぞれのタイプのペイロードID及びペイロードサイズの値、及びコアエレメントにより識別されたメタデータの少なくとも1つのタイプについてのプロテクション値を含む。
メタデータセグメントのメタデータペイロードは、コアヘッダに後続し、(幾つかの場合において)コアエレメントの値内でネスト化される。
本考案の実施の形態は、ハードウェア、ファームウェア、又はソフトウェア或いは(例えば、プログラマブルロジックアレイとして)両者の組み合わせで実現される。別段の合意がない限り、本考案の一部として含まれるアルゴリズム又はプロセスは、特定のコンピュータ又は他の装置に本質的に関連しない。特に、本明細書での教示に従って記述されたプログラムと共に様々な汎用コンピュータが使用されるか、要求される方法ステップを実行するため、より専用化された装置(例えば集積回路)を構築することは便利な場合がある。従って、本考案は、(例えば、図1のエレメントの何れかの実現、又は図2のエンコーダ100(又はエンコーダのエレメント)、図3のデコーダ200(又はデコーダのエレメント)、又は図3のポストプロセッサ300(ポストプロセッサのエレメント)といった)1以上のプログラマブルコンピュータシステムで実行する1以上のコンピュータプログラムで実現され、それぞれのプログラマブルコンピュータシステムは、少なくとも1つのプロセッサ、(揮発性及び不揮発性メモリ及び/又はストレージエレメントを含む)少なくとも1つのデータストレージシステム、少なくとも1つの入力装置又はポート、及び少なくとも1つの出力装置又はポートを備える。プログラムコードは、データを入力し、本明細書で記載された機能を実行し、出力情報を生成するために利用される。出力情報は、公知のやり方で、1以上の出力装置に適用される。
それぞれの係るプログラムは、コンピュータシステムと通信するため、(マシン、アセンブリ、又は高水準の手続、論理的、又はオブジェクト指向プログラミング言語を含めて)所望のコンピュータ言語で実現される。何れの場合においても、言語は、コンパイルされた言語又は解釈された言語である。
例えば、コンピュータソフトウェアの命令シーケンスにより実現されたとき、本考案の実施の形態の様々な機能及びステップは、適切なデジタル信号処理ハードウェアで実行されるマルチスレッドソフトウェア命令シーケンスにより実現され、その場合、実施の形態の様々な装置、ステップ及び機能は、ソフトウェア命令の一部に対応する。
それぞれの係るコンピュータプログラムは、記憶媒体又は装置が本明細書で記載された手順を実行するためにコンピュータシステムにより読み取られたとき、コンピュータを設定及び動作させるため、汎用又は特定用途向けプログラマブルコンピュータにより読取り可能な(例えば、固体メモリ又は媒体、又は磁気或いは光媒体といった)記憶媒体又は装置に好ましくは記憶又はダウンロードされる。また、本考案のシステムは、コンピュータプログラムにより設定される(すなわち記憶する)コンピュータ読み取り可能な記憶媒体として実現され、この場合、そのように設定された記憶媒体は、コンピュータシステムに、本明細書で記載された機能を実行する特定及び予め定義された方式で動作させる。
本考案の多数の実施の形態が記載された。しかし、本考案の精神及び範囲から逸脱することなしに、様々な変更が行われることを理解されたい。本考案の様々な変更及び変形は、先の教示に照らして可能である。特許請求の範囲において、本考案は、本明細書で特に記載された以外で実施される場合がある。
100:エンコーダ
101:デコード
102:音声状態検証器
103:ラウドネス処理
104:MUX
105:エンコード
106:メタデータジェネレータ
107:スタッファ/フォーマッタ
108:会話ラウドネス測定
109:バッファ
110:バッファ
111:分析器
150:デリバリ
152:デコーダ
200:デコーダ
201:バッファ
202:デコード
203:音声状態検証
204:制御ビットジェネレータ
301:バッファ
300:ポストプロセッサ

Claims (8)

  1. ラウドネス処理の状態を示すメタデータ(LPSM)及びオーディオデータを含む符号化されたビットストリームの少なくとも1つのフレームを記憶する入力バッファメモリと、
    前記入力バッファメモリに結合され、符号化されたオーディオビットストリーム及び/又はLPSMを抽出する分析手段と、
    前記分析手段に結合され、復号化されたオーディオデータのストリームを生成するAC-3又はE-AC-3デコーダと、
    前記デコーダに結合され、前記復号化されたオーディオデータを記憶する出力バッファメモリと、
    を備える音声処理装置。
  2. 前記AC-3又はE-AC-3デコーダに結合され、前記LPSMを使用して復号化されたオーディオデータのストリームの適応的なラウドネス処理を行うラウドネスプロセッサを更に備える、
    請求項1記載の音声処理装置。
  3. 前記AC-3又はE-AC-3デコーダに結合され、前記LPSMを認証及び/又は検証し、及び/又は前記LPSMを使用して復号化されたオーディオデータのストリームを認証及び/又は検証する音声状態検証手段を更に備え、
    前記音声状態検証手段は、前記ラウドネスプロセッサに更に結合され、前記ラウドネスプロセッサの適応的なラウドネス処理を制御する、
    請求項2記載の音声処理装置。
  4. 前記AC-3又はE-AC-3デコーダに結合され、前記LPSMを使用して復号化されたオーディオデータのストリームに適応的なラウドネス処理を行うポストプロセッサを更に備える、
    請求項2記載の音声処理装置。
  5. 前記AC-3又はE-AC-3デコーダに結合され、前記LPSMを認証及び/又は検証し、及び/又は、前記LPSMを使用して復号化されたオーディオデータのストリームを認証及び/検証する音声状態検証手段を更に備え、
    前記音声状態検証手段は、前記ラウドネスプロセッサ及び前記ポストプロセッサに更に結合され、前記ラウドプロセッサ及び前記ポストプロセッサの適応的なラウドネス処理を制御する、
    請求項4記載の音声処理装置。
  6. 前記LPSMは、前記少なくとも1つのフレームにおけるヘッダの後ろに配置される1以上のラウドネス処理の状態のメタデータのコンテナである、
    請求項1記載の音声処理装置。
  7. 前記LPSMは、ラウドネス規制のタイプのスロットを含む、
    請求項1記載の音声処理装置。
  8. 前記LPSMは、ラウドネスの訂正のタイプのスロットを含む、
    請求項1記載の音声処理装置。
JP2013001321U 2013-01-21 2013-03-12 ラウドネス処理の状態を示すメタデータによるオーディオエンコーダ及びデコーダ Expired - Lifetime JP3183637U (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201361754882P 2013-01-21 2013-01-21
US61/754,882 2013-01-21

Publications (1)

Publication Number Publication Date
JP3183637U true JP3183637U (ja) 2013-05-30

Family

ID=48575982

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013001321U Expired - Lifetime JP3183637U (ja) 2013-01-21 2013-03-12 ラウドネス処理の状態を示すメタデータによるオーディオエンコーダ及びデコーダ

Country Status (9)

Country Link
EP (2) EP3082128B1 (ja)
JP (1) JP3183637U (ja)
CN (7) CN107578781B (ja)
DE (1) DE202013001075U1 (ja)
FR (1) FR3001325B3 (ja)
HK (4) HK1198674A1 (ja)
ME (1) ME03067B (ja)
PL (1) PL3082128T3 (ja)
TW (1) TWM467148U (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312266A (zh) * 2013-11-27 2020-06-19 弗劳恩霍夫应用研究促进协会 解码器及方法、编码器及编码方法、***以及计算机程序

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6809221B2 (ja) * 2014-09-12 2021-01-06 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
CN113257273A (zh) * 2014-10-01 2021-08-13 杜比国际公司 高效drc配置文件传输
CN113963724A (zh) * 2021-09-18 2022-01-21 赛因芯微(北京)电子科技有限公司 音频内容元数据和产生方法、电子设备及存储介质

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU653582B2 (en) 1991-01-08 1994-10-06 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
US5632005A (en) 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
US5727119A (en) 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
US7224819B2 (en) * 1995-05-08 2007-05-29 Digimarc Corporation Integrating digital watermarks in multimedia content
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
KR100860984B1 (ko) * 2002-10-15 2008-09-30 삼성전자주식회사 메타데이터 관리 방법
US8301884B2 (en) * 2002-09-16 2012-10-30 Samsung Electronics Co., Ltd. Method of managing metadata
US8979655B2 (en) * 2002-12-10 2015-03-17 Ol2, Inc. System and method for securely hosting applications
CN100474907C (zh) * 2003-06-18 2009-04-01 汤姆森特许公司 在电影胶片上记录数据的装置
US7509255B2 (en) * 2003-10-03 2009-03-24 Victor Company Of Japan, Limited Apparatuses for adaptively controlling processing of speech signal and adaptively communicating speech in accordance with conditions of transmitting apparatus side and radio wave and methods thereof
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US8131134B2 (en) * 2004-04-14 2012-03-06 Microsoft Corporation Digital media universal elementary stream
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US7624021B2 (en) * 2004-07-02 2009-11-24 Apple Inc. Universal container for audio data
AR052601A1 (es) * 2005-03-10 2007-03-21 Qualcomm Inc Clasificacion de contenido para procesamiento de multimedia
TWI397903B (zh) * 2005-04-13 2013-06-01 Dolby Lab Licensing Corp 編碼音訊之節約音量測量技術
TW200638335A (en) * 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
CN101421781A (zh) * 2006-04-04 2009-04-29 杜比实验室特许公司 音频信号的感知响度和/或感知频谱平衡的计算和调整
US20080080722A1 (en) * 2006-09-29 2008-04-03 Carroll Tim J Loudness controller with remote and local control
US8160273B2 (en) * 2007-02-26 2012-04-17 Erik Visser Systems, methods, and apparatus for signal separation using data driven techniques
CN101350604B (zh) * 2007-07-19 2012-07-04 鸿富锦精密工业(深圳)有限公司 自动切换音量调节模式的装置及方法
US20090164473A1 (en) * 2007-12-19 2009-06-25 Harman International Industries, Incorporated Vehicle infotainment system with virtual personalization settings
US20090164378A1 (en) * 2007-12-21 2009-06-25 Steven Marcus Jason West Music Distribution
US8218790B2 (en) * 2008-08-26 2012-07-10 Apple Inc. Techniques for customizing control of volume level in device playback
JP5267115B2 (ja) * 2008-12-26 2013-08-21 ソニー株式会社 信号処理装置、その処理方法およびプログラム
TWI529703B (zh) * 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
TWI525987B (zh) * 2010-03-10 2016-03-11 杜比實驗室特許公司 在單一播放模式中組合響度量測的系統
EP2367286B1 (en) * 2010-03-12 2013-02-20 Harman Becker Automotive Systems GmbH Automatic correction of loudness level in audio signals
TW202405797A (zh) * 2010-12-03 2024-02-01 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
US9171549B2 (en) * 2011-04-08 2015-10-27 Dolby Laboratories Licensing Corporation Automatic configuration of metadata for use in mixing audio programs from two encoded bitstreams
WO2012146757A1 (en) * 2011-04-28 2012-11-01 Dolby International Ab Efficient content classification and loudness estimation

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312266A (zh) * 2013-11-27 2020-06-19 弗劳恩霍夫应用研究促进协会 解码器及方法、编码器及编码方法、***以及计算机程序
US11688407B2 (en) 2013-11-27 2023-06-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder, and method for informed loudness estimation in object-based audio coding systems
CN111312266B (zh) * 2013-11-27 2023-11-10 弗劳恩霍夫应用研究促进协会 解码器及方法、编码器及编码方法、***
US11875804B2 (en) 2013-11-27 2024-01-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation employing by-pass audio object signals in object-based audio coding systems

Also Published As

Publication number Publication date
CN107276552A (zh) 2017-10-20
EP3079257B1 (en) 2019-07-31
CN107257234A (zh) 2017-10-17
EP3079257A1 (en) 2016-10-12
CN107257234B (zh) 2020-09-15
CN107276551A (zh) 2017-10-20
CN107578781A (zh) 2018-01-12
CN103943112A (zh) 2014-07-23
CN107578781B (zh) 2021-01-29
PL3082128T3 (pl) 2018-07-31
FR3001325A3 (fr) 2014-07-25
HK1244111A1 (zh) 2018-07-27
CN203134365U (zh) 2013-08-14
HK1248395A1 (zh) 2018-10-12
CN103943112B (zh) 2017-10-13
CN112652316A (zh) 2021-04-13
TWM467148U (zh) 2013-12-01
EP3082128A1 (en) 2016-10-19
HK1198674A1 (en) 2015-05-22
ME03067B (me) 2019-01-20
HK1244962A1 (zh) 2018-08-17
DE202013001075U1 (de) 2013-04-30
CN112652316B (zh) 2023-09-15
EP3082128B1 (en) 2018-03-21
CN107276551B (zh) 2020-10-02
FR3001325B3 (fr) 2015-07-03
CN107276552B (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
JP6929345B2 (ja) プログラム・ラウドネスおよび境界メタデータをもつオーディオ・エンコーダおよびデコーダ
JP6571062B2 (ja) プログラム情報またはサブストリーム構造メタデータをもつオーディオ・エンコーダおよびデコーダ
KR102473260B1 (ko) 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화
JP3183637U (ja) ラウドネス処理の状態を示すメタデータによるオーディオエンコーダ及びデコーダ

Legal Events

Date Code Title Description
R150 Certificate of patent or registration of utility model

Ref document number: 3183637

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160501

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term