JP3183637U

JP3183637U - ラウドネス処理の状態を示すメタデータによるオーディオエンコーダ及びデコーダ

Info

Publication number: JP3183637U
Application number: JP2013001321U
Authority: JP
Inventors: リードミラージェフリー; ワードミシェル
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2013-01-21
Filing date: 2013-03-12
Publication date: 2013-05-30
Anticipated expiration: 2023-03-12
Also published as: CN107276552A; EP3079257B1; CN107257234A; EP3079257A1; CN107257234B; CN107276551A; CN107578781A; CN103943112A; CN107578781B; PL3082128T3; FR3001325A3; HK1244111A1; CN203134365U; HK1248395A1; CN103943112B; CN112652316A; TWM467148U; EP3082128A1; HK1198674A1; ME03067B

Abstract

【課題】ラウドネス処理の状態を示すメタデータによるオーディオエンコーダ及びデコーダを提供する。
【解決手段】ビットストリームのあるフレームの少なくとも１つのセグメントにラウドネス処理の状態を示すメタデータ（ＬＰＳＭ）を含め、フレームの少なくとも１つの他のセグメントにオーディオデータを含めることで、符号化されたオーディオビットストリームを生成し、ＬＰＳＭを抽出し、典型的に、オーディオデータの適応的なラウドネス処理、又はＬＰＳＭを使用したＬＰＳＭ及び／又はオーディオデータの認証及び／又は検証のうちの少なくとも１つを実行することで、係るビットストリームを復号化する。別の態様は、本方法の実施の形態を実行するために構成される音声処理ユニットであるか、又は本方法の実施の形態に従って生成されたオーディオビットストリームの少なくとも１つのフレームを記憶するバッファメモリを有する音声処理ユニットである。
【選択図】図２

Description

本考案は、音声信号処理に関し、より詳細には、オーディオコンテンツのラウドネス処理の状態を示すメタデータをもつオーディオデータビットストリームの符号化及び復号化に関する。
本考案の幾つかの実施の形態は、Dolby Digital（AC-3），Dolby Digital Plus （Enhanced AC-3又はE-AC-3）として知られるフォーマットのうちの１つでオーディオデータを生成又は復号化する。

本出願は、Michael Ward及びJefferey Riedmiller等による“Audio Encoder and Decoder with Loudness Processing State Metadata”と題された2013年1月21日に提出された米国特許仮出願第61/754,882号の優先権を主張するものである。

Dolby, Dolby Digital, Dolby Digital Plus及びDolby Eは、Dolby Laboratories Licensing Corporationの登録商標である。Dolby Laboratoriesは、Dolby Digital及びDolby Digital Plusとしてそれぞれ知られているAC-3及びE-AC-3の特許権により実施を提供する。

オーディオデータ処理ユニットは、ブラインド方式で一般に動作し、データ受信された前に生じたオーディオデータの処理履歴に注意を払わない。これは、単一のエンティティが様々なターゲットメディアレンダリング装置のための全てのオーディオデータ処理及び符号化を行う一方、ターゲットメディアレンダリング装置が、符号化されたオーディオデータの復号化及びレンダリングを行う処理のフレームワークで機能する。しかし、このブラインド処理は、複数の音声処理ユニットが様々なネットワークにわたり点在し、それらそれぞれのタイプの音声処理を最適に行うことが期待される状況において上手く（又は全く）機能しない。例えば、幾つかのオーディオデータは、高性能メディアシステム向けに符号化され、メディア処理チェインに沿ってモバイル装置に適した低減された形式に変換されなければならない場合がある。従って、音声処理ユニットは、既に行われているオーディオデータへのあるタイプの処理を必ずしも行わない場合がある。例えば、ボリュームレべリングユニットは、同じ又は類似のボリュームレべリングが入力オーディオチップに予め行われているか否かに係わらず、入力オーディオチップに処理を行う場合がある。結果として、ボリュームレべリングユニットは、必要でないときでさえ、レべリングを実行する場合がある。また、この不要な処理は、オーディオデータのコンテンツをレンダリングしている間、特定の特徴の低下及び／又は除去を引き起こす場合がある。

典型的なオーディオデータのストリームは、オーディオコンテンツ（例えば１以上のオーディオコンテンツのチャネル）と、オーディオコンテンツの少なくとも１つの特性を示すメタデータとの両者を含む。例えばAC-3ビットストリームでは、傾聴環境に伝達されるプログラムの音声を変更するために使用されることが特に意図される幾つかのオーディオメタデータが存在する。メタデータパラメータの１つは、ダイアローグ正規化（DIALNORM）パラメータであり、このパラメータは、オーディオプログラムを生じる会話の平均レベルを示すことが意図され、音声の再生信号のレベルを決定するために使用される。

（それぞれが異なるDIALNORMパラメータを有する）異なるオーディオプログラムのセグメントの系列を含むビットストリームの再生の間、AC-3デコーダは、それぞれのセグメントのDIALNORMパラメータを使用して、セグメントの系列の会話の知覚されるラウドネスが一貫性のあるレベルにあるように、再生レベル又はラウドネスを変更する、あるタイプのラウドネス処理を実行する。符号化されたオーディオアイテムの系列におけるそれぞれの符号化されたオーディオセグメント（アイテム）は、（一般に）異なるDIALNORMパラメータを有し、デコーダは、それぞれのアイテムの会話の再生レベルまたはラウドネスが同じ又は類似であるように、アイテムのそれぞれのレベルをスケーリングするが、これは、再生の間に、アイテムのうちの異なるアイテムに異なる量のゲインを適用することを必要とする。

DIALNORMは、一般的にユーザにより設定され、自動的に生成されないが、ユーザにより値が設定されない場合には、デフォルトのDIALNORMの値が存在する。例えばコンテンツクリエータは、AC-3エンコーダの外部にある装置によりラウドネス測定を行い、次いで、DIALNORM値を設定するため、（オーディオプログラムの会話のラウドネスを示す）結果をエンコーダに転送する。従って、DIALNORMパラメータを正しく設定するため、コンテンツクリエータへの依存が存在する。

AC-3ビットストリームにおけるDIALNORMパラメータが何故間違っているかについて、幾つかの異なる理由が存在する。第一に、それぞれのAC-3エンコーダは、DIALNORM値がコンテンツクリエータにより設定されない場合に、ビットストリームの生成の間に使用されるデフォルトのDIALNORMを有する。このデフォルト値は、音声の実際の会話のラウドネスレベルとは実質的に異なる場合がある。第二に、コンテンツクリエータがラウドネスを測定して、これに応じてDIALNORM値を設定したとしても、推奨されるAC-3ラウドネス測定方法に準拠しないラウドネス測定アルゴリズム又はメータが使用される場合があり、結果として誤ったDIALNORM値となる。第三に、AC-3ビットストリームが測定されたDIALNORMで形成され、コンテンツクリエータにより正しく設定されているとしても、ビットストリームの送信及び／又は記憶の間に誤った値に変化している場合がある。例えば、テレビジョンブロードキャストの応用において、AC-3ビットストリームが、誤ったDIALNORMメタデータ情報を使用して復号化され、変更され、次いで再び符号化されることは、珍しくない。このように、AC-3ビットストリームに含まれるDIALNORM値は、間違い又は不正確であり、従って、傾聴体験の品質に悪影響を与える場合がある。

さらに、DIALNORMパラメータは、（例えばどのようなタイプのラウドネス処理がオーディオデータに行われているか、といった）対応するオーディオデータのラウドネス処理の状態を示さない。本考案までは、オーディオビットストリームは、本明細書の開示で記載されるタイプのフォーマットで、（例えば、適用されるラウドネス処理のタイプといった）ラウドネス処理の状態、オーディオビットストリームのオーディオコンテンツ、又はラウドネス処理の状態及びビットストリームのオーディオコンテンツのラウドネスを示すメタデータを含んでいない。係るフォーマットでのラウドネス処理の状態を示すメタデータは、特に効果的なやり方で、オーディオビットストリームの適応ラウドネス処理及び／又はラウドネス処理状態の妥当性の確認、及びオーディオコンテンツのラウドネスを容易にすることに有効である。

PCT国際出願公開WO 2012/075246 A2は、2011年12月1日付けの国際出願日を有し、本出願と同一出願人に譲渡されたものであり、オーディオコンテンツの（例えばラウドネス処理の状態といった）処理状態及び（例えばラウドネスといった）特性を示すメタデータを含むオーディオビットストリームを生成し、復号化及び処理する方法及びシステムを開示する。また、この文献は、メタデータを使用してビットストリームのオーディオコンテンツの適応処理、並びに、メタデータを使用したラウドネス処理の状態及びビットストリームのオーディオコンテンツのラウドネスの妥当性の確認を開示している。しかし、この文献は、本明細書で記載されるタイプのフォーマットで、ラウドネス処理の状態及びオーディオコンテンツのラウドネスを示すメタデータ（LPSM）をオーディオビットストリームに含めることを記載していない。上述したように、係るフォーマットでのLPSMは、特に効果的なやり方で、適応的なラウドネス処理、及び／又は、ラウドネス処理の状態及びオーディオコンテンツのラウドネスの妥当性の検証を容易にするために有効である。

本考案は、AC-3ビットストリーム、E-ACビットストリーム、又はDolby Eビットストリームで使用することに限定されないが、便宜上、ラウドネス処理の状態を示すメタデータを含む係るビットストリームを生成し、復号化し、又はさもなければ処理する実施の形態において記載される。

AC-3符号化ビットストリームは、メタデータと、１から６までのオーディオコンテンツのチャネルとを含む。オーディオコンテンツは、知覚的な音声符号化を使用して圧縮されているオーディオデータである。メタデータは、傾聴環境に伝達されるプログラムの音声の変更において使用することが意図される幾つかのオーディオメタデータパラメータを含む。

AC-3符号化（Dolby Digitalとしても知られる）の詳細は、知られており、以下を含む多くの刊行物で説明されている。
ATSC Standard A52/A: Digital Audio Compression Standard (AC-3), Revision A, Advanced television Systems Committee, 20 Aug.2001; and United States Patents 5,583,962; 5,632,005; 5,633,981; 5,727,119; and 6,021,386。

Dolby Digital Plus 符号化(E-AC-3)の詳細は、“Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System”，AES Conversion Paper 6196, 117^th AES Convention, October 28, 2004で説明されている。

Dolby E符号化の詳細は、“Efficient Bit Allocation, Quantization, and Coding in an Audio Distribution System”, AES Preprint 5068, 107^th AES Conference, August 1999 and “Professional Audio Coder Optimized for Use with Video”, AES Preprint 5033, 107^th AES Conference August 1999。

AC-3符号化オーディオビットストリームのそれぞれのフレームは、オーディオコンテンツ及びデジタルオーディオの１５３６サンプルのメタデータを含む。４８ｋＨｚのサンプリングレートについて、これは、デジタルオーディオの３２ミリ秒又は音声の毎秒３１.２５フレームのレートを表す。

E-AC-3符号化オーディオビットストリームのそれぞれのフレームは、オーディオコンテンツと、フレームが１，２，３又は６つのオーディオデータのブロックをそれぞれ含むかに依存して、デジタルオーディオの２５６，５１２，７６８又は１５３６のデジタルオーディオのサンプルのメタデータとを含む。

図４に示されるように、それぞれのAC-3フレームは、（図５に示されるように）同期ワード（SW）及び２つの誤り訂正ワードのうちの第一の誤り訂正ワード（CRC1）を含む同期情報（SI: Synchronization Information）セクション、メタデータの大部分を含むビットストリーム情報（BSI: Bitstream Information）セクション、データが圧縮されたオーディオコンテンツ（及びメタデータを含む）６つのオーディオブロック（AB0〜AB5）、オーディオコンテンツが圧縮された後に残される不使用ビットを含む排気ビット（W）、より多くのメタデータを含む補助情報（AUX）、及び２つの誤り訂正ワードのうちの第二の誤り訂正ワード（CRC２）を含むセクション（セグメント）に分割される。

図７に示されるように、それぞれのE-AC-3フレームは、同期ワード（SW）を（図５に示されるように）含む同期情報（SI）、大部分のメタデータを含むビットストリーム情報（BSI）セクション、データ圧縮されたオーディオコンテンツ（及びメタデータをも含む）１〜６のオーディオブロック（AB0〜AB5）、オーディオコンテンツが圧縮された後に残された不使用ビットを含む廃棄ビット（W）、より多くのメタデータを含む補助情報セクション（AUX）、及び誤り訂正ワード（CRC）を含むセクション（セグメント）に分割される。

AC-3（又はE-AC-3）ビットストリームでは、傾聴環境に伝達されるプログラムの音声を変更するために使用されることが特に意図される幾つかのオーディオメタデータパラメータが存在する。メタデータパラメータのうちの１つは、DIALNORMパラメータであり、このパラメータは、BSIセグメントに含まれる。

図６に示されるように、AC-3フレームのBSIセグメントは、プログラムのDIALNORM値を示す５ビットのパラメータ（DIALNORM）を含む。同じAC-3フレームで搬送される第二のオーディオプログラムのDIALNORM値を示す５ビットのパラメータ（DIALNORM2）は、AC-3フレームのオーディオ符号化モード（acmod）が“０”を示す場合、すなわちデュアルモノ又は“１＋１”チャネルコンフィギュレーションが使用中であることを示す場合に含まれる。

また、BSIセグメントは、“addbsie”ビットに後続する更なるビットストリーム情報の存在（又は不存在）を示すフラグ（addbsie）、“addbsil”値に後続する更なるビットストリームの情報の長さを示すパラメータ（addbsil）、及び“addbsil”値に後続する最大で６４ビットの更なるビットストリームの情報（addbsi）を含む。

BSIセグメントは、図６に特に示されない他のメタデータの値を含む。

本実施の形態のあるクラスでは、本考案は、オーディオデータを符号化して符号化されたオーディオストリームを生成する段階を含む方法であり、ビットストリームの少なくとも１つのフレームの少なくとも１つのセグメントに、ラウドネス処理の状態を示すメタデータ（LPSM: Loudness Processing State Metadata）を含め、前記フレームの少なくとも１つの他のセグメントにオーディオデータを含める段階を含む。典型的な実施の形態では、本方法は、ビットストリームのそれぞれのフレームにおいて、オーディオデータをLPSMと多重化する段階を含む。典型的な復号化では、デコーダは、（LPSM及びオーディオデータを分析及び分離することを含めて）ビットストリームからLPSMを抽出し、オーディオデータを処理して、オーディオデータを処理して復号化されたオーディオデータのストリームを生成する（及び幾つかのケースでは、オーディオデータの適応ラウドネス処理、又はLPSMを使用したLPSM及び／又はオーディオデータの認証及び／又は検証のうちの少なくとも１つを実行する）。幾つかのケースでは、復号化オーディオデータ及びLPSMは、LPSMを使用して復号化されたオーディオデータへの適応ラウドネス処理を行うために構成されるポストプロセッサにデコーダから転送される。適応ラウドネス処理は、ダイナミックレンジ及び／又はラウドネス制御（例えば会話のラウドネスレべリング又は他のボリュームレべリング）を含むか、ダイナミックレンジ及び／又はラウドネス制御からなる。LPSMに応答して、音声処理ユニットは、対応するオーディオコンテンツに（LPSMにより示されるように）既に実行されたラウドネス処理を無効にする。

本考案の典型的な実施の形態に係る、オーディオビットストリームに埋め込まれたラウドネス処理の状態を示すメタデータは、例えば特定のプログラムのラウドネスが指定された範囲に既にあるか、及び対応するオーディオデータ自身が変更されていない（これにより適用法令とのコンプライアンスを補償することができる）かを検証するため、ラウドネス規制エンティティを有効にする。ラウドネス処理の状態を示すメタデータを含むデータブロックに含まれるラウドネス値は、ラウドネスを再び計算することの代わりに、これを検証するために読み出される。LPSMに応答して、規制代理手段（regulatory agency）は、オーディオコンテンツのラウドネスを計算する必要なしに、対応するオーディオコンテンツがラウドネスの法令及び／又は規制の要件（例えば“CALM” Actとしても知られる、Commercial Advertisement Loudness Mitigation Actの下で公布された規制）に準拠することを判定する。

本考案の別の態様は、本考案の方法の実施の形態を行うために構成される音声処理ユニット（APU）である。本実施の形態の別のクラスでは、本考案は、本考案の方法の実施の形態により生成された符号化されたオーディオストリームの少なくとも１つのフレームを（例えば持続的なやり方で）記憶するバッファメモリ（バッファ）を含むAPUである。APUの例は、エンコーダ（例えばトランスコーダ）、デコーダ、コーデック、前処理システム（プリプロセッサ）、後処理システム（ポストプロセッサ）、オーディオビットストリーム処理システム、及び係るエレメントの組み合わせを含む。

本実施の形態の別のクラスでは、本考案は、オーディオデータセグメントとメタデータセグメントを含む符号化されたオーディオビットストリームを生成するために構成される音声処理ユニット（APU）であり、オーディオデータセグメントは、オーディオデータを示し、メタデータの少なくとも幾つかのそれぞれは、ラウドネス処理の状態を示すメタデータ（LPSM: Loudness Processing State Metadata）を含む。典型的に、ビットストリームのフレームにおける少なくとも１つの係るメタデータセグメントは、第一のタイプのラウドネス処理がフレームのオーディオデータ（すなわち、フレームの少なくとも１つのオーディオデータセグメントにおけるオーディオデータ）で実行されているかを示すLPSMの少なくとも１つのセグメント、フレームのオーディオデータの少なくとも幾つかのラウドネス（例えば、会話を示すフレームのオーディオデータの少なくとも幾つかの会話のラウドネス）を示すLPSMの少なくとも１つの他のセグメントを含む。このクラスの１つの実施の形態では、APUは、入力音声を符号化して、符号化された音声を生成するために構成されるエンコーダであり、オーディオデータセグメントは、符号化された音声を含む。このクラスの典型的な実施の形態では、メタデータセグメントのそれぞれは、本明細書で記載されるように好適なフォーマットを有する。

１つの好適なフォーマットでは、符号化されたビットストリームは、AC-3ビットストリーム又はE-AC-3ビットストリームであり、LPSMを含むメタデータセグメントのそれぞれは、ビットストリームのフレームのビットストリーム情報（BSI）セグメントの“addbsi”フィールドにおいて更なるビットストリーム情報として含められる。LPSMを含むそれぞれのメタデータセグメントは、以下の表１及び表２を参照して本明細書で指定されるフォーマットを有する（すなわち、メタデータセグメントは、表１で指定されるコアエレメント又はそのバリエーションを含み、続いて、（LPSMとしてメタデータを識別する）ペイロードID及びペイロードサイズの値、続いて、ペイロード（表２に示されるフォーマット、又は本明細書で記載される表２に関するバリエーションに示されるフォーマットを有するLPSMデータ）を含む）。

別の好適なフォーマットでは、符号化されたビットストリームは、AC-3ビットストリーム又はE-AC-3ビットストリームであり、LPSMを含むメタデータセグメントのそれぞれは、ビットストリームのフレームのビットストリーム情報（BSI）セグメントの“addbsi”フィールドに含まれるか、又はビットストリームのフレームの終わりで（例えば図４に示されるAUXセグメントといった）補助データフィールドに含まれる。フレームは、１又は２のメタデータセグメントを含み、メタデータセグメントのそれぞれは、LPSMを含み、フレームが２つのメタデータセグメントを含む場合、一方は、フレームのaddbsiフィールドに存在し、他方は、フレームのAUXフィールドに含まれる。LPSMを含むそれぞれのメタデータセグメントは、以下の表１及び表２を参照して本明細書で指定されるフォーマットを有する（すなわち、メタデータセグメントは、表１で指定されるコアエレメント又はそのバリエーション、続いて（LPSMとしてメタデータを識別する）ペイロードID及びペイロードサイズ値、続いてペイロード（表２に示されるフォーマットを有するか、又は本明細書で記載される表２のバリエーションで示されるフォーマットを有するLPSMデータ）を含む）。

別の好適なフォーマットでは、符号化されたビットストリームは、AC-3ビットストリーム又はE-AC-3ビットストリームではないビットストリームであり、LPSMを含むメタデータセグメントのそれぞれは、更なるデータの記憶のために確保されるビットストリームのセグメント（又はフィールド又はスロット）に含められる。LPSMを含むそれぞれのメタデータセグメントは、以下の表１及び表２を参照して、本明細書で指定されたフォーマットに類似又は同一のフォーマットを有する（すなわち、メタデータセグメントは、表１で指定されたエレメントに類似又は同一のコアエレメント、続いて（LPSMとしてメタデータを識別する）ペイロードエレメント及びペイロードサイズの値、続いて、ペイロード（表２に示されるフォーマットに類似又は同一のフォーマットを含むか、又は本明細書で記載される表２のバリエーションを有するLPSMデータ）を含む）。

幾つかの実施の形態では、符号化されたビットストリームは、フレームの系列を含み、フレームのそれぞれは、“addbsi”フィールド（セグメント又はスロットと呼ばれることがある）、及び（例えば符号化されたビットストリームは、AC-3ビットストリーム又はE-AC-3ビットストリームといった）補助フィールド又はスロットを含むビットストリーム情報（BSI）セグメントを含む。また、符号化されたビットストリームは、オーディオデータセグメント（例えば図４に示されるフレームのAB0〜AB5セグメント）及びメタデータセグメントを含み、オーディオデータセグメントは、オーディオデータを示し、メタデータセグメントの少なくとも幾つかのそれぞれは、ラウドネス処理の状態を示すメタデータ（LPSM）を含む。LPSMは、以下のフォーマットでビットストリームに存在する。LPSMを含むメタデータセグメントのそれぞれは、ビットストリームのフレームのBSIセグメントの“addbsi”フィールドに含まれるか、又はビットストリームのフレームの補助フィールドに含まれる。ビットストリームのフレームは、１又は２のメタデータセグメントを含み、メタデータセグメントのそれぞれはLPSMを含み、フレームが２つのメタデータセグメントを含む場合、一方は、フレームのaddbsiフィールドに存在し、他方は、フレームのAUXフィールドに存在する。LPSMを含むそれぞれのメタデータセグメントは、以下のフォーマットを有するLPSMペイロード（又はコンテナ）を含む。

ヘッダ（典型的に、例えばLPSMフォーマットのバージョン、長さ、期間、カウント、及び以下の表２に示されるサブストリームとの関連値といった、少なくとも１つの識別値を含む）。

ヘッダの後に：
（例えば対応するオーディオデータのうちのどのチャネルが会話を示すかといった）対応するオーディオデータが会話を示すか又は会話を示さないかを示す少なくとも１つの会話識別値（例えば、表２のパラメータ「ダイアログチャネル」）。会話を示す値は、会話が対応するオーディオデータのチャネルのうちの組み合わせに存在するか、又は対応するオーディオデータの全てのチャネルに存在するかを示す。

対応するオーディオデータがラウドネスの規制の示されたセットに準拠するかを示す少なくとも１つのラウドネスの規制の準拠値（例えば、表２のパラメータ「ラウドネスレギュレーションタイプ“Loudness Regulation Type”」）。

対応するオーディオデータで実行されたラウドネス処理の少なくとも１つのタイプを示す、少なくとも１つのラウドネス処理値（例えば、表２のパラメータ「ダイアログゲート・ラウドネスコレクションフラグ“Dialog gated Loudness Correction flag”」、「ラウドネスコレクションタイプ」のうちの１以上）。

対応するオーディオデータの少なくとも１つのラウドネス（例えば、ピーク又は平均ラウドネス）の特性を示す、少なくとも１つのラウドネス値（例えば、表２のパラメータ「ITUリラティブゲート・ラウドネス“ITU Relative gated Loudness”」、「ITUスピーチゲート・ラウドネス“ITU Speech gated loudness”」、「ITU(EBU3341)Short-term 3s・ラウドネス“ITU(EBU3341) Short-term 3s Loudness”」、及び「トゥルーピーク“True Peak”」のうちの１以上）。

対応するオーディオデータを示す少なくとも１つのラウドネス値を考慮、使用又は生成する本考案の実施の形態では、ラウドネスの値は、オーディオデータのラウドネス及び／又はダイナミックレンジを処理するために利用される少なくとも１つのラウドネスの測定の特性を示す。

幾つかの実現では、ビットストリームのフレームの“addbsi”フィールド又は補助フィールドにおけるメタデータセグメントのそれぞれは、以下のフォーマットを有する。

コアヘッダ（典型的に、メタデータセグメントの開始を識別する同期ワード、続いて、例えばコアエレメントのバージョン、長さ及び期間、拡張されたエレメントカウント、以下の表１に示されるサブストリームの関連値といった識別値）。

コアヘッダの後にある、少なくとも１つのプロテクション値（例えばHMACダイジェスト及びオーディオフィンガープリント値、HMACダイジェストは、表１に示される、全体のフレームのオーディオデータ、コアエレメント、及び全ての拡張されたエレメントを通して計算される（SHA-2アルゴリズムを使用した）２５６ビットのHMACダイジェストであり、ラウドネス処理の状態のメタデータ又は対応するオーディオデータの少なくとも１つの暗号化解読、認証又は妥当性確認のうちの少なくとも１つについて有効である）。

また、コアヘッダの後にある、メタデータセグメントがLPSMを含む場合、LPSMペイロードとして後続のメタデータを識別し、LPSMペイロードのサイズを示すLPSMペイロード識別子（ID）及びLPSMペイロードサイズ値。（好ましくは先に指定されたフォーマットを有する）LPSMペイロードセグメントは、LPSMペイロードID及びLPSMペイロードサイズの値に後続する。

前のパラグラフで記載されたタイプの幾つかの実施の形態では、フレームの補助フィールド（又は“addbsi”フィールド）のそれぞれは、３つのレベルの構造を有する。

高水準の構造は、補助データフィールド（又はaddbsi）がメタデータを含むかを示すフラグ、どのようなタイプのメタデータが存在するかを示す少なくとも１つのID値、どの位多くの（例えばそれぞれのタイプの）メタデータのビットが存在するか（メタデータが存在する場合）を示す値を含む。存在するあるタイプのメタデータは、LPSMであり、存在する別のタイプのメタデータは、メディアリサーチメタデータである（例えば、Nielsen Media Researchメタデータ）。

中間水準の構造は、それぞれ識別されたメタデータのタイプについてコアエレメントを有する（例えば、それぞれ識別されたメタデータのタイプについて、上述されたタイプのコアヘッダ、プロテクション値、及びペイロードID並びにペイロードサイズの値）。

低水準の構造は、１つのコアエレメントについてそれぞれのペイロードを有する（例えば、コアエレメントにより存在するとしてペイロードが識別された場合には、LPSMペイロード。コアエレメントにより存在するとしてペイロードが識別された場合には、別のタイプのメタデータペイロード）。

係る３レベル構造におけるデータ値はネスト化される。例えば、あるコアエレメントにより識別されるLPSMペイロード及び／又は別のメタデータペイロードのプロテクション値は、コアエレメントにより識別されるそれぞれのペイロードの後（従ってコアエレメントのコアヘッダの後）に含まれる。１つの例では、コアヘッダは、LPSMペイロード及び別のメタデータペイロードを識別し、（例えばLPSMペイロードである）第一のペイロードのペイロードID及びペイロードサイズの値は、コアヘッダに後続し、第一のペイロード自身は、ID及びサイズ値に後続し、第二のペイロードについてペイロードID及びペイロードサイズの値は、第一のペイロードに後続し、第二のペイロード自身は、これらのID及びサイズ値に後続し、ペイロードの一方又は両方（又はコアエレメント値及びペイロードの一方又は両方）のプロテクション値は、最後のペイロードに後続する。

幾つかの実施の形態では、あるフレームの補助フィールド（又は“addbsi”フィールド）におけるメタデータセグメントのコアエレメントは、（典型的に例えばコアエレメントのバージョンといった識別値を含む）コアヘッダを有し、コアヘッダの後に、フィンガープリントデータがメタデータセグメントのメタデータについて含まれるかを示す値、（メタデータセグメントのメタデータに対応するオーディオデータに関連する）外部データが存在するかを示す値、コアエレメントにより識別された（例えば、LPSM、及び／又はLPSM以外のタイプのメタデータといった）メタデータのそれぞれのタイプのペイロードID及びペイロードサイズの値、及びコアエレメントにより識別されたメタデータの少なくとも１つのタイプのプロテクション値を含む。メタデータセグメントのメタデータペイロードは、コアヘッダに後続し、（幾つかのケースでは）コアエレメントの値内でネスト化される。別の好適なフォーマットでは、符号化されたビットストリームは、Dolby Eビットストリームであり、LPSMを含むメタデータセグメントのそれぞれは、Dolby Eガードバンドインターバルの最初のNサンプルに含まれる。

本実施の形態の別のクラスでは、本考案は、オーディオデータセグメント及びメタデータセグメントを有する符号化されたオーディオビットストリームを受信するように結合及び構成されるAPU（例えばデコーダ）であり、オーディオデータセグメントは、オーディオデータを示し、メタデータセグメントの少なくとも幾つかのそれぞれは、ラウドネス処理の状態を示すメタデータ（LPSM）を含む。APUは、ビットストリームからLPSMを抽出し、オーディオデータに応答して復号化されたオーディオデータを生成し、LPSMを使用してオーディオデータに少なくとも１つの適応ラウドネス処理演算を実行する。また、このクラスにおける幾つかの実施の形態は、APUに結合されるポストプロセッサを含み、ポストプロセッサは、LPSMを使用して、オーディオデータに少なくとも１つの適応ラウドネス処理演算を実行するように結合及び構成される。

実施の形態の別のクラスでは、本考案は、音声処理ユニット（APU）であり、バッファメモリ（バッファ）及びバッファに結合される処理サブシステムを含み、APUは、オーディオデータセグメント及びメタデータセグメントを有する符号化されたオーディオビットストリームを受信するように結合され、オーディオデータセグメントは、オーディオデータを示し、メタデータセグメントの少なくとも幾つかのそれぞれは、ラウドネス処理の状態を示すメタデータ（LPSM）を含み、バッファは、符号化されたオーディオビットストリームの少なくとも１つのフレームを（例えば持続的なやり方で）記憶し、処理サブシステムは、ビットストリームからLPSMを抽出し、LPSMを使用してオーディオデータに少なくとも１つの適応ラウドネス処理演算を実行するように構成される。このクラスにおける典型的な実施の形態では、APUは、エンコーダ、デコーダ、ポストプロセッサのうちの１つである。

本考案の方法の幾つかの実現では、生成されるオーディオビットストリームは、他のメタデータ（例えばDIALNORMメタデータパラメータ、ダイナミックレンジ制御メタデータパラメータ、及び他のメタデータパラメータ）と同様に、ラウドネス処理の状態を示すメタデータを含めて、AC-3符号化ビットストリーム、E-AC-3ビットストリーム、又はDolby Eビットストリームのうちの１つである。本方法の幾つかの他の実現では、生成されるオーディオビットストリームは、別のタイプの符号化ビットストリームである。

本考案の態様は、本考案の方法の実施の形態を実行する（例えばプログラムされた）システム又は装置、及び、本考案の方法又は方法の段階の実施の形態を実現するコードを（例えば持続的なやり方で）記憶するコンピュータ読み取り可能な媒体（例えばディスク）を含む。例えば、本システムは、プログラム可能な汎用プロセッサ、デジタルシグナルプロセッサ、又は、ソフトウェア又はファームウェアでプログラムされるか、本方法又は方法の段階の実施の形態を含めて、データに様々な動作の何れかを実行するために構成されるマイクロプロセッサであるか、これらを含む。係る汎用プロセッサは、入力装置、メモリ、アサートされたデータに応答して、本方法（又は方法の段階）の実施の形態を実行するようにプログラムされる（及び／又はさもなければ構成される）処理回路であるか、これらを含むコンピュータシステムである。

［表記及び用語］
特許請求の範囲を含めてこの開示を通して、ある処理を信号又はデータに行う表現（例えばフィルタリング、スケーリング、変換、又は信号又はデータにゲインを適用する）は、信号又はデータに直接に処理を施すこと、或いは処理されたバージョンの信号又はデータに処理を施すこと（例えば予備のフィルタリングを受けている信号のバージョン、又は動作の実行前の前処理を受けた信号のバージョン）を示すために広義で使用される。

特許請求の範囲を含めてこの開示を通して、表現「システム」は、装置、システム又はサブシステムを示すために広義に使用される。例えば、デコーダを実現するサブシステムは、デコーダシステムと呼ばれ、係るサブシステムを含むシステム（例えば複数の入力に応答してＸ出力信号を生成するシステム。サブシステムは、入力のうちのＭ個を生成し、他のＸ−Ｍ入力は、外部ソースから受信される）は、デコーダシステムとも呼ばれる。

特許請求の範囲を含めてこの開示を通して、用語「プロセッサ」は、データ（例えば）、音声、又はビデオ或いは他の画像データ）に処理を施すために（例えばソフトウェア又はファームウェアにより）プログラマブル又はさもなければ機器構成可能なシステム又は装置を示すために、広義で使用される。プロセッサの例は、フィールドプログラマブルゲートアレイ（又は他の機器構成可能な集積回路又はチップセット）、音声又は他のオーディオデータにパイプライン処理を施すためにプログラム及び／又は機器構成されるデジタルシグナルプロセッサ、プログラマブル汎用プロセッサ又はコンピュータ、及びプログラマブルマイクロプロセッサチップ又はチップセットを含む。

特許請求の範囲を含めてこの開示を通して、表現「オーディオプロセッサ」及び「音声処理ユニット」は、交換可能に使用され、オーディオデータを処理するために構成されるシステムを示すために広義で使用される。音声処理ユニットの例は、限定されるものではないが、エンコーダ（例えばトランスコーダ）、デコーダ、コーデック、前処理システム、後処理システム、及びビットストリーム処理システム（ビットストリーム処理ツールと呼ばれることがある）を含む。

特許請求の範囲を含めてこの開示を通して、（例えば表現「ラウドネス処理の状態のメタデータ」におけるような）表現「状態メタデータの処理」は、対応するオーディオデータ（処理状態のメタデータも含む、オーディオデータストリームのオーディオコンテンツ）とは個別且つ異なるデータを示す。処理状態のメタデータは、オーディオデータと関連付けされ、対応するオーディオデータのラウドネス処理の状態を示し（例えばどのようなタイプの処理がオーディオデータに既に施されているか）、典型的に、オーディオデータの少なくとも１つの特徴又は特性を示す。処理状態のメタデータをオーディオデータと関連付けることは、時間同期である。従って、現在の（最も最近に受信された又は更新された）処理状態のメタデータは、対応するオーディオデータがオーディオデータの処理の指示されたタイプの結果を同時に含む。幾つかのケースでは、処理状態のメタデータは、処理の履歴、及び／又は、指示されたタイプの処理で使用されるか、及び／又は指示されたタイプの処理から導出されるパラメータの一部又は全部を含む。さらに、処理状態のメタデータは、オーディオデータから計算又は抽出されている、対応するオーディオデータの少なくとも１つの特徴又は特性を含む。処理状態のメタデータは、対応するオーディオデータの何れかの処理に関連するか、対応するオーディオデータの何れかの処理から導出される他のメタデータを含む。例えば、第三者のデータ、追跡情報、識別子、機密又は標準の情報、ユーザ注釈データ、ユーザ選択データ等は、他の音声処理ユニットに移るため、特定の音声処理ユニットにより追加される。

特許請求の範囲を含めてこの開示を通して、表現「ラウドネス処理の状態のメタデータ」（又は“LPSM”）は、対応するオーディオデータのラウドネス処理の状態を示す処理状態のメタデータ（例えば、どのようなタイプのラウドネス処理がオーディオデータに施されているか）、及び一般に対応するオーディオデータの少なくとも１つの特徴又は特性（例えばラウドネス）をも示す。ラウドネス処理の状態のメタデータは、ラウドネス処理の状態のメタデータではない（すなわち単独で考えられるとき）データ（例えば、他のデータ）を含む。

特許請求の範囲を含めてこの開示を通して、用語「結合する“couples”」又は「結合された“coupled”」は、直接的又は間接的な接続の何れかを意味するために使用される。従って、第一の装置が第二の装置に結合される場合、その接続は、直接的な接続を通して、又は他の装置及び接続を介しての間接的な接続を通しての接続である。

本考案の方法の実施の形態を実行するように構成されるシステムの実施の形態のブロック図である。本考案の音声処理ユニットの実施の形態であるエンコーダのブロック図である。本考案の音声処理ユニットの実施の形態であるデコーダ、及び音声処理ユニットに結合され、本考案の音声処理ユニットの別の実施の形態であるポストプロセッサのブロック図である。分割されるセグメントを含むAC-3フレームの図である。分割されるセグメントを含むAC-3フレームの同期情報（SI）セグメントの図である。分割されるセグメントを含むAC-3フレームのビットストリーム情報（BSI）の図である。分割されるセグメントを含むE-AC-3フレームの図である。

本考案の典型的な実施の形態によれば、ラウドネス処理の状態のメタデータ（LPSM）は、他のセグメント（オーディオデータのセグメント）にオーディオデータを含むオーディオビットストリームのメタデータのセグメントの１以上の予約されたフィールド（又はスロット）に埋め込まれる。典型的に、ビットストリームのそれぞれのフレームの少なくとも１つのセグメントは、LPSMを含み、フレームの少なくとも１つの他のセグメントは、対応するオーディオデータ（すなわち、そのラウドネス処理の状態及びラウドネスがLPSMにより示されるオーディオデータ）を含む。幾つかの実施の形態では、LPSMのデータボリュームは、オーディオデータを搬送するために割り当てられるビットレートに影響を及ぼすことなしに、搬送されるように十分に小さい。

オーディオデータの処理チェインにおいてラウドネス処理の状態のメタデータを伝達することは、２以上の音声処理ユニットが処理チェイン（又はコンテンツのライフサイクル）を通して互いに協力して機能することが必要とされるときに特に有効である。オーディオビットストリームにラウドネス処理の状態のメタデータを包含しないことで、２以上のオーディオコーデックがチェインにおいて利用され、且つシングルエンドのボリュームレべリングがビットストリームのメディア消費装置（又はビットストリームのオーディオコンテンツのレンダリングポイント）への転送の間に一度を超えて適用されるときに、品質、レベル及び空間的な品質の低下のような厳しいメディア処理の問題が生じる場合がある。

図１は、例示的な音声処理チェイン（オーディオデータ処理システム）のブロック図であり、システムの１以上のエレメントは、本考案の実施の形態に従って構成される。本システムは、図示されるように互いに結合される以下の構成要素を含む。前処理ユニット、エンコーダ、信号分析及びメタデータ訂正ユニット、トランスコーダ、及び後処理ユニット。図示されるシステムのバリエーションにおいて、１以上のエレメントが省略されるか、更なる音声処理ユニットが含まれる。

幾つかの実現では、図１の前処理ユニットは、入力としてオーディオコンテンツを含むＰＣＭ（時間領域）サンプルを受け、処理されたＰＣＭサンプルを出力する。エンコーダは、ＰＣＭサンプルを入力として受け、オーディオコンテンツを示す符号化された（例えば圧縮された）オーディオビットストリームを出力する。オーディオコンテンツを示すビットストリームのデータは、「オーディオデータ」と呼ばれることがある。エンコーダが本考案の典型的な実施の形態に従って構成される場合、エンコーダから出力されたオーディオビットストリームは、オーディオデータと同様に、ラウドネス処理の状態のメタデータ（及び典型的に他のメタデータ）を含む。

図１の信号分析及びメタデータ補正ユニットは、１以上の符号化されたオーディオビットストリームを入力として受け、信号解析を実行することで、それぞれの符号化されたオーディオビットストリームにおける処理状態のメタデータが正しいかを判定（例えば評価）する。含まれたメタデータが無効であると信号解析及びメタデータ訂正ユニットが判定した場合、信号解析及びメタデータ訂正ユニットは、誤った値を、信号解析から得られた正しい値で置き換える。従って、信号解析及びメタデータ訂正ユニットから出力された、それぞれ符号化されたオーディオビットストリームは、符号化されたオーディオデータと同様に、訂正された（又は訂正されていない）処理状態のメタデータを含む。

図１のトランスコーダは、符号化されたオーディオビットストリームを入力として受け、これに応じて、（例えば入力ビットストリームを復号化し、復号化されたストリームを異なる符号化フォーマットで、符号化し直すことで）変更された（例えば異なって符号化された）オーディオビットストリームを出力する。トランスコーダは本考案の典型的な実施の形態に従って構成される場合、トランスコーダから出力されるオーディオビットストリームは、符号化されたオーディオデータと同様に、ラウドネス処理の状態のメタデータ（及び典型的に他のメタデータ）を含む。メタデータは、ビットストリームに含まれる場合がある。

図１のデコーダは、符号化された（例えば圧縮された）オーディオビットストリームを入力として受け、これに応じて、復号化されたＰＣＭオーディオサンプルのストリームを出力する。デコーダが本考案の典型的な実施の形態に従って構成される場合、典型的な処理におけるデコーダの出力は、以下のものであるか、又は以下の何れかを含む。
オーディオサンプルのストリーム、及び入力の符号化されたビットストリームから抽出されたラウドネス処理の状態のメタデータ（及び典型的に他のメタデータ）の対応するストリーム。
オーディオサンプルのストリーム、入力の符号化されたビットストリームから抽出されたラウドネス処理の状態のメタデータ（及び典型的に他のメタデータ）から決定された制御ビットの対応するストリーム。

処理状態のメタデータ、又は処理状態のメタデータから決定される制御ビットの対応するストリームがない、オーディオサンプルのストリーム。この最後のケースでは、デコーダは、たとえデコーダが抽出されたメタデータ又は処理状態のメタデータから決定された制御ビットを出力しないとしても、入力の符号化されたビットストリームからラウドネス処理の状態のメタデータ（及び／又は他のメタデータ）を抽出し、抽出されたメタデータに少なくとも１つの処理（例えば検証）を施す。

本考案の典型的な実施の形態に係る図１の後処理ユニットを構成することで、後処理ユニットは、復号化されたＰＣＭオーディオサンプルのストリームを受け、サンプルと共に受信されたラウドネス処理の状態のメタデータ（及び典型的に他のメタデータ）、又はサンプルと共に受信された（ラウドネス処理の状態のメタデータ及び典型的に他のメタデータからデコーダにより決定された）制御ビットを使用して、後処理（例えばオーディオコンテンツのボリュームレべリング）を施す。また、後処理ユニットは、１以上のスピーカによる再生のため、後処理されたオーディオコンテンツをレンダリングするために構成される。

本考案の典型的な実施の形態は、拡張された音声処理チェインを提供するものであり、この処理チェインでは、音声処理ユニット（例えばエンコーダ、デコーダ、トランスコーダ、前処理及び後処理ユニット）は、音声処理ユニットによりそれぞれ受信されたラウドネス処理の状態のメタデータにより示されるメディアデータの同時の状態に従って、オーディオデータに適用されるべきそれぞれの処理を適用する。図１のシステムの音声処理ユニット（図１のエンコーダ又はトランスコーダ）に入力されるオーディオデータは、オーディオデータ（例えば符号化されたオーディオデータ）と同様に、ラウドネス処理の状態のメタデータ（及び任意に他のメタデータ）を含む。このメタデータは、本考案の実施の形態に従って、図１のシステムの別のエレメント（又は図１に示されない別のソース）により、入力された音声に含まれる。（メタデータと共に）入力された音声を受信した処理ユニットは、少なくとも１つの処理（例えば検証）をメタデータに施すか、又はメタデータに応答して少なくとも１つの処理（例えば入力された音声の適応処理）を施し、典型的に、その出力音声にメタデータ、処理されたバージョンのメタデータ、又はメタデータから決定された制御ビットを含める。

本考案の音声処理ユニット（又はオーディオプロセッサ）の典型的な実施の形態では、オーディオデータに対応するラウドネス処理の状態のメタデータにより示される、オーディオデータの状態に基づいて、オーディオデータの適応処理を行う。幾つかの実施の形態では、適応処理は、（ラウドネス処理、又はラウドネス処理に類似した処理がオーディオデータに既に施されていないことをメタデータは示す場合）ラウドネス処理であるか又はラウドネス処理を含むか、（係るラウドネス処理又はラウドネス処理に類似した処理がオーディオデータに既に施されていることをメタデータが示す場合）ラウドネス処理でないか（及びラウドネス処理を含まない）。幾つかの実施の形態では、適応処理は、ラウドネス処理の状態のメタデータにより示される、オーディオデータの状態に基づいて、オーディオデータの他の適応的な処理を音声処理ユニットが実行することを保証するため、（メタデータの検証のサブユニットで実行される）メタデータの検証であるか又はメタデータの検証を含む。幾つかの実施の形態では、検証は、オーディオデータと関連される（例えばオーディオデータと共にビットストリームに含まれる）ラウドネス処理の状態のメタデータの信頼性を判定する。例えば、メタデータが信頼できると認証された場合、あるタイプの前に実行された音声処理からの結果が再び使用され、同じタイプの音声処理の新たな性能が回避される場合がある。他方で、メタデータが改ざんされたと分かった場合（又は信頼できないと分かった場合）、（信頼できないメタデータにより示される）意図的に前に施されたタイプのメディア処理は音声処理ユニットにより繰り返され、及び／又は他の処理は、メタデータ及び／又はオーディオデータに音声処理ユニットにより施される。また、音声処理ユニットは、音声処理ユニットが（例えば抽出された暗号値と基準の暗号値との整合に基づいて）処理状態のメタデータが有効であると判定した場合に、拡張されたメディア処理チェインにおいてダウンストリームにある他の音声処理ユニットに、（例えばメディアビットストリームに存在する）ラウドネス処理の状態のメタデータが有効であることを指示する。

図２は、本考案の音声処理ユニットの実施の形態であるエンコーダ１００のブロック図である。エンコーダ１００のコンポーネント又はエレメントの何れかは、１以上のプロセス及び／又は１以上の回路（例えばＡＳＩＣ，ＦＰＧＡ、又は他の集積回路）として、ハードウェア、ソフトウェア、或いはハードウェアとソフトウェアとの組み合わせで実現される。エンコーダ１００は、図示されるように接続される、フレームバッファ１１０、分析手段１１１、デコーダ１０１、音声状態の検証手段１０２、ラウドネス処理ステージ１０３、オーディオストリーム選択ステージ１０４、エンコーダ１０５、スタッファ／フォーマッタステージ１０７、メタデータ生成ステージ１０６、会話のラウドネス測定サブシステム１０８及びフレームバッファ１０９を備える。また、典型的に、エンコーダ１００は、他の処理エレメント（図示せず）を含む。

（トランスコーダである）エンコーダ１００は、（例えばAC-3ビットストリーム、E-AC-3ビットストリーム、又はDolby Eビットストリームのうちの１つである）入力オーディオビットストリームを、入力ビットストリームに含まれるラウドネス処理の状態のメタデータを使用して適応及び自動化されたラウドネス処理を行うことを含めて、（例えばAC-3ビットストリーム、E-AC-3ビットストリーム又はDolby Eビットストリームのうちの別の１つである）符号化された出力オーディオビットストリームに変換する。例えば、エンコーダ１００は、入力のDolby Eビットストリーム（制作及びブロードキャスト施設で典型的に使用されるフォーマットであるが、コンシューマ装置にブロードキャストされるオーディオプログラムを受信するコンシューマ装置において使用されない）を、AC-3又はE-AC-3フォーマットで（コンシューマ装置へのブロードキャストに適した）符号化された出力オーディオビットストリームに変換する。

また、図２のシステムは、（エンコーダ１００から出力された符号化ビットストリームを記憶及び／又は配信する）符号化されたオーディオデリバリサブシステム及びデコーダ１５２を含む。エンコーダ１００から出力された符号化されたオーディオビットストリームは、サブシステム１５０により記憶されるか、又は（送信リンク又はネットワークを実現する）サブシステム１５０により送信されるか、或いはサブシステム１５０により記憶及び送信される場合がある。デコーダ１５２は、ビットストリームのそれぞれのフレームからラウドネス処理の状態のメタデータ（LPSM）を抽出し、復号化されたオーディオデータを生成することを含めて、デコーダ１５２がサブシステム１５０を介して受信する（エンコーダ１００により生成された）符号化されたオーディオビットストリームを復号化する。典型的に、デコーダ１５２は、LPSMを使用して復号化されたオーディオデータに適応ラウドネス処理を施し、及び／又は復号化されたオーディオデータ及びLPSMを、LPSMを使用して復号化されたオーディオデータに適応ラウドネス処理を施す後処理プロセッサに送出する。典型的に、デコーダ１５２は、サブシステム１５０から受信された符号化されたオーディオビットストリームを（例えば一時的なやり方で）記憶するバッファを含む。

エンコーダ１００及びデコーダ１５２の様々な実現は、本考案の方法の異なる実施の形態を実行する。

フレームバッファ１１０は、符号化された入力のオーディオビットストリームを受信するために結合されるバッファメモリである。動作において、バッファ１１０は、符号化されたオーディオビットストリームの少なくとも１つのフレームを（例えば持続性のあるやり方で）記憶し、符号化されたオーディオビットストリームのフレームの系列は、バッファ１１０から分析手段１１０に送出される。

分析手段１１１は、符号化された入力音声のそれぞれのフレームからラウドネス処理の状態のメタデータ（LPSM）及び他のメタデータを抽出し、少なくともLPSMをオーディオ状態検証手段１０２、ラウドネス処理ステージ１０３、ステージ１０６及びサブシステム１０８に送出し、符号化された入力音声からオーディオデータを抽出し、オーディオデータをデコーダ１０１に送出する。エンコーダ１００のデコーダ１０１は、オーディオデータを復号化して、復号化されたオーディオデータを生成し、復号化されたオーディオデータをラウドネス処理ステージ１０３、オーディオストリームの選択ステージ１０４、サブシステム１０８、及び典型的に状態検証手段１０２に送出する。

状態検証手段１０２は、状態検証手段に送出されるLPSM（及び任意に他のメタデータ）を認証及び検証する。幾つかの実施の形態では、LPSMは、（例えば本考案の実施の形態に従う）入力ビットストリームに含まれているデータブロックである（又は入力ビットストリームに含まれているデータブロックに含まれる）。ブロックは、LPSM（及び任意に他のメタデータ）、及び／又は（デコーダ１０１から検証手段１０２に提供される）オーディオデータを処理するため、暗号学的ハッシュ（ハッシュに基づくメッセージ認証コード又は“HMAC”）を含む。データブロックは、ダウンストリームの音声処理ユニットが処理状態のメタデータを比較的容易に認証及び検証するように、これらの実施の形態でデジタル署名される。

例えば、HMACは、ダイジェストを生成するために使用され、本考案のビットストリームに含まれるプロテクション値は、ダイジェストを含む。ダイジェストは、AC-3フレームについて、以下のように生成される。

１．AC-3データ及びLPSMが符号化された後、フレームデータバイト（連結されたframe_data#1及びframe_data#2）及びLPSMデータバイトは、ハッシュ関数HMACの入力として使用される。補助フィールド内に存在する場合がある他のデータは、ダイジェストを計算するために考慮されない。係る他のデータは、AC-3データ及びLSPSMデータの何れにも属さないバイトである。LPSMに含まれるプロテクションビットは、HMACダイジェストを計算するために考慮されない。

２．ダイジェストが計算された後、ダイジェストは、プロテクションビットについて確保されたフィールドにおいて、ビットストリームに書き込まれる。

３．完全なAC-3フレームの生成の最後のステップは、CRCチェックの計算である。これは、フレームの最後の最後で書き込まれ、このフレームに属している全てのデータは、LPSMビットを含めて考慮される。

限定されるものではないが、１以上の非HMAC暗号化方法の何れかを含む他の暗号化方法は、LPSM及び／又は基本のオーディオデータの安全な送信及び受信を保証するため、（例えば検証手段１０２において）LPSMの検証のために使用される。例えば、（係る暗号化方法を使用した）検証は、それぞれ音声処理ユニットで実行され、それぞれの音声処理ユニットは、本考案のオーディオビットストリームの実施の形態を受けて、ビットストリームに含まれるラウドネス処理の状態のメタデータ及び対応するオーディオデータが（メタデータにより示される）特定のラウドネス処理を受けたか（及び／又は特定のラウドネス処理によって生じたか）、係る特定のラウドネス処理の実行後に変更されていないかを判定する。

状態検証手段１０２は、制御データをオーディオストリーム選択ステージ１０４、メタデータジェネレータ１０６、及び会話ラウドネス測定サブシステム１０８に送出して、検証処理の結果を示す。制御データに応答して、ステージ１０４は、以下の何れかを選択する（及び、エンコーダ１０５に移す）。

ラウドネス処理ステージ１０３の適応的に処理された出力（例えば、デコーダ１０１から出力されたオーディオデータが特定のタイプのラウドネス処理を受けていないことをLPSMが示し、LPSMが有効であることを検証手段１０２からの制御ビットが示すとき）。

デコーダ１０１から出力されるオーディオデータ（デコーダ１０１から出力されるオーディオデータがステージ１０３により行われた特定のタイプのラウドネス処理を既に受けていることをLPSMが示し、LPSMが有効であることを検証手段１０２からの制御ビットが示すとき）。

エンコーダ１００のステージ１０３は、デコーダ１０１により抽出されたLPSMにより示される１以上のオーディオデータの特性に基づいて、デコーダ１０１から出力される復号化されたオーディオデータに適応的なラウドネス処理を施す。ステージ１０３は、適応的な変換領域のリアルタイムのラウドネス及びダイナミックレンジの制御プロセッサである。ステージ１０３は、ユーザ入力（例えばターゲットラウドネス／ダウナミックレンジ値又はダイアローグ正規化（dialnorm）値）、又は他のメタデータ入力（１以上のタイプの第三者データ、トラッキング情報、識別子、独占所有権又は標準の情報、ユーザ注釈データ、ユーザ選択データ等）、及び／又は（例えばフィンガープリントプロセスからの）他の入力を受け、係る入力を使用して、デコーダ１０１から出力された復号化されたオーディオデータを処理する。

会話ラウドネス測定サブシステム１０８は、例えば、LPSMが無効であることを検証手段１０２からの制御ビットが示すとき、デコーダ１０１により抽出されたLPSM（及び／又は他のメタデータ）を使用して、会話（又は他の音声）を示す（デコーダ１０１からの）復号化された音声のセグメントのラウドネスを決定するように動作する。会話ラウドネス測定サブシステム１０８の動作は、LPSMが有効であることを検証手段１０２からの制御ビットが示すとき、（デコーダ１０１からの）復号化された音声の会話（又は他の音声）のセグメントの前に決定されたラウドネスをLPSMが示すときに無効にされる。

オーディオコンテンツにおける会話のレベルを便利且つ容易に測定する有効なツールが存在する（例えばDolby LM100ラウドネスメータ）。本考案のAPUの幾つかの実施の形態（エンコーダ１００のステージ１０８）は、（例えばエンコーダ１００のデコーダ１０１からステージ１０８に送出された復号化されたAC-3ビットストリームといった）オーディオビットストリームのオーディオコンテンツの平均の会話のラウドネスを測定するツールを含む（又は平均の会話のラウドネスを測定するツールの機能を実行する）ように実現される。

ステージ１０８がオーディオデータの真の平均の会話のラウドネスを測定するように実現される場合、測定は、会話を主に含むオーディオコンテンツのセグメントを分離するステップを含む。主に会話であるオーディオセグメントは、次いで、ラウドネス測定アルゴリズムに従って処理される。AC-3ビットストリームから復号化されたオーディオデータについて、このアルゴリズムは、（国際標準ITU-R BS.1770に従う）標準的なK-weightedラウドネス測定である。代替的に、（例えばラウドネスの心理音響的なモデルに基づくような）他のラウドネス測定が使用される。

会話のセグメントの分離は、オーディオデータの平均の会話のラウドネスを測定するために必須ではない。この分離は、測定の精度を改善し、典型的に、傾聴者の観点からより満足される結果を提供する。全てのオーディオコンテンツが会話（スピーチ）を含むものではないため、全体のオーディオコンテンツのラウドネス測定は、音声が存在しており、音声の会話のレベルの十分な近似を提供する。

メタデータジェネレータ１０６は、エンコーダ１００から出力されるべき符号化ビットストリームに、ステージ１０７により含まれるメタデータを生成する。メタデータジェネレータ１０６は、（例えばLPSM及び／又は他のメタデータが有効であることを検証手段１０２からの制御ビットが示すとき）エンコーダ１０１により抽出されたLPSM（及び／又は他のメタデータ）をステージ１０７に移すか、又は、新たなLPSM（及び／又は他のメタデータ）を生成し、（例えばデコーダ１０１により抽出されたLPSM及び／又は他のメタデータが無効であることを検証手段１０２からの制御ビットが示すとき）新たなメタデータをステージ１０７に送出するか、又はデコーダ１０１により抽出されたメタデータと新たに生成されたメタデータとの組み合わせをステージ１０７に送出する。メタデータジェネレータ１０６は、サブシステム１０８により生成されたラウドネスデータ、サブシステム１０８により実行されたラウドネス処理のタイプを示す少なくとも１つの値をLPSMに含め、メタデータジェネータ１０６は、エンコーダ１００から出力されるべき符号化されたビットストリームに含めるため、ステージ１０７に送出する。

メタデータジェネレータ１０６は、符号化されたビットストリームに含まれるLPSM（及び任意の他のメタデータ）、及び／又は符号化されたビットストリームに含まれるべき基本となるオーディオデータの復号、認証又は検証の少なくとも１つの有効な（ハッシュに基づくメッセージ認証コード又は“HMAC”から構成されるか又はハッシュに基づくメッセージ認証コード又は“HMAC”を含む）プロテクションビットを生成する。メタデータジェネレータ１０６は、符号化されたビットストリームに含めるため、係るプロテクションビットをステージ１０７に提供する。

典型的な動作では、会話のラウドネス測定サブシステム１０８は、デコーダ１０１からのオーディオデータ出力を処理して、この処理に応答して、ラウドネス値（例えばゲート及びアンゲートされた会話のラウドネスの値）及びダイナミックレンジの値を生成する。これらの値に応答して、メタデータジェネレータ１０６は、エンコーダ１００から出力される符号化されたビットストリームに（スタッファ／フォーマッタ１０７により）含めるため、ラウドネス処理の状態のメタデータ（LPSM）を生成する。

付加的に、任意に、又は代替的に、エンコーダ１００のサブシステム１０６及び／又は１０８は、オーディオデータの更なる分析を行い、ステージ１０７から出力されるべき符号化されたビットストリームに含めるため、オーディオデータの少なくとも１つの特性を示すメタデータを生成する。

エンコーダ１０５は、選択ステージ１０４から出力されたオーディオデータを（例えばオーディオデータへの圧縮を施すことで）符号化し、符号化されたオーディオデータを、ステージ１０７から出力されるべき符号化されたビットストリームに含めるためにステージ１０７に送出する。

ステージ１０７は、エンコーダ１０５からの符号化されたオーディオデータとジェネレータ１０６からの（LPSMを含む）メタデータとを多重化して、符号化されたビットストリームが本考案の好適な実施の形態により指定されたフォーマットを有するように、ステージ１０７から出力されるべき符号化されたビットストリームを生成する。

フレームバッファ１０９は、ステージ１０７から出力された符号化されたオーディオビットストリームの少なくとも１つのフレームを（例えば持続的なやり方で）記憶するバッファメモリであり、符号化されたオーディオビットストリームのフレーム系列は、次いで、エンコーダ１００からの出力としてバッファ１０９からデリバリシステム１５０に送出される。

メタデータジェネレータ１０６により生成され、ステージ１０７により符号化されたビットストリームに含まれるLPSMは、（例えばどのようなタイプのラウドネス処理がオーディオデータに施されたかといった）対応するオーディオデータのラウドネス処理の状態、及び対応するオーディオデータの（例えば測定された会話のラウドネス、ゲート及び／又はアンゲートされたラウドネス、及び／又はダイナミックレンジといった）ラウドネスを示す。

ここで、オーディオデータに施されウラウドネス及び／又はレベル測定のゲート“gating”とは、特定のレベル又はラウドネスの閾値を示し、この場合、閾値を超える計算された値は、最終的な測定に含まれる（例えば最終的に測定された値における−６０ｄＢＦＳ以下の短期間のラウドネス値を無視すること）。ある絶対値に関するゲートとは、固定されたレベル又はラウドネスを示し、相対値に関するゲートとは、現在の「アンゲート“ungated”」測定値に依存する値を示す。

エンコーダ１００の幾つかの実現では、メモリ１０９に記憶される（及びデリバリシステム１５０に出力される）符号化されたビットストリームは、AC-3ビットストリーム又はE-AC-3ビットストリームであり、オーディオデータのセグメント（例えば図４に示されるフレームのAB0-AB5セグメント）及びメタデータのセグメントを含み、この場合、オーディオデータのセグメントは、オーディオデータを示し、メタデータのセグメントの少なくとも幾つかのそれぞれは、ラウドネス処理の状態のメタデータ（LPSM）を含む。ステージ１０７は、以下のフォーマットでビットストリームにLPSMを挿入する。LPSMを含むメタデータのセグメントのそれぞれは、ビットストリームのフレームのビットストリーム情報（BSI）セグメントの“addbsi”フィールドに含まれるか、又はビットストリームのフレームの終わりにある補助データフィールド（例えば図４に示されるAUXセグメント）に含まれる。ビットストリームのフレームは、１又は２のメタデータセグメントを含み、それぞれのセグメントは、LPSMを含み、フレームが２つのメタデータセグメントを含む場合、一方は、フレームのaddbsiフィールドに存在し、他方は、フレームのAUXフィールドに存在する。LPSMを含むそれぞれのメタデータのセグメントは、以下のフォーマットを有するLPSMペイロード（又はコンテナ）セグメントを含む。

ヘッダ（典型的に、以下の表２に示されるLPSMフォーマットバージョン、長さ、期間、カウント、及びサブストリームの関連値といった少なくとも１つの識別値により後続される、LPSMペイロードの開始を識別する同期ワードを含む）。

ヘッダの後に、以下が存在する。

（例えば対応するオーディオデータのどのチャネルが会話を示すかといった）対応するオーディオデータが会話を示すか、又は会話を示さないかを示す少なくとも１つの会話を示す値（例えば表２のパラメータ“Dialog channel(s)”）。

対応するオーディオデータが指示されたセットのラウドネス規制に従うかを示す少なくともラウドネス規制の準拠値（例えば表２のパラメータ“Loudness Regulation Type”）。

対応するオーディオデータで施されたラウドネス処理の少なくとも1つのタイプを示す少なくとも１つのラウドネス処理値（例えば１以上のパラメータ“Dialog gated Loudness Correction flag”、“Loudness Correction Type”）。

対応するオーディオデータの少なくとも１つのラウドネス（例えばピーク又は平均ラウドネス）特性を示す少なくとも１つのラウドネス値（例えば、１以上のパラメータ“ITU Relative Gated Loudness”、“ITU Speech gated Loudness”、“ITU（EBU3341） Short-term 3s Loudness”及び“True Peak”）。

幾つかの実現では、ビットストリームのフレームの“addbsi”フィールド又は補助フィールドにステージ１０７により挿入されるメタデータセグメントのそれぞれは、以下のフォーマットを有する。

コアヘッダ（典型的に、以下の表１に示される例えばコアエレメントのバージョン、長さ、期間、拡張されたエレメントカウント、及びサブストリームに関連する値といった識別値により後続される、メタデータのセグメントの開始を識別する同期ワードを含む）。

また、コアヘッダの後に、メタデータセグメントがLPSMを含む場合、LPSMペイロードとして後続のメタデータを識別し、LPSMペイロードのサイズを示すLPSMペイロード識別子（ID）及びLPSMペイロードサイズ値。

（好ましくは、先に指定されたフォーマットを有する）LPSMペイロード（又はコンテナ）セグメントは、LPSMペイロードID及びLPSMペイロードのサイズ値に続く。

幾つかの実施の形態では、あるフレームの補助フィールド（又は“addbsi”フィールド）におけるメタデータセグメントのそれぞれは、３つのレベルの構造を有する。

ハイレベル構造は、補助データ（又はaddbsi）フィールドがメタデータを含むかを示すフラグ、どのタイプのメタデータが存在するかを示す少なくとも１つのID値、及び典型的に、どの位多くの（例えばそれぞれのタイプの）メタデータのビットが（メタデータが存在する場合に）存在するかを示す値を含む。存在することのできるあるタイプのメタデータは、LSPMであり、存在することのできる別のタイプのメタデータは、（例えばNielsen Media Researchメタデータといった）メディアリサーチメタデータである。

ミドルレベル構造は、それぞれ識別されたタイプのメタデータについてコアエレメント（例えば、それぞれ識別されたタイプのメタデータについて、上述されたコアヘッダ、プロテクション値、及びLPSMペイロードID及びLPSMペイロードサイズ値）を含む。

ロウレベル構造は、１つのコアエレメントのそれぞれのペイロードを含む（例えばペイロードが存在するとしてコアエレメントにより識別された場合にはLPSMペイロード、及び／又はペイロードが存在するとしてコアエレメントにより識別された場合には別のタイプのメタデータペイロード）。

係る３つのレベルの構造におけるデータ値は、ネスト化させることができる。例えば、コアエレメントにより識別されたLPSMペイロード及び／又は別のメタデータペイロードのプロテクション値は、コアエレメントにより識別されたそれぞれのペイロードの後（及び従ってコアエレメントのコアヘッダの後）に含まれる。１つの例では、コアヘッダは、LPSMペイロード及び別のメタデータペイロードを識別し、（例えばLPSMペイロードといった）最初のペイロードのペイロードIDとペイロードサイズの値は、コアヘッダに続き、最初のペイロード自身は、ID及びサイズ値に続き、第二のペイロードのペイロードIDとペイロードサイズ値は、最初のペイロードに続き、第二のペイロード自身は、これらID及びサイズ値に続き、両方のペイロード（又はコアエレメント及び両方のペイロードについて）のプロテクションビットは、最後のペイロードに続く。

幾つかの実施の形態では、デコーダ１０１が暗号学的ハッシュにより本考案の実施の形態に従って生成されたオーディオビットストリームを受信したとき、デコーダは、ビットストリームから決定されたデータブロックから暗号学的ハッシュを分析及び検索し、前記ブロックは、ラウドネス処理の状態のメタデータ（LPSM）を含む。検証手段１０２は、暗号学的ハッシュを使用して、受信されたビットストリーム及び／又は関連するメタデータを検証する。例えば検証手段１０２は、基準の暗号学的ハッシュとデータブロックから取得された暗号学的ハッシュとの間の整合に基づいてLPSMを有効であると判定し、次いで、対応するオーディオデータへのプロセッサ１０３の処理を無効にし、選択ステージ１０４にオーディオデータを移させる（変化させない）。付加的に、任意に、又は代替的に、暗号学的ハッシュに基づく方法の代わりに、他のタイプの暗号技術が使用される。

図２のエンコーダ１００は、（デコーダ１０１により抽出されたLPSMに応答して）前処理ユニット／後処理ユニットが（エレメント１０５，１０６及び１０７において）符号化されるべきオーディオデータにあるタイプのラウドネス処理を施したことを判定し、従って予め実行されたラウドネス処理で使用された特定のパラメータ、及び／又は予め実行されたラウドネス処理から導出された特定のパラメータを含むラウドネス処理の状態のメタデータを（ジェネレータ１０６において）作成する。幾つかの実現では、エンコーダ１００は、オーディオコンテンツで施されている処理のタイプをエンコーダが知っている限り、オーディオコンテンツに関する処理の履歴を示す処理状態のメタデータを作成する（及び処理状態のメタデータからの出力を符号化されたビットストリームに含める）。

図３は、本考案の音声処理ユニットの実施の形態であるデコーダ２００、及びデコーダに結合される後処理プロセッサ３００のブロック図である。また、後処理プロセッサ３００は、本考案の音声処理ユニットの実施の形態である。デコーダ２００及び後処理プロセッサ３００のコンポーネント又はエレメントの何れかは、図示されるように接続される、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアの組み合わせで、１以上のプロセス及び／又は（例えばASIC，FPGA又は他の集積回路といった）１以上の回路として実現される。デコーダ２００は、フレームバッファ２０１、分析手段２０５、オーディオデコーダ２０２、音声状態の検証ステージ（検証手段）２０３、及び制御ビット生成ステージ２０４を含む。典型的に、デコーダ２００は、他の処理エレメント（図示せず）を含む。

フレームバッファ２０１（バッファメモリ）は、デコーダ２００により受信された符号化されたオーディオビットストリームの少なくとも1つのフレームを（持続的なやり方で）記憶する。符号化されたオーディオビットストリームのフレームの系列は、バッファ２０１から分析手段２０５に送出される。

分析手段２０５は、符号化された入力音声のそれぞれのフレームから、ラウドネス処理の状態のメタデータ（LPSM）を抽出し、少なくともLPSMを音声状態の検証手段２０３及びステージ２０４に送出し、LPSMを出力として（例えば後処理プロセッサ３００に）送出し、符号化された入力音声からオーディオデータを抽出し、抽出されたオーディオデータをデコーダ２０２に送出するように結合及び構成される。

デコーダ２００に入力された符号化されたオーディオビットストリームは、AC-3ビットストリーム、E-ACビットストリーム、又はDolby Eビットストリームのうちの１つである。

また、図３のシステムは、後処理プロセッサ３００を含む。後処理プロセッサ３００は、フレームバッファ３０１、及びバッファ３０１に結合される少なくとも１つの処理エレメントを含む他の処理エレメント（図示せず）を備える。フレームバッファ３０１は、デコーダ２００から後処理プロセッサ３００により受信された復号化されたオーディオビットストリームの少なくとも１つのフレームを（例えば、持続的なやり方で）記憶する。後処理プロセッサ３００の処理エレメントは、デコーダ２０２から出力されたメタデータ（LPSMを含む）及び／又はデコーダ２００のステージ２０４から出力された制御ビットを使用して、バッファ３０１から出力された復号化されたオーディオビットストリームのフレームの系列を受信して、適応的に処理するために結合及び構成される。典型的に、後処理プロセッサ３００は、（例えば、LPSMにより示される、ラウドネス処理状態、及び／又は１以上のオーディオデータ特性に基づいて）LPSM値を使用して、復号化されたオーディオデータに適応的なラウドネス処理を施すために構成される。

デコーダ２００及び後処理プロセッサ３００の様々な実現は、本考案の方法の異なる実施の形態を実行するために構成される。

デコーダ２００のオーディオデコーダ２０２は、分析手段２０５により抽出されたオーディオデータを復号化して、復号化されたオーディオデータを生成し、復号化されたオーディオデータを出力として（例えば後処理プロセッサ３００に）送出する。

状態検証手段２０３は、状態検証手段に送出されるLPSM（及び任意に他のメタデータ）を認証及び検証する。幾つかの実施の形態では、LPSMは、（例えば本考案の実施の形態に係る）入力ビットストリームに含まれているデータブロックである（又はデータブロックに含まれる）。ブロックは、LPSM（及び任意に他のメタデータ）及び／又は（分析手段２０５及び／又はデコーダ２０２から検証手段２０２に提供される）基礎となるオーディオデータを処理する暗号学的ハッシュ（ハッシュに基づくメッセージ認証コード又は“HMAC”）を含む。データブロックは、ダウンストリームの音声処理ユニットが処理状態のメタデータを比較的容易に認証及び検証するように、これらの実施の形態でデジタル署名される。

限定されるものではないが、LPSM及び／又は基本となるオーディオデータの安全な送信及び受信を保証するため、LPSMの（例えば検証手段２０３における）検証のため、１以上の非HMAC暗号化方法の何れかを含む他の暗号化方法が使用される場合がある。例えば、本考案のオーディオビットストリームの実施の形態を受けるそれぞれの音声処理ユニットにおいて（係る暗号化方法を使用した）検証を実行し、ビットストリームに含まれるラウドネス処理状態のメタデータ及び対応するオーディオデータが（メタデータにより示される）特定のラウドネス処理を受けているか（及び／又は特定のラウドネス処理から生じているか）、係る特定のラウドネス処理の実行後に変更されていないかを判定する。

状態検証手段２０３は、制御データを制御ビットジェネレータ２０４に送出し、及び／又は、検証処理の結果を示すように、制御データを出力として（例えば後処理プロセッサ３００に）送出する。制御データ（及び、任意に入力ビットストリームから抽出された他のメタデータ）に応答して、ステージ２０４は、以下の何れかを生成する（及び後処理プロセッサ３００に送出する）。

デコーダ２０２から出力された復号化されたオーディオデータが特定のタイプのラウドネス処理を受けていることを示す制御ビット（デコーダ２０２から出力されるオーディオデータが特定の対応のラウドネス処理を受けていることをLPSMが示し、LPSMが有効であることを検証手段２０３からの制御ビットが示すとき）。

デコーダ２０２から出力された復号化されたオーディオデータが特定のタイプのラウドネス処理を受けるべきことを示す制御ビット（例えば、デコーダ２０２から出力されたオーディオデータが特定のタイプのラウドネス処理を受けていないことをLPSMが示すか、又はデコーダ２０２から出力されたオーディオデータが特定のタイプのラウドネス処理を受けていることをLPSMが示すが、LPSMが有効でないことを検証手段２０３からの制御ビットが示すとき）。

代替的に、デコーダ２００は、入力ビットストリームからデコーダ２０２により抽出されたLPSM（及び他のメタデータ）を後処理プロセッサ３００に送出する。後処理プロセッサ３００は、LPSMを使用して復号化されたオーディオデータにラウドネス処理を施すか、LPSMの検証を実行して、次いでLPSMが有効であることを検証が示す場合に、LPSMを使用して復号化されたオーディオデータにラウドネス処理を施す。

幾つかの実施の形態では、デコーダ２０１が暗号学的ハッシュにより本考案の実施の形態に従って生成されたオーディオストリームを受信した場合、デコーダは、ビットストリームから決定されたデータブロックからの暗号化ハッシュを分析及び取得し、前記ブロックは、ラウドネス処理の状態のメタデータ（JPSM）を含む。検証手段２０３は、暗号学的ハッシュを使用して、受信されたビットストリーム及び／又は関連するメタデータを検証する。例えば、検証手段２０３が基準の暗号学的ハッシュとデータブロックから取得された暗号学的ハッシュとの間の整合に基づいてLPSMが有効であると判定した場合、検証手段は、（例えばボリュームレべリングユニットであるか、又はボリュームレべリングを含む後処理プロセッサ３００といった）ダウンストリームの音声処理ユニットに、ビットストリームのオーディオデータを移す（変更しない）ように指示する。付加的に、任意に又は代替的に、他のタイプの暗号化技術は、暗号学的ハッシュに基づく方法の代わりに使用される場合がある。

デコーダ１００の幾つかの実施の形態では、受信された（及びメモリ２０１に記憶された）符号化されたビットストリームは、AC-3ビットストリーム又はE-AC-3ビットストリームであり、オーディオデータセグメント（例えば図４に示されるフレームのAB0-AB5セグメントといった）オーディオデータセグメント、及びメタデータセグメントを含み、この場合、オーディオデータセグメントは、オーディオデータを示し、メタデータセグメントの少なくとも幾つかのそれぞれは、ラウドネス処理の状態のメタデータ（LPSM）を含む。デコーダステージ２０２は、以下のフォーマットを有するLPSMをビットストリームから抽出する。LPSMを含むメタデータセグメントのそれぞれは、ビットストリームのフレームのビットストリーム情報（BSI）の“addbsi”フィールドに含まれるか、又はビットストリームのフレームの終わりにある（例えば図４に示されるAUXセグメントといった）補助データフィールドに含まれる。ビットストリームのフレームは、１又は２のメタデータセグメントを含み、それぞれのセグメントは、LPSMを含み、フレームが２つのメタデータセグメントを含む場合、一方は、フレームのaddbsiフィールドに存在し、他方は、フレームのAUXフィールドに存在する。LPSMを含むそれぞれのメタデータセグメントは、以下のフォーマットを有するLPSMペイロード（又はコンテナ）セグメントを含む。

ヘッダ（典型的に、例えば以下の表２に示されるLPSMフォーマットのバージョン、長さ、期間、カウント及びサブストリームに関連する値といった識別値により後続されるLPSMペイロードの開始を識別する同期ワードを含む）。

ヘッダの後ろに以下が存在する。
対応するオーディオデータが会話を示すか、（例えば対応するオーディオデータのどのチャネルが会話を示すか）会話を示さないかを示す（例えば表２のパラメータ“Dialog channel(s)”といった）少なくとも１つの会話を指示する値。

対応するオーディオデータが指示されたセットのラウドネスの規制に準拠するかを示す（例えば表２のパラメータ“Loudness Regulation Type”といった）少なくとも１つのラウドネス規制に準拠する値。

対応するオーディオデータに施されている少なくとも１つのタイプのラウドネス処理を示す（例えば表２の１以上のパラメータ“Dialog gated Loudness Correction flag”、“Loudness Correction Type”といった）少なくとも１つのラウドネス処理値。

対応するオーディオデータの少なくとも１つの（例えば、ピーク又は平均のラウドネスといった）ラウドネス特性を示す（例えば、表２の１以上のパラメータ“ITU Relative Gated Loudness”、“ITU Speech gated Loudness”、“ITU (EBU3341) Short Term 3s Loudness”及び“True Peak”といった）少なくとも１つのラウドネス値。

幾つかの実現では、デコーダステージ２０２は、ビットストリームのフレームの“addbsi”フィールド又は補助フィールドから、以下のフォーマットを有するそれぞれのメタデータセグメントを抽出する。

コアヘッダ（典型的に、例えば以下の表１で示されるコアエレメントのバージョン、長さ、及び期間、拡張されたエレメントのカウント、及びサブストリームの関連値といった少なくとも１つの識別値により後続される、メタデータセグメントの開始を識別する同期ワードを含む）。

コアヘッダの後に、ラウドネス処理の状態のメタデータ又は対応するオーディオデータの復号、認証又は検証のうちの少なくとも１つに有効な（例えば表１のMHACダイジェスト及びオーディオフィンガープリント値といった）少なくとも１つのプロテクション値。

コアヘッダの後に、メタデータセグメントがLPSMを含む場合、後続のメタデータをLPSMペイロードとして識別し、LPSMペイロードのサイズを識別するLPSMペイロードの識別子（ID）及びLPSMペイロードのサイズ値。

（好ましくは、先に指定されたフォーマットを有する）LPSMペイロード（又はコンテナ）セグメントは、LPSMペイロードID及びLPSMペイロードサイズの値に後続する。

より一般的には、本考案の好適な実施の形態により生成された符号化されたオーディオビットストリームは、メタデータエレメント及びサブエレメントをコア（強制）又は拡張（任意のエレメント）としてラベル付けするメカニズムを提供する構造を有する。これは、（そのメタデータを含む）ビットストリームのデータレートが様々な用途にわたりスケーリングされるのを可能にする。好適なビットストリームのコア（強制）のエレメントは、オーディオコンテンツに関連する拡張（任意）のエレメントが存在するか（インバンド）及び／又は遠隔地にあるか（アウトオブバンド）を指示することができる。

コアエレメントは、ビットストリームの各フレームに存在することが必要とされる。コアエレメントの幾つかのサブエレメントは任意であり、何れかの組み合わせで存在する場合がある。拡張されたエレメントは、（ビットレートのオーバヘッドを制限するため）各フレームに存在することが必要とされない。従って、拡張されたエレメントは、幾つかのフレームに存在し、他のフレームにおいて存在しない。拡張されたエレメントの幾つかのサブエレメントは任意であり、何れかの組み合わせで存在する場合があり、拡張されたエレメントの幾つかのサブエレメントは、強制である場合がある（すなわち、拡張されたエレメントがビットストリームのフレームに存在する場合）。

実施の形態のクラスでは、（例えば、本考案を実施する音声処理ユニットにより）オーディオデータのセグメント及びメタデータのセグメントの系列を含む符号化されたオーディオビットストリームは生成される。オーディオデータセグメントは、オーディオデータを示し、メタデータセグメントの少なくとも幾つかのそれぞれは、ラウドネス処理状態のメタデータ（LPSM）を含み、オーディオデータセグメントは、メタデータセグメントと時分割多重される。このクラスの好適な実施の形態では、メタデータセグメントのそれぞれは、本明細書で記載される好適なフォーマットを有する。

１つの好適なフォーマットでは、符号化されたビットストリームは、AC-3ビットストリーム又はE-AC-3ビットストリームであり、LPSMを含むメタデータセグメントのそれぞれは、ビットストリームのフレームのビットストリーム情報（BSI）セグメントの（図６に示される）“addbsi”フィールド、又はビットストリームのフレームの補助データフィールドに更なるビットストリーム情報として（例えばエンコーダ１００の好適な実現のステージ１０７により）含まれる。

好適なフォーマットでは、フレームのそれぞれは、フレームのaddbsiフィールドにおいて、以下の表１に示されるフォーマットを有するコアエレメントを含む。

好適なフォーマットでは、LPSMを含むaddsbi（又は補助データ）フィールドのそれぞれは、コアヘッダ（及び任意に、更なるコアエレメント）を含み、コアヘッダ（又はコアヘッダ及び他のコアエレメント）の後に、以下のLPSM値（パラメータ）を含む。

（例えば表１で指定される）コアエレメントに後続する（メタデータをLPSMとして識別する）ペイロードID、ペイロードIDに後続する（LPSMペイロードのサイズを示す）パイロードサイズ、及び以下の表（表２）に示されるフォーマットを有する（ペイロードID及びペイロードサイズ値に後続する）LPSMデータ。

本考案に従って生成された符号化されたビットストリームの別の好適なフォーマットでは、ビットストリームは、AC-3ビットストリーム又はE-AC-3ビットストリームであり、LPSMを含むメタデータセグメントのそれぞれは、以下の何れかに（例えばエンコーダ１００の好適な実現のステージ１０７により）含まれる。ビットストリームのフレームのビットストリーム情報（BSI）セグメント、又はビットストリームのフレームの終わりにある（例えば図４に示されるAUXセグメントである）補助フィールド。フレームは、１又は２のメタデータセグメントを含み、それぞれのセグメントは、LPSMを含み、フレームが２つのメタデータセグメントを含む場合、一方はフレームのaddbsiフィールドに存在し、他方はフレームのAUXフィールドに存在する。LPSMを含むそれぞれのメタデータセグメントは、先の表１及び表２を参照して先に指定されたフォーマットを有する（すなわち、それぞれのメタデータセグメントは、表１で指定されるコアエレメント、続いて（LPSMとしてメタデータを識別する）ペイロードエレメント、（表２で示されたフォーマットを有するLPSMデータといった）ペイロードにより後続される、先に指定されたペイロードのサイズ値）。

別の好適なフォーマットでは、符号化されたビットストリームは、Dolby Eビットストリームであり、LPSMを含むメタデータセグメントのそれぞれは、Dolby Eガードバンドインターバルの最初のＮサンプルの位置である。LPSMを含む係るメタデータセグメントを含むDolby Eビットストリームは、SMPTE 337MプリアンブルのPdワードで指示されるLPSMペイロード長さを示す値を含む（SMPTE 337M Paワード反復率は、関連するビデオフレームレートと同じままであることが好ましい）。

好適なフォーマットでは、符号化されたビットストリームは、E-AC-3ビットストリームであり、LPSMを含むメタデータセグメントのそれぞれは、ビットストリームのフレームのビットストリーム情報（BSI）セグメントのaddbsiフィールドにおいて更なるビットストリーム情報として（たとえばエンコーダ１００の好適な実現のステージ１０７により）含まれる。次に、この好適なフォーマットにおける、LPSMをもつE-AC-3ビットストリームを符号化する更なる態様が記述される。

１．E-AC-３ビットストリームの生成の間、（LPSM値をビットストリームに挿入する）E-AC-3エンコーダは、生成された各フレーム（同期フレーム）について「アクティブ」であり、ビットストリームは、フレームのaddbsiフィールドで搬送された（LPSMを含む）メタデータブロックを含む。メタデータブロックを搬送することが要求されるビットは、エンコーダのビットレート（フレーム長）を増加すべきではない。

２．（LPSMを含む）各メタデータブロックは、以下の情報を含むべきではない。
2-1．loudness_correction_type_flag：“１”は、対応するオーディオデータのラウドネスがエンコーダからアップストリームで訂正されたことを示し、“０”は、（例えば図２のエンコーダ１００のラウドネスプロセッサ１０３である）エンコーダに埋め込まれたラウドネスコレクタによりラウドネスが訂正されたことを示す。
2-2．Speech_channel：（前の０．５秒を通して）どのソースチャネルが会話を含むかを示す。会話が検出されない場合、これは以下のように示される。
2-3．Speech_loudness：（前の０．５秒を通して）会話を含むそれぞれ対応する音声チャネルの統合された会話のラウドネスを示す。
2-4．ITU_loudness：それぞれ対応する音声チャネルの統合されたITU BS.1770-2ラウドネスを示す。
2-5．gain：（可逆性を示すため）デコーダにおける反転のラウドネスコンポジットゲイン。

３．（LPSM値をビットストリームに挿入する）E-AC-3エンコーダが「アクティブ」であり、“trust”フラグをもつACフレームを受信している間、（図２のエンコーダ１００のラウドネスプロセッサ１０３である）エンコーダにおけるラウドネスコントローラは、バイパスされる。「信頼される」ソースダイアローグ正規化及びDRC値は、（エンコーダ１００のジェネレータ１０６により）E-AC-3エンコーダコンポーネント（例えばエンコーダ１００のステージ１０７）に通過される。LPSMブロック生成は係属し、loudness_correction_type_flagは“１”に設定される。ラウドネスコントローラのバイパスシーケンスは、“trust”フラグが現れる、復号化されたAC-3フレームの開始で同期される。ラウドネスコントローラのバイパスシーケンスは、以下のように実現される。leveler_amountの制御は、１０のオーディオブロック周期（すなわち５３.３msec）を通して値９から値０にデクリメントされ、leveler_back_end_meterの制御は、バイパスモードに配置される（この動作は、シームレスな遷移となる）。用語「レベラーの「信頼される」バイパス」は、ソースビットストリームのダイアローグ正規化の値は、エンコーダの出力で再び利用されることを意味する。（例えば、「信頼される」ソースビットストリームが〜３０のダイアローグ正規化の値を有する場合、エンコーダの出力は、アウトバウンドのダイアローグ正規化値について〜３０を利用する）。

４．（LPSM値をビットストリームに挿入する）E-AC-3エンコーダが「アクティブ」であり、“trust”フラグをもたないAC-3フレームを受信している間、（例えば図２のエンコーダ１００のラウドネスプロセッサ１０３である）エンコーダに埋め込まれたラウドネスコントローラは、「アクティブである」。LPSMブロック生成は継続し、loudness_correction_type_flagは“０”に設定される。ラウドネスコントローラのアクチベーションシーケンスは、“trust”フラグが消える、復号化されたAC-3フレームの開始で同期される。ラウドネスコントローラのアクチベーションシーケンスは、以下のように実現される。Leveler_amountの制御は、１のオーディオブロック周期（すなわち５.３msec）を通して値０から値９まで実現され、leveler_back_end_meterの制御は、「アクティブ」モードに配置される（この動作は、シームレスな遷移となり、back_end_meterの統合のリセットを含む）。

５．符号化の間、グラフィックユーザインタフェース（GUI）は、以下のパラメータをユーザに示す。
“Input Audio Program: [Trusted/Untrusted]”：このパラメータの状態は、入力信号内の“trust”フラグの存在に基づく。
“Real-time Loudness Correction: [Enabled/Disabled]”：このパラメータの状態は、エンコーダに埋め込まれたこのラウドネスコントローラがアクティであるかに基づく。

ビットストリームのそれぞれのフレームのビットストリーム情報（BSI）セグメントの“addbsi”フィールドに含まれる（好適なフォーマットにおいて）LPSMを有するAC-3又はE-AC-3ビットストリームを復号化するとき、デコーダは、（addbsiフィールドにおける）LPSMブロックデータを分析し、抽出されたLPSM値の全てをグラフィックユーザインタフェース（GUI）に通過させる。抽出されたLPSM値は、フレーム毎にリフレッシュされる。

本考案に従って生成された符号化されたビットストリームの別の好適なフォーマットでは、符号化されたビットストリームは、AC-3ビットストリーム又はE-AC-3ビットストリームであり、LPSMを含むメタデータセグメントのそれぞれは、ビットストリームのフレームのビットストリーム情報（BSI）セグメントの（図６に示される）“addbsi”フィールド（Auxセグメント）において、更なるビットストリーム情報として（例えばエンコーダ１００の好適な実現のステージ１０７により）含められる。（表１及び表２を参照して先に記載されたフォーマットに関するバリエーションである）このフォーマットでは、LPSMを含むaddbsi（又はAux）フィールドのそれぞれは、以下のLPSM値を含む。

（LPSMとしてメタデータを識別する）ペイロードIDにより後続される、表１で指定されるコアエレメント、（先の表２に示される強制エレメントに類似する）以下のフォーマットを有するペイロード（LPSMデータ）により後続される、ペイロードサイズ値。

LPSMペイロードのバージョン：LPSMペイロードのバージョンを示す２ビットフィールド。

dialchan：対応するオーディオデータの左チャネル、右チャネル、中央チャネルが会話を含んでいるかを示す３ビットフィールド。dialchanフィールドのビット割り当ては、以下の通り。ビット０は、左チャネルにおける会話の存在を示す、dialchanフィールドの最重要ビットで記憶される。ビット２は、中央チャネルにおける会話の存在を示し、dialchanフィールドの最下位ビットに記憶される。dialchanフィールドのそれぞれのビットは、対応するチャネルがプログラムの先行する０．５秒の間に会話を含む場合に“１”に設定される。

loudregtyp：プログラムのラウドネスがどのラウドネス規制の標準と準拠するかを示す３ビットフィールド。“loudregtyp”フィールドを“000”に設定することは、LPSMがラウドネス規制の準拠を示さないことを示す。（例えば000といった）このフィールドのある値は、ラウドネス規制の標準との準拠が示されないことを示し、（例えば0001といった）このフィールドの別の値は、プログラムのオーディオデータがATSC A/85規格と準拠することを示し、（例えば010といった）このフィールドの別の値は、プログラムのオーディオデータがEBU R128規格と準拠することを示す。例えば、フィールドが“000”以外の任意の値に設定される場合、loudcorrdialgat及びloudcorrtypは、ペイロードにおいて後続する。

loudcorrdialgat：会話がゲートされるラウドネス訂正が適用されているかを示す１ビットフィールド。プログラムのラウドネスが会話のゲートを使用して訂正されている場合、loudcorrdialgatフィールドの値は、“１”に設定される。さもなかれば、“０”に設定される。

loudcorrtyp：プログラムに適用されるラウドネス訂正のタイプを示す１ビットフィールド。プログラムのラウドネスが無限ルックアヘッド（ファイルに基づく）ラウドネス訂正プロセスで訂正される場合、loudcorrtypフィールドの値は“０”に設定される。プログラムのラウドネスがリアルタイムのラウドネス測定及びダイナミックレンジの制御の組み合わせを使用して訂正されている場合、このフィールドの値は、“１”に設定される。

loudrelgate：リラティブゲート（relative-gated）・ラウドネスデータ（ITU）が存在するかを示す１ビットフィールド。loudrelgateフィールドが“１”に設定された場合、７ビットのituloudrelgatフィールドがペイロードにおいて後続する。

loudrelgat：リラティブゲートプログラム（relative-gated program）のラウドネス（ITU）を示す７ビットフィールド。このフィールドは、ダイアローグ正規化及びダイナミックレンジの圧縮によるゲイン調節が適用されることなしに、ITU-R BS.1770-2に従って測定され、音声プログラムの統合されたラウドネスを示す。値０〜１２７は、０.５LKFSステップで、−５８LKFS〜＋５．５LKFSとして解釈される。

loudspchgate：スピーチゲート（speech-gated）・ラウドネスデータ（ITU）が存在するかを示す１ビットフィールド。loudspchgateフィールドが“１”に設定される場合、７ビットのloudspchgateフィールドは、ペイロードにおいて後続される。

loudspchgat：スピーチゲートプログラム（speech-gated program）のラウドネスを示す７ビットフィールド。このフィールドは、ITU-R BS.1770-3の式（２）に従い、ダイアローグ正規化及びダイナミックレンジの圧縮による任意のゲイン調節が適用されることなしに測定されら、全体の対応する音声プログラムの統合されたラウドネスを示す。値０〜１２７は、０.５LKFSステップで、−５８LKFSから＋５.５LKFSとして解釈される。

loudstrm3se：短期間（３秒）のラウドネスデータが存在するかを示す１ビットフィールド。フィールドが“１”に設定された場合、７ビットのloudstrm3sフィールドは、ペイロードにおいて後続する。

loudstrm3s：ITU-R BS.1771-1に従い、ダイアローグ正規化及びダイナミックレンジの圧縮によるゲイン調節が適用されることなしに測定された、対応するオーディオプログラムの先行する３秒のゲートされないラウドネスを示す７ビットフィールド。値０〜２５６は、０．５LKFSステップで、−１１６LKFSから＋１１．５LKFSとして解釈される。

truepke：トゥルーピークのラウドネスデータが存在するかを示す１ビットフィールド。truepkeフィールドが“１”に設定される場合、８ビットのtruepkeフィールドは、ペイロードにおいて後続される。

trupk：ITU-R BS.1770-3のAnnex 2に従い、ダイアローグ正規化及びダイナミックレンジの圧縮によるゲイン調節が適用されることなしに測定された、プログラムのトゥルーピークのサンプリ値を示す８ビットフィールド。値０〜２５６は、０.５LKFSステップで、−１１６LKFSから＋１１.５LKFSとして解釈される。

幾つかの実施の形態では、AC-3ビットストリーム又はE-AC-3ビットストリームのフレームの補助フィールド（又は“addbsi”フィールド）におけるメタデータセグメントのコアエレメントは、（典型的に、例えばコアエレメントのバージョンといった識別値を含む）コアヘッダ、コアヘッダの後に、フィンガープリントデータ（又は他のプロテクション値）がメタデータセグメントのメタデータについて含まれるかを示す値、（メタデータセグメントのメタデータに対応するオーディオデータに関連する）外部データが存在するかを示す値、コアエレメントにより識別される（例えば、LPSM、及び／又はLPSM以外のタイプのメタデータといった）メタデータのそれぞれのタイプのペイロードID及びペイロードサイズの値、及びコアエレメントにより識別されたメタデータの少なくとも１つのタイプについてのプロテクション値を含む。

メタデータセグメントのメタデータペイロードは、コアヘッダに後続し、（幾つかの場合において）コアエレメントの値内でネスト化される。

本考案の実施の形態は、ハードウェア、ファームウェア、又はソフトウェア或いは（例えば、プログラマブルロジックアレイとして）両者の組み合わせで実現される。別段の合意がない限り、本考案の一部として含まれるアルゴリズム又はプロセスは、特定のコンピュータ又は他の装置に本質的に関連しない。特に、本明細書での教示に従って記述されたプログラムと共に様々な汎用コンピュータが使用されるか、要求される方法ステップを実行するため、より専用化された装置（例えば集積回路）を構築することは便利な場合がある。従って、本考案は、（例えば、図１のエレメントの何れかの実現、又は図２のエンコーダ１００（又はエンコーダのエレメント）、図３のデコーダ２００（又はデコーダのエレメント）、又は図３のポストプロセッサ３００（ポストプロセッサのエレメント）といった）１以上のプログラマブルコンピュータシステムで実行する１以上のコンピュータプログラムで実現され、それぞれのプログラマブルコンピュータシステムは、少なくとも１つのプロセッサ、（揮発性及び不揮発性メモリ及び／又はストレージエレメントを含む）少なくとも１つのデータストレージシステム、少なくとも１つの入力装置又はポート、及び少なくとも１つの出力装置又はポートを備える。プログラムコードは、データを入力し、本明細書で記載された機能を実行し、出力情報を生成するために利用される。出力情報は、公知のやり方で、１以上の出力装置に適用される。

それぞれの係るプログラムは、コンピュータシステムと通信するため、（マシン、アセンブリ、又は高水準の手続、論理的、又はオブジェクト指向プログラミング言語を含めて）所望のコンピュータ言語で実現される。何れの場合においても、言語は、コンパイルされた言語又は解釈された言語である。

例えば、コンピュータソフトウェアの命令シーケンスにより実現されたとき、本考案の実施の形態の様々な機能及びステップは、適切なデジタル信号処理ハードウェアで実行されるマルチスレッドソフトウェア命令シーケンスにより実現され、その場合、実施の形態の様々な装置、ステップ及び機能は、ソフトウェア命令の一部に対応する。

それぞれの係るコンピュータプログラムは、記憶媒体又は装置が本明細書で記載された手順を実行するためにコンピュータシステムにより読み取られたとき、コンピュータを設定及び動作させるため、汎用又は特定用途向けプログラマブルコンピュータにより読取り可能な（例えば、固体メモリ又は媒体、又は磁気或いは光媒体といった）記憶媒体又は装置に好ましくは記憶又はダウンロードされる。また、本考案のシステムは、コンピュータプログラムにより設定される（すなわち記憶する）コンピュータ読み取り可能な記憶媒体として実現され、この場合、そのように設定された記憶媒体は、コンピュータシステムに、本明細書で記載された機能を実行する特定及び予め定義された方式で動作させる。

本考案の多数の実施の形態が記載された。しかし、本考案の精神及び範囲から逸脱することなしに、様々な変更が行われることを理解されたい。本考案の様々な変更及び変形は、先の教示に照らして可能である。特許請求の範囲において、本考案は、本明細書で特に記載された以外で実施される場合がある。

１００：エンコーダ
１０１：デコード
１０２：音声状態検証器
１０３：ラウドネス処理
１０４：MUX
１０５：エンコード
１０６：メタデータジェネレータ
１０７：スタッファ／フォーマッタ
１０８：会話ラウドネス測定
１０９：バッファ
１１０：バッファ
１１１：分析器
１５０：デリバリ
１５２：デコーダ
２００：デコーダ
２０１：バッファ
２０２：デコード
２０３：音声状態検証
２０４：制御ビットジェネレータ
３０１：バッファ
３００：ポストプロセッサ

Claims

ラウドネス処理の状態を示すメタデータ（LPSM）及びオーディオデータを含む符号化されたビットストリームの少なくとも１つのフレームを記憶する入力バッファメモリと、
前記入力バッファメモリに結合され、符号化されたオーディオビットストリーム及び／又はLPSMを抽出する分析手段と、
前記分析手段に結合され、復号化されたオーディオデータのストリームを生成するAC-3又はE-AC-3デコーダと、
前記デコーダに結合され、前記復号化されたオーディオデータを記憶する出力バッファメモリと、
を備える音声処理装置。
前記AC-3又はE-AC-3デコーダに結合され、前記LPSMを使用して復号化されたオーディオデータのストリームの適応的なラウドネス処理を行うラウドネスプロセッサを更に備える、
請求項１記載の音声処理装置。
前記AC-3又はE-AC-3デコーダに結合され、前記LPSMを認証及び／又は検証し、及び／又は前記LPSMを使用して復号化されたオーディオデータのストリームを認証及び／又は検証する音声状態検証手段を更に備え、
前記音声状態検証手段は、前記ラウドネスプロセッサに更に結合され、前記ラウドネスプロセッサの適応的なラウドネス処理を制御する、
請求項２記載の音声処理装置。
前記AC-3又はE-AC-3デコーダに結合され、前記LPSMを使用して復号化されたオーディオデータのストリームに適応的なラウドネス処理を行うポストプロセッサを更に備える、
請求項２記載の音声処理装置。
前記AC-3又はE-AC-3デコーダに結合され、前記LPSMを認証及び／又は検証し、及び／又は、前記LPSMを使用して復号化されたオーディオデータのストリームを認証及び／検証する音声状態検証手段を更に備え、
前記音声状態検証手段は、前記ラウドネスプロセッサ及び前記ポストプロセッサに更に結合され、前記ラウドプロセッサ及び前記ポストプロセッサの適応的なラウドネス処理を制御する、
請求項４記載の音声処理装置。
前記LPSMは、前記少なくとも１つのフレームにおけるヘッダの後ろに配置される１以上のラウドネス処理の状態のメタデータのコンテナである、
請求項１記載の音声処理装置。
前記LPSMは、ラウドネス規制のタイプのスロットを含む、
請求項１記載の音声処理装置。
前記LPSMは、ラウドネスの訂正のタイプのスロットを含む、
請求項１記載の音声処理装置。