JP2009540625A6

JP2009540625A6 - スケーラブルビデオコーディングビットストリームのシニングのためのシステムおよび方法

Info

Publication number: JP2009540625A6
Application number: JP2008555530A
Authority: JP
Inventors: ホン，ダニー; ヴィーガント，トーマス; エレフゼリアディス，アレクサンドロス; シャピロ，オファー
Original assignee: ヴィドヨ，インコーポレーテッド
Priority date: 2006-02-16
Filing date: 2007-02-16
Publication date: 2010-02-25

Abstract

とりわけ、非常に低いエンドツーエンド遅延ならびに非常に高いスケーラビリティを提供するテレビ会議のためのシステム。このシステムは、異種受信機およびネットワーク、ならびにインターネットプロトコルに基づくようなベストエフォートの性質のネットワークに対処する。このシステムは、スケーラブルビデオコーディングを利用して、複数の時間、品質、および空間解像度でソースビデオ信号のコード化表現を提供する。こうした解像度は、各エンドユーザエンコーダで生成される別個のビットストリーム構成要素によって表される。SVCシニングと呼ばれるシステムアーキテクチャおよびプロセスは、他のピクチャでの予測のために使用されるデータと、他のピクチャSVCシニングプロセスでの予測のために使用されないデータへのデータの分離を可能にし、テレビ会議エンドポイントまたはMCUで実施することができ、選択的に、送信されるビットストリームから他のピクチャでの予測のために使用されないデータを除去し、またはより少数のビットで置換することができる。

Description

本願は、2006年2月16日出願の米国仮特許出願第60/774,094号の特典を主張するものである。さらに、本願は、国際特許出願PCT/US06/28365、PCT/US06/028366、PCT/US06/028367、PCT/US06/028368、およびPCT/US06/061815、ならびに米国仮特許出願第60/786,997号、第60/827,469号、第60/778,760号、および60/787,031に関連する。上述の優先権出願および関連出願のすべては本願の譲受人に譲渡され、参照によりその全体が本明細書に組み込まれる。

本発明はマルチメディアおよび遠隔通信技術に関する。詳細には、本発明は、様々なレベルサービス品質(QoS)を提供することができ、ユーザエンドポイントが様々な機能のアクセス装置および通信チャネルを使用して接続することのできる電子通信ネットワークを介するユーザエンドポイント間のテレビ会議のためのスケーラブルビデオコーディング技法を使用するシステムおよび方法に関する。

現代のテレビ会議システムは、2人以上のリモート参加者/エンドポイントが互いにリアルタイムでビデオおよびオーディオを通信することを可能にする。2人のリモート参加者だけが関係するとき、2つのエンドポイント間の適切な電子ネットワークを介する通信の直接伝送を使用することができる。3人以上の参加者/エンドポイントが関係するとき、すべての参加者/エンドポイントに接続するのにマルチポイント会議ユニット(MCU)、すなわちブリッジが一般に使用される。MCUは複数の参加者/エンドポイント間の通信を仲介し、参加者/エンドポイントは、例えば星型構成で接続することができる。MCUをポイントツーポイント通信のために使用して、ファイアウォール走査、レートマッチング、および他の機能を提供することもできる。

テレビ会議システムは、各ユーザエンドポイントがビデオとオーディオをどちらも符号化および復号化することのできる装置を備えることを必要とする。エンコーダは、ローカルオーディオおよびビデオ情報を他のパーティに通信するのに適した形式に変換するのに使用されるのに対して、デコーダは、他のテレビ会議参加者から受信したビデオイメージを復号化および表示し、またはオーディオを再生するのに使用される。伝統的に、エンドユーザ自身のイメージは、フィードバックを提供するため、例えばビデオウィンドウ内のその人の適切な位置決めを保証するために、エンドユーザ自身のディスプレイ画面上にも表示される。

3人以上の参加者が存在するとき(あるケースでは2人の参加者だけであっても)、様々なパーティ間の通信を調整するのに通常は1つまたは複数のMCUが使用される。MCUの主なタスクは、単一のオーディオストリームがすべての参加者に送信されるように着信オーディオ信号を混合すること、および各参加者がこの混合ビデオ信号ショーのディスプレイフレームの対応する部分内に示されるように着信ビデオ信号を単一のビデオ信号として混合することである。

テレビ会議システムは、所与の空間解像度およびビットレートで単一のビットストリームを提供するように指定される従来型ビデオコーデックを使用することができる。例えば、そのビットストリームおよび復号化オペレーションがITU-T Recommendation H.261、ITU-T Recommendation H.262|ISO/IEC 13818-2(MPEG-2 Video)メインプロファイル、ITU-T Recommendation H.263ベースラインプロファイル、ISO/IEC 11172-2(MPEG-1 Video)、ISO/IEC 14496-2シンプルプロファイルまたはアドバンストシンプルプロファイル、ITU-T Recommendation H.264|ISO/IEC 14496-10(MPEG4-AVC)ベースラインプロファイルまたはメインプロファイルまたは高プロファイルで標準化される従来型ビデオコーデックが、所与の空間解像度およびビットレートで単一ビットストリームを提供するように指定される。従来型ビデオコーデックを使用するシステムでは、符号化ビデオ信号に対して、当初符号化された空間解像度またはビットレートと比較して低い空間解像度または低いビットレートが必要である場合、フル解像度信号を受信および復号化し、潜在的にはダウンスケールし、所望の低い空間解像度または低いビットレートで再符号化しなければならない。復号化し、潜在的にはダウンサンプリングし、再符号化するプロセスは、著しい計算資源を必要とし、通常は、ビデオ信号に著しい主観的ひずみを追加し、ビデオ伝送に遅延を追加する。

異種環境のために系統的に開発されてきたビデオ圧縮技法は、スケーラブルコーディングである。スケーラブルコーデックでは、所与のソースビデオ信号に対して、ベース層と1つまたは複数の拡張層という2つ以上のビットストリームが生成される。ベース層は、所与のビットレート、空間解像度、および時間解像度でソース信号の基本的表現を提供する。所与の空間解像度および時間解像度のビデオ品質はビットレートに比例する。拡張層は、ビデオ品質、空間解像度、および/または時間解像度を向上させるのに使用することのできる追加のビットを提供する。

スケーラブルコーディングは、ITU-T Recommendation H.262|ISO/IEC 13818-2(MPEG-2ビデオ)SNRスケーラブルまたは空間スケーラブルまたは高プロファイルなどの規格の一部であったが、市場では使用されていなかった。スケーラブルコーディングに関連するコストおよび複雑さの増大、ならびにビデオに適したIPベースの通信チャネルが広く用いられていないことが、実用的テレビ会議応用例に対してスケーラブルコーディングを基にした技術が広く採用されることに対するかなりの障害となっていた。

現在では、参照により全体が本明細書に組み込まれる、本願の譲受人に譲渡された国際特許出願PCT/US06/028365が、実用的テレビ会議応用例に特に対処するスケーラブルビデオコーディング技法を開示している。スケーラブルビデオコーディング技法またはコーデックは、テレビ会議システムの新規なアーキテクチャを可能にし、それが、参照により全体が本明細書に組み込まれる、本願の譲受人に譲渡された国際特許出願PCT/US06/028366、PCT/US06/028367、PCT/US06/027368、PCT/US06/061815、およびPCT/US06/62569にさらに記載されている。

PCT/US06/028366およびPCT/US06/62569に記載のスケーラブルビデオコーディングサーバ(SVCS)およびコンポジッティングスケーラブルビデオコーディングサーバ(CSVCS)MCUアーキテクチャは、受信側参加者の必要に従って、発信ビデオ信号の要求されたビデオ解像度に着信ビデオ信号を適合させることを可能にする。従来型MCUと比較して、SVCSおよびCSVCSアーキテクチャは、必要な計算資源がわずかであり、入力ビデオ品質を完全に維持するが、追加される伝送路の遅延がわずかである。

現在、以前に標準化されたスケーラブルビデオコーデックよりも効率的な折り合いを提供するITU-T Recommendation H.264|ISO/IEC 14496-10の拡張が標準化されている。この拡張はSVCと呼ばれる。

SVCビットストリームは通常、それぞれ復号化することのできる複数の時間、空間、およびSNR解像度を表す。複数の解像度は、ベース層ネットワーク抽象化層(NAL)ユニットと、拡張層NALユニットで表される。同一の信号の複数の解像度は、統計的依存関係を示し、予測を用いて効率的にコーディングすることができる。予測は、マクロブロックモード(イントラの場合、mb_typeおよび予測モード)、動き情報(動きベクトル、sub_mb_type、およびピクチャ参照索引)、ならびに空間またはSNRスケーラビリティのレートひずみ性能を高めるイントラコンテンツ残差およびインターコーディング残差について行われる。上述の各要素についての予測は、フラグを介して拡張層でシグナリングされ、すなわち、現在の層を復号化するのに必要なのは、下層での予測についてシグナリングされたデータだけである。

マクロブロックモード予測がマクロブロックごとに切り替わり、新しいマクロブロックモードを送るか(H.264でのように)、参照でマクロブロックモードを使用するかという選択肢が示される。SVCでは、参照は同一層からでよいが、下層マクロブロックでもよい。

動き情報予測は、H.264でのようなピクチャ間動きベクトル予測と、SVCの場合での、参照からの層間動きベクトル予測との間で、マクロブロックごと、または8×8ブロックごとに切り替わる。後者の予測タイプでは、ベース層またはより高い優先順位の層からの動き情報が再利用され(SNRスケーラビリティの場合)、または予測子としてスケーリングされる(空間スケーラビリティの場合)。予測切替えに加えて、動きベクトル改善を送ることができる。

マクロブロックごとにスイッチオン/オフされるインターコーディング残差予測は、ベース層またはより高い優先順位の層からのインターコーディング残差と、潜在的には、予測子にSNR改善として追加される残差信号とを再利用し(SNRスケーラビリティの場合)、またはアップサンプリング(空間スケーラビリティの場合)する。

同様に、マクロブロックごとにスイッチオン/オフされるイントラコンテンツ予測は、ベース層またはより高い優先順位の層からの予測としての他のピクチャからのイントラコード化信号と、潜在的には、予測子にSNR改善として追加される残差信号とを再利用し(SNRスケーラビリティの場合)、またはアップサンプリング(空間スケーラビリティの場合)する。

従来技術で周知のように、SVCビットストリームは、複数の時間、空間、およびSNR解像度で復号化可能である。テレビ会議では、参加者は特定の解像度だけに関心がある。したがって、この解像度を復号化するのに必要なデータが、受信したビットストリーム中に存在しなければならない。他のすべてのデータは、送信側参加者のエンコーダを含む送信側参加者から受信側参加者への経路中の任意の地点、通常はSVCS/CSVCSで廃棄することができる。しかし、データ伝送エラーが予想されるとき、エラー回復およびエラー隠蔽を容易にするために追加のデータ(例えばベース層信号の一部)を含むことが有益であることがある。

受信機で現在復号化される解像度よりも高い解像度について、完全なパケット(NALユニット)を廃棄することができ(通常はSVCS/CSVCSによって)、それによって現在復号化される解像度を含むパケットのみが、受信機に送信または送出されるビットストリーム中に残される。さらに、現在の解像度の復号化が依存しないパケットは、それが低い解像度に割り当てられるときであっても廃棄することができる。上記の2つの場合、(NALヘッダ情報からの)高レベル構文要素を使用して、どのパケットを廃棄することができるかを識別することができる。

次に、ビデオ信号のためのSVCコーディング技法を使用するテレビ会議システムに関する代替アーキテクチャまたは改良型アーキテクチャを考慮する。具体的には、SVCビットストリームを処理する際の柔軟性を実現するアーキテクチャに注意を向ける。

SVCビットストリームの処理での柔軟性を実現するスケーラブルテレビ会議システムおよび方法(「SVCシニング」)が提供される。システムアーキテクチャは、テレビ会議応用例に関するスケーラビリティサポート(すなわち、復号化可能なビデオ解像度の数)、エラー回復力、およびコーディング効率の折り合いを可能にする。テレビ会議システムでのSVCシニング処理を実装するためにシニングユニット(TU)または処理ブロックが提供される。

SVCシニングに基づくテレビ会議システムでは、各エンドポイント/参加者がスケーラブルビットストリーム(例えばSVCを使用してコーディングされた、ベース層と1つまたは複数の拡張層)をネットワークMCU/SVCS/CSVCSに送信する。対応するいくつかの物理チャネルまたは仮想チャネルを使用して送信が実施される。

MCU/SVCS/CSVCSが存在しないSVCシニングに基づく代替テレビ会議システムでは、第1テレビ会議システム内のMCU/SVCS/CSVCSで実施されるオペレーションが、送信側ビデオエンコーダで実施される。この代替テレビ会議システムは、符号化がスケーラブルリアルタイムエンコーダまたはファイルからなるテレビ会議またはストリーミングのためのマルチキャストシナリオに適している。

SVCシニングに基づく第1テレビ会議システムでは、MCU/SVCS/CSVCSは、特定の受信側/エンドポイント位置の特性および/または設定に基づく要件に従って、各参加者/エンドポイントからのスケーラブルビットストリームの各部分を選択または処理することができる。選択は、例えば受信側の帯域幅および所望のビデオ解像度に基づくことができる。

MCU/SVCS/CSVCSは、選択されたスケーラブルビットストリーム部分を、1つ(または複数の)デコーダで復号化することのできる1つ(または複数の)ビデオビットストリームとして収集または構成する。

この点で、SVCS/CSVCSでは信号処理が不要であり、または必要な信号処理が最小限である。SVCS/CSVCSは単に、着信データのパケットヘッダを読み取り、適切なパケットを出力ビットストリームのアクセスユニットとして選択的に多重化し、それを各参加者に送信することができる。

あるいは、MCU/SVCS/CSVCSは、着信ビットストリームの各部分を処理し、圧縮領域でパケットの内容を修正し、適切なパケットを出力ビットストリームのアクセスユニットとして選択的に多重化し、それを各参加者に送信することもできる。

SVCシニングアーキテクチャでは、テレビ会議シナリオで、現在復号化される解像度での予測のために使用されるデータのみがエンドポイントに送信される。逆に、現在復号化される解像度での予測のために使用されないデータはエンドポイントに送信されず、廃棄される。

便宜上、SVCシニングアーキテクチャでデータを選択的に廃棄し、送信することに関連するオペレーションまたはプロセスと、アーキテクチャ自体を、本明細書では共にSVCシニングと呼ぶ。

SVCシニングは、構文要素の置換(「置換シニング」)または構文要素の除去(「除去シニング」)という2つの方式で行うことができる。

SVCシニングは、影響を受けるNALユニットのビットストリームを構文解析および再符号化することによって進行する。

マクロブロックモード、動き情報、インターコーディング残差、イントラコンテンツなどの、スケーラブルビデオコーディングでの切り替わるすべての予測子にSVCシニングを適用することができる。

様々な実施形態でSVCシニングを実施することができ、SVCS/CSVCSでの計算能力と、エンコーダ-SVCS/CSVCS間の帯域幅との折り合いが付けられる。SVCエンコーダまたはMCU/SVCS/CSVCSでSVCシニングを実施することができる。

SVCシニングを、コーディング効率とエラー回復力/ランダムアクセスとの間の折り合いとみなすことができる。一方では、SVCシニングは復号化に不要な情報を省略し、したがってコーディング効率が向上する。他方では、同時に、SVCシニングはエラー回復力/ランダムアクセスに不可欠な冗長度を省略する。

アクセスユニットの特性を考慮してアクセスユニットにSVCシニングを選択的に適用する際にこの折り合いの平衡を取ることができる。一例を挙げると、エラー回復力またはランダムアクセス特性が重要であるアクセスユニットでは、SVCシニングを使用しないことができる。逆に、エラー回復力またはランダムアクセス特性があまり重要でない他のアクセスユニットでは、有利にはSVCシニングを使用することができる。

本発明によるテレビ会議システムの例示的実施形態は、(1)差別化されたサービス品質(QoS)を提供するネットワーク、すなわち必要な全帯域幅の一部について高信頼性チャネルを提供するネットワークと、(2)様々な送信ビットレートレベルで、時間、品質、または空間解像度のいずれかの点でスケーラビリティを提供するビデオコーディング技法(国際特許出願PCT/US06/028365で開示されるものなど)と、(3)最小限の遅延および極めて低い処理コストでその調整機能を実施することのできるSVCS/CSVCSと呼ばれる新しいタイプのMCU(国際特許出願PCT/US06/028366およびPCT/US06/62569で開示されるものなど)と、(4)ビデオデコーダの複数のインスタンスおよびビデオエンコーダの1つのインスタンスを実行することのできる、専用ハードウェアシステム、デジタル信号プロセッサ、または汎用PCでよいエンドユーザ端末とを含むことができる。

さらに、従来型MCU、ならびにSVCSおよびCSVCS(国際特許出願PCT/US06/028366、PCT/US06/62569、およびPCT/US06/061815、ならびに仮米国特許出願第60/778,760号および第60/787,031号で開示される)の機能を、本明細書に記載のSVCシニング機能と様々な組合せで単一のシステムユニットで一体化することができる。MCU、SVCS、およびCSVCS、ならびにSVCシニング機能を同一のシステムユニット(例えば図6のシニングユニット600)上に物理的に配置することができ、または異なるシステムユニット上に、かつ異なる物理位置に分散させることができる。例えば、テレビ会議システムは、テレビ会議セッションのオーディオ構成要素のために従来型MCUを使用するが、ビデオ構成要素を処理するためにSVCシニングを伴うSVCS/CSVCSを有することができる。そのようなシステムでは、エンドユーザ端末で必要なのは単一のオーディオデコーダである。

SVCシニング機能に関する本明細書に記載の追加の処理は、SVCS/CSVCSの機能を補足することができる。SVCS/CSVCSの機能および利点のすべてが維持されるが、各エンドポイントに完全なSVCビットストリームを送信する代わりに、送信される個々のストリームが、SVCシニングによって潜在的に低減されたビットレートを有する。

本発明の別の機能、性質、および様々な利点は、以下の好ましい実施形態の詳細な説明および添付の図面からさらに明らかとなるであろう。

別段の記述がない限り、各図全体を通して、図示される実施形態の同様の機能、要素、構成要素、または部分を示すのに同一の参照番号および参照符号を使用する。さらに、これから各図を参照しながら詳細に本発明を説明するが、例示的実施形態に関連してそのように行われる。

SVCコーディングに基づくテレビ会議システムおよび方法が提供される。このシステムおよび方法(本明細書では集合的に「SVCシニング」と呼ぶ)は、テレビ会議応用例のためにSVCビットストリームを処理する際の柔軟性を提供するように設計される。具体的には、SVCシニングは、受信機/エンドポイントの必要性または特性に応答してSVCビットストリーム部分を選択的に廃棄し、または受信機/エンドポイントに送信しないためのシステムおよび処理機能を提供する。

図1は、本発明によるSVCシニング機能を有するテレビ会議システム100の例示的実施形態を示す。システム100は、複数のエンドユーザ端末110〜140、ネットワーク150、および1つまたは複数のMCU/SVCS/CSVCS160を含むことができる。ネットワークは、エンドユーザ端末とMCU/SVCS/CSVCSとの間の通信を可能にする。本明細書に記載のSVCシニング機能をMCU/SVCS/CSVCS160または1つまたは複数のエンドポイント(例えば110〜140)内に配置することができる。

システム100では、エンドユーザ端末(例えば端末110〜140)は、テレビ会議で使用されるいくつかの構成要素を有する。図2は、単層コーディングに基づくテレビ会議システム(例えばシステム100)と共に使用するように設計されるエンドユーザ端末140のアーキテクチャを示す。端末140は、ヒューマンインターフェース入出力装置(例えばカメラ210A、マイクロフォン210B、ビデオディスプレイ250C、スピーカ250D)と、入出力信号マルチプレクサユニットおよびデマルチプレクサユニット(例えばパケットMUX220AおよびパケットDMUX220B)に結合されたネットワークインターフェースコントローラカード(NIC)230とを含む。NIC230は、イーサネット(登録商標)LANアダプタなどの標準ハードウェア構成要素、または任意の他の適切なネットワークインターフェース装置でよい。

カメラ210Aおよびマイクロフォン210Bは、他の会議参加者に送信するために参加者ビデオ信号および参加者オーディオ信号をそれぞれ取り込むように設計される。逆に、ビデオディスプレイ250Cおよびスピーカ250Dは、他の参加者から受信したビデオ信号およびオーディオ信号をそれぞれ表示および再生するように設計される。ビデオディスプレイ250Cは、参加者/端末140自体のビデオを任意選択で表示するように構成することもできる。カメラ210A出力およびマイクロフォン210B出力は、それぞれアナログ-デジタル変換器210Eおよび210Fを介してビデオエンコーダ210Gおよびオーディオエンコーダ210Hに結合される。ビデオエンコーダ210Gおよびオーディオエンコーダ210Hは、電子通信ネットワークを介する信号の伝送のために必要な帯域幅を削減するために、入力ビデオデジタル信号および入力オーディオデジタル信号を圧縮するように設計される。入力ビデオ信号は、ライブビデオ信号でよく、または事前記録され、格納されたビデオ信号でよい。エンコーダ210Gは、信号の伝送に必要な帯域幅を最小限に抑えるためにローカルデジタル信号を圧縮する。好ましい実施形態では、出力データがRTPパケットとしてパケット化され、IPベースのネットワークを介して送信される。

システム100では、当技術分野で周知のいくつかの技法のいずれか(例えばITU-T Recommendation G.711、ISO/IEC 11172-3(MPEG-1 Audio)など)を使用してオーディオ信号を符号化することができる。好ましい実施形態では、G.711符号化をオーディオのために使用することができる。オーディオエンコーダの出力はマルチプレクサ(MUX)220Aに送られ、ネットワークインターフェースコントローラ(NIC)230を通じてネットワークを介して伝送される。

パケットMUX220Aは、RTPプロトコルを使用して従来型多重化を実施し、任意の必要なQoS関連のプロトコル処理を実施することもできる。端末からのデータの各ストリームが、それ自体の仮想チャネル、またはIP用語では「ポート番号」で送信される。

本発明のシステム100の一実施形態は、MCU/SVCS/CSVCSの入力ビデオ信号および/または出力ビデオ信号に関するSVCに準拠するビットストリームを使用する。本発明のこの実施形態を本明細書ではSVC実施形態と呼ぶ。しかし、本発明は標準化されたSVCコーデックを使用するシステムに限定されず、他のスケーラブルビデオコーデックにも適用可能であることが理解されよう。

SVCビットストリームは通常、それぞれ復号化することのできる複数の空間およびSNR解像度を表す。複数の解像度はベース層NALユニットおよび拡張層NALユニットによって表される。同一の信号の複数の解像度は、統計的依存関係を示し、予測を使用して効率的にコーディングすることができる。予測は、空間またはSNRスケーラビリティのレートひずみ性能を高めるマクロブロックモード、動き情報、イントラコンテンツ、インターコーディング残差などの要素について行われる。各要素についての予測は、フラグを通じて拡張層でシグナリングされ、すなわち、現在の層を復号化のために必要なのは、下層での予測についてシグナリングされたデータのみである。

所与の解像度に割り当てられた1組の特定のNALユニットが、SVCシニングにより、復号化プロセスでのその(NALユニット)役割に応じて異なる方式で処理される。K個の解像度がSVCビットストリーム中に存在し、解像度がk=0からK-1として番号付けされる一例を考慮する。こうしたK個の解像度は、空間解像度またはSNR解像度あるいはそれらの混合でよい。さらに、大きいkの数を有する解像度が、SVCでの切替え予測アルゴリズムを介して小さいkの数を有する解像度に依存すると仮定する。0≦X≦K-1の解像度Xで復号化するとき、Xより大きい数を有する解像度に割り当てられたすべてのパケットを廃棄することができる。Xより小さい数を有する解像度に割り当てられたすべてのパケット(以後、「シンナブル(thinnable)」または「T型」NALユニットと呼ぶ)をSVCシニングで修正し、全般的にバイトサイズを縮小することができる。

本発明は例示的予測依存関係構造を有するSVCビットストリームに限定されず、他の依存関係構造を有する(例えば、0<Y<Xとして、より低い解像度Yを有するNALユニットに依存しない解像度XのNALユニットを有する)SVCビットストリームにも適用可能であることに再び留意されたい。

置換SVCシニングと除去SVCシニングという2つの代替手順の一方によってSVCシニングを実施することができる。

置換SVCシニングは、解像度XのNALユニットでの予測に直接的にも間接的にも使用されていないT型NALユニット中のビットを、置換されるビットよりも少ないビット数である他のビットで置換するものである。例えば、動きベクトルおよび残差係数を潜在的に含むコード化マクロブロックを、マクロブロックがスキップされることをシグナリングする構文要素mb_skip_flagまたはmb_skip_runで置換することができる。この手順は、SVCシニングの適用後にT型NALユニットがSVCに準拠するという利点と、幾らかのビットレートオーバヘッドという欠点とを有する。

除去SVCシニングは、解像度XのNALユニットでの予測で直接的にも間接的にも使用されていないT型NALユニット中のビットを除去するものである。この場合、T型NALユニット中のマクロブロックの構文解析は、解像度XのNALユニット中のデータによって制御される。この手順は、SVCシニングの後にT型NALユニットがSVCに準拠しないという欠点と、置換SVCシニングと比べてビットレートオーバヘッドが低減されるという利点とを有する。別の潜在的欠点は、拡張層が依存するT型NALユニットのすべてを復号化する前に拡張層データを復号化しなければならないことである。

SVCシニングは、解像度XのNALユニットの中のT型NALユニットのビットストリームを構文解析および再符号化することによって進行する。T型NALユニット中のビットは、他のT型NALユニットまたは解像度XのNALユニットを復号化するために直接的または間接的に使用される予測子を復号化するのに使用されないとき、置換または除去される。T型NALユニットのシニング後、解像度Xを表すのに使用される合計ビットが減少する。

K個の解像度間の依存関係構造が例えば図3に図示したものよりも複雑である場合、T型NALユニットに関するSVCシニングの結果として、複数のバージョンが生じる可能性がある。図3に関連して、層L0のシニングの結果は、ターゲット解像度がS0のものか(空間的改善)、それともQ0のものか(品質改善)に従って異なるものとなる。

SVCは、マクロブロックモード予測、動き情報予測、インターコーディング残差予測、イントラコンテンツ予測などを可能にする。こうしたSVC予測方法のそれぞれは、SVCシニングに適している。

SVCでのマクロブロックモード予測は、H.264のように新しいマクロブロックモード情報を送信すること、及びT型NALユニット中の情報を使用することの間でマクロブロックごとに切り替わる。T型NALユニット中の情報が解像度Xを復号化するのに明示的にも暗黙的にも必要ではない場合、SVCシニングにより、それをより少数のビット、例えば構文要素mb_skip_flagまたはmb_skip_runで置換することができる。そのような置換の結果として、T型NALユニット中のマクロブロックおよび隣接するマクロブロックの他の構文要素が除去または修正されることにもなる。

SVCでは、動き情報予測が、マクロブロックまたは8×8ブロックまたは他のブロックサイズごとに、(例えばH.264でのような)ピクチャ間動き情報予測及びT型NALユニットからの動き情報予測の間で切り替わる。後者の層間予測タイプでは、他のT型NALユニットからの動き情報が予測子として再利用またはスケーリングされる。予測切替えに加えて、動きベクトル改善を送ることができる。動きベクトル改善は送信される追加の動きベクトルからなり、それが動きベクトル予測に追加され、その結果、H.264構文を使用して正確に表現することのできる動きベクトルが得られる。T型NALユニット動き情報が解像度Xでの予測に対して使用されない場合、SVCシニングにより、それをより少数のビットで置換することができ、例えば両方の構成要素について0に等しい動きベクトル差が得られるように動きベクトルを修正することができる。

SVCでは、インターコーディング残差予測がマクロブロックごとにスイッチオン/オフされる。インターコーディング残差予測は、T型NALユニットからのインターコーディング残差と、潜在的には、その後に続く、予測子にSNR改善として追加される残差信号とを再利用し(SNRスケーラビリティ)、またはアップサンプリング(空間スケーラビリティ)する。より高い解像度をコーディングするためにブロックがT型NALユニットから予測されない場合、より高い解像度を復号化するときに、ブロックを送信する必要はない。次いで、SVCシニングにより、例えば対応するブロックが0に等しい値を有する係数のみを含むことを構文要素coded_block_patternが示すように構文要素coded_block_patternを設定することによって、残差に関連するビットをより少数のビットで置換することができる。残差の置換と類似の方法が、M.Mathew、W.-J.Han、およびK.Lee、「Discardable bits and Multi-layer RD estimation for Single loop decoding」、Joint Video Team、Doc.JVT-R050、バンコク、タイ、2006年1月で提案されていることに留意されたい。しかし、このSVCシニング方法は、単に残差だけではなく、すべての他の構文要素(マクロブロックタイプ、動きベクトル、イントラコンテンツを含む)に影響を及ぼし、構文要素の除去の可能性をさらに追加する。

SVCでは、イントラコンテンツ予測がマクロブロックごとにスイッチオン/オフされ、T型NALユニットからのイントラコード化信号を再利用し(SNRスケーラビリティ)、またはアップサンプリングする(空間スケーラビリティ)。その後に、潜在的には、予測子に対するSNR改善として追加される残差信号が続く。より高い解像度をコーディングするためにマクロブロックがT型NALユニットから予測されない場合、より高い解像度を復号化するときに、マクロブロックを送信する必要はない。次いで、SVCシニングにより、イントラマクロブロックに関連するビットをより少数のビット、例えば構文要素mb_skip_flagまたはmb_skip_runで置換することができる。

SVCシニングオペレーション(すなわち置換シニングプロセスおよび除去シニングプロセス)は、SVC構文の特定の機能を活用する。その最も一般的な形態では、シニングは単に、圧縮デジタルビデオ信号に適用される圧縮領域オペレーションである。図6は、単に1つの入力と1つの出力を有する処理ブロックである「シニングユニット」(TU)600を示す。入力信号は、2つ以上の層を有するSVCビデオストリームであると仮定され、出力信号もSVCストリームである。ある場合には、以下で説明するように、出力信号に含まれる層の一部がSVC構文に準拠しないことが可能であることに留意されたい。さらに、TU 600は複数の入力および複数の出力(図示せず)を有することができることに留意されたい。この場合、各出力が多くとも1つの入力に接続され、SVCシニングオペレーションが、図6に示される1入力1出力対の場合と同様に特定の入出力対に対して実施される。

図7は、置換シニングプロセス700での例示的ステップ702〜726の流れ図を示す。図7(および図8)の説明文を参照すると、「ブロック」は入力SVCストリーム(図6)中のターゲット層マクロブロックに対応する下層ブロックであり、「CBP」は、どの変換ブロックが非0係数を含むかを示すcoded_block_patternを指し、「NN」は、現ブロックの右または下に隣接するものを指す。各ターゲット層マクロブロック(MB)について、対応する下層ブロック(ブロックは、サイズMB以下でよい)が配置される。

シニングプロセス700が、以下のように下層ブロック(「現ブロック」)に対して適用される。

現ブロックがイントラコーディングされ(702)、モード予測がターゲット層で使用されない(704)場合、以下が適用される。

現ブロックが隣接ブロックを復号化するのに必要ではなく(イントラ予測のために使用されず)(706)、または現ブロックから予測される隣接ブロックのどれもが、ターゲット層を予測するのに使用されない場合(708)、以下が適用される。

係数を0に設定し、coded_block_pattern(CBP)を修正し(722)、必要なら隣接ブロックの係数を再符号化する(隣接ブロックを符号化するのに使用されるコンテキストは、現ブロックの係数の0設定(zeroing-out)のために変化することがある)(724)。

現ブロックを含むMBがターゲット層を予測するのに使用されない場合(714)、MBをスキップする(716)。非Iスライスおよび非SIでのスキップが、MBデータをmb_skip_run構文要素(CAVLCが使用されるとき)またはmb_skip_flag構文要素(CABACが使用されるとき)で置換することによってシグナリングされる。隣接ブロックの動き情報を符号化するのに使用される予測動き情報がスキップの結果として変化することがあるので、隣接ブロックの動き情報も検査され、必要ならば修正される。

そうではなく、現ブロックがインターコーディングされる場合(702)、以下が適用される。

モード予測が使用されず(718)、動き予測が使用されない(720)場合、以下が適用される。

動き情報を0に設定し(722)、必要なら隣接ブロックの動き情報を修正する(724)。

残差予測が使用されない場合(726)、以下が適用される。

係数を0に設定し、CBPを修正し(710)、必要なら隣接ブロックの係数を再符号化する(712)。

現ブロックを含むMBがターゲット層(714)を予測するのに使用されない場合、MBをスキップする(716)。

そうでない場合、シニングを適用しない。

同様に、図8は、除去シニングプロセス800での例示的ステップ802〜826の流れ図を示す。各ターゲット層MBについて、対応する下層ブロックが配置され、シニングプロセス800が以下のように適用される。

現ブロックがイントラコーディングされ(802)、モード予測がターゲット層で使用されない(804)場合、以下が適用される。

現ブロックが隣接ブロックを復号化するのに必要ではなく(イントラ予測のために使用されず)(806)、または現ブロックから予測される隣接ブロックのどれもが、ターゲット層を予測するのに使用されない場合(808)、以下が適用される。

係数を削除し、CBPを修正し(810)、現ブロックが0の係数を有すると仮定して、隣接ブロックの係数を再符号化する(812)。

現ブロックを含むMBがターゲット層を予測するのに使用されない場合(814)、MBを削除する(816)。これは、隣接ブロックの動き情報の修正を含む。

そうでない場合、現ブロックがインターコーディングされる場合(802)、以下が適用される。

モード予測が使用されず(818)、動き予測が使用されない(820)場合、以下が適用される。

動き情報を0に設定し(822)、
必要なら隣接ブロックの動き情報を修正する(824)。

残差予測が使用されない場合(826)、以下が適用される。

係数を削除し、CBPを修正し(810)、
現ブロックがすべて0の係数を有すると仮定して、隣接ブロックの係数を再符号化する(812)。

現ブロックを含むMBがターゲット層を予測するのに使用されない場合(814)、MBを削除する(816)。

そうでない場合、シニングを適用しない。

SVCS/CSVCS(例えば図1のSVCS/CSVCS160)自体で、またはエンコーダ(例えば、関連するエンコーダ(SVCエンコーダ)または送信側エンドポイントのエンコーダ)でSVCシニングオペレーション(例えばプロセス700または800)を実施することができる。この選択肢は、主にSVCS/CSVCSの計算能力と、エンコーダとSVCS/CSVCSとの間の帯域幅の折り合いを提示する。エンコーダ自体での計算能力要件は最小限であると予想される。SVCS/CSVCSで実施されるSVCシニングオペレーションは、サイド情報と共に実施され、またはサイド情報なしで実施される。

SVCエンコーダでのSVCシニングでは、SVCエンコーダで2つ(またはそれ以上の)バージョンのNALユニットが生成され、SVCS/CSVCSに送られ、SVCS/CSVCSは、どのNALユニットを(エンドポイントの)どのデコーダに転送するかを決定する。これにより、エンコーダとSVCS/CSVCSとの間のビットレートオーバヘッドが生み出される。この実施形態では、TU 600処理ブロックはSVCエンコーダと一体化され、または送信側エンドポイントで通常の符号化の後にTU 600処理ブロックを適用することができる。SVCエンコーダによって生成される2つのタイプのNALユニットは2つの異なる方式で符号化することができる。

第1に、SVCエンコーダは、2つの異なる種類のT型NALユニットを形成することができる。第1の種類は、上層を予測するのに使用されるNALユニット(「予測基準スライス」)であり、他の種類は、予測基準スライスから予測することのできる非予測基準スライスである。discardable_flagを使用して、スライスに関する2つのタイプを区別する高レベル構文サポートを提供し、予測依存関係を判定することができる。この予測基準スライスと非予測基準スライスへの分割が圧縮効率を劇的に低減する可能性は低い。予測基準スライスが非予測基準スライスに含まれる情報に基づく予測から利益を受けている可能性がある場合、エンコーダは、この符号化選択を行っていることになり、そうしたブロックは予測基準クラスブロックとして分類されることになるからである。次いでSVCS/CSVCSは、必要に応じてこうしたストリームを分離する。

第2に、SVCエンコーダは、上述のような予測基準スライスを生成し、それに加えてすべてのデータを含むスライスを生成するように、T型NALユニットについて異なるNALユニットを形成することができる。

SVCシニングオペレーションがサイド情報と共にSVCS/CSVCS自体で行われるとき、SVCエンコーダは通常のNALユニットを生成し、SVCシニングでSVCS/CSVCSを支援するためにサイド情報も送信する。そのようなサイド情報は、T型NALユニットから何をシニングする必要があるかに関する情報を提供するマクロブロックワイズビットマップでよく、完全な拡張層の構文解析を回避する。

SVCシニングオペレーションがサイド情報なしでSVCS/CSVCS自体で行われるとき、SVCエンコーダは、通常のNALユニットのみを生成する。SVCS/CSVCSは、完全なSVCシニングオペレーションを実施する。図9は、「シニングSVCS」(TSVCS)900に関する例示的アーキテクチャを示す。TSVCS 900は、パケットが受信および送信されるネットワークインターフェースコントローラ(NIC)と、複数のユーザU1からUnからパケットを受信するスイッチング要素とを含む(例えばPCT/US06/28365に記載の)通常のSVCSの構造を有し、この特定の例では、各ユーザは、3つの層(例えばU1L0、U1L1、U1L2)を送信する。通常のSVCSは単に、ユーザプリファレンスまたはシステム条件に基づいて、入力からどのパケットがどの出力に、したがってどのユーザに送信されるかを判断する。TSVCS 900では、SVCSの出力はさらに、必要なときに、出力される信号に対してTSVCSがシニングを選択的に適用するとができるようにシニングユニット(例えばTU 600)を備える。

エンコーダ自体で、またはMCU/SVCS/CSVCSでSVCシニングプロセスを適用できることを予想し、シニング(「シニングを意識した符号化(thinning aware encoding)」)を容易にする方式でビデオビットストリームを符号化するようにSVCエンコーダを構成できることに留意されたい。具体的には、下層データの後続の置換または除去が単純化されるように層間予測を編成することができる。シニングを意識した符号化の極端な例として、エンコーダは、異なる解像度の2つのビットストリームが完全に独立にコード化され、除去シニングがベース層ビットストリームの完全な除去となる、同時符号化を生成することができる。この極端なケースでは、コーディング効率は単層コーディングと同じである。この極端なケースに直面する可能性のあるテレビ会議例は、完璧な(無損失)ネットワーク上にある2人の受信側/参加者の場合であり、各参加者が異なる空間解像度を要求する場合である。この場合、送信側エンドポイントは、2つのビットストリームをサイマルキャストし、MCU/SVCS/CSVCSは、バイナリ式に、一方のビットストリームをその所期の受信側エンドポイントにルーティングし、2番目のビットストリームをその所期の受信側エンドポイントにルーティングする。しかし、一般には、そのような理想的な極限状態は稀にしか存在しない。コーディング依存関係およびビットレートの点でのベース層と拡張層との間のデータの区分化は、ネットワークビットレート可用性やエラー回復力などの設計考慮事項の対象となる。

(例えば図7および8を参照して)先に説明したSVCシニングオペレーションでは、ターゲット層は、シニングを実施するエンコーダまたはMCU/SVCS/CSVCSによって完全に送信された。しかし、ターゲット層NALユニットを修正することをさらに可能にすることも可能である。例えば、ベース層からの動きベクトル予測がターゲット層MBで使用されるとき、予測を使用せずに、得られる動きベクトル値でターゲット層MB動き情報を再符号化することが可能である。この機能は、ベース層からのより多くのMBデータを置換または除去することが可能となるので、コーディング効率の向上をさらに促進することができる。

SVCシニングは、受信機で単一の解像度が望ましいとき、およびパケット損失レートが0または非常に小さいとき、およびランダムアクセス要件がSVCコーディングに影響を及ぼさないときに、スケーラブルビデオコーディングプロセスのコーディング効率をさらに最適化する方法である。しかし、システム内にエラーが存在するとき、下位レベルに含まれる情報がビデオエラー隠蔽に有用である。エラーが存在しないとき、MCU/SVCS/CSVCSは、SVCシニングを適用して、所望の解像度を表示するためにデコーダで必要とされない任意の情報を除去または廃棄することができる。しかし、エラーが存在するとき、下位レベルだけに関係のある情報の全体または一部を保持することを選ぶようにMCU/SVCS/CSVCSを構成することができる。システム内に存在する誤り率が高いほど、そのような情報がより多く保持される。この構成は、フレームレートを維持するために、SVCシニングと、例えば国際特許出願PCT/US06/061815および仮米国特許出願第60/778,760号および60/787,031号に記載の層間エラー隠蔽技法との組合せを可能にする。

テレビ会議システムでのエラー回復力およびランダムアクセスとの折り合いで、またはそれらを考慮して、SVCシニングを部分的に適用することもできる。図4および5は、L0、L1、およびL2と符号が付けられたピクチャがスレッド化予測連鎖(threaded prediction chain)である例示的階層化時間予測構造を示す。こうしたピクチャの1つが受信側参加者のデコーダで参照のために利用可能でないとき、空間-時間エラー伝播が生じ、それにより、非常に目立つ主観的ひずみが一般に導入される。L2と符号が付けられたピクチャはインター予測のための基準ピクチャとしては使用されない。したがって、L2(さらに、ある範囲では、L1と符号が付けられたピクチャ)は、ランダムアクセス(すなわち、会議に入る参加者または異なる解像度に切り替わる参加者)またはエラー回復力を提供するための重要性がずっと低い。それは、ピクチャL2およびL1に関する予測連鎖がある短い時間の後に終了するためである。SVCシニングを異なるピクチャに対して選択的に適用することができる。この例では、SVCシニングをより高い時間解像度ピクチャ、すなわちピクチャL2およびL1に適用することができ、デコーダが復号化可能低時間頻度低解像度イメージ(ピクチャL0)を維持することが可能となる。さらに、部分的SVCシニング手法はまた、L0ピクチャに適用されないときにエラー回復力方式の機能も保持する。

エラー回復力方式では、(それぞれスケーラブルビデオエンコーダを実行中の)送信側参加者、MCU/SVCS/CSVCS、および(スケーラブルビデオデコーダを実行中の)受信側参加者が、それらの間の双方向制御チャネルを維持する。送信側参加者からMCU/SVCS/CSVCSへの制御チャネルと、MCU/SVCS/CSVCSから受信側参加者への制御チャネルは、順方向制御チャネルと呼ばれる。受信側参加者からMCU/SVCS/CSVCSへの制御チャネルと、MCU/SVCS/CSVCSから送信側参加者への制御チャネルは、逆方向制御チャネルと呼ばれる。実際の通信の前に、通常は機能交換が実施される。この機能交換は、各受信側参加者へのチャネルに関するエラー回復力条件/要件の範囲のシグナリングを含む。セッションの間、受信側参加者は、逆方向制御チャネルを介してエラー条件/要件を更新することができる。次いで、SVCシニングを実施するシステムユニット(例えば送信側エンドポイントまたはMCU/SVCS/CSVCS)は、更新されたエラー条件/要件に従ってシニングプロセスを適合させることができる。

有利には、SVCシニングプロセスブロックとして設計されたTU 600を2つのネットワークを相互接続するボーダー装置で使用できることに留意されたい。この場合、TU 600は、あるネットワークを介して受信されたその入力ビデオ信号を、その出力を移送するのに使用される別のネットワークの条件に最適化するために、単一入力単一出力装置(すなわち、MCU/SVCS/CSVCS機能を有さない)として動作する。受信側エンドポイントがネットワーク性能標識を通信するフィードバックチャネルの使用により、そのようなボーダーTUの動作を容易にすることができる。図10は、シニング処理ブロックが2つのネットワークAおよびBを接続するボーダー装置1010(「BORDER TU」)内にあるテレビ会議システム1000の一例を示す。BORDER TUは、1つまたは複数のTUを備えるルータまたはブリッジでよい。テレビ会議システムでは、エンドユーザ140がネットワーク(B)内に位置し、エンドユーザ110〜130がネットワークA内に位置する。この特定の例では、テレビ会議システム1000は、テレビ会議信号を仲介するのにSVCSを使用することができるが、この技法はMCU/CSVCS設計ならびにポイントツーポイント接続(すなわちサーバを伴わない)に適用可能である。動作の際に、BORDER TUは、ネットワークA上の3人のエンドユーザ110〜130のうちの1人または複数からエンドユーザ140に送信されたデータ、および/またはエンドユーザ140から送信されたデータに対してシニングを適用することができる。

本発明の好ましい実施形態であると考えられるものを説明したが、本発明の精神から逸脱することなく、それに対して他の、また別の変更および修正を行えることを当業者は理解するであろうし、すべてのそのような変更および修正が本発明の真の範囲内に包含されることを主張することが意図される。

例えば、本明細書では、単一受信側エンドポイントの単一ターゲット解像度要件に応答してエンコーダまたはシニングサーバ(TS)によって入力ビットストリームがシニングされる例を用いてSVCシニングを説明した。したがって、異なる受信側エンドポイントについて異なるターゲット解像度要件がある場合、本明細書に記載の単一ターゲット解像度シニングオペレーション(すなわち除去シニングおよび置換シニング)を入力ビットストリームに対して反復的に(例えば順次に)実施して、異なるターゲット解像度に対応する異なる出力ビットストリームを別々に生成することができる。しかし、例えばターゲット解像度データセット内のオーバーラップまたは非直交性を活用するために、異なる出力ビットストリームを生成するためのシニングオペレーションをマージまたは縦続接続することができる。そのような縦続接続オペレーションは、例えば1つ又は複数のTSが縦続接続構成内に配置されるときに、効率的かつ有利であることがある。入力ビットストリームが3つの空間層(S0、S1、およびS2)を有するが、第1受信側が解像度S1のみを必要とし、第2受信側が解像度S2を必要とする場合を考慮する。縦続接続構成は、ターゲット出力ビットストリーム、すなわち(シニング済みS0、S1)および(シニング済みS0、シニング済みS1、およびS2)をより効率的に生成することができる。縦続接続中の第1ステージでは、入力S0をS1ターゲットとS2ターゲットの両方についてシニングすることができる。第2ステージでは、入力S1(またはS1のコピー)がS2についてシニングされる。同様に、シニングがエンコーダで実施される場合、この特定の例では、所期の受信側のいずれもS0解像度での復号化を必要としないので、エンコーダは、S0のシニング済みバージョンを直接生成することができる。

本発明のシステムおよび方法をハードウェアとソフトウェアの任意の適切な組合せを使用して実装できることも理解されよう。上述のシステムおよび方法を実装および操作するソフトウェア(すなわち命令)をコンピュータ可読媒体上で提供することができ、コンピュータ可読媒体は、限定はしないが、ファームウェア、メモリ、記憶装置、マイクロコントローラ、マイクロプロセッサ、集積回路、ASIC、オンラインダウンロード可能媒体、および他の入手可能な媒体を含むことができる。

本発明の原理によるテレビ会議システムのための例示的アーキテクチャを示すブロック図である。本発明の原理によるエンドユーザ端末のための例示的アーキテクチャを示すブロック図である。本発明の原理による空間またはSNR階層化のための例示的階層化ピクチャ構造を示すブロック図である。本発明の原理による時間階層化のためのスレッド化階層化ピクチャ構造を示すブロック図である。本発明の原理によるベース層および拡張層に対して異なる予測経路を有する空間またはSNR階層化のための例示的スレッド化階層化ピクチャ構造を示すブロック図である。本発明の原理による1入力1出力シニングユニット(TU)を示すブロック図である。本発明の原理による置換SVCシニングプロセスを示すブロック図である。本発明の原理による除去SVCシニングプロセスを示すブロック図である。本発明の原理によるシニングSVCS(TSVCS)のアーキテクチャを示すブロック図である。本発明の原理によるBORDER TUを備えるテレビ会議システムのための例示的アーキテクチャを示すブロック図である。

Claims

少なくとも1つのデジタルビデオ信号入力および少なくとも1つのデジタルビデオ信号出力を備えるビデオ処理ユニット(「シニングユニット(Thinning Unit)」(TU))であって、入力および出力デジタルビデオ信号が、時間、空間、および品質スケーラビリティのうちの1つまたは複数をサポートするスケーラブルビデオコーディングフォーマットで符号化され、前記TUが、所期の解像度で前記少なくとも1つの出力ビデオ信号を復号化するのに必要でない情報の一部またはすべてに対応する前記少なくとも1つの入力ビデオ信号の一部を修正し、それによってそのような情報が前記少なくとも1つの出力ビデオ信号で削減または省略されるように構成されるビデオ処理ユニット
を備えるデジタルビデオ信号処理システム。
前記TUが、前記少なくとも1つの出力ビデオ信号のための解像度よりも高い空間、SNR、または時間解像度に対応する入力ビデオ信号の部分を廃棄するように構成される請求項1に記載のシステム。
前記TUが、前記少なくとも1つの出力ビデオ信号のための解像度に対応する前記入力ビデオ信号の部分をそのままに保つように構成される請求項1に記載のシステム。
前記TUが、前記少なくとも1つの出力ビデオ信号のための解像度に対応する前記入力ビデオ信号の部分を修正するように構成される請求項1に記載のシステム。
前記TUが、前記所期の解像度で前記出力ビデオ信号を復号化するのに必要でない情報が前記出力ビデオ信号で必要なビットがより少ない情報で置換されるように前記入力ビデオ信号の部分を修正するようにさらに構成され、前記置換された情報を伴う前記出力ビデオ信号が準拠ビデオビットストリームである請求項1に記載のシステム。
前記入力ビデオ信号がH.264 SVCに従って符号化され、ターゲット層と、前記ターゲット層が依存する少なくとも1つの下層とを含み、前記出力信号に対する前記TUが、前記入力ビデオ信号の前記下層中の情報を置換し、それによって、
前記ターゲット層を予測するのに使用されないマクロブロックについて、前記マクロブロックのデータをスキップラン標識とスキップフラグ標識の一方で置換することにより、前記マクロブロックがスキップされるものとしてシグナリングされ、
モード予測が使用されないイントラブロックについて、前記ブロックが隣接ブロックによるイントラ予測のために使用されず、または前記隣接ブロックのいずれも前記ターゲット層を予測するために使用されない場合、前記ブロックの係数が0に設定され、前記マクロブロックのコード化ブロックパターンがそれに応じて修正され、
モード予測または動き予測が使用されないインターブロックについて、動き情報が0に設定され、
残差予測が使用されないインターブロックについて、前記インターブロックの係数が0に設定され、前記マクロブロックのコード化ブロックパターンがそれに応じて修正され、情報の置換が隣接ブロックに影響を及ぼす場合、隣接ブロックの符号化が修正される請求項5に記載のシステム。
前記TUがさらに、前記少なくとも1つの出力のための解像度で前記ビデオ信号を復号化するのに必要でない情報が前記出力ビデオ信号で除去されるように前記入力ビデオ信号の部分を修正するようにさらに構成される請求項1に記載のシステム。
前記入力ビデオ信号がH.264 SVCに従って符号化され、ターゲット層と少なくとも1つの下層とを含み、前記出力信号に対する前記TUが、前記入力ビデオ信号の前記下層中の情報を除去し、それによって、
前記ターゲット層を予測するのに使用されないマクロブロックについて、前記マクロブロックが除去され、
モード予測が使用されないイントラブロックについて、前記ブロックが隣接ブロックによるイントラ予測のために使用されず、または前記隣接ブロックのいずれも前記ターゲット層を予測するために使用されない場合、前記ブロックの係数が、前記ブロック自体の層内部のさらなる予測のために0であると推定され、
モード予測または動き予測が使用されないインターブロックについて、動き情報が除去され、動きベクトル差が、前記インターブロック自体の層内部のさらなる予測のために0であると推定され、
残差予測が使用されないインターブロックについて、残差コーディングに関係するすべての構文要素が除去され、前記インターブロック自体の層内部の予測のために0であると推定され、
情報の置換が隣接ブロックに影響を及ぼす場合、隣接ブロックの符号化が修正される請求項7に記載のシステム。
少なくとも1つの通信チャネルによって少なくとも1つの受信側エンドポイントにリンクされた少なくとも1つの出力と、少なくとも1つの通信チャネルによって少なくとも1つの送信側エンドポイントにリンクされた少なくとも1つの入力とを備える会議ブリッジ(「シニングサーバ(Thinning Server)」(TS))をさらに備え、
前記少なくとも1つのエンドポイントが、時間、空間、または品質スケーラビリティのうちの1つまたは複数をサポートするスケーラブルビデオコーディングフォーマットを使用してコード化デジタルビデオストリームを送信し、前記少なくとも1つの受信側エンドポイントが、スケーラブルビデオコーディングフォーマットでコード化された少なくとも1つのデジタルビデオストリームを復号化し、
前記TUが前記TSと一体化され、それによって前記TUが、前記TSの前記少なくとも1つの出力のうちの少なくとも1つに適用される請求項1に記載のシステム。
前記少なくとも1つの受信側エンドポイントのデコーダが、前記ターゲット層の復号化プロセスで必要とされるときに下層データに順次アクセスすることにより、表示のための前記ターゲット層より低いビデオ層を復号化するように構成される請求項9に記載のシステム。
前記TSがさらに、
縦続接続された復号化および符号化を使用するトランスコーディングマルチポイント制御ユニット、
どの入力を出力として送信するかを選択することによるスイッチングマルチポイント制御ユニット、
選択的多重化を使用するスケーラブルビデオ通信サーバ、または
選択的多重化およびビットストリームレベル合成を使用するコンポジッティングスケーラブルビデオ通信サーバ
のうちの1つとして前記TSの少なくとも1つの出力を操作するように構成される請求項9に記載のシステム。
前記少なくとも1つの送信側エンドポイントのエンコーダが、前記TUによって実施される情報除去または置換プロセスを容易にする符号化モード決定を行うように構成され、さらに、可能なシニングプロセスの結果として得られるビットレートを符号化決定に組み込み、このようにして、ソースコーディングの結果として生じるひずみと、エラー、ジッタ、および前記ビットレートを含む伝送条件との間の折り合いを決定するように構成される請求項9に記載のシステム。
前記TUが、ピクチャ適応的にシニングを実施する請求項9に記載のシステム。
少なくとも1つの送信側エンドポイントのエンコーダが、送信される媒体を、いくつかの異なる時間レベルを有するスレッド化コーディング構造内のフレームとして符号化するように構成され、前記フレームのサブセット(「R」)が、信頼性の高い移送のために特に選択され、前記スレッド化コーディング構造内に最低の時間層のフレームを少なくとも含み、それによって前記デコーダが、パケット損失またはエラーの後に、確実に受信されたタイプRのフレームに基づいて、受信した媒体の少なくとも一部を復号化することができ、その後で前記エンコーダと同期され、前記TUが、非Rフレームに対応する情報のみにシニングを選択的に適用する請求項9に記載のシステム。
前記少なくとも1つの受信側エンドポイントから前記TSに情報を送信するための前記通信ネットワークを介する少なくとも1つのフィードバックチャネルをさらに備え、
前記少なくとも1つの受信側エンドポイントが、前記少なくとも1つのフィードバックチャネルを介してネットワーク状態標識を前記TSに通信し、前記TSが、レポートされたネットワーク状態に従って情報修正プロセスを適合させる請求項9に記載のシステム。
それぞれ少なくとも1つの通信チャネルによって少なくとも1つの受信側エンドポイントおよび少なくとも1つの送信側エンドポイントにリンクされた会議ブリッジ(「シニングサーバ」(TS))をさらに備え、
前記少なくとも1つのエンドポイントが、時間、空間、または品質スケーラビリティのうちの1つまたは複数をサポートするスケーラブルビデオコーディングフォーマットを使用してコード化デジタルビデオを送信し、前記少なくとも1つの受信側エンドポイントが、スケーラブルビデオコーディングフォーマットでコード化された少なくとも1つのデジタルビデオストリームを復号化し、
前記TUがTSと一体化され、前記TUの少なくとも1つの入力が前記少なくとも1つの送信側エンドポイントにリンクされ、前記TUの少なくとも1つの出力が少なくとも1つの受信側エンドポイントにリンクされ、前記少なくとも1つの送信側エンドポイントが、入力ビデオ信号全体を完全に構文解析することなく前記TUが前記入力信号の部分の修正を実施することを可能にする追加のデータも送信する請求項1に記載のシステム。
空間または品質スケーラビリティをサポートするスケーラブルビデオコーディングフォーマットを使用してコード化デジタルビデオを送信する少なくとも1つのエンドポイントと、
スケーラブルビデオコーディングフォーマットでコーディングされた少なくとも1つのデジタルビデオストリームを復号化する少なくとも1つの受信側エンドポイントと、
前記TUの少なくとも1つの入力を前記少なくとも1つの送信側エンドポイントとリンクする入力ビデオ通信ネットワークと、
前記TUの前記少なくとも1つの出力を少なくとも1つの受信側エンドポイントにリンクする出力ビデオ通信ネットワークとをさらに備え、
前記TUが、前記出力ビデオ通信ネットワークのネットワーク状態に従ってTUの入力ビデオ信号のコーディング効率を最適化するのに使用される請求項1に記載のシステム。
前記少なくとも1つの受信側エンドポイントから前記TUに情報を送信するための前記出力ビデオ通信ネットワークを介する1つまたは複数のフィードバックチャネルをさらに備え、
前記少なくとも1つの受信側エンドポイントが、前記少なくとも1つのフィードバックチャネルを介してネットワーク状態標識を前記TSに通信し、前記TSが、レポートされたネットワーク状態に従って情報修正プロセスを適合させる請求項17に記載のシステム。
時間、空間、または品質スケーラビリティのうちの1つまたは複数をサポートするスケーラブルビデオコーディングフォーマットを使用してコード化デジタルビデオを送信する少なくとも1つのエンドポイントと、
スケーラブルビデオコーディングフォーマットでコーディングされた少なくとも1つのデジタルビデオストリームを復号化する少なくとも1つの受信側エンドポイントと、
それぞれ少なくとも1つの通信チャネルによって前記少なくとも1つの受信側エンドポイントおよび前記少なくとも1つの送信側エンドポイントにリンクされたSVCSと
を備えるデジタルビデオ通信システムであって、
前記少なくとも1つの送信側エンドポイントから送信されるビデオ信号が、
前記少なくとも1つの受信側エンドポイントによる復号化のためのターゲット層に対応する第1データセットと、
前記少なくとも1つの受信側エンドポイントによる復号化のための前記ターゲット層よりも低い時間、空間、または品質解像度に対応する層に対応する第2データセットと、
前記少なくとも1つの受信側エンドポイントによる復号化のための前記ターゲット層よりも低い時間、空間、または品質解像度に対応する層に対応し、復号化のための前記ターゲット層による予測のために使用される情報を少なくとも含む第3補助データセットと、
前記少なくとも1つの受信側エンドポイントによる復号化のための前記ターゲット層よりも高い時間、空間、または品質解像度に対応する層に対応する任意選択の第4データセットと
を含む別個のデータセットに区分化され、
それによって前記SVCSが、前記少なくとも1つの受信側エンドポイントに対する前記第2および第3データセットからのデータを、前記第1データセットのデータおよび任意選択で前記第4データセットのデータと共に選択的に多重化することができるシステム。
前記少なくとも1つの受信側エンドポイントおよび前記SVCSから前記少なくとも1つの送信側エンドポイントに情報を送信するための前記通信ネットワークを介する1つまたは複数のフィードバックチャネルをさらに備え、
前記少なくとも1つの受信側エンドポイントおよびSVCSが、前記少なくとも1つのフィードバックチャネルを介してネットワーク状態標識を前記少なくとも1つの送信側エンドポイントに通信し、前記少なくとも1つの送信側エンドポイントが、レポートされたネットワーク状態に従って前記第3データセットの構築を適合させる請求項19に記載のシステム。
前記少なくとも1つの送信側エンドポイントから送信される前記ビデオ信号の前記第3データセットが、ピクチャ適応的に生成および送信される請求項19に記載のシステム。
前記少なくとも1つの送信側エンドポイントのエンコーダが、送信される媒体を、いくつかの異なる時間レベルを有するスレッド化コーディング構造内のフレームとして符号化するように構成され、前記フレームのサブセット(「R」)が、信頼性の高い移送のために特に選択され、前記スレッド化コーディング構造内に最低の時間層のフレームを少なくとも含み、それによって前記デコーダが、パケット損失またはエラーの後に、確実に受信されたタイプRのフレームに基づいて、受信した媒体の少なくとも一部を復号化することができ、その後で前記エンコーダと同期され、前記少なくとも1つの送信側エンドポイントから送信された前記ビデオ信号の前記第3データセットが、非Rフレームのみに関して生成および送信される請求項19に記載のシステム。
時間、空間、または品質スケーラビリティのうちの1つまたは複数をサポートするスケーラブルビデオコーディングフォーマットを使用してコード化デジタルビデオを送信する少なくとも1つのエンドポイントと、
スケーラブルビデオコーディングフォーマットでコーディングされた少なくとも1つのデジタルビデオストリームを復号化する少なくとも1つの受信側エンドポイントと、
それぞれ少なくとも1つの通信チャネルによって前記少なくとも1つの受信側エンドポイントおよび前記少なくとも1つの送信側エンドポイントにリンクされたSVCSと
を備えるデジタルビデオ通信システムであって、
前記少なくとも1つの送信側エンドポイントから送信されるビデオ信号が、
前記少なくとも1つの受信側エンドポイントによる復号化のためのターゲット層に対応する第1データセットと、
前記少なくとも1つの受信側エンドポイントによる復号化のための前記ターゲット層よりも低い時間、空間、または品質解像度に対応する層に対応し、復号化のための前記ターゲット層による予測のために使用される情報を含む第2データセットと、
前記少なくとも1つの受信側エンドポイントによる復号化のための前記ターゲット層よりも低い時間、空間、または品質解像度に対応する層に対応し、復号化のための前記ターゲット層による予測のために使用されない情報を含む第3データセットと、
前記少なくとも1つの受信側エンドポイントによる復号化のための前記ターゲット層よりも高い時間、空間、または品質解像度に対応する層に対応する任意選択の第4データセットと
を含む別個のデータセットに区分化され、
それによって前記SVCSが、前記少なくとも1つの受信側エンドポイントに対する前記第2および第3データセットからのデータを、前記第1データセットのデータおよび任意選択で前記第4データセットのデータと共に選択的に多重化することができるシステム。
前記少なくとも1つの受信側エンドポイントおよび前記SVCSから前記少なくとも1つの送信側エンドポイントに情報を送信するための前記通信ネットワークを介する少なくとも1つのフィードバックチャネルをさらに備え、
前記少なくとも1つの受信側エンドポイントおよびSVCSが、前記少なくとも1つのフィードバックチャネルを介してネットワーク状態標識を前記少なくとも1つの送信側エンドポイントに通信し、前記少なくとも1つの送信側エンドポイントが、レポートされたネットワーク状態に従って前記第3データセットの構築を適合させる請求項23に記載のシステム。
前記少なくとも1つの受信側エンドポイントによる復号化のための前記ターゲット層よりも低い時間、空間、または品質層解像度に対応する層に対応するデータの第2および第3データセットへの分離が、ピクチャ適応的に実施される請求項23に記載のシステム。
前記少なくとも1つの送信側エンドポイントのエンコーダが、送信される媒体を、いくつかの異なる時間レベルを有するスレッド化コーディング構造内のフレームとして符号化するように構成され、前記フレームのサブセット(「R」)が、信頼性の高い移送のために特に選択され、前記スレッド化コーディング構造内に最低の時間層のフレームを少なくとも含み、それによって前記デコーダが、パケット損失またはエラーの後に、確実に受信されたタイプRのフレームに基づいて、受信した媒体の少なくとも一部を復号化することができ、その後で前記エンコーダと同期され、前記少なくとも1つの受信側エンドポイントによる復号化のための前記ターゲット層よりも低い時間、空間、または品質層解像度に対応する層に対応する前記データの第2および第3データセットへの分離が、非Rフレームのみに関して実施される請求項23に記載のシステム。
空間および/または品質スケーラビリティをサポートするスケーラブルビデオコーディングフォーマットで符号化されたデジタルビデオ信号を処理する方法であって、
少なくとも1つのデジタルビデオ信号入力および少なくとも1つのデジタルビデオ信号出力を備えるビデオ処理ユニット(「シニングユニット」(TU))を使用すること、
前記TUで、所期の解像度で前記少なくとも1つの出力ビデオ信号を復号化するのに必要でない情報の一部またはすべてに対応する前記少なくとも1つの入力ビデオ信号の一部を修正し、それによってそのような情報が前記少なくとも1つの出力ビデオ信号で削減または省略されること
を含む方法。
前記少なくとも1つの入力ビデオ信号の一部を修正することが、前記少なくとも1つの出力ビデオ信号のための解像度よりも高い空間、SNR、または時間解像度に対応する入力ビデオ信号の部分を廃棄することを含む請求項27に記載の方法。
前記少なくとも1つの入力ビデオ信号の一部を修正することが、前記少なくとも1つの出力ビデオ信号のための解像度に対応する前記入力ビデオ信号の部分をそのままに保つことを含む請求項27に記載の方法。
前記少なくとも1つの入力ビデオ信号の一部を修正することが、前記少なくとも1つの出力ビデオ信号のための解像度に対応する前記入力ビデオ信号の部分を修正することを含む請求項27に記載の方法。
前記少なくとも1つの入力ビデオ信号の一部を修正することが、前記所期の解像度で前記出力ビデオ信号を復号化するのに必要でない情報が前記出力ビデオ信号で必要なビットがより少ない情報で置換されるように前記入力ビデオ信号の部分を修正することを含み、前記置換された情報を伴う前記出力ビデオ信号が準拠ビデオビットストリームである請求項27に記載の方法。
前記入力ビデオ信号がH.264 SVCに従って符号化され、ターゲット層と、前記ターゲット層が依存する少なくとも1つの下層とを含み、前記少なくとも1つの入力ビデオ信号の一部を修正することが、前記入力ビデオ信号の前記下層中の情報を置換し、それによって、
前記ターゲット層を予測するのに使用されないマクロブロックについて、前記マクロブロックのデータをスキップラン標識とスキップフラグ標識の一方で置換することにより、前記マクロブロックがスキップされるものとしてシグナリングされ、
モード予測が使用されないイントラブロックについて、前記ブロックが隣接ブロックによるイントラ予測のために使用されず、または前記隣接ブロックのいずれも前記ターゲット層を予測するために使用されない場合、前記ブロックの係数が0に設定され、前記マクロブロックのコード化ブロックパターンがそれに応じて修正され、
モード予測または動き予測が使用されないインターブロックについて、動き情報が0に設定され、
残差予測が使用されないインターブロックについて、前記インターブロックの係数が0に設定され、前記マクロブロックのコード化ブロックパターンがそれに応じて修正され、
情報の置換が隣接ブロックに影響を及ぼす場合、隣接ブロックの符号化が修正される請求項31に記載の方法。
前記少なくとも1つの入力ビデオ信号の一部を修正することが、前記少なくとも1つの出力のための解像度で前記ビデオ信号を復号化するのに必要でない情報が前記出力ビデオ信号で除去されるように前記入力ビデオ信号の部分を修正することを含む請求項27に記載の方法。
前記入力ビデオ信号がH.264 SVCに従って符号化され、ターゲット層と少なくとも1つの下層とを含み、前記少なくとも1つの入力ビデオ信号の一部を修正することが、前記出力信号について、前記入力ビデオ信号の前記下層中の情報を除去することを含み、それによって、
前記ターゲット層を予測するのに使用されないマクロブロックについて、前記マクロブロックが除去され、
モード予測が使用されないイントラブロックについて、前記ブロックが隣接ブロックによるイントラ予測のために使用されず、または前記隣接ブロックのいずれも前記ターゲット層を予測するために使用されない場合、前記ブロックの係数が、前記ブロック自体の層内部のさらなる予測のために0であると推定され、
モード予測または動き予測が使用されないインターブロックについて、動き情報が除去され、動きベクトル差が、前記インターブロック自体の層内部のさらなる予測のために0であると推定され、
残差予測が使用されないインターブロックについて、残差コーディングに関係するすべての構文要素が除去され、前記インターブロック自体の層内部の予測のために0であると推定され、
情報の置換が隣接ブロックに影響を及ぼす場合、隣接ブロックの符号化が修正される請求項33に記載の方法。
少なくとも1つの通信チャネルによって少なくとも1つの受信側エンドポイントにリンクされた少なくとも1つの入力と、少なくとも1つの通信チャネルによって少なくとも1つの送信側エンドポイントにリンクされた少なくとも1つの出力とを備える会議ブリッジ(「シニングサーバ」(TS))を使用することをさらに含み、
前記少なくとも1つのエンドポイントが、時間、空間、または品質スケーラビリティのうちの1つまたは複数をサポートするスケーラブルビデオコーディングフォーマットを使用してコード化デジタルビデオストリームを送信し、前記少なくとも1つの受信側エンドポイントが、スケーラブルビデオコーディングフォーマットでコード化された少なくとも1つのデジタルビデオストリームを復号化し、
前記TUが前記TSと一体化され、それによって前記TUが、前記TSの前記少なくとも1つの出力のうちの少なくとも1つに適用される請求項27に記載の方法。
前記少なくとも1つの受信側エンドポイントのデコーダを使用して、前記ターゲット層の復号化プロセスで必要とされるときに下層データに順次アクセスすることにより、表示のための前記ターゲット層より低いビデオ層を復号化することをさらに含む請求項35に記載の方法。
前記TSの少なくとも1つの出力が、
縦続接続された復号化および符号化を使用するトランスコーディングマルチポイント制御ユニット、
どの入力を出力として送信するかを選択することによるスイッチングマルチポイント制御ユニット、
選択的多重化を使用するスケーラブルビデオ通信サーバ、または
選択的多重化およびビットストリームレベル合成を使用するコンポジッティングスケーラブルビデオ通信サーバ
のうちの1つとなるように前記TSを操作することをさらに含む請求項35に記載の方法。
前記少なくとも1つの送信側エンドポイントのエンコーダを使用して、前記TUによって実施される情報除去または置換プロセスを容易にする符号化モード決定を行うこと、および可能なシニングプロセスの結果として得られるビットレートを符号化決定に組み込み、それによって、ソースコーディングの結果として生じるひずみと、エラーとジッタ、および前記ビットレートを含む送信条件との間の折り合いの判定を得ることができることをさらに含む請求項35に記載の方法。
前記TUで、ピクチャ適応的にシニングを実施することをさらに含む請求項35に記載の方法。
少なくとも1つの送信側エンドポイントのエンコーダが、送信される媒体を、いくつかの異なる時間レベルを有するスレッド化コーディング構造内のフレームとして符号化し、前記フレームのサブセット(「R」)が、信頼性の高い移送のために特に選択され、前記スレッド化コーディング構造内に最低の時間層のフレームを少なくとも含み、それによってデコーダが、パケット損失またはエラーの後に、確実に受信されたタイプRのフレームに基づいて、受信した媒体の少なくとも一部を復号化することができ、その後で前記エンコーダと同期される方法であって、前記TUで、非Rフレームに対応する情報のみにシニングを選択的に適用することをさらに含む請求項35に記載の方法。
前記少なくとも1つの受信側エンドポイントから前記TSに情報を送信するための前記通信ネットワークを介する少なくとも1つのフィードバックチャネルが存在し、
前記少なくとも1つの受信側エンドポイントが、前記少なくとも1つのフィードバックチャネルを介してネットワーク状態標識を前記TSに通信する方法であって、前記TSで、レポートされたネットワーク状態に従って情報修正プロセスを適合させることをさらに含む請求項35に記載の方法。
少なくとも1つの通信チャネルによって少なくとも1つの受信側エンドポイントにリンクされた少なくとも1つの出力と、少なくとも1つの通信チャネルによって少なくとも1つの送信側エンドポイントにリンクされた少なくとも1つの入力とを備える会議ブリッジ(「シニングサーバ」(TS))を使用することをさらに含み、
前記少なくとも1つのエンドポイントが、時間、空間、または品質スケーラビリティのうちの1つまたは複数をサポートするスケーラブルビデオコーディングフォーマットを使用してコード化デジタルビデオを送信し、少なくとも1つの受信側エンドポイントが、スケーラブルビデオコーディングフォーマットでコード化された少なくとも1つのデジタルビデオストリームを復号化し、前記TUが前記TSと一体化され、それによって前記TUが、前記TSの前記少なくとも1つの出力のうちの少なくとも1つに適用される方法であって、
前記少なくとも1つの送信側エンドポイントから、入力ビデオ信号全体を完全に構文解析することなく前記TUが前記入力信号の部分の修正を実施することを可能にする追加のデータを送信することをさらに含む請求項35に記載の方法。
時間、空間、および品質スケーラビリティのうちの1つまたは複数をサポートするスケーラブルビデオコーディングフォーマットを使用してコード化デジタルビデオを送信する少なくとも1つのエンドポイントと、
スケーラブルビデオコーディングフォーマットでコーディングされた少なくとも1つのデジタルビデオストリームを復号化する少なくとも1つの受信側エンドポイントと、
前記TUの前記少なくとも1つの入力を少なくとも1つの送信側エンドポイントとリンクする入力ビデオ通信ネットワークと、
前記TUの前記少なくとも1つの出力を前記少なくとも1つの受信側エンドポイントにリンクする出力ビデオ通信ネットワークとが存在し、
前記TUを使用して、前記出力ビデオ通信ネットワークのネットワーク状態に従ってTUの入力ビデオ信号のコーディング効率を最適化することをさらに含む請求項35に記載の方法。
前記少なくとも1つの受信側エンドポイントから前記TUに情報を送信するための前記出力ビデオ通信ネットワークを介する1つまたは複数のフィードバックチャネルが存在し、前記少なくとも1つの受信側エンドポイントが、前記少なくとも1つのフィードバックチャネルを介してネットワーク状態標識を前記TSに通信する方法であって、
前記TSで、レポートされたネットワーク状態に従って情報修正プロセスを適合させることをさらに含む請求項43に記載の方法。
時間、空間、または品質スケーラビリティのうちの1つまたは複数をサポートするスケーラブルビデオコーディングフォーマットを使用してコード化デジタルビデオを送信する少なくとも1つのエンドポイントと、
スケーラブルビデオコーディングフォーマットでコーディングされた少なくとも1つのデジタルビデオストリームを復号化する少なくとも1つの受信側エンドポイントと、
それぞれ少なくとも1つの通信チャネルによって前記少なくとも1つの受信側エンドポイントおよび前記少なくとも1つの送信側エンドポイントにリンクされたSVCSと
を備えるシステムでのデジタルビデオ通信のための方法であって、
前記少なくとも1つの送信側エンドポイントから送信されるビデオ信号を、
前記少なくとも1つの受信側エンドポイントによる復号化のためのターゲット層に対応する第1データセットと、
前記少なくとも1つの受信側エンドポイントによる復号化のための前記ターゲット層よりも低い時間、空間、または品質解像度に対応する層に対応する第2データセットと、
前記少なくとも1つの受信側エンドポイントによる復号化のための前記ターゲット層よりも低い時間、空間、または品質解像度に対応する層に対応し、復号化のための前記ターゲット層による予測のために使用される情報を少なくとも含む第3補助データセットと、
前記少なくとも1つの受信側エンドポイントによる復号化のための前記ターゲット層よりも高い時間、空間、または品質解像度に対応する層に対応する任意選択の第4データセットと
を含む別個のデータセットに区分化し、
それによって前記SVCSが、前記少なくとも1つの受信側エンドポイントに対する前記第2および第3データセットからのデータを、前記第1データセットのデータおよび任意選択で前記第4データセットのデータと共に選択的に多重化することができる方法。
前記少なくとも1つの受信側エンドポイントおよび前記SVCSから前記少なくとも1つの送信側エンドポイントに情報を送信するための前記通信ネットワークを介する1つまたは複数のフィードバックチャネルが存在し、前記少なくとも1つの受信側エンドポイントおよびSVCSが、前記少なくとも1つのフィードバックチャネルを介してネットワーク状態標識を前記少なくとも1つの送信側エンドポイントに通信する方法であって、
少なくとも1つの送信側エンドポイントが、レポートされたネットワーク状態に従って前記第3データセットの構築を適合させることをさらに含む請求項45に記載の方法。
少なくとも1つの送信側エンドポイントが、前記出力ビデオ信号の前記第3データセットをピクチャ適応的に生成および送信することをさらに含む請求項45に記載の方法。
前記少なくとも1つの送信側エンドポイントのエンコーダが、送信される媒体を、いくつかの異なる時間レベルを有するスレッド化コーディング構造内のフレームとして符号化し、前記フレームのサブセット(「R」)が、信頼性の高い移送のために特に選択され、前記スレッド化コーディング構造内に最低の時間層のフレームを少なくとも含み、それによって前記デコーダが、パケット損失またはエラーの後に、確実に受信されたタイプRのフレームに基づいて、受信した媒体の少なくとも一部を復号化することができ、その後で前記エンコーダと同期され、前記少なくとも1つの送信側エンドポイントから送信された前記ビデオ信号の前記第3データセットが、非Rフレームのみに関して生成および送信される請求項45に記載の方法。
時間、空間、または品質スケーラビリティのうちの1つまたは複数をサポートするスケーラブルビデオコーディングフォーマットを使用してコード化デジタルビデオを送信する少なくとも1つのエンドポイントと、
スケーラブルビデオコーディングフォーマットでコーディングされた少なくとも1つのデジタルビデオストリームを復号化する少なくとも1つの受信側エンドポイントと、
それぞれ少なくとも1つの通信チャネルによって前記少なくとも1つの受信側エンドポイントおよび前記少なくとも1つの送信側エンドポイントにリンクされたSVCSと
を備えるシステムでのデジタルビデオ通信のための方法であって、
前記少なくとも1つの送信側エンドポイントから送信されるビデオ信号を、
前記少なくとも1つの受信側エンドポイントによる復号化のためのターゲット層に対応する第1データセットと、
前記少なくとも1つの受信側エンドポイントによる復号化のための前記ターゲット層よりも低い時間、空間、または品質解像度に対応する層に対応し、復号化のための前記ターゲット層による予測のために使用される情報を含む第2データセットと、
前記少なくとも1つの受信側エンドポイントによる復号化のための前記ターゲット層よりも低い時間、空間、または品質解像度に対応する層に対応し、復号化のための前記ターゲット層による予測のために使用されない情報を含む第3データセットと、
前記少なくとも1つの受信側エンドポイントによる復号化のための前記ターゲット層よりも高い時間、空間、または品質解像度に対応する層に対応する任意選択の第4データセットと
を含む別個のデータセットに区分化し、
それによって前記SVCSが、前記少なくとも1つの受信側エンドポイントに対する前記第2および第3データセットからのデータを、前記第1データセットのデータおよび任意選択で前記第4データセットのデータと共に選択的に多重化することができる方法。
前記少なくとも1つの受信側エンドポイントおよび前記SVCSから前記少なくとも1つの送信側エンドポイントに情報を送信するための前記通信ネットワークを介する少なくとも1つのフィードバックチャネルが存在し、
前記少なくとも1つの受信側エンドポイントおよびSVCSが、前記少なくとも1つのフィードバックチャネルを介してネットワーク状態標識を前記少なくとも1つの送信側エンドポイントに通信する方法であって、
前記少なくとも1つの送信側エンドポイントで、レポートされたネットワーク状態に従って前記第3データセットの構築を適合させることをさらに含む請求項49に記載の方法。
前記少なくとも1つの受信側エンドポイントが、復号化のための前記ターゲット層よりも低い時間、空間、または品質層解像度に対応する層に対応するデータを第2および第3データセットにピクチャ適応的に分離することをさらに含む請求項49に記載の方法。
前記少なくとも1つの送信側エンドポイントのエンコーダが、送信される媒体を、いくつかの異なる時間レベルを有するスレッド化コーディング構造内のフレームとして符号化し、前記フレームのサブセット(「R」)が、信頼性の高い移送のために特に選択され、前記スレッド化コーディング構造内に最低の時間層のフレームを少なくとも含み、それによって前記デコーダが、パケット損失またはエラーの後に、確実に受信されたタイプRのフレームに基づいて、受信した媒体の少なくとも一部を復号化することができ、その後で前記エンコーダと同期される方法であって、
前記少なくとも1つの受信側エンドポイントが、非Rフレームのみに関して、復号化のための前記ターゲット層よりも低い時間、空間、または品質解像度に対応する層に対応する前記データを第2および第3データセットに分離することをさらに含む請求項49に記載の方法。
方法請求項27から52のうちの少なくとも1つに記載のステップを実施するための1組の命令を含むコンピュータ可読媒体。