JP5752268B2 - 時間スケーラビリティのための高いレイヤのシンタックス - Google Patents

時間スケーラビリティのための高いレイヤのシンタックス Download PDF

Info

Publication number
JP5752268B2
JP5752268B2 JP2013549439A JP2013549439A JP5752268B2 JP 5752268 B2 JP5752268 B2 JP 5752268B2 JP 2013549439 A JP2013549439 A JP 2013549439A JP 2013549439 A JP2013549439 A JP 2013549439A JP 5752268 B2 JP5752268 B2 JP 5752268B2
Authority
JP
Japan
Prior art keywords
temporal
picture
layer
flag
bitstream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013549439A
Other languages
English (en)
Other versions
JP2014507864A (ja
Inventor
ジル・ボイス
ダニー・ホン
Original Assignee
ヴィディオ・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヴィディオ・インコーポレーテッド filed Critical ヴィディオ・インコーポレーテッド
Publication of JP2014507864A publication Critical patent/JP2014507864A/ja
Application granted granted Critical
Publication of JP5752268B2 publication Critical patent/JP5752268B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4305Synchronising client clock from received content stream, e.g. locking decoder clock with encoder clock, extraction of the PCR packets

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

関連出願の相互参照
本出願は、その開示が全体として参照により本明細書に組み込まれている、「High Layer Syntax for Temporal Scalability」という名称の、2011年1月14日に出願した米国出願第61/432,860号の優先権を主張するものである。
本出願は、時間スケーラビリティを使用する映像圧縮に関し、より詳細には、映像デコーダまたはメディア認識ネットワーク要素が、予測のために必要とされる非ベースレイヤのピクチャまたは非ベースレイヤのピクチャの部分を識別することを可能にし、そのことによりビットストリームのプルーニングを効率的にさせる技法に関する。
商業的な映像圧縮技法では、ベンダ間の相互運用性を可能にするために映像符号化規格を使用する場合がある。そのような映像符号化規格、具体的には、国際電気通信連合(「ITU」)、Place des Nations、CH-1211 Geneva 20、Switzerlandまたはhttp://www.itu.int/rec/T-REC-H.264から入手可能であり、全体として参照により本明細書に組み込まれている、ITU-T勧告H.264、「Advanced video coding for generic audiovisual services」、2010年3月とともに本開示を使用することができる。
H.264は、参照ピクチャ選択として知られる技法による時間スケーラビリティを可能にする。参照ピクチャ選択は、(最新のIDRピクチャの(復号化順序で)前に復号化されるピクチャを参照しないなどの)多少の制限を伴って、所与のピクチャの再構築の時間に、デコーダでの記憶域内の任意の参照ピクチャからのピクチャ間予測を可能にし得る。デコーダに記憶される参照ピクチャの数は、H.264のプロファイルおよびレベルにより制限される場合がある。さらにビットストリーム生成中のエンコーダは、各々のピクチャに対して、それが参照ピクチャとして記憶されるべきであるかどうかを明示的に信号通信することができる。明示的な信号通信がない場合、一部のピクチャがさらに暗黙に記憶される。明示的な信号通信および暗黙の記憶の組み合わせは、低いビットレートのオーバーヘッドでの参照ピクチャ管理の柔軟性を可能にし得る。
しかしながら実際には、ある種のH.264エンコーダは、符号化されるピクチャの参照関係が、ある種の「パターン」に従うビットストリームを生出する。それらのパターンの1つの粗製の形式は例えば、http://www.itu.int/rec/T-REC-H.262から入手可能であるITU-T勧告H.262「Information technology - Generic coding of moving pictures and associated audio information: Video」、2000年2月から知られるような、ピクチャグループまたはGOPとして知られていたものであり、その形式は、MPEG-2映像としても知られており、参照により本明細書に組み込まれている。図2はH.264とともに実装可能なパターンの2つの例を示すが、より詳細な説明は後で提供する。
パターン内部では、ある種のピクチャの復号化が、ビットストリームの準拠およびユーザエクスペリエンスの観点の両方から、他のピクチャの復号化よりも重要性が高い場合がある。例えば、一部の場合ではパターンの第1のピクチャであるIDRピクチャの復号化が利用可能でないことが、パターンの残りの復号化に対して害のある結果を生み出す場合がある。他方で参照のために使用されないピクチャが利用可能でないことは、まさにそのピクチャの提示の欠如を招くだけであり、そのことは、フレームレートの一時的な落ち込みとしてユーザにより知覚され得るものであり、一部の場合では隠蔽され得る。IDRピクチャおよび非参照ピクチャ以外のピクチャの非復号化の結果は、後で説明するように結果の重大度に関して中程度であり得る。
図1を参照すると、例示的な映像会議システムの単純化されたブロック図が示されている。エンコーダ(101)は、例えば時間スケーラビリティを可能にするパターンを用いる符号化されたピクチャを含むビットストリーム(102)を生み出すことができる。ビットストリーム(102)は、それがある種のビットレートを有することを指示するように太線として示される。ビットストリーム(102)を、ネットワークリンクを介してメディア認識ネットワーク要素(MANE)(103)に転送することができる。MANE(103)の機能は、例えばユーザに知覚される視覚的品質への影響が最小であるピクチャを選択的に除去することにより、第2のネットワークリンクにより提供されるある種のビットレートに下げるようにビットストリームを「プルーニングする」ことであり得る。このことは、MANE(103)からデコーダ(105)に送出されるビットストリーム(104)に対するヘアラインの線により示される。デコーダ(105)は、MANE(103)からプルーニングされたビットストリーム(104)を受信し、ビットストリーム(104)を復号化かつレンダリングすることができる。参照のために少しも使用されない、そうでなければ(有利にはやはり除去される)パターンの残りのピクチャの部分集合のみによる参照のために使用されるピクチャのみをプルーニングすることにより、視覚的品質を、ビットレートの低減を考慮に入れる場合でも高く保持することができる。
上述の意味でのビットストリームのプルーニングは、圧縮された対象領域で処理され得る動作である。(少なくとも部分的なビットストリームの再構築およびコード化を含む)トランスコーディングとは違い、ビットストリームのプルーニングは、計算的に軽量であり実質的に遅延の目立たない動作であり得る。
ビットストリームのプルーニングは、エンコーダ(101)、MANE(103)、およびデコーダ(105)のすべてで発生し得る。MANE(103)ベースのプルーニングに対する主要なユースケースをすでに説明した。デコーダ(105)では、例えばデコーダ(105)がMANE(103)またはエンコーダ(101)にデコーダ(105)の能力を通知することができるコールコントロールプロトコルが存在しないときの場合であり得る、計算資源がビットストリーム(104)で受信されるすべてのレイヤを復号化するのに利用可能でないとき、プルーニングは実用的であり得る。複数のレイヤのブロードキャスト送信は、1つの実際的な筋書である。エンコーダ(101)でのビットストリームのプルーニングは、例えばエンコーダ(101)の信号処理エンティティが、ネットワークのビットレートに適合可能でなく、すなわち、例えば柔軟性のないハードウェアアーキテクチャにより定めたようにいくつかのレイヤを伴う高いビットレートを常にコード化し、ただしビットストリーム(102)にとって利用可能なネットワークのビットレートがすべてのビットをトランスポートするのに必要とされるより低い値に変化し、エンコーダ(101)のトランスポート部分がこの状況を認識するときに発生し得る。
エンコーダが、ある種のパターンを使用すると仮定する場合でさえ、(参照ピクチャの最大数などの制約のみにより限定される)可能性のあるパターンの数が大きいことによって、エンコーダ、デコーダ、またはMANEが、それらが復号化、転送、またはそれ以外の取り扱いを飛ばす必要があるピクチャを識別する必要があるときに困難が生じる場合がある。
H.264およびそのスケーラブル拡張のアネックスGが設計されたとき、この問題は、上記で説明したある種の機構によりある程度まで対処されていた。
H.264に準拠するビットストリームでは、デコーダまたはMANEは、参照ピクチャとして使用されていないピクチャを指示するためにnal_ref_idcとして知られているNALユニットヘッダ内のシンタックス要素を使用することができる。同様にnal_unit_typeは、IDRピクチャを指示することができる。これら2つの信号通信技法は、最も両極端の場合、すなわち、大部分の場合でパターンのすべての他のピクチャの復号化のために必要とされるIDRピクチャ(最も高い重要度)、およびパターンの他のどのピクチャの復号化のためにも必要とされない非参照ピクチャ(最も低い重要度)を扱う。両方の機構は、アネックスGを使用しても、使用しなくても、利用可能である。
アネックスGで仕様が定められたH.264に対するスケーラブル映像符号化(SVC)の拡張は、プルーニングされ得るパターンのピクチャを識別する一助となるものをさらに提供する。具体的にはアネックスGでは、中でも時間レイヤの概念を導入する。図2aおよび2bを参照すると、時間スケーラビリティを実装する2つの異なるパターンが示されている。
図2aは、3つのピクチャ(202〜204)を含むパターン(201)を示す。ピクチャ(202)は、ベースレイヤ(206)に属し、前のベースレイヤのピクチャ(205)のみから予測される。予測関係は矢印により示される。2つの時間エンハンスメントレイヤ(207)のピクチャ(203、204)はそれぞれ、ベースレイヤのピクチャ(202)から、およびレイヤ1のピクチャ(203)から予測される。エンハンスメントレイヤのピクチャから予測されるベースレイヤのピクチャはない。さらに、ベースレイヤの予測を除いて、パターン(201)内のピクチャと他のパターンとの間で予測は発生しない。
図2bは、3つの時間レイヤ、すなわちベースレイヤ(210)、ならびに第1の時間エンハンスメントレイヤ(211)および第2の時間エンハンスメントレイヤ(212)を使用するパターンを示す。パターン(213)は4つのピクチャを含み、そのうちのピクチャ(214)はベースレイヤのピクチャであり、ピクチャ(215)は第1のエンハンスメントレイヤ(211)に属し、ピクチャ(216)および(217)は第2のエンハンスメントレイヤ(212)に属する。
図2aおよび2bに示す予測関係は通常、イントラ(I)ピクチャまたは双予測(B)ピクチャとは違い、予測(P)ピクチャに関連するものである。さらに(ピクチャの異なるブロックが異なる時間予測関係を有し得るという意味での)マルチ予測は図に示されない。すべての上記のオプションは、H.264の少なくとも一部のプロファイルに存在する。下記の説明に関してはそれらの特徴を、本開示のより重要性が高い態様を不明瞭にしないように省略する場合がある。異なるピクチャタイプおよびマルチ予測に対する説明に対して概括することは、当業者であれば可能である。
H.264アネックスGによれば、アネックスGに準拠するエンハンスメントレイヤNALユニットに対してのみ存在するNALユニットヘッダ拡張にtemporal_idフィールドが存在する。temporal_idフィールドの目的は、NALユニットが属する時間レイヤを指示することである。この情報が存在することが、準拠状態であるべきビットストリームに要求されるが、そのことは、復号化処理に何らの直接的な影響も与えないはずである。換言すれば、少なくともエンハンスメントレイヤに属するNALユニットは、ピクチャが属する時間レイヤをデコーダに信号通信する情報が含まれる。
SVC拡張は、スケーラビリティ情報SEIメッセージをさらに含む。スケーラビリティ情報SEIメッセージは、パターンの説明としても観視され得る、ビットストリームのスケーラビリティ構造に関する情報を含む。スケーラビリティ情報SEIメッセージは、中でも上記で説明したtemporal_idシンタックス要素により規定される、時間レイヤ間の依存性を指示するために使用され得る。換言すれば、スケーラビリティ情報SEIメッセージを受信かつ解釈することにより、デコーダは、いくつの時間レイヤをそのデコーダがスケーラブルビットストリーム内に予期可能であるかを了得することができる。
このことは、復号化処理にとって有用であり得るが、厳密には必要とされない(ただしレンダリング、ビットストリームのプルーニング、選択的復号化等々のような、H.264で定義されない他の機構にとっては決定的に重要であり得る)情報を定めるものである。
スケーラビリティ情報SEIメッセージは、temporal_id_nesting_flagをさらに含む。くだけた言い方をすればtemporal_id_nesting_flagは、設定されるときは、より低い時間レイヤのピクチャを「越えての」より高い異なるレイヤのピクチャ間の予測関係が存在しないことを指示する。完全な定義に関しては、H.264アネックスGを参照されたい。図2aおよび図2bのパターンは、図3a〜dの(符号化構造としても知られている)すべての4つのパターンがそうであるように、この条件を充足する。図3aは、唯一の時間レイヤを用いる従前のIPPP符号化構造を示す。時間レイヤが存在しないので、temporal_id_nesting_flagの値は重要性がない。図3bは、MPEG-2ベースのブロードキャスト環境で普通に使用されるようなIBBP構造を示す。時間エンハンスメントレイヤ1のピクチャ(Bピクチャ)は、参照のためにベースレイヤのIピクチャおよびPピクチャのみを使用している。図3cは、エンハンスメントレイヤのためにBピクチャを使用する3つのレイヤの符号化構造を示す。そのような符号化構造は、H.264を使用して実装可能である。図3dは、一部の映像会議システムで使用されるような階層的な3つのレイヤのPピクチャベースの符号化構造を示す。
エンコーダ、デコーダ、およびMANEは、ビットストリーム内の時間レイヤの存在を決定するために、かつそれらのレイヤが、より低いレイヤのピクチャにより参照として使用される、より高いレイヤのピクチャが存在しないという点で、どの程度まで相互に適正に「ネストされている」かを決定するために、スケーラビリティ情報SEIメッセージ内の情報を使用することができる。この情報を、ビットストリームの深い分析を伴わないビットストリームのプルーニングのために使用することができる。例えばtemporal_id_nesting_flagが設定され、スケーラビリティ情報SEIが、temporal_id=2が最も高い時間レイヤであることを指示するならば、MANEもしくはデコーダは、レイヤ0および1でのどの予測も中断させることなく、2に等しいtemporal_idを伴うすべてのNALユニットをパターンから安全に除去することができ、またはMANEもしくはデコーダは、レイヤ0でのどの予測も中断させることなく、2もしくは1のtemporal_idを伴うすべてのNALユニットを除去することができる。
SVC拡張は、スイッチングポイントが存在することになるときにフレーム内の相対位置に関する情報を提供するために、delta_frame_numのシンタックス要素を伴うtl_switching_pointのSEIメッセージをさらに提供する。SEIメッセージが使用されるならば、個別の時間レイヤが、復号化のために、いずれの前に符号化された、より高い時間レイヤも使用することができないように、ビットストリームは制限される。
このSEIメッセージ内の情報の存在によって、デコーダが、特にスイッチングポイントで追加的な時間レイヤの復号化を始めるために、いくつの時間レイヤを復号化するかをスイッチすることが可能になり得る。
上述の機構は、スケーラビリティ情報およびtl_switching_pointのSEIメッセージが、ビットストリームの送信および/またはプルーニングにおいて必要とされるすべてのMANEで、ならびにデコーダで利用可能である場合にのみ、より高い時間レイヤの効率的なビットストリームのプルーニング、および時間レイヤ間のレイヤスイッチングを可能にする。しかしながらSEIメッセージNALユニットは、nal_ref_idcのシンタックス要素が0に設定され、このことは、MANEまたはデコーダが、規格の準拠を破ることなくそのような情報を無視することができることを指示する。したがって、MANEが、(例えばそのMANEが、H.264のスケーラブル拡張が標準化された前に設計されたレガシーデバイスであるので)スケーラブルビットストリームに具体的には関係しておらず、ただし(例えば、そのMANEの発信リンク上の帯域幅が不十分であるので)ビットストリームを「プルーニング」する必要がある場合、NALユニットの中でも、非参照ピクチャなどの、nal_ref_idcが0に設定されているNALユニットを伴うSEIメッセージを除去することはあり得る。その結果、さらに下流の他のMANEまたはデコーダは、容易に(深いビットストリーム検査なしに)時間レイヤを除去することはできない。
MANEはさらに、プルーニングに関して情報に基づいた判断を行うために、特にスケーラビリティ情報およびtl_switching_pointのSEIメッセージの内容に関して、状態を維持することが求められる場合がある。そのような状態を確定することは、すべてまたは実質的にすべてのそのようなSEIメッセージをインターセプトかつ解釈することを必要とする場合がある。大部分のMANEは、意味のある判断を行うためにパラメータセット情報をインターセプトかつ解釈する必要があるが、数多くのSEIメッセージの中でMANEに対して何らかの意味を有するものはごくわずかである。MANEにとって意味のあるわずかなものを抽出かつ解釈するだけのためにすべてのSEIメッセージをインターセプトすることは、負担を伴い計算コストの高い処理となり得る。
さらに(他の形式のスケーラビリティとは違い)時間スケーラビリティを、H.264のプレアネックス(pre-Annex)Gバージョン(ベースラインプロファイル、メインプロファイル、またはハイプロファイルなどのプロファイル)を使用して実装することができる。しかしながらそのようなプロファイルは、上述のSEIメッセージの機能性を欠く場合がある。
したがって、H.264のアネックスGの1つの弱点は、述べた情報が、SEIメッセージほど容易に放棄されず、他の情報により埋もれた状態にされていないシンタックス要素において利用可能であるはずであるということであり得る。
現在、ハイエフィシエンシービデオコーディング(High Efficiency Video Coding)(HEVC)の標準化が進行中である。HEVCの作業草案は、以降「WD4」と呼び、参照により本明細書に組み込まれている、(http://wftp3.itu.int/av-arch/jctvc-site/2011_07_F_Torino/から入手可能である、B. Brossら、「WD4: Working Draft 4 of High-Efficiency Video Coding」)で見出すことができる。HEVCは、H.264の多くの高レベルシンタックスの特徴を継承する。上記で説明したH.264の弱点が、規格が承認される前に対処されるならば、そのことはHEVCの成功のために有利となり得る。
ITU-T勧告H.264、「Advanced video coding for generic audiovisual services」、2010年3月、国際電気通信連合(「ITU」)、Place des Nations、CH-1211 Geneva 20、Switzerlandまたはhttp://www.itu.int/rec/T-REC-H.264 ITU-T勧告H.262「Information technology - Generic coding of moving pictures and associated audio information: Video」、2000年2月、http://www.itu.int/rec/T-REC-H.262 B. Brossら、「WD4: Working Draft 4 of High-Efficiency Video Coding」、http://wftp3.itu.int/av-arch/jctvc-site/2011_07_F_Torino/
全体的な設計の完全性を依然として維持しながら、映像符号化規格との適合性を失うことなく、レガシーのMANE、ベースラインH.264デコーダ、ならびにHEVC対応能力のあるMANEおよびデコーダによる(SEIメッセージなどの)スケーラビリティ情報の意図的な除去を困難または不可能にする様式での、時間スケーラビリティに関係する情報の信号通信を可能にするする技法が求められている。
開示する主題は、時間スケーラビリティを用いるシーケンスのビットストリーム抽出および復号化を含むビットストリーム操作に関する、H.264またはWD4に対する改良を提供する。
ビットストリーム抽出器は、第1のビットストリームから、時間レイヤであり得る1つまたは複数のレイヤをプルーニングすることにより、より低いまたは等しいビットレートの第2のスケーラブルビットストリームを抽出することができる。ビットストリーム抽出器は、例えばエンコーダ、MANE、およびデコーダに存在し得る。
ビットストリーム抽出器は、デコーダが、抽出されたビットストリームを適正に復号化することができることになるように、時間的にスケーラブルな映像ビットストリームのどの一部分が転送またはプルーニングされるべきであるかを識別することができる。個々のアクセスユニットの復号化が別個のプロセッサまたはコアに割り当てられ得る並列デコーダは、どのピクチャがどの参照ピクチャに依存しているかを認識することから利益を得ることができる。
一部の実施形態ではtemporal_id値は、例えばプロファイル、レベル、または同様のビットストリームに関係するプロパティにより、スケーラビリティの使用が信号通信されているかどうかとは無関係に、時間エンハンスメントレイヤに属する情報を搬送するすべてのNALユニットに存在する。非スケーラブル環境での最適化のために、temporal_idを含むことを、NALユニットタイプなどのNALユニットヘッダ内の適切なフィールドによって信号通信することができる。temporal_idフィールドは、時間レイヤを除去するためにプルーニングする必要があるNALユニットを識別するビットストリーム抽出器の一助となり得る。
一部の実施形態ではtemporal_id_nesting_flagは、ビットストリームの規範的な部分内の高レベルシンタックス構造、例えばシーケンスパラメータセットにおいて伝達される。ビットストリーム抽出器は、ビットストリームの規範的な部分内のtemporal_id_nesting_flagの存在を当てにすることができ、このことによってビットストリーム抽出器の実装形態は単純化する。
一部の実施形態ではtemporal_switching_point_flagは、ビットストリームの規範的な部分内の高レベルシンタックス構造、例えばスライスヘッダにおいて伝達される。ビットストリーム抽出器は、ビットストリームの規範的な部分内のtemporal_switching_point_flagの存在を当てにすることができ、このことによってビットストリーム抽出器の実装形態は単純化し得る。
一部の実施形態ではエンコーダまたはデコーダは、参照ピクチャリスト順序付けおよびインデックス割り当てを含むことができ、このことは、現在のピクチャおよび参照ピクチャ記憶域に記憶される前に符号化されたピクチャのtemporal_id値を考えに入れるものである。この情報を使用すると、エンコーダまたはデコーダは、参照ピクチャリストから、現在のピクチャより高いtemporal_id値を伴うピクチャを排除することができる。
一部の実施形態ではエンコーダまたはデコーダは、temporal_switching_point_flagを考えに入れる参照ピクチャマーキング処理を含むことができる。
temporal_switching_point_flagを使用することは、柔軟性のあるマルチピクチャ予測技法を可能にさせ、一方で依然として、temporal_switching_point_flagにより指示されるビットストリーム内のある種のポイントに、より高い時間レイヤのピクチャを追加することを可能にし得る。
一部の実施形態ではMANEは、時間レイヤスイッチングのためにtemporal_id_nesting_flagおよび/またはtemporal_switching_point_flagを使用する。
一部の実施形態ではデコーダは、並列復号化をサポートするためにtemporal_id_nesting_flagおよび/またはtemporal_switching_point_flagを使用する。
開示する主題のさらなる特徴、特質、および様々な利点が、以下の詳細な説明および付随する図面から、より明らかになろう。
映像会議システムの概略図である。 2つのレイヤを用いるパターンの概略図である。 3つのレイヤを用いるパターンの概略図である。 あるピクチャタイプを用いるパターンの概略図である。 あるピクチャタイプを用いるパターンの概略図である。 あるピクチャタイプを用いるパターンの概略図である。 あるピクチャタイプを用いるパターンの概略図である。 本発明の実施形態による符号化構造の概略図である。 本発明の実施形態によるマルチ予測を使用する符号化構造の概略図である。 本発明の実施形態によるマルチ予測を使用する符号化構造の概略図である。 本発明の実施形態によるマルチ予測を使用する符号化構造の概略図である。 本発明の実施形態による映像符号化規格に含むために書式設定されたtemporal_idに関する仕様言語の図である。 本発明の実施形態による映像符号化規格に含むために書式設定されたtemporal_switching_point_flagに関する仕様言語の図である。 本発明の実施形態による映像符号化規格に含むために書式設定されたtemporal_nesting_flagに関する仕様言語の図である。 本発明の実施形態によるコンピュータシステムの概略図である。
図が組み込まれ、本開示の一部を構成する。図の全体を通して、同じ参照番号および符号が、別段の記述がない限り、図示する実施形態の類似の特徴部、要素、構成要素、または一部分を示すために使用される。さらに、開示する主題を次に図を参照して詳細に説明するが、その説明は例示的な実施形態に関してそのように行われる。
本出願は、より高い時間レベルがより高いフレームレートの映像を提供する時間スケーラビリティ、および前に符号化された参照ピクチャからの予測を使用する映像圧縮に関する。ビットストリームの規範的な部分にtemporal_nesting_flagおよびtemporal_switching_point_flagを新規に含むことにより、時間スケーラビリティに関係するいくつかの新規の技法が可能にされている。
ある実施形態では、temporal_nesting_flagのシンタックス要素が、高レベルシンタックス構造、例えばシーケンスパラメータセットなどのパラメータセットに配置される。本特許出願で使用されるような用語「高レベルシンタックス構造」は、復号化処理のために必要とされる構造を指す。例えばH.264では、ピクチャパラメータセットおよびシーケンスパラメータセット、ならびにスライスヘッダはすべて、高レベルシンタックス構造である。これに対して補足エンハンスメント情報(Supplementary Enhancement Information)(SEI)メッセージは、それらは復号化処理のために必要とされないので、高レベルシンタックス構造を構成しないことになる。同様に視覚的有用性情報(Visual Usability Information)構造は、それが、高レベルシンタックス構造であるシーケンスパラメータセット内で随意に搬送される場合でも、高レベルシンタックス構造を構成しないことになる。VUIとシーケンスパラメータセットに位置する他の構造との間の違いは、VUI情報は復号化処理のために必要とされず、一方でSPS内のすべての他の情報は必要とされるということである。したがって、ビットストリームであって、VUI情報がそのビットストリームからのシーケンスパラメータセットから除去されているものは、H.264規格に適合している場合がある。
シーケンスパラメータセットにフラグを有することによって、パラメータセット状態を保持するエンコーダ、デコーダ、および/またはMANEがその値にアクセスできることが確実になる。パラメータセットベースのtemporal_nesting_flagのセマンティックスは以下のようであり得る、すなわち、temporal_nesting_flagが1に設定されるならば、より低いtemporal_idを伴うピクチャが復号化されるとき、より高いtemporal_id値を伴う参照ピクチャを、もはや予測のために使用することはできない。
同じまたは別の実施形態では、temporal_nesting_flagはビットストリーム内のすべての時間レイヤに適用される。
開示する主題によれば、図8に示すようなシンタックスおよび復号化処理説明(800)を、H.264で使用される取り決めを使用してtemporal_nesting_flagを、上述の挙動を定義するために用いることができる。
上記の説明によれば、temporal_nesting_flagが1に設定されるとき、より低い時間レイヤのピクチャがビットストリームに存在するならば、より高い時間レイヤでのピクチャは、より低い時間レイヤのピクチャの前にあるいかなるピクチャからも予測しない場合があり、このことによって符号化効率が場合によっては低減する可能性がある。時間スイッチングポイントを識別するために必要とされる深いビットストリーム検査を必要とすることなく、temporal_nesting_flagの厳正な制限条件を緩めることを可能にすることになる機構が役立つことになる。時間スイッチングポイントは、ピクチャであって、そのピクチャから先では、同じまたはより高い時間レイヤ内のピクチャの時間予測による依存性が存在しないピクチャであり得る。この弱点を少なくとも部分的に減ずるために、同じまたは別の実施形態において、ピクチャに対して、ピクチャの後の時間スイッチングポイントの存在を指示するためにtemporal_switching_point_flagを使用することができる。このことによってエンコーダは、単にエンコーダの選定の頻度で、時間スイッチングポイントを挿入する(すなわち、参照のために同じまたはより高いレイヤの前のピクチャを参照するエンコーダの自由性を行使しない)ことにより、符号化効率と時間スイッチングポイントの頻度との間の兼ね合いを制御することが可能になる。上述の機構をサポートするために、temporal_switching_point_flagは、ピクチャごとに変化し得るビットストリームの規範的な部分に、例えばスライスヘッダに存在すべきである。
開示する主題によれば、図7に示すようなシンタックスおよび復号化処理説明(700)を、H.264で使用される取り決め(700)を使用してtemporal_switching_point_flagを、上述の挙動を定義するために用いることができる。
上述のフラグをパラメータセットまたはスライスヘッダなどのビットストリームの規範的な部分に配置することは、時間スケーラブル符号化のいくつかの単純化および最適化を可能にさせるものであり、それらの一部を次に説明する。
一実施形態では、H.264の参照ピクチャ管理機構を背景として、temporal_id_nesting_flagが1に設定されるとき、デコーダは、所与のtemporal_id値を伴うピクチャを復号化した後、より高いtemporal_id値を伴う参照ピクチャリスト内のすべてのピクチャを「参照のために不使用」とマーキングすることができる。
同じまたは別の実施形態ではこのことによって、それらのピクチャが参照ピクチャメモリから除去される結果となり、そのことにより、追加的な参照ピクチャのための空間を生出し、エンコーダがそれらの追加的な参照ピクチャを使用することを可能にする場合があり、このことは、中でも符号化効率の一助となり得る。別の利点は、ネスティングを伴う階層ピクチャ構造を符号化するとき、メモリ管理制御動作(Memory Management Control Operation)(MMCO)シンタックス要素はビットストリームで必要とされない場合があるということである。MMCOシンタックス要素は、ビットストリームでそれらの表現のためのビットを必要とする(したがって、それらの除去は符号化効率にとって有益である)だけでなく、一部のエンコーダおよびデコーダのアーキテクチャでは理解かつ実装するのが困難であると報告されてもいる。さらなる利点は、時間スケーラビリティのみの場合に、スケーラビリティ情報SEIメッセージは、冗長である場合があり、したがって、良好なエンコーダ実装形態により送出されず、このこともまた符号化効率にとって申し分ないものであり得るということであり得る。
開示する主題によれば、図6に示すようなシンタックスおよび復号化処理説明を、H.264で使用される取り決め(600)を使用して上記で説明した挙動を正式に定義するために用いることができる。
図4は、temporal_nesting_flagが1に設定されている、開示する主題の実施形態による3つの時間レイヤを用いる一例の階層Pピクチャ符号化構造を示す。temporal_id 0(401)により指示されるベースレイヤに属するピクチャが、temporal_id 1(402)を伴うピクチャの下方に示される。この例の最も高いエンハンスメント時間レイヤであるtemporal_id 2(403)を伴うピクチャが、他の2つのレイヤの上方に示される。この例では、最も高い時間レイヤであるレイヤ2(403)でのピクチャP1、P3、P5、およびP7は、例えばピクチャに属する各々のスライスのnal_ref_idcフィールドでの0の値により指示されて、「参照のために使用されない」と符号化される。時間レイヤ0および1でのピクチャは、例えばピクチャに属する各々のNALユニットのnal_ref_idcフィールドでの3の値により指示されて、「参照のために使用される」と符号化される。上記で説明した参照ピクチャリスト処理によって、レイヤ0内のピクチャはレイヤ1からのピクチャを参照として使用することはできない。ピクチャP4を符号化するとき、開示する主題を用いない場合、H.264/AVCにおいてデフォルトの参照ピクチャリスト順序付け処理は、参照ピクチャリスト内の最初にピクチャP2を置き、続いてI0を置くことになり、エンコーダは、参照ピクチャ予測リスト内の最初にI0を置くためにref_pic_list_modification()またはdec_ref_pic_marking()シンタックスを使用することが求められることになる。開示する主題によれば、ピクチャP4に対する参照ピクチャリストが形成されたときに、ピクチャP2に対する1のtemporal id値はピクチャP4に対する0のtemporal_id値より高いので、リストに含まれないことになる。
図5a、5b、5cは、temporal_nesting_flagおよびtemporal_switching_point_flagの使用の例を示す。一部のピクチャに対して、予測リスト内の最初の予測子が実線の矢印によって示され、ピクチャP3およびP6のみに対する(複数の参照ピクチャ予測により許される)追加的な予測子が破線の矢印によって示される。ピクチャP3およびP6に対する制限条件は単に例示的なものであり、その制限条件は、エンハンスメントレイヤ1および2内のマルチ予測ピクチャを示すために使用されるが、示す他のピクチャがマルチ予測を使用することができないという、開示する主題による制限条件であるべきではない。図5aは、すべてのピクチャに対してtemporal_nesting_flagおよびtemporal_switching_point_flagが0に設定されている、参照ピクチャの照会の完全な柔軟性の例を示す。図5bはtemporal_nesting_flag=1の例を示し、いくつかの予測オプションが除去されている。図5cはtemporal_nesting_flag=0の例を示し、(1に設定されたtemporal_switching_flagにより指示される)スイッチングポイントがピクチャP2にある。
図5aは、temporal_nesting_flagが0に設定されているときに供与される完全な柔軟性を仮定する、複数の参照ピクチャを用いる一例の階層Pピクチャ符号化構造を示す。ピクチャP3をピクチャP2、P1、またはI0から予測することができ、ピクチャP6をP4、P2、またはI0から予測することができる。破線の矢印(501、502、503)は、何らかのより低いレイヤの最後のピクチャの前に復号化されていた同じまたはより高いレイヤの参照ピクチャからの予測を指示することに留意されたい。例えばP6はP2から予測されるが(502)、(より低いレイヤのものである)P4は、P2の後、ただしP6の前に復号化されている。このことは時間的なネスティングの違反であり、temporal_nesting_flagが0に設定されている場合にのみ許される。
図5(b)に示すように、temporal_id_nesting_flagが1に等しいならば、ピクチャP3を、P2またはI0からであるが、P1からではなく予測することができ、ピクチャP6を、P4またはI0からであるが、P2からではなく予測することができる。換言すれば、図5aに示すような破線の矢印(501、502、503)は、予測オプションとして利用可能ではなく、このことが場合によっては、より低い符号化効率(デコーダに対する、より少ないオプション)をもたらすが、独立したピクチャ復号化パターンを可能にする(ピクチャP2は、ピクチャP4が復号化されると直ちに参照ピクチャリストから除去され得る)。
temporal_switching_point_flagを使用することによって、ピクチャごとを基準として利用可能な時間参照ピクチャを調整することが可能になる。図5(c)に示すのは、ピクチャP2が、temporal_switching_point_flagが1に設定され、黒いマークにより指示されている例である。同じまたはより低いレイヤの復号化順序で次のピクチャであるP4はフラグが設定されていないので、レイヤ1からレイヤ2への時間スイッチングポイントは指示されるが、レイヤ0からレイヤ1へのスイッチングポイントは指示されない。したがって、すでにレイヤ0および1を復号化していたデコーダは、P2の後のレイヤ2の符号化されたピクチャ、すなわちP3から開始して、レイヤ2を追加することができる。ピクチャP3を、P2またはI0からであるが、P1からではなく予測することができる。換言すれば、予測矢印(503)は利用可能でない。P6に対する予測子リストには、予測矢印(502)を含めて、図5(a)で利用可能なすべてのオプションが加えられる。P6が複数の参照ピクチャによってP2から予測されることを可能にすることにより、符号化効率が場合によっては向上する。
上記で説明したのは、参照ピクチャ管理がH.264で定義された機構にほぼ従うときに利用可能な2つのオプションである。
WD4およびHEVCのための改良された参照ピクチャ管理に関して行われる提案では、他のオプションが利用可能であり得る。例えば、デコーダピクチャバッファに、各々の前に符号化されたピクチャに関連して、その前に符号化されたピクチャが、参照ピクチャリストに含まれ、参照ピクチャインデックスが割り当てられているか否かを指示するフラグが、デコーダにより受信される場合がある。
次に説明するのは、上述の技法の使用の少数の実用的な例である。
図1に示すようなシステムでのMANE(103)は、時間レイヤスイッチングを改良するために、開示する主題を使用することができる。MANE(103)が、N個の時間レイヤを用いるビットストリームを受信しており、さらに、場合によってはMANE(103)からデコーダ(105)までのリンク(104)に関するビットレート制限のために、M<Nである、それらのレイヤのうちの最小のM個のみを送信していると仮定する。追加的なM+1レイヤが送信されることを可能にする、リンク(104)に関する利用可能なビットレートを仮定する。MANE(103)が、リンク(102)を介してエンコーダ(101)から受信するレイヤM+1からの第1のピクチャの送信を単に開始するとすれば、デコーダは利用可能でない参照ピクチャから予測する可能性があるので、デコーダがピクチャを成功裏に復号化できることになるという保証はない。
MANEは、時間レイヤスイッチングを可能にするためにtemporal_id_nesting_flagおよびtemporal_switching_point_flagの値を決定するために、高レベル情報を容易にパースすることができる。開示する主題によれば、temporal_id_nesting_flagが1に等しいならば、MANEは、レイヤMまたはより低いレイヤを指示するtemporal_id値を伴う何らかのアクセスユニットのすぐ後に続く、M+1のtemporal_id値により指示されるような何らかのレイヤM+1アクセスユニットの送信を始めることができる。開示する主題の参照ピクチャマーキング処理のために、後に続くレイヤM+1の符号化されたピクチャのための参照ピクチャ記憶域には、利用不可能なピクチャからの参照ピクチャは存在しないことになる。
temporal_id_nesting_flagが0に等しいならば、MANEは、temporal_switching_point_flag、およびすべての受信されるピクチャのすべてのNALユニットに対するnal_unit_typeにアクセスすることができる。MANEは、何らかのレイヤMまたはより低いレイヤのピクチャに存在するtemporal_switching_point_flagに続いて、何らかのレイヤM+1のピクチャの送信を始めることができる。開示する主題の参照ピクチャマーキング処理のために、後に続くレイヤM+1の符号化されたピクチャのための参照ピクチャ記憶域には、利用不可能なピクチャからの参照ピクチャは存在しないことになる。
同様の動作を、デコーダの動作が始まり得るときを決定すれば、デコーダで遂行することができる。この動作を、別個のコア上で並列にピクチャを復号化可能である複数のプロセッサまたはコアを伴うデコーダのための並列復号化のためにさらに使用することができる。デコーダは、個別の時間レイヤ内のピクチャを、前に符号化されたピクチャの限られた組のみからの参照ピクチャ予測によって復号化することができるということを決定することができ、このことによって、ピクチャの並列復号化の着手が可能になる。
コンピュータシステム
上記で説明した映像符号化のための方法を、コンピュータ可読命令を使用するコンピュータソフトウェアとして実装し、コンピュータ可読媒体に物理的に記憶することができる。コンピュータソフトウェアを、任意の適したコンピュータ言語を使用してコード化することができる。ソフトウェア命令を、様々なタイプのコンピュータ上で実行することができる。例えば図9は、本開示の実施形態を実装するのに適したコンピュータシステム900を図示する。
コンピュータシステム900に関して図9に示す構成要素は、本質的には例示的なものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用または機能性の範囲に関して、何らかの限定を示唆することは意図されない。構成要素の構成においてもまた、コンピュータシステムの例示的な実施形態で図示する構成要素のいずれか1つまたは組み合わせに関係する、何らかの依存性または要求事項が存在すると解釈すべきではない。コンピュータシステム900は、集積回路、プリント回路板、(携帯電話またはPDAなどの)小型のハンドヘルドデバイス、パーソナルコンピュータ、またはスーパーコンピュータを含む多くの物理的形態を有し得る。
コンピュータシステム900は、ディスプレイ932、1つまたは複数の入力デバイス933(例えばキーパッド、キーボード、マウス、スタイラス等)、1つまたは複数の出力デバイス934(例えばスピーカ)、1つまたは複数の記憶デバイス935、様々なタイプの記憶媒体936を含む。
システムバス940は、多種多様のサブシステムとリンクする。当業者に理解されるように、「バス」は共通機能をサービス提供する複数のデジタル信号線を指す。システムバス940は、種々のバスアーキテクチャのいずれかを使用する、メモリバス、周辺バス、およびローカルバスを含む、いくつかのタイプのバス構造のいずれかであり得る。例として、および限定としてではなく、そのようなアーキテクチャには、業界標準アーキテクチャ(ISA)バス、拡張ISA(EISA)バス、マイクロチャネルアーキテクチャ(MCA)バス、ビデオ電子標準協会ローカル(VLB)バス、ペリフェラルコンポーネントインターコネクト(PCI)バス、PCI-Expressバス(PCI-X)、およびアクセラレーテッドグラフィックスポート(AGP)バスがある。
プロセッサ901(中央処理装置またはCPUとも呼ぶ)は随意に、命令、データ、またはコンピュータアドレスの一時的な局所記憶用のキャッシュメモリユニット902を包含する。プロセッサ901は、メモリ903を含む記憶デバイスに結合される。メモリ903は、ランダムアクセスメモリ(RAM)904およびリードオンリーメモリ(ROM)905を含む。当技術分野でよく知られているように、ROM905はプロセッサ901に一方向にデータおよび命令を伝送する働きをし、RAM904は典型的には、双方向の様式でデータおよび命令を伝送するために使用される。これらのタイプのメモリは両方とも、下記で説明するコンピュータ可読媒体の任意の適したものを含み得る。
固定記憶装置908が、随意には記憶制御ユニット907を介して、プロセッサ901に双方向にさらに結合される。固定記憶装置908は、追加的なデータ記憶容量を提供し、下記で説明するコンピュータ可読媒体のいずれかをやはり含み得る。記憶装置908は、オペレーティングシステム909、EXEC910、アプリケーションプログラム912、データ911等を記憶するために使用することができるものであり、典型的には主記憶装置より遅い(ハードディスクなどの)補助記憶媒体である。記憶装置908内部で保持される情報を、適切な場合には、メモリ903に仮想メモリとして標準的な様式で組み込むことができることを理解されたい。
プロセッサ901は、グラフィックス制御921、映像インターフェース922、入力インターフェース923、出力インターフェース924、記憶インターフェース925などの種々のインターフェースにさらに結合され、これらのインターフェースは同様に、適切なデバイスに結合される。一般に入出力デバイスは、映像ディスプレイ、トラックボール、マウス、キーボード、マイクロホン、タッチセンシティブディスプレイ、トランスデューサカードリーダ、磁気もしくは紙のテープリーダ、タブレット、スタイラス、音声もしくは手書きの認識装置、生体認証リーダ、または他のコンピュータのいずれかであり得る。プロセッサ901を、ネットワークインターフェース920を使用して、別のコンピュータまたは電気通信ネットワーク930に結合することができる。そのようなネットワークインターフェース920を用いることで、CPU901が、上記で説明した方法を遂行中に、ネットワーク930から情報を受信可能であり、またはネットワークに情報を出力可能であるということが企図される。さらに本開示の方法の実施形態は、単にCPU901上で実行可能であり、またはインターネットなどのネットワーク930を介して、処理の一部分を分担するリモートCPU901と連動して実行可能である。
様々な実施形態によれば、ネットワーク環境にあるとき、すなわち、コンピュータシステム900がネットワーク930に接続されているとき、コンピュータシステム900は、やはりネットワーク930に接続されている他のデバイスと通信可能である。通信情報は、ネットワークインターフェース920を介して、コンピュータシステム900を往来して送出可能である。例えば、1つまたは複数のパケットの形式での、別のデバイスからの要求または応答などの入来する通信情報を、ネットワークインターフェース920でネットワーク930から受信し、処理のためにメモリ903内の選択されたセクションに記憶することができる。やはり1つまたは複数のパケットの形式での、別のデバイスへの要求または応答などの出発する通信情報もまた、メモリ903内の選択されたセクションに記憶し、ネットワークインターフェース920でネットワーク930に送出することができる。プロセッサ901は、処理のためにメモリ903に記憶されるこれらの通信パケットにアクセス可能である。
加えて本開示の実施形態はさらに、様々なコンピュータ実装動作を遂行するためのコンピュータコードを有するコンピュータ可読媒体を伴うコンピュータ記憶製品に関する。媒体およびコンピュータコードは、本開示の目的のために特別に設計かつ構築されるものであり得る、またはそれらの媒体およびコンピュータコードは、コンピュータソフトウェアの技術分野の当業者によく知られ、かつ利用可能である種類のものであり得る。コンピュータ可読媒体の例には、ハードディスク、フロッピー(登録商標)ディスクおよび磁気テープなどの磁気媒体、CD-ROMおよびホログラフィックデバイスなどの光学媒体、光ディスクなどの光磁気媒体、ならびに、特定用途向け集積回路(ASIC)、プログラマブル論理デバイス(PLD)、ROMデバイスおよびRAMデバイスなどのプログラムコードを記憶かつ実行するように特別に構成されるハードウェアデバイスがあるが、それらに限定されない。コンピュータコードの例には、コンパイラにより生み出されるような機械語コード、およびインタプリタを使用するコンピュータにより実行される、より高級のコードを包含するファイルがある。本開示の主題に関して使用されるような、用語「コンピュータ可読媒体」が、送信媒体、搬送波、または他の一時的な信号を包含しないことを、当業者であればさらに理解するはずである。
例として、および限定としてではなく、アーキテクチャ900を有するコンピュータシステムは、メモリ903などの1つまたは複数の有形のコンピュータ可読媒体で実施されるソフトウェアを実行する、プロセッサ901の結果としての機能性を提供することができる。本開示の様々な実施形態を実装するソフトウェアを、メモリ903に記憶し、プロセッサ901により実行することができる。コンピュータ可読媒体は、個別の必要性によって1つまたは複数のメモリデバイスを含み得る。メモリ903は、大容量記憶デバイス935などの1つもしくは複数の他のコンピュータ可読媒体から、または通信インターフェースを介して1つもしくは複数の他のソースから、ソフトウェアを読み出すことができる。ソフトウェアによってプロセッサ901が、メモリ903に記憶されるデータ構造を規定すること、およびソフトウェアにより規定される処理によってそのようなデータ構造を修正することを含む、本明細書で説明した個別の処理、または個別の処理の個別の部分を実行することが可能になる。加えて、または代替として、コンピュータシステムは、本明細書で説明した個別の処理、または個別の処理の個別の部分を実行するために、ソフトウェアの代わりに、またはソフトウェアとともに動作可能である、ハードワイヤードの、または他の方法により回路で実施される論理の結果としての機能性を提供することができる。ソフトウェアに対する言及は、適切である場合には、論理を包含し得るものであり、その逆も同様である。コンピュータ可読媒体に対する言及は、適切である場合には、実行用のソフトウェアを記憶する(集積回路(IC)などの)回路、実行用の論理を実施する回路、またはその両方を包含し得る。本開示は、ハードウェアおよびソフトウェアの任意の適した組み合わせを包含する。
本開示ではいくつかの例示的な実施形態を説明したが、本開示の範囲内に含まれる、代替形態、交換形態、および様々な置換等価形態が存在する。したがって、本明細書で明示的に示さない、または説明しないが、本開示の原理を実施し、したがって、本開示の趣旨および範囲の中にある、数多くのシステムおよび方法を当業者が考案可能になることが理解されよう。
101 エンコーダ
102 ビットストリーム、リンク
103 メディア認識ネットワーク要素(MANE)
104 ビットストリーム、リンク
105 デコーダ
201 パターン
202、203、204 ピクチャ
205 ベースレイヤのピクチャ
206 ベースレイヤ
207 時間エンハンスメントレイヤ
210 ベースレイヤ
211 第1の時間エンハンスメントレイヤ、第1のエンハンスメントレイヤ
212 第2の時間エンハンスメントレイヤ、第2のエンハンスメントレイヤ
213 パターン
214、215、216、217 ピクチャ
401 temporal_id 0
402 temporal_id 1
403 temporal_id 2、レイヤ2
501 破線の矢印
502、503 破線の矢印、予測矢印
600 H.264で使用される取り決め
700 シンタックスおよび復号化処理説明、H.264で使用される取り決め
800 シンタックスおよび復号化処理説明
900 コンピュータシステム、アーキテクチャ
901 プロセッサ、CPU、リモートCPU
902 キャッシュメモリユニット
903 メモリ
904 ランダムアクセスメモリ(RAM)
905 リードオンリーメモリ(ROM)
907 記憶制御ユニット
908 固定記憶装置、記憶装置
909 オペレーティングシステム
910 EXEC
911 データ
912 アプリケーションプログラム
920 ネットワークインターフェース
921 グラフィックス制御
922 映像インターフェース
923 入力インターフェース
924 出力インターフェース

Claims (11)

  1. 映像復号化のための方法であって、
    高レベルシンタックス構造からtemporal_nesting_flagを復号化するステップと、
    復号化された前記temporal_nesting_flagの値に応答して、所与のtemporal_id値を伴うピクチャを復号化した後、より高いtemporal_id値を伴う参照ピクチャリスト内のすべてのピクチャを除去するステップとを含む、方法。
  2. 前記高レベルシンタックス構造がパラメータセットである、請求項1に記載の方法。
  3. 映像復号化のための方法であって、
    高レベルシンタックス構造からtemporal_switching_point_flagを復号化するステップと、
    復号化された前記temporal_switching_point_flagの値に応答して、参照ピクチャリスト内のtemporal_idのより高い値を伴うすべてのピクチャを参照ピクチャリストから除去するステップを含む、方法。
  4. 前記高レベルシンタックス構造がスライスヘッダである、請求項3に記載の方法。
  5. より低い時間レイヤのピクチャに属するスライスヘッダから復号化された前記temporal_switching_point_flagの前記値に基づいて、より高い時間レイヤのピクチャを復号化するために選択するステップ、および
    前記より高い時間レイヤの前記ピクチャを復号化するステップ
    をさらに含む、請求項3に記載の方法。
  6. より高い時間レイヤのピクチャを含む第1のスケーラブルビットストリームに基づいて、前記より高い時間レイヤのピクチャを前に含まない第2のスケーラブルビットストリームの少なくとも部分に、符号化構造内部の前記より高い時間レイヤのピクチャを追加するための方法であって、
    temporal_nesting_flagまたはtemporal_switching_point_flagのうちの少なくとも1つの値を監視することにより、より低い時間レイヤの前に復号化されたより高い時間レイヤのピクチャを参照しているより高い時間レイヤのピクチャが自身から先に存在しない前記第2のビットストリームの前記より低い時間レイヤのピクチャを識別するステップ、および
    前記第2のスケーラブルビットストリームに、前記より低い時間レイヤのピクチャの後に、より高い時間レイヤの少なくとも1つのピクチャを挿入するステップ
    を含む、方法。
  7. 前記識別するステップおよび挿入するステップがMANEにおいて遂行される、請求項6に記載の方法。
  8. 前記識別するステップおよび挿入するステップがデコーダにおいて遂行される、請求項6に記載の方法。
  9. より高い時間レイヤのピクチャを含む第1のスケーラブルビットストリームに基づいて、前記より高い時間レイヤのピクチャを前に含まない第2のスケーラブルビットストリームの少なくとも部分に、符号化構造内部の前記より高い時間レイヤのピクチャを追加するためのシステムであって、デコーダを備え、前記デコーダが、
    temporal_nesting_flagまたはtemporal_switching_point_flagのうちの少なくとも1つの値を監視することにより、より低い時間レイヤの前に復号化されたより高い時間レイヤのピクチャを参照しているより高い時間レイヤのピクチャが自身から先に存在しない前記第2のビットストリームの前記より低い時間レイヤのピクチャを識別すること、および
    前記第2のスケーラブルビットストリームに、前記より低い時間レイヤのピクチャの後に、より高い時間レイヤの少なくとも1つのピクチャを挿入すること
    が可能である、システム。
  10. より高い時間レイヤのピクチャを含む第1のスケーラブルビットストリームに基づいて、前記より高い時間レイヤのピクチャを前に含まない第2のスケーラブルビットストリームの少なくとも部分に、符号化構造内部の前記より高い時間レイヤのピクチャを追加するためのシステムであって、MANEを備え、前記MANEが、
    temporal_nesting_flagまたはtemporal_switching_point_flagのうちの少なくとも1つの値を監視することにより、より低い時間レイヤの前に復号化されたより高い時間レイヤのピクチャを参照しているより高い時間レイヤのピクチャが自身から先に存在しない前記第2のビットストリームの前記より低い時間レイヤのピクチャを識別すること、および
    前記第2のスケーラブルビットストリームに、前記より低い時間レイヤの前記ピクチャの後に、より高い時間レイヤの少なくとも1つのピクチャを挿入すること
    が可能である、システム。
  11. 請求項1から8のいずれか一項に記載の方法を遂行するための命令を含む、非一時的なコンピュータ可読媒体。
JP2013549439A 2011-01-14 2012-01-04 時間スケーラビリティのための高いレイヤのシンタックス Active JP5752268B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161432860P 2011-01-14 2011-01-14
US61/432,860 2011-01-14
PCT/US2012/020158 WO2012096806A1 (en) 2011-01-14 2012-01-04 High layer syntax for temporal scalability

Publications (2)

Publication Number Publication Date
JP2014507864A JP2014507864A (ja) 2014-03-27
JP5752268B2 true JP5752268B2 (ja) 2015-07-22

Family

ID=46490761

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013549439A Active JP5752268B2 (ja) 2011-01-14 2012-01-04 時間スケーラビリティのための高いレイヤのシンタックス

Country Status (7)

Country Link
US (2) US10034009B2 (ja)
EP (1) EP2664151A4 (ja)
JP (1) JP5752268B2 (ja)
CN (1) CN103314591B (ja)
AU (1) AU2012205813B2 (ja)
CA (1) CA2824027C (ja)
WO (1) WO2012096806A1 (ja)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9113172B2 (en) 2011-01-14 2015-08-18 Vidyo, Inc. Techniques for describing temporal coding structure
JP5752268B2 (ja) * 2011-01-14 2015-07-22 ヴィディオ・インコーポレーテッド 時間スケーラビリティのための高いレイヤのシンタックス
EP2677751B1 (en) * 2011-02-16 2021-03-31 Sun Patent Trust Video encoding method and video decoding method
US20120230409A1 (en) * 2011-03-07 2012-09-13 Qualcomm Incorporated Decoded picture buffer management
RU2014105292A (ru) * 2011-07-13 2015-08-20 Телефонактиеболагет Л М Эрикссон (Пабл) Кодер, декодер и способы их работы для управления опорными изображениями
CN103843340B (zh) * 2011-09-29 2018-01-19 瑞典爱立信有限公司 参考图片列表处理
US9451252B2 (en) 2012-01-14 2016-09-20 Qualcomm Incorporated Coding parameter sets and NAL unit headers for video coding
US20130188717A1 (en) * 2012-01-20 2013-07-25 Qualcomm Incorporated Motion prediction in svc using partition mode without split flag
EP2805520A1 (en) * 2012-01-20 2014-11-26 Telefonaktiebolaget LM Ericsson (Publ) Sub-bitstream extraction
EP2642755B1 (en) * 2012-03-20 2018-01-03 Dolby Laboratories Licensing Corporation Complexity scalable multilayer video coding
WO2013162450A1 (en) * 2012-04-24 2013-10-31 Telefonaktiebolaget L M Ericsson (Publ) Encoding and deriving parameters for coded multi-layer video sequences
KR101995270B1 (ko) * 2012-04-25 2019-07-03 삼성전자주식회사 비디오 데이터를 재생하는 방법 및 장치
EP2665259A1 (en) * 2012-05-17 2013-11-20 Samsung Electronics Co., Ltd Recording medium, reproducing device for performing trick play for data of the recording medium, and method thereof
IN2014MN02408A (ja) * 2012-06-28 2015-08-21 Sony Corp
US9602827B2 (en) 2012-07-02 2017-03-21 Qualcomm Incorporated Video parameter set including an offset syntax element
US9912941B2 (en) 2012-07-02 2018-03-06 Sony Corporation Video coding system with temporal layers and method of operation thereof
US10110890B2 (en) 2012-07-02 2018-10-23 Sony Corporation Video coding system with low delay and method of operation thereof
US10764593B2 (en) * 2012-07-03 2020-09-01 Samsung Electronics Co., Ltd. Method and apparatus for coding video having temporal scalability, and method and apparatus for decoding video having temporal scalability
JP5885604B2 (ja) * 2012-07-06 2016-03-15 株式会社Nttドコモ 動画像予測符号化装置、動画像予測符号化方法、動画像予測符号化プログラム、動画像予測復号装置、動画像予測復号方法及び動画像予測復号プログラム
US10021394B2 (en) 2012-09-24 2018-07-10 Qualcomm Incorporated Hypothetical reference decoder parameters in video coding
US20140092953A1 (en) * 2012-10-02 2014-04-03 Sharp Laboratories Of America, Inc. Method for signaling a step-wise temporal sub-layer access sample
US20140098868A1 (en) 2012-10-04 2014-04-10 Qualcomm Incorporated File format for video data
US20150237372A1 (en) * 2012-10-08 2015-08-20 Samsung Electronics Co., Ltd. Method and apparatus for coding multi-layer video and method and apparatus for decoding multi-layer video
US10257523B2 (en) * 2012-12-14 2019-04-09 Avago Technologies International Sales Pte. Limited Adaptive decoding system
US9774927B2 (en) * 2012-12-21 2017-09-26 Telefonaktiebolaget L M Ericsson (Publ) Multi-layer video stream decoding
US10805605B2 (en) * 2012-12-21 2020-10-13 Telefonaktiebolaget Lm Ericsson (Publ) Multi-layer video stream encoding and decoding
CN105027567A (zh) * 2013-01-07 2015-11-04 诺基亚技术有限公司 用于视频编码和解码的方法和装置
US20160065980A1 (en) * 2013-04-05 2016-03-03 Samsung Electronics Co., Ltd. Video stream encoding method according to a layer identifier expansion and an apparatus thereof, and a video stream decoding method according to a layer identifier expansion and an apparatus thereof
US20140307803A1 (en) 2013-04-08 2014-10-16 Qualcomm Incorporated Non-entropy encoded layer dependency information
US9602822B2 (en) 2013-04-17 2017-03-21 Qualcomm Incorporated Indication of cross-layer picture type alignment in multi-layer video coding
US9800893B2 (en) 2013-04-17 2017-10-24 Nokia Technologies Oy Apparatus, a method and a computer program for video coding and decoding
JP5680807B1 (ja) * 2013-06-05 2015-03-04 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 動画像符号化方法、動画像符号化装置、送信装置及びプログラム
US10009628B2 (en) * 2013-06-07 2018-06-26 Apple Inc. Tuning video compression for high frame rate and variable frame rate capture
KR101967398B1 (ko) * 2013-07-09 2019-04-09 노키아 테크놀로지스 오와이 모션 정보를 시그널링하기 위한 구문을 수반하는 비디오 코딩을 위한 방법 및 장치
CN105379277B (zh) * 2013-07-15 2019-12-17 株式会社Kt 用于编码/解码可伸缩视频信号的方法和装置
KR20150009465A (ko) 2013-07-15 2015-01-26 주식회사 케이티 스케일러블 비디오 신호 인코딩/디코딩 방법 및 장치
KR20150009424A (ko) * 2013-07-15 2015-01-26 한국전자통신연구원 시간적 서브 레이어 정보에 기반한 계층간 예측을 이용한 영상 부, 복호화 방법 및 그 장치
JP5774652B2 (ja) 2013-08-27 2015-09-09 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
US10547857B2 (en) * 2013-10-11 2020-01-28 Sony Corporation Transmission device, transmission method and reception device
US10284858B2 (en) * 2013-10-15 2019-05-07 Qualcomm Incorporated Support of multi-mode extraction for multi-layer video codecs
US9641862B2 (en) 2013-10-15 2017-05-02 Nokia Technologies Oy Video encoding and decoding
US10187641B2 (en) * 2013-12-24 2019-01-22 Kt Corporation Method and apparatus for encoding/decoding multilayer video signal
JP6690536B2 (ja) * 2015-01-09 2020-04-28 ソニー株式会社 画像処理装置、画像処理方法、およびプログラム
US20160227229A1 (en) * 2015-02-04 2016-08-04 Harris Corporation Mobile ad hoc network media aware networking element
CN107592540B (zh) * 2016-07-07 2020-02-11 腾讯科技(深圳)有限公司 一种视频数据处理方法及装置
US10587800B2 (en) * 2017-04-10 2020-03-10 Intel Corporation Technology to encode 360 degree video content
US11165847B2 (en) * 2018-10-23 2021-11-02 Tencent America LLC Techniques for multiple conformance points in media coding
CN114503573A (zh) * 2019-03-20 2022-05-13 威诺瓦国际有限公司 低复杂性增强视频编码
WO2024126057A1 (en) * 2022-12-16 2024-06-20 Interdigital Ce Patent Holdings, Sas Reference picture marking process based on temporal identifier

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5768429A (en) * 1995-11-27 1998-06-16 Sun Microsystems, Inc. Apparatus and method for accelerating digital video decompression by performing operations in parallel
US6862278B1 (en) * 1998-06-18 2005-03-01 Microsoft Corporation System and method using a packetized encoded bitstream for parallel compression and decompression
US7532670B2 (en) * 2002-07-02 2009-05-12 Conexant Systems, Inc. Hypothetical reference decoder with low start-up delays for compressed image and video
US7627039B2 (en) * 2003-09-05 2009-12-01 Realnetworks, Inc. Parallel video decoding
US7505590B1 (en) 2003-11-14 2009-03-17 Hewlett-Packard Development Company, L.P. Method and system for providing transcodability to frame coded streaming media
CA2616266A1 (en) * 2005-09-07 2007-07-05 Vidyo, Inc. System and method for a high reliability base layer trunk
CN101317460A (zh) 2005-10-11 2008-12-03 诺基亚公司 用于有效的可伸缩流适配的***和方法
WO2007042914A1 (en) 2005-10-11 2007-04-19 Nokia Corporation Efficient decoded picture buffer management for scalable video coding
JP4384130B2 (ja) * 2006-03-28 2009-12-16 株式会社東芝 動画像復号方法及び装置
CA2849697A1 (en) * 2006-10-16 2008-04-24 Alexandros Eleftheriadis Systems and methods for signaling and performing temporal level switching in scalable video coding
ES2721506T3 (es) * 2007-01-04 2019-08-01 Interdigital Madison Patent Holdings Métodos y aparato para la información de vistas múltiples, expresada en sintaxis de alto nivel
BRPI0809916B1 (pt) 2007-04-12 2020-09-29 Interdigital Vc Holdings, Inc. Métodos e aparelhos para informação de utilidade de vídeo (vui) para codificação de vídeo escalável (svc) e mídia de armazenamento não transitória
US20080253467A1 (en) * 2007-04-13 2008-10-16 Nokia Corporation System and method for using redundant pictures for inter-layer prediction in scalable video coding
EP2174502A2 (en) * 2007-06-26 2010-04-14 Nokia Corporation System and method for indicating temporal layer switching points
US8582644B2 (en) 2008-07-26 2013-11-12 Thomson Licensing Real-time transport protocol (RTP) packetization method for fast channel change applications using scalable video coding (SVC)
JP5752268B2 (ja) * 2011-01-14 2015-07-22 ヴィディオ・インコーポレーテッド 時間スケーラビリティのための高いレイヤのシンタックス

Also Published As

Publication number Publication date
AU2012205813B2 (en) 2016-07-07
WO2012096806A1 (en) 2012-07-19
US10560706B2 (en) 2020-02-11
CN103314591B (zh) 2017-02-08
CA2824027C (en) 2017-11-07
US20120183076A1 (en) 2012-07-19
AU2012205813A1 (en) 2013-08-01
US20190166378A1 (en) 2019-05-30
CN103314591A (zh) 2013-09-18
EP2664151A4 (en) 2016-01-20
US10034009B2 (en) 2018-07-24
CA2824027A1 (en) 2012-07-19
EP2664151A1 (en) 2013-11-20
JP2014507864A (ja) 2014-03-27

Similar Documents

Publication Publication Date Title
JP5752268B2 (ja) 時間スケーラビリティのための高いレイヤのシンタックス
JP5738434B2 (ja) 改善されたnalユニットヘッダ
JP6087940B2 (ja) 復号化ピクチャ・バッファおよび参照ピクチャ・リストのための状態情報のシグナリング
CN113678434B (zh) 视频编解码的方法和装置
JP5926856B2 (ja) 階層化されたビデオ符号化のためのレベル信号伝達
US9380313B2 (en) Techniques for describing temporal coding structure
JP5833682B2 (ja) スケーラブルなビデオ符号化のための依存性パラメータセット
US8938012B2 (en) Video coder
CN113557742B (zh) 视频编解码方法、装置和电子设备
JP2015501098A5 (ja)
US20130195201A1 (en) Techniques for layered video encoding and decoding
US9179145B2 (en) Cross layer spatial intra prediction
US9402083B2 (en) Signaling conformance points using profile space
KR20090099547A (ko) 멀티뷰 코딩 비디오에서 비디오 에러 정정을 위한 방법 및 장치
CN114641993B (zh) 用于视频解码的方法和装置
RU2787711C1 (ru) Управление буфером декодированных изображений для кодирования видеосигналов

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141117

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150519

R150 Certificate of patent or registration of utility model

Ref document number: 5752268

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250