JP2016092837A - 映像圧縮装置、映像再生装置および映像配信システム - Google Patents

映像圧縮装置、映像再生装置および映像配信システム Download PDF

Info

Publication number
JP2016092837A
JP2016092837A JP2015214509A JP2015214509A JP2016092837A JP 2016092837 A JP2016092837 A JP 2016092837A JP 2015214509 A JP2015214509 A JP 2015214509A JP 2015214509 A JP2015214509 A JP 2015214509A JP 2016092837 A JP2016092837 A JP 2016092837A
Authority
JP
Japan
Prior art keywords
video
bit stream
unit
picture
bitstream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2015214509A
Other languages
English (en)
Inventor
昭行 谷沢
Akiyuki Tanizawa
昭行 谷沢
知也 児玉
Tomoya Kodama
知也 児玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2016092837A publication Critical patent/JP2016092837A/ja
Abandoned legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】複数の異なるコーデックを用いてスケーラブル圧縮された複数のビットストリームにおけるランダムアクセス性を改善する。
【解決手段】映像圧縮装置200は、制御部を含む。制御部は、第1のビットストリームに含まれる第1のランダムアクセスポイントに基づいて、第2の映像の圧縮データに相当する第2のビットストリームに含まれる第2のランダムアクセスポイントを制御する。第2のビットストリームは、複数のピクチャグループによって形成される。複数のピクチャグループの各々は、1つ以上のサブピクチャグループを包含する。制御部は、第2のビットストリームから、第1のランダムアクセスポイント以降で表示順の最も早いサブピクチャグループを選択し、選択したサブピクチャグループのうち圧縮順で最初のピクチャを第2のランダムアクセスポイントに設定する。
【選択図】図2

Description

実施形態は、映像圧縮および映像再生に関する。
近年、動画像圧縮規格の1つとして、ITU−T REC. H.265およびISO/IEC 23008−2(以下、「HEVC」という)が勧告されている。HEVCは、ITU−T Rec. H.262およびISO/IEC 13818−2(以下、「MPEG−2」という)に比べて約4倍の圧縮効率を達成し、ITU−T REC. H.264及びISO/IEC 14496−10(以下、「H.264」という。)に比べて約2倍の圧縮効率を達成する。
H.264では、H.264 Scalable Extensionと呼ばれるスケーラブル圧縮機能(以下、「SVC」という)が導入されている。SVCを利用して映像が階層的に圧縮されていれば、映像再生装置は再生するビットストリームを変更することで再生映像の画質、解像度またはフレームレートを変更できる。さらに、ITU−TおよびISO/IECでは、前述のHEVCにもSVCと同様のスケーラブル圧縮機能(以下、「SHVC」という)を導入するための検討が行われている。
SVCおよびSHVCに代表されるスケーラブル圧縮機能では、映像は基本レイヤおよび1以上の拡張レイヤへと階層化され、拡張レイヤの映像は基本レイヤの映像に基づいて予測されるので、拡張レイヤの冗長性を抑制しつつ多数の階層の映像を圧縮することが可能となる。スケーラブル圧縮機能は、例えば、映像監視、テレビ会議、テレビ電話、放送、映像ストリーミング配信などの映像配信技術に有用である。映像配信にネットワークを利用した場合、チャネルの帯域幅は時々刻々変動するかもしれない。係るネットワーク利用時に、スケーラブル圧縮を用い、ビットレートの低い基本レイヤ映像を常に伝送し、帯域幅に余裕がある場合には拡張レイヤ映像を伝送することで、上記帯域幅の時間変化に関わらず効率的な映像配信が可能となる。或いは、係るネットワーク利用時に、スケーラブル圧縮の代わりに、複数のビットレートを持つ圧縮映像を並列に作成し(以下サイマル圧縮と述べる)、帯域幅に応じて選択的に伝送を行うこともできる。
SVCでは、基本レイヤおよび拡張レイヤのいずれにもH.264コーデックを用いる必要がある。他方、SHVCでは、基本レイヤに任意のコーデックを用いることのできるハイブリッドスケーラブル圧縮を実現する。ハイブリッドスケーラブル圧縮によれば、既存の映像機器との互換性を確保することができる。例えば、基本レイヤにMPEG(Moving Picture Experts Group)−2を用い、拡張レイヤにSHVCを用いることにより、MPEG−2を利用する映像機器に対して互換性を確保することができる。
しかしながら、基本レイヤと拡張レイヤとで異なるコーデックを用いる場合に、予測構造(例えば、圧縮順、ランダムアクセスポイントなど)は両コーデック間で必ずしも一致しない。基本レイヤと拡張レイヤとの間でランダムアクセスポイントが一致しなければ拡張レイヤのランダムアクセス性が損なわれるし、基本レイヤと拡張レイヤとの間でピクチャの圧縮順が一致しなければ再生遅延が増加する。他方、拡張レイヤの予測構造を基本レイヤの予測構造に一致させようとすれば、基本レイヤの予測構造の解析処理とその解析結果に応じた拡張レイヤの予測構造の変更処理が必要となるので、これらの処理を行うための追加的なハードウェアまたはソフトウェアにより機器コストが増加するうえ拡張レイヤの再生遅延はこれらの処理時間に応じて大きくなる。加えて、利用可能な予測構造が制限されるので拡張レイヤの圧縮効率は低下する。
米国特許出願公開第2014/0016694号明細書 特開2000−13790号公報
実施形態は、複数の異なるコーデックを用いてスケーラブル圧縮された複数のビットストリームにおけるランダムアクセス性を改善することを目的とする。
実施形態によれば、映像圧縮装置は、第1の圧縮部と、制御部と、第2の圧縮部とを含む。第1の圧縮部は、階層化された第1の映像および第2の映像のうち当該第1の映像を第1のコーデックを用いて圧縮することによって第1のビットストリームを生成する。制御部は、第1のビットストリームに含まれる第1のランダムアクセスポイントに基づいて、第2の映像の圧縮データに相当する第2のビットストリームに含まれる第2のランダムアクセスポイントを制御する。第2の圧縮部は、第2の映像を第1のコーデックとは異なる第2のコーデックを用いて第1の映像に対応する第1の復号映像に基づいて圧縮することによって第2のビットストリームを生成する。第2のビットストリームは、複数のピクチャグループによって形成される。複数のピクチャグループの各々は、1つ以上のサブピクチャグループを包含する。なお、制御部は、第2のビットストリームから、第1のランダムアクセスポイント以降で表示順の最も早いサブピクチャグループを選択し、選択したサブピクチャグループのうち圧縮順で最初のピクチャを第2のランダムアクセスポイントに設定する。
実施形態によれば、映像再生装置は、第1の復号部と、第2の復号部とを含む。第1の復号部は、階層化された第1の映像および第2の映像のうち当該第1の映像の圧縮データに相当する第1のビットストリームを第1のコーデックを用いて復号することによって第1の復号映像を生成する。第2の復号部は、第2の映像の圧縮データに相当する第2のビットストリームを第1のコーデックとは異なる第2のコーデックを用いて第1の復号映像に基づいて復号することによって第2の復号映像を生成する。第2のビットストリームは、複数のピクチャグループによって形成される。複数のピクチャグループの各々は、1つ以上のサブピクチャグループを包含する。第1のビットストリームは、第1のアクセスポイントを含む。第2のビットストリームは、第2のアクセスポイントを含む。第2のランダムアクセスポイントは、特定のピクチャサブグループのうち圧縮順で最初のピクチャに設定されている。特定のピクチャサブグループは、第1のランダムアクセスポイント以降で表示順の最も早いサブピクチャグループである。
実施形態によれば、映像配信システムは、映像記録装置と、映像圧縮装置と、映像送信装置と、映像受信装置と、映像再生装置と、表示装置とを含む。映像記録装置は、ベースバンド映像を記録および再生する。映像圧縮装置は、ベースバンド映像が階層化された第1の映像および第2の映像をスケーラブル圧縮することによって第1のビットストリームおよび第2のビットストリームを生成する。映像送信装置は、少なくとも1つのチャネルを介して第1のビットストリームおよび第2のビットストリームを送信する。映像受信装置は、少なくとも1つのチャネルを介して第1のビットストリームおよび第2のビットストリームを受信する。映像再生装置は、第1のビットストリームおよび第2のビットストリームをスケーラブル復号することによって第1の復号映像および第2の復号映像を生成する。表示装置は、第1の復号映像および第2の復号映像に基づく映像を表示する。なお、映像圧縮装置は、第1の圧縮部と、制御部と、第2の圧縮部とを含む。第1の圧縮部は、第1の映像を第1のコーデックを用いて圧縮することによって第1のビットストリームを生成する。制御部は、第1のビットストリームに含まれる第1のランダムアクセスポイントに基づいて、第2のビットストリームに含まれる第2のランダムアクセスポイントを制御する。第2の圧縮部は、第2の映像を第1のコーデックとは異なる第2のコーデックを用いて第1の映像に対応する第1の復号映像に基づいて圧縮することによって第2のビットストリームを生成する。第2のビットストリームは、複数のピクチャグループによって形成される。複数のピクチャグループの各々は、1つ以上のサブピクチャグループを包含する。なお、制御部は、第2のビットストリームから、第1のランダムアクセスポイント以降で表示順の最も早いサブピクチャグループを選択し、選択したサブピクチャグループのうち圧縮順で最初のピクチャを第2のランダムアクセスポイントに設定する。
第1の実施形態に係る映像配信システムを例示するブロック図。 図1の映像圧縮装置を例示するブロック図。 図2の映像変換部を例示するブロック図。 図2の逆映像変換部を例示するブロック図。 第1のビットストリームの予測構造を例示する図。 第1のビットストリームの予測構造を例示する図。 第1のビットストリームおよび第2のビットストリームの予測構造が同一である場合の説明図。 第1のビットストリームおよび第2のビットストリームの予測構造が同一である場合の説明図。 第1のビットストリームおよび第2のビットストリームの予測構造が異なる場合の説明図。 第1のビットストリームおよび第2のビットストリームの予測構造が異なる場合の説明図。 第1のビットストリームおよび第2のビットストリームの予測構造が異なる場合の説明図。 図2の予測構造制御部によって行われる予測構造制御処理の説明図。 図12の変形例の説明図。 図2の予測構造制御部によって用いられる第1の予測構造情報を例示する図。 図2の予測構造制御部によって生成される第2の予測構造情報を例示する図。 図2のデータ多重化部を例示するブロック図。 図16のデータ多重化部によって生成される多重化ビットストリームを形成するPESパケットのデータフォーマットを例示する図。 図3の映像変換部の動作を例示するフローチャート。 図4の逆映像変換部の動作を例示するフローチャート。 図2の復号部の動作を例示するフローチャート。 図2の予測構造制御部の動作を例示するフローチャート。 図2の第2の映像圧縮器に含まれる圧縮部の動作を例示するフローチャート。 第2の実施形態に係る映像配信システムを例示するブロック図。 図23の映像圧縮装置を例示するブロック図。 図1の映像再生装置を例示するブロック図。 図25のデータ逆多重化部を例示するブロック図。 図23の映像再生装置を例示するブロック図。 図2の第2の映像圧縮器に内蔵される圧縮部を例示するブロック図。 図28の時空間相関制御部を例示するブロック図。 図28の予測画像生成部を例示するブロック図。 図23の第2の映像復号器に内蔵される復号部を例示するブロック図。
以下、図面を参照しながら実施形態の説明が述べられる。
なお、以降、説明済みの要素と同一または類似の要素には同一または類似の符号が付され、重複する説明は基本的に省略される。また、「映像」という用語は、「画像」、「画素」、「画像信号」、「絵」、「動画像」、「画像データ」などという用語として適宜読み替えられてよい。さらに、「圧縮」という用語は、「符号化」という用語として適宜読み替えられてもよい。「コーデック」という用語は、「動画像圧縮規格」という用語として適宜読み替えられてもよい。
(第1の実施形態)
図1に例示されるように、第1の実施形態に係る映像配信システム100は、映像記録装置110と、映像圧縮装置200と、映像送信装置120と、チャネル130と、映像受信装置140と、映像再生装置300と、表示装置150とを含む。なお、映像配信システムとは、映像を放送するシステム、映像を記録媒体(例えば、光磁気ディスク、磁気テープなど)に記録再生するシステムなどを包含する。
映像記録装置110は、メモリ111と、ストレージ112と、CPU(Central Processing Unit)113と、出力インターフェース(I/F)114と、通信部115とを含む。映像記録装置110は、カメラなどによって撮影されたベースバンド映像を記録および(リアルタイム)再生する。例えば、映像記録装置110は、VTR(Video Tape Recorder)用の磁気テープに記録された映像を再生してもよいし、ストレージ112に記録された映像を再生してもよいし、通信部115が図示されないネットワークを介して受信した映像を再生してもよい。映像記録装置110は、映像の編集に用いられてもよい。
ベースバンド映像は、例えばカメラによって撮影された生の映像(例えば、RAWフォーマット、ベイヤーフォーマットなど)をモニタに表示できるように現像した映像であってもよいし、コンピュータグラフィクス(CG)を用いて制作されレンダリング処理によって表示可能な形式に変換された映像であってもよい。ベースバンド映像は、配信が行われる前の映像に相当する。ベースバンド映像は、配信に先立って、グレーディング処理、映像編集、シーン選定、テロップ挿入などの種々の加工を適用されてもよい。さらに、ベースバンド映像は、配信に先立って圧縮されていてもよい。例えば、フルハイビジョン(HDTV)のベースバンド映像(1920×1080画素、60fps、YUV4:4:4形式)は、約3Gビット/秒という高いデータレートを持つので、配信に先だって映像の品質を損なわない程度の圧縮を適用される可能性がある。
メモリ111には、CPU113によって実行されるプログラム、通信部115によってやり取りされるデータなどが一時的に保存される。ストレージ112は、例えばハードディスクドライブ(HDD)、ソリッドステートドライブなどのデータ(典型的には、映像データ)を記録可能なデバイスである。
CPU113は、プログラムを実行することによって、種々の機能部として動作する。具体的には、CPU113は、ストレージ112に保存されたベースバンド映像をアップコンバートまたはダウンコンバートしたり、当該ベースバンド映像のフォーマットを変換したりする。
出力I/F114は、例えば映像圧縮装置200などの外部装置へとベースバンド映像を出力する。通信部115は、外部装置とデータをやり取りする。なお、図1に示される映像記録装置110の各要素は適宜削除することが可能であるし、図示されない要素を適宜付加することも可能である。例えば、通信部115がベースバンド映像を映像圧縮装置200へと送信するのであれば、出力I/F114を削除してもよい。他方、図示されないカメラによって撮影された映像が映像記録装置110に直接入力されてもよく、この場合には入力I/Fが追加されるであろう。
映像圧縮装置200は、映像記録装置110からベースバンド映像を受け取り、スケーラブル圧縮機能を利用して当該ベースバンド映像を(スケーラブル)圧縮することによって複数階層の圧縮映像データが多重化された多重化ビットストリームを生成する。映像圧縮装置200は、多重化ビットストリームを映像送信装置120へと出力する。
なお、スケーラブル圧縮は、基本レイヤに対する拡張レイヤの冗長性が少ないので、サイマル圧縮に比べて複数のビットストリームを生成した場合の合計の符号量を抑制することができる。例えば、サイマル圧縮によって1Mbps、5Mbpsおよび10Mbpsの3つのビットストリームを生成すれば、これら3つのビットストリームの合計の符号量は16Mbpsとなる。他方、スケーラブル圧縮によれば、拡張レイヤに含まれる情報は基本レイヤ映像(これは、拡張レイヤでは省略される)を高画質化するための情報に限定されるため、基本レイヤ映像に1Mbpsを割り当て、第1の拡張レイヤ映像に4Mbpsを割り当て、第2の拡張レイヤ映像に5Mbpsを割り当てることにより、合計10Mbpsでサイマル圧縮の例と同等の画質の映像を提供することができる。
以降の説明において、圧縮映像データはビットストリームの形式で取り扱われ、「ビットストリーム」の用語は基本的には圧縮映像データを指す。なお、圧縮音声データ、映像に関する情報、再生タイミングに関する情報、チャネルに関する情報、多重化方式に関する情報などがビットストリームの形式で取り扱われてもよい。
ビットストリームは、マルチメディアコンテナに格納されてもよい。マルチメディアコンテナとは、映像、音声などの圧縮データ(すなわち、ビットストリーム)を伝送および格納するためのフォーマットである。マルチメディアコンテナは、例えばMPEG−2 System、MP4(MPEG−4 Part 14)、MPEG−DASH(Dynamic Adaptive Streaming over HTTP)、MMT(MPEG Multimedia Transport)、ASF(Advanced Systems Format)などにおいて規定されているものでよい。また、圧縮データは複数のビットストリームまたはセグメントを含むが、セグメント毎に1つのファイルを作成してもよいし、複数のセグメント毎に1つのファイルを作成してもよい。
映像送信装置120は、映像圧縮装置200から多重化ビットストリームを受け取り、当該多重化ビットストリームをチャネル130を介して映像受信装置140へと送信する。例えば、チャネル130が地上デジタル放送の伝送帯域に相当する場合には、映像送信装置120はRF(Radio Frequency)送信装置であってもよい。また、チャネル130がネットワーク回線に相当する場合には、映像送信装置120はIP(Internet Protocol)通信装置であってもよい。
チャネル130は、映像送信装置120および映像受信装置140の間を接続する通信手段である。チャネル130は、有線チャネルであってもよいし、無線チャネルであってもよいし、両者の混合チャネルであってもよい。チャネル130は、例えば、インターネット網、地上放送網、衛星放送網、ケーブル伝送網などであってよい。また、チャネル130は、例えば、電波通信、PHS(Personal Handy−phone System)、3G(3rd Generation mobile standards)、4G(4th Generation mobile standards)、LTE(Long Term Evolution)、ミリ波通信、レーダ通信などの種々の通信向けのチャネルであってもよい。
映像受信装置140は、多重化ビットストリームをチャネル130を介して映像送信装置120から受信する。映像受信装置140は、受信した多重化ビットストリームを映像再生装置300へと出力する。例えば、チャネル130が地上デジタル放送の伝送帯域に相当する場合には、映像受信装置140はRF受信装置(地上デジタル放送を受信するためのアンテナを含む)であってもよい。また、チャネル130がネットワーク回線に相当する場合には、映像受信装置140はIP通信装置(IPネットワークと接続するためのルータなどに相当する機能を含む)であってもよい。
映像再生装置300は、映像受信装置140から多重化ビットストリームを受け取り、スケーラブル圧縮機能を利用して当該多重化ビットストリームを(スケーラブル)復号することによって復号映像を生成する。映像再生装置300は、復号映像を表示装置150へと出力する。映像再生装置300は、テレビジョン受信機本体に組み込まれてもよいし、当該テレビジョン受信機とは別体のSTB(Set Top Box)として実装されてもよい。
表示装置150は、映像再生装置300から復号映像を受け取り、当該復号映像を表示する。表示装置150は、典型的には、ディスプレイ(PC用のディスプレイを含む)、テレビジョン受信機またはビデオモニタに相当する。なお、表示装置150は、映像表示機能に加えて入力I/F機能を持つ、タッチパネルなどであってもよい。
図1に示されるように、表示装置150は、メモリ151と、ディスプレイ152と、CPU153と、入力I/F154と、通信部155とを含む。
メモリ151には、CPU153によって実行されるプログラム、通信部155によってやり取りされるデータなどが一時的に保存される。ディスプレイ152は映像を表示する。
CPU153は、プログラムを実行することによって、種々の機能部として動作する。具体的には、CPU153は、表示装置150から受け取った復号映像をアップコンバートまたはダウンコンバートする。
入力I/F154は、ユーザがユーザ要求を入力するためのインターフェースである。表示装置150がテレビジョン受信機である場合には、入力I/F154は典型的にはリモートコントローラである。ユーザは、入力I/F154を操作することで、チャンネルを切り替えたり、映像の表示モードを変更したりすることができる。なお、入力I/F154は、リモートコントローラに限られず、例えば、マウス、タッチパッド、タッチパネル、タッチペンなどであってよい。通信部155は、外部装置とデータをやり取りする。
なお、図1に示される表示装置150の各要素は適宜削除することが可能であるし、図示されない要素を適宜付加することも可能である。例えば、復号映像を表示装置150の内部に記録/蓄積する必要がある場合には、HDDまたはSSDなどのストレージを付加してもよい。
図2に例示されるように、映像圧縮装置200は、映像変換部210と、第1の映像圧縮器220と、第2の映像圧縮器230と、データ多重化部260とを含む。映像圧縮装置200は、映像記録装置110からベースバンド映像10および映像同期信号11を受け取り、スケーラブル圧縮機能を利用して当該ベースバンド映像10を圧縮することによって複数階層(図2の例では2階層)のビットストリームを生成する。映像圧縮装置200は、映像同期信号11に基づいて生成した種々の制御情報と複数階層のビットストリームとを多重化することによって多重化ビットストリーム12を生成し、当該多重化ビットストリーム12を映像送信装置120へと出力する。
映像変換部210は、映像記録装置110からベースバンド映像10を受け取り、当該ベースバンド映像10に映像変換を適用することによって第1の映像13および第2の映像14を生成する(すなわち、ベースバンド映像10を第1の映像13および第2の映像14へと階層化する)。ここで、階層化とはスケーラビリティを実現するために複数の映像を用意する処理を意味する。第1の映像13は基本レイヤ映像に相当し、第2の映像14は拡張レイヤ映像に相当する。映像変換部210は、第1の映像13を第1の映像圧縮器220へと出力し、第2の映像14を第2の映像圧縮器230へと出力する。
映像変換部210によって適用される映像変換は、(1)パススルー(無変換)、(2)解像度のアップスケーリングまたはダウンスケーリング、(3)プログレッシブ映像からインターレース映像を生成するためのp(Progressive)/i(Interlace)変換またはその逆変換に相当するi/p変換、(4)フレームレートの増加または削減、(5)ビット深度(画素ビット長と呼ぶこともできる)の拡大または縮小、(6)色空間フォーマットの変更、ならびに、(7)ダイナミックレンジの拡大または縮小、のうち少なくとも1つに相当してもよい。
映像変換部210によって適用される映像変換は、階層化によって実現されるスケーラビリティの種別に応じて選択されてもよい。例えば、PSNR(Peak Signal−to−Noise Ratio)スケーラビリティ、ビットレートスケーラビリティなどの画質スケーラビリティが実現される場合には、第1の映像13および第2の映像14の映像フォーマットは同一であってよく、映像変換部210はパススルーを選択してもよい。
具体的には、映像変換部210は、図3に例示されるように、スイッチと、パススルー部211と、解像度変換部212と、p/i変換部213と、フレームレート変換部214と、ビット深度変換部215と、色空間変換部216と、ダイナミックレンジ変換部217とを含む。映像変換部210は、階層化によって実現されるスケーラビリティの種別に応じてスイッチの出力端を制御し、ベースバンド映像10を、パススルー部211、解像度変換部212、p/i変換部213、フレームレート変換部214、ビット深度変換部215、色空間変換部216およびダイナミックレンジ変換部217のいずれかへと導く。他方、映像変換部210は、ベースバンド映像10をそのまま第2の映像14として出力する。
図3の映像変換部210は、図18に例示されるように動作する。映像変換部210がベースバンド映像10を受け取ると、図18の映像変換処理は開始する。映像変換部210は、階層化によって実現されるスケーラビリティを設定する(ステップS11)。映像変換部210は、例えば、画質スケーラビリティ、解像度スケーラビリティ、時間スケーラビリティ、映像フォーマットスケーラビリティ、ビット深度スケーラビリティ、色空間スケーラビリティ、ダイナミックレンジスケーラビリティなどを設定する。
映像変換部210は、ステップS11において設定したスケーラビリティの種別に応じてスイッチの出力端の接続先を設定する(ステップS12)。どのスケーラビリティが設定された場合にスイッチの出力端がどこに接続されるかは後述する。
映像変換部210は、ベースバンド映像10をステップS12において設定した接続先へと導き、映像変換を適用することで第1の映像13を生成する(ステップS13)。ステップS13の後に図18の映像変換処理は終了する。なお、ベースバンド映像10は動画像であるから、図18の映像変換処理はベースバンド映像10に含まれる1ピクチャ毎に行われる。
映像変換部210は、画質スケーラビリティを実現するために、スイッチの出力端をパススルー部211に接続してもよい。パススルー部211は、ベースバンド映像10をそのまま第1の映像13として出力する。
映像変換部210は、解像度スケーラビリティを実現するために、スイッチの出力端を解像度変換部212に接続してもよい。解像度変換部212は、ベースバンド映像10の解像度を変更することによって第1の映像13を生成する。例えば、解像度変換部212は、ベースバンド映像10の解像度を1920×1080画素から1440×1080画素へとダウンコンバートしたり、ベースバンド映像10のアスペクト比を16:9から4:3へと変換したりしてもよい。ダウンコンバートは、例えば線形フィルタ処理を用いて実現されてよい。
映像変換部210は、時間スケーラビリティまたは映像フォーマットスケーラビリティを実現するために、スイッチの出力端をp/i変換部213に接続してもよい。p/i変換部213は、ベースバンド映像10の映像フォーマットをプログレッシブ映像からインターレース映像へと変更することにより第1の映像13を生成する。p/i変換は、例えば線形フィルタ処理を用いて実現されてよい。具体的には、p/i変換部213は、ベースバンド映像10の偶数フレームをトップフィールドとしてダウンコンバートし、ベースバンド映像10の奇数フレームをボトムフィールドとしてダウンコンバートしてもよい。
映像変換部210は、時間スケーラビリティを実現するために、スイッチの出力端をフレームレート変換部214に接続してもよい。フレームレート変換部214は、ベースバンド映像10のフレームレートを変更することによって第1の映像13を生成する。例えば、フレームレート変換部214は、ベースバンド映像10のフレームレートを60fpsから30fpsに間引いてもよい。
映像変換部210は、ビット深度スケーラビリティを実現するために、スイッチの出力端をビット深度変換部215に接続してもよい。ビット深度変換部215は、ベースバンド映像10のビット深度を変更することによって第1の映像13を生成する。例えば、ビット深度変換部215は、ベースバンド映像10のビット深度を10ビットから8ビットへと縮小してもよい。具体的には、ビット深度変換部215は、切り捨ておよび切り上げを考慮したビットシフトを行ってもよいし、Look Up Table(LUT)を用いて画素値のマッピングを行ってもよい。
映像変換部210は、色空間スケーラビリティを実現するために、スイッチの出力端を色空間変換部216に接続してもよい。色空間変換部216は、ベースバンド映像10の色空間フォーマットを変更することによって第1の映像13を生成する。例えば、色空間変換部216は、ベースバンド映像10の色空間フォーマットをITU−R Rec.BT.2020で勧告されている色空間フォーマットからITU−R Rec.BT.709で勧告されている色空間フォーマットまたはITU−R Rec.BT.609で勧告されている色空間フォーマットに変更してもよい。なお、ここで例示された色空間フォーマットの変更を実現するための変換式は上記勧告に記載されている。また、他の色空間フォーマットの変更についても所定の変換式などを用いて容易に実現可能である。
映像変換部210は、ダイナミックレンジスケーラビリティを実現するために、スイッチの出力端をダイナミックレンジ変換部217に接続してもよい。なお、ダイナミックレンジスケーラビリティは、前述のビット深度スケーラビリティと類似の意味で用いられることもあるが、ここではビット深度を固定したままダイナミックレンジを可変とすることを意味する。ダイナミックレンジ変換部217は、ベースバンド映像10のダイナミックレンジを変更することによって第1の映像13を生成する。例えば、ダイナミックレンジ変換部217は、ベースバンド映像10のダイナミックレンジを狭くしてもよい。具体的には、ダイナミックレンジ変換部217は、テレビパネルが表現できるダイナミックレンジに応じたガンマ変換をベースバンド映像10に適用することでダイナミックレンジの変更を実現できる。
なお、映像変換部210は図3に例示される構成に限定されない。故に、図3に例示される種々の機能部の少なくとも1つが必要に応じて削除されてもよい。また、図3の例では複数の映像変換が択一的に選択されているが、複数の映像変換が併用されてもよい。例えば、解像度スケーラビリティおよび映像フォーマットスケーラビリティの両方を実現するために、映像変換部210はベースバンド映像10に解像度変換およびp/i変換を逐次適用してもよい。
さらに、目的とする複数のスケーラビリティの組み合わせが予め定められている場合には、当該複数のスケーラビリティを実現するための複数の映像変換を予め共通化しておくことで計算コストを抑制できることがある。例えば、ダウンコンバートおよびp/i変換はいずれも線形フィルタ処理を用いて実現可能であるから、これらを一括して実行すれば2つの線形フィルタ処理を逐次実行する場合に比べて演算誤差および丸め誤差を低減させることができる。
或いは、複数の拡張レイヤ映像を圧縮するために、1つの映像変換が複数の段階に分割されてもよい。例えば、映像変換部210は、ベースバンド映像10の解像度を3840×2160画素から1920×1080画素にダウンコンバートすることにより第2の映像14を生成し、さらに第2の映像14の解像度を1920×1080画素から1440×1080画素にダウンコンバートすることにより第1の映像13を生成してもよい。この場合に、3840×2160画素のベースバンド映像10は、第2の映像14よりもさらに高解像度の拡張レイヤ映像に相当する第3の映像(図示されない)として利用可能である。
第1の映像圧縮器220は、映像変換部210から第1の映像13を受け取り、当該第1の映像13を圧縮することによって第1のビットストリーム15を生成する。第1の映像圧縮器220が用いるコーデックは例えばMPEG−2であってよい。第1の映像圧縮器220は、第1のビットストリーム15をデータ多重化部260および第2の映像圧縮器230へと出力する。なお、第1の映像圧縮器220は、第1の映像13の局所復号画像を生成できる場合には、当該局所復号画像を第1のビットストリーム15と共に第2の映像圧縮器230へと出力してもよい。この場合には、後述される復号部232を第1のビットストリーム15の予測構造を解析するためのパーサに置換してもよい。第1の映像圧縮器220は圧縮部221を含み、当該圧縮部221は上述の第1の映像圧縮器220の動作の一部または全部を行う。
第2の映像圧縮器230は、映像変換部210から第2の映像14を受け取り、第1の映像圧縮器220から第1のビットストリーム15を受け取る。第2の映像圧縮器230は、第2の映像14を圧縮することによって第2のビットストリーム20を生成する。第2の映像圧縮器230は、第2のビットストリーム20をデータ多重化部260へと出力する。後述されるように、第2の映像圧縮器230は、第1のビットストリーム15の予測構造を解析し、解析された予測構造に基づいて第2のビットストリーム20の予測構造を制御することにより、当該第2のビットストリーム20のランダムアクセス性を向上させる。
第2の映像圧縮器230は、遅延回路231と、復号部232と、逆映像変換部240と、圧縮部250とを含む。
遅延回路231は、映像変換部210から第2の映像14を受け取って一時的に保持してから圧縮部250へと転送する。遅延回路231は、第2の映像14が後述される逆変換された第1の復号映像19と同期して圧縮部250に入力されるように、第2の映像14の出力タイミングを制御する。換言すれば、遅延回路231は、第1の映像圧縮器220、復号部232および逆映像変換部240による処理遅延を吸収するバッファとして機能する。なお、遅延回路231に相当するバッファは、第2の映像圧縮器230の代わりに例えば映像変換部210に内蔵されてもよい。
復号部232は、第1の映像圧縮器220から第1の映像13の圧縮データに相当する第1のビットストリーム15を受け取る。復号部232は、第1のビットストリーム15を復号することによって第1の復号映像17を生成する。復号部232は、第1の映像圧縮器220(圧縮部221)と同一のコーデック(例えばMPEG−2)を用いる。復号部232は、第1の復号映像17を逆映像変換部240へと出力する。
さらに、復号部232は、第1のビットストリーム15の予測構造を解析し、解析結果に基づいて第1の予測構造情報16を生成する。第1の予測構造情報16は、第1のビットストリーム15に含まれるランダムアクセスポイントの位置を示す。なお、第1のビットストリーム15のコーデックがMPEG−2であれば、復号部232は、予測タイプ=Iのピクチャをランダムアクセスポイントとして特定できる。復号部232は、第1の予測構造情報16を予測構造制御部233へと出力する。
復号部232は、図20に例示されるように動作する。なお、復号部232が用いるコーデックがMPEG−2である場合には復号部232は既存のMPEG−2デコーダと同一または類似の動作を行ってよい。但し、図8を用いて後述されるように、第1のビットストリーム15および第2のビットストリーム20の予測構造が同一であって、かつ、ピクチャリオーダリングが必要な場合には、復号部232は好ましくは復号ピクチャを表示順に従って並べ替えずに復号順のまま第1の復号映像17として出力する。
復号部232が第1のビットストリーム15を受け取ると、図20の映像復号処理およびシンタクスパース処理(解析処理)は開始する。復号部232は、第1のビットストリーム15に対してシンタクスパース処理を行い、ステップS32における映像復号処理に必要な情報を生成する(ステップS31)。
復号部232は、ステップS31において生成した情報から各ピクチャの予測タイプに関する情報を抽出し、第1の予測構造情報16を生成する(ステップS32)。復号部232は、ステップS31において生成した情報を用いて第1のビットストリーム15を復号することにより第1の復号映像17を生成する(ステップS33)。ステップS33の後に図20の映像復号処理およびシンタクスパース処理は終了する。なお、第1のビットストリーム15は動画像の圧縮データであるから、図20の映像復号処理およびシンタクスパース処理は第1のビットストリーム15に含まれる1ピクチャ毎に行われる。
なお、第1の映像圧縮器220が局所復号映像(これは、第1の復号映像17に相当する)および第1の予測構造情報16を出力できる場合には、復号部232は削除されてよい。また、第1の映像圧縮器220が第1の予測構造情報16を出力できないものの局所復号映像を出力できる場合には、復号部232は図示されないパーサに置き換えられてもよい。パーサは、第1のビットストリーム15に対してシンタクスパース処理を行い、当該シンタクスパース処理の結果に基づいて第1の予測構造情報16を生成する。パーサは、複雑な映像復号処理を行う復号部232に比べて実装に必要なハードウェアおよびソフトウェアの規模が小さいので、コスト削減効果を期待できる。或いは、復号部232が第1のビットストリーム15の予測構造を解析する機能を備えていない場合(例えば、一般的なデコーダを用いて復号部232を実装する場合)にもパーサが追加されてよい。
このように、第1の映像圧縮器220または復号部232の構成に応じて第2の映像圧縮器230の構成を適宜変形(ハードウェアの追加、必要な機能のアドオンなど)すれば、既に製品化またはサービスインされているエンコーダまたはデコーダを利用して図2の映像圧縮装置を実装することができる。
予測構造制御部233は、復号部232から第1の予測構造情報16を受け取る。予測構造制御部233は、第2のビットストリーム20の予測構造を制御する第2の予測構造情報18を第1の予測構造情報16に基づいて生成する。予測構造制御部233は、第2の予測構造情報18を圧縮部250へと出力する。
圧縮映像データ(ビットストリーム)は、複数のピクチャグループ(GOP(Group Of Picture)と呼ばれる)によって形成される。GOPは、あるランダムアクセスポイントに相当するピクチャから次のランダムアクセスポイントに相当するピクチャまでのピクチャ系列を包含する。さらに、GOPは、所定の参照関係のいずれかを持つピクチャ系列に相当するサブピクチャグループを1つ以上包含する。すなわち、GOPが持つ参照関係は、この基本的な参照関係の組み合わせで表すことができる。このサブグループは、SOP(Sub−group Of PictureまたはStructure Of Pictures)と呼ばれる。SOPサイズ(Mとしても表現される)は、SOPに含まれるピクチャの総数に等しい。また、後述されるGOPサイズはGOPに含まれるピクチャの総数に等しい。
具体的には、MPEG−2では、I(Intra)ピクチャ、P(Predictive)ピクチャおよびB(Bi−predictive)ピクチャとよばれる3種類の予測タイプが利用可能である。なお、MPEG−2ではBピクチャは非参照ピクチャとして扱われる。圧縮効率および圧縮遅延の観点から、圧縮順および表示順がともにIPPPという予測構造(M=1)、ならびに、圧縮順がIPBBであって表示順がIBBPである予測構造(M=3)が典型的に利用される。
第1の映像圧縮器220が用いるコーデックがMPEG−2であるとすれば、第1のビットストリーム15は典型的には図5または図6に例示される予測構造を持つ。図5はSOPサイズ=1かつGOPサイズ=9の予測構造を示しており、図6はSOPサイズ=3かつGOPサイズ=9の予測構造を示している。
図5および以降の図面では、それぞれの箱が1つのピクチャを表しており、ピクチャは表示順に従って並べられている。さらに、それぞれの箱の中に記載されたアルファベットがその箱に対応するピクチャの予測タイプを表し、それぞれの箱の下に記載された数字はその箱に対応するピクチャの圧縮順(復号順)を表す。図5の予測構造ではピクチャの表示順および圧縮順が同一であるからピクチャリオーダリングは必要でない。また、図5および図6の予測構造ではGOPサイズ=9であるから、表示順の最も遅い(即ち、右端に描かれた)Iピクチャは他のピクチャとは異なるGOPに属する。前述のように、MPEG−2ではBピクチャは非参照ピクチャとして扱われるので、H.246およびHEVCに比べてSOPサイズの小さい予測構造が選択されやすい。
なお、図5および以降の図面に示される予測構造は例示的なものであり、第1のビットストリーム15および第2のビットストリーム20は、コーデックによって許容される範囲内で様々なGOPサイズ、SOPサイズおよび参照関係を持つ可能性がある。さらに、第1のビットストリーム15および第2のビットストリーム20の予測構造は固定である必要はなく、例えば、映像の特性、ユーザ制御、チャネルの帯域幅などの様々な要素に依存して動的に変更されてもよい。例えば、シーンチェンジ直後にIピクチャを挿入し、GOPサイズおよびSOPサイズを切り替えることは既存の一般的な映像圧縮装置においても行われている。また、映像の時間的相関の高低に応じて映像のSOPサイズの大小が切り替えられてもよい。
他方、H.264およびHEVCでは、スライス単位で予測タイプが設定され、Iスライス、PスライスおよびBスライスが利用可能である。以降の説明では、便宜的にBスライスを含むピクチャをBピクチャと称し、Bスライスを含まずPスライスを含むピクチャをPピクチャと称し、BスライスおよびPスライスを含まずIスライスを含むピクチャをIピクチャと称することとする。また、H.264およびHEVCでは、Bピクチャも参照ピクチャに指定できるので、圧縮効率を高めることができる。H.264およびHEVCでは、圧縮順がIPbBBであって表示順がIBbBPとなるM=4の予測構造、ならびに、M=8の予測構造が典型的に利用される。なお、ここでは、非参照BピクチャをBで表し、参照Bピクチャをbピクチャで表している。これらの予測構造は階層B構造も呼ばれ、階層B構造のMは2のべき乗で表すことができる。
第2のビットストリーム20の予測構造を図5に示される予測構造に一致させるとすると、第1のビットストリーム15および第2のビットストリーム20の予測構造は図7に示される関係を持つ。同様に、第2のビットストリーム20の予測構造を図6に示される予測構造に一致させるとすると、第1のビットストリーム15および第2のビットストリーム20の予測構造は図8に示される関係を持つ。
後述される層間予測によれば、第2のビットストリーム20に含まれる各ピクチャは、第1のビットストリーム15に含まれる同一時刻のピクチャの復号ピクチャを参照可能である。さらに、図7および図8の例では、第2のビットストリーム20のGOPサイズは第1のビットストリーム15のGOPサイズと一致するので、第1のビットストリーム15に含まれる各ランダムアクセスポイント(Iピクチャ)に対応する復号ピクチャから第2のビットストリーム20を復号および再生することが可能である。
図7の例では、第1のビットストリーム15および第2のビットストリーム20の予測構造はピクチャリオーダリングを必要としない。故に、第2の映像圧縮器230は、第1のビットストリーム15の任意の時刻のピクチャの復号が完了すれば、第2のビットストリーム20の同一時刻のピクチャを即座に圧縮できる。すなわち、圧縮遅延は非常に小さい。
図8の例では、第1のビットストリーム15および第2のビットストリーム20の予測構造はピクチャリオーダリングを必要とする。前述の通り、第2のビットストリーム20に含まれる各ピクチャは、第1のビットストリーム15に含まれる同一時刻のピクチャの復号ピクチャを参照可能である。しかしながら、ピクチャリオーダリングを行い表示順に従って復号映像を出力する一般的なデコーダを用いて復号部232が実装されている場合には、第1の復号映像17が生成されてから出力されるまでに遅延が生じることがある。
具体的には、図8に示される第1のビットストリーム15に含まれる復号順=1のPピクチャは、復号順=2または3のBピクチャよりも表示順は遅い。故に、これらのBピクチャの復号および出力が完了するまで当該Pピクチャの復号ピクチャの出力は遅延し、第2のビットストリーム20において当該Pピクチャと同一時刻のPピクチャの圧縮も遅延する。係る圧縮遅延を解消するためには、復号部232が復号ピクチャを表示順に従って並べ替えずに復号順のまま第1の復号映像17として出力することが好ましい。復号部232がこのように動作すれば、第2の映像圧縮器230は、図7の例と同様に第1のビットストリーム15の任意の時刻のピクチャの復号完了後に、第2のビットストリーム20の同一時刻のピクチャを即座に圧縮できる。
図7および図8に示されるように第2のビットストリーム20の予測構造が第1のビットストリーム15の予測構造に一致していることはランダムアクセス性および圧縮遅延の観点では好ましい。他方、圧縮効率の観点では、第2のビットストリーム20の予測構造が第1のビットストリーム15の予測構造によって制限され、前述の階層B構造のような高度な予測構造を利用できないことは好ましくない。
第2のビットストリーム20の予測構造を第1のビットストリームの予測構造とは独立に決定するとすれば、両者の予測構造は必ずしも一致しない。例えば、第1のビットストリーム15および第2のビットストリーム20の予測構造は図9、図10または図11に例示される関係を持つかもしれない。
図9の例では、第1のビットストリーム15はSOPサイズ=1かつGOPサイズ=8の予測構造を持ち、第2のビットストリーム20はSOPサイズ=4かつGOPサイズ=8の予測構造を持つ。第2のビットストリーム20の予測構造は、前述の階層B構造に相当するので、高い圧縮効率を達成できる。しかしながら、図9の例では第2のビットストリーム20の圧縮遅延は図7および図8の例に比べて増大する。例えば、第2のビットストリーム20に含まれる復号順=1のピクチャは、第1のビットストリーム15に含まれる復号順=4のピクチャの復号映像を参照しているから、第1のビットストリーム15に含まれる復号順=1〜4のピクチャの復号が完了するまで圧縮することができない。
図10の例では、第1のビットストリーム15はSOPサイズ=3かつGOPサイズ=9の予測構造を持ち、第2のビットストリーム20はSOPサイズ=4かつGOPサイズ=8の予測構造を持つ。第2のビットストリーム20の予測構造は、前述の階層B構造に相当するので、高い圧縮効率を達成できる。しかしながら、図9の例と同様に、図10の例では第2のビットストリーム20の圧縮遅延は図7および図8の例に比べて増大する。さらに、第1のビットストリーム15および第2のビットストリーム20のGOPサイズが異なるので、両者のランダムアクセスポイントも不一致となることがある。例えば、第1のビットストリーム15に含まれる圧縮順=7のIピクチャから再生を開始したとすると、第2のビットストリーム20において最初に正しく復号および再生できるピクチャは表示順で9番目のピクチャ以降で圧縮順の最も早いランダムアクセスポイントに相当するピクチャ(典型的にはPピクチャ)となる。このように第1のビットストリーム15および第2のビットストリーム20のGOPサイズが異なる場合には、最大で第2のビットストリーム20のGOPサイズ相当の再生遅延が生じることになる。
図11の例では、第1のビットストリーム15はSOPサイズ=3かつGOPサイズ=9の予測構造を持ち、第2のビットストリーム20はSOPサイズ=4かつGOPサイズ=12の予測構造を持つ。図11において、第1のビットストリーム15は4つのGOP(GOP#1、GOP#2、GOP#3およびGOP#4)を含み、各GOPは3つのSOP(SOP#1、SOP#2およびSOP#3)を含む。他方、第2のビットストリーム20は3つのGOP(GOP#1、GOP#2およびGOP#3)を含み、各GOPは3つのSOP(SOP#1、SOP#2およびSOP#3)を含む。図11の例でも図10と同様の問題が生じる。例えば、第1のビットストリーム15のGOP#2の先頭ピクチャから再生が開始したとすれば、第2のビットストリーム20において最初に正しく復号および再生できるピクチャはGOP#2の先頭ピクチャとなる。同様に、第1のビットストリーム15のGOP#3の先頭ピクチャから再生が開始したとすれば、第2のビットストリーム20において最初に正しく復号および再生できるピクチャはGOP#3の先頭ピクチャとなる。
概括すれば、第2のビットストリーム20の予測構造を第1のビットストリーム15に一致させれば第2のビットストリーム20の圧縮効率が低下し、第2のビットストリーム20の予測構造を全く変更しなければ第2のビットストリーム20のランダムアクセス性が損なわれると共に圧縮遅延が増加するおそれがある。なお、第1の映像圧縮器220と同じコーデックを用いる既存の映像再生装置との互換性を確保するためには、第1のビットストリーム15の予測構造を変更できないこともある。そこで、予測構造制御部233は、第2のビットストリーム20のSOPサイズを変更せずにランダムアクセスポイントを制御することで、第2のビットストリーム20の圧縮効率の低下ならびに圧縮遅延および機器コストの増加を回避しながらランダムアクセス性を改善する。
具体的には、予測構造制御部233は、第1のビットストリーム15に含まれるランダムアクセスポイントに基づいて第2のビットストリーム20にランダムアクセスポイントを設定する。第1のビットストリーム15に含まれるランダムアクセスポイントは第1の予測構造情報16に基づいて特定することができる。
例えば、予測構造制御部233は、第1のビットストリーム15に含まれるランダムアクセスポイント(例えばIピクチャ)を第1の予測構造情報16に基づいて検出すると、第2のビットストリーム20から、当該ランダムアクセスポイント以降で表示順の最も早いSOPを選択する。そして、予測構造制御部233は、選択したSOPのうち圧縮順で最初のピクチャを第2のビットストリーム20向けのランダムアクセスポイントに設定する。すなわち、第1のビットストリーム15および第2のビットストリーム20が図11に例示される予測構造をデフォルトで持っていたとすると、予測構造制御部233は第2のビットストリーム20の予測構造を図12に例示されるように制御する。
図11および図12を比較すると、第2のビットストリーム20に含まれるGOPの総数は3つから4つに増加している。図12の例では、第1のビットストリーム15のGOP#2の先頭ピクチャから再生が開始したとすれば、第2のビットストリーム20において最初に正しく復号および再生できるピクチャはGOP#2の先頭ピクチャとなる。この場合の再生遅延は図11の例と同じである。しかしながら、第1のビットストリーム15のGOP#3の先頭ピクチャから再生が開始したとすれば、第2のビットストリーム20において最初に正しく復号および再生できるピクチャはGOP#3の先頭ピクチャとなる。この場合の再生遅延は図11に比べて4ピクチャ相当分改善されている。概括すれば、予測構造制御233が第2のビットストリーム20におけるランダムアクセスポイントを前述のように制御すれば、再生遅延の上限は第2のビットストリーム20のGOPサイズではなくSOPサイズによって決まるので、第2のビットストリーム20の予測構造を全く変更しない場合に比べてランダムアクセス性が向上する。
予測構造制御部233は、図21に例示されるように動作する。予測構造制御部233が第1の予測構造情報16を受け取ると、図21の予測構造制御処理は開始する。予測構造制御部233は、圧縮部250によって用いられる(デフォルトの)GOPサイズおよびSOPサイズをそれぞれ設定する(ステップS41およびステップS42)。
予測構造制御部233は、第1の予測構造情報16とステップS41およびステップS42において設定したGOPサイズおよびSOPサイズとに基づいて、第2のビットストリーム20におけるランダムアクセスポイントを設定する(ステップS43)。
具体的には、予測構造制御部233は、第1の予測構造情報16から第1のビットストリーム15におけるランダムアクセスポイントを検出しない限りは、ステップS41において設定したデフォルトのGOPサイズに従って各GOPの先頭ピクチャをランダムアクセスポイントに設定する。他方、予測構造制御部233は、第1の予測構造情報16から第1のビットストリーム15におけるランダムアクセスポイントを検出すると、第2のビットストリーム20から、当該ランダムアクセスポイント以降で表示順の最も早いSOPを選択する。そして、予測構造制御部233は、選択したSOPのうち圧縮順で最初のピクチャを第2のビットストリーム20向けのランダムアクセスポイントに設定する。この場合に、ランダムアクセスポイントの直前のGOPのGOPサイズは、ステップS41において設定されたGOPサイズに比べて短縮されるかもしれない。
予測構造制御部233は、ステップS41、ステップS42およびステップS43においてそれぞれ設定したGOPサイズ、SOPサイズおよびランダムアクセスポイントを示す第2の予測構造情報18を生成する(ステップS44)。ステップS44の後に図21の予測構造制御処理は終了する。なお、第1の予測構造情報16は動画像の圧縮データ(第1のビットストリーム15)に関する情報であるから、図21の予測構造制御処理は第1のビットストリーム15に含まれる1ピクチャ毎に行われる。
予測構造制御部233は、図14に例示される第1の予測構造情報16に基づいて図15に例示される第2の予測構造情報18を生成してもよい。
図14に示される第1の予測構造情報16は、第1のビットストリーム15に含まれるピクチャ毎に、当該ピクチャの表示順および圧縮順ならびに当該ピクチャがランダムアクセスポイント(RAP)に相当するか否かを示す情報(フラグ)RAP#1を含む。RAP#1は、対応ピクチャがランダムアクセスポイントに相当するならば「1」に設定され、当該対応ピクチャがランダムアクセスポイントに相当しないならば「0」に設定される。図14の例では、予測タイプ=Iのピクチャに対応するRAP#1は「1」に設定され、予測タイプ=PまたはBのピクチャに対応するRAP#1は「0」に設定されている。
図15に示される第2の予測構造情報18は、第2のビットストリーム20に含まれるピクチャ毎に、当該ピクチャの表示順および圧縮順ならびに当該ピクチャがランダムアクセスポイントに相当するかを示す情報(フラグ)RAP#2を含む。RAP#2は、対応ピクチャがランダムアクセスポイントに相当するならば「1」に設定され、当該対応ピクチャがランダムアクセスポイントに相当しないならば「0」に設定される。
予測構造制御部233は、図14のRAP#1を参照し、当該RAP#1に「1」を設定されているピクチャを第1のビットストリーム15におけるランダムアクセスポイントとして検出する。図14の例では、第1のビットストリーム15における表示順=0,9のピクチャが検出されることになる。それから、予測構造制御部233は、第2のビットストリーム20において当該ランダムアクセスポイント以降で表示順の最も早いSOPの先頭ピクチャをランダムアクセスポイントに設定し、設定したランダムアクセスポイントの位置を示す第2の予測構造情報18(RAP#2)を生成する。
図15に例示されるように、第2のビットストリーム20のデフォルトの予測構造がM=4の階層B構造であるとすれば、表示順=0,4,8,12,16,・・・のピクチャが各SOPの先頭を占めることになる。すなわち、第1のビットストリーム15における表示順=0のピクチャの検出に応じて、予測構造制御部233は第2のビットストリーム20における表示順=0(≧0)のピクチャをランダムアクセスポイントに設定する。さらに、第1のビットストリーム15における表示順=9のピクチャの検出に応じて、予測構造制御部233は第2のビットストリーム20における表示順=12(≧9)のピクチャをランダムアクセスポイントに設定する。
なお、後述される圧縮部250は、第2のビットストリーム20におけるランダムアクセスポイントに相当するピクチャを様々な手段により映像再生装置300に伝達できる。
具体的には、圧縮部250は、HEVCおよびSHVCのフォーマット(シンタクス情報など)に従って、ランダムアクセスポイントに設定されたピクチャがランダムアクセス可能であることを明示的に示す情報を第2のビットストリーム20に記述してもよい。圧縮部250は、例えば、ランダムアクセスポイントに相当するピクチャをCRA(Clean Random Access)ピクチャ若しくはIDR(Instantaneous Decoding Refresh)ピクチャ、または、HEVCにおいて規定されるIRAP(Intra Random Access Point)アクセスユニット若しくはIRAPピクチャに指定してもよい。なお、アクセスユニットとは、NAL(Network Abstraction Layer)ユニットの1セットを意味する用語である。映像再生装置300は、これらのピクチャ(またはアクセスユニット)がランダムアクセス可能であることを知ることができる。
圧縮部250は、ランダムアクセスポイントに設定されたピクチャがランダムアクセス可能であることを明示的に示す情報を、復号に必須の情報ではなく補助情報として、第2のビットストリーム20に記述することもできる。例えば、圧縮部250は、H.264、HEVCおよびSHVCにおいて規定される、Recovery point SEI (Supplemental Enhancement Information) messageを利用できる。
或いは、圧縮部250は、ランダムアクセスポイントに設定されたピクチャがランダムアクセス可能であることを明示的に示す情報を第2のビットストリーム20に記述しなくてもよい。具体的には、圧縮部250は、ピクチャの予測モードを制限することによって、当該ピクチャを即時に復号できるようにしてもよい。予測モードの制限とは、利用可能な様々な予測モードからフレーム間予測(例えば、後述されるマージモードまたは動き補償予測)を除外することであってもよい。この場合に、圧縮部250は、圧縮対象ピクチャと時間的位置において異なる参照画像に基づかない予測モード(例えば、後述される画面内予測または層間予測)を利用する。
予測モードの制限されたピクチャの圧縮効率は低下するおそれがあるものの、当該ピクチャは第1のビットストリーム15における同一時刻のピクチャが復号されれば即時に復号することができる。圧縮部250は、図13に例示されるように、第2のビットストリーム20において、第1のビットストリーム15におけるランダムアクセスポイントと同一時刻のピクチャから当該ピクチャが属するGOPの最終ピクチャまで(これらのピクチャは図13において太い矢印で示されている)の1枚以上のピクチャの予測モードを制限する。
この例によれば、映像再生装置300は第1のビットストリーム15におけるランダムアクセスポイントと同一時刻のピクチャを即時に復号できるので、第2のビットストリーム20の復号遅延は非常に小さい(すなわち、ランダムアクセス性が高い)。なお、ここで説明される復号遅延は、ビットストリームの受信、ピクチャリオーダリングの実行などに伴う遅延を無視したものである。なお、第2のビットストリーム20において所与のピクチャがランダムアクセス可能であることは、例えば前述のSEIメッセージを用いて映像再生装置300に伝達されてもよい。或いは、映像再生装置300が第1のビットストリーム15に基づいて第2のビットストリーム20において所与のピクチャがランダムアクセス可能であるか否かを判定する、という規定が予め設けられてもよい。
逆映像変換部240は、復号部232から第1の復号映像17を受け取る。逆映像変換部240は、第1の復号映像17に逆映像変換を適用することによって、逆変換された第1の復号映像19を生成する。逆映像変換部240は、逆変換された第1の復号映像19を圧縮部250へと出力する。逆変換された第1の復号映像19の映像フォーマットは第2の映像14の映像フォーマットに一致する。すなわち、ベースバンド映像10と第2の映像14の映像フォーマットが同一であるならば、逆映像変換部240は映像変換部210の逆変換を行うことになる。なお、第1の復号映像17(即ち、第1の映像13)の映像フォーマットが第2の映像14の映像フォーマットと同一であるならば、逆映像変換部240はパススルーを選択してもよい。
具体的には、逆映像変換部240は、図4に例示されるように、スイッチと、パススルー部241と、逆解像度変換部242と、i/p変換部243と、逆フレームレート変換部244と、逆ビット深度変換部245と、逆色空間変換部246と、逆ダイナミックレンジ変換部247とを含む。逆映像変換部240は、階層化によって実現されるスケーラビリティの種別(換言すれば、映像変換部210によって適用された映像変換)に応じてスイッチの出力端を制御し、第1の復号映像17を、パススルー部241、逆解像度変換部242、i/p変換部243、逆フレームレート変換部244、逆ビット深度変換部245、逆色空間変換部246および逆ダイナミックレンジ変換部247のいずれかへと導く。図4のスイッチは図3のスイッチと連動して制御される。
図4の逆映像変換部240は、図19に例示されるように動作する。逆映像変換部240が第1の復号映像17を受け取ると、図19の逆映像変換処理は開始する。逆映像変換部240は、階層化によって実現されるスケーラビリティを設定する(ステップS21)。逆映像変換部240は、例えば、画質スケーラビリティ、解像度スケーラビリティ、時間スケーラビリティ、映像フォーマットスケーラビリティ、ビット深度スケーラビリティ、色空間スケーラビリティ、ダイナミックレンジスケーラビリティなどを設定する。
逆映像変換部240は、ステップS21において設定したスケーラビリティの種別に応じてスイッチの出力端の接続先を設定する(ステップS22)。どのスケーラビリティが設定された場合にスイッチの出力端がどこに接続されるかは後述される。
逆映像変換部240は、第1の復号映像17をステップS22において設定した接続先へと導き、逆映像変換を適用することで逆変換された第1の復号映像19を生成する(ステップS23)。ステップS23の後に図19の逆映像変換処理は終了する。なお、第1の復号映像17は動画像であるから、図19の逆映像変換処理は第1の復号映像17に含まれる1ピクチャ毎に行われる。
逆映像変換部240は、画質スケーラビリティを実現するために、スイッチの出力端をパススルー部241に接続してもよい。パススルー部241は、第1の復号映像17をそのまま逆変換された第1の復号映像19として出力する。
逆映像変換部240は、解像度スケーラビリティを実現するために、スイッチの出力端を逆解像度変換部242に接続してもよい。逆解像度変換部242は、第1の復号映像17の解像度を変更することによって、逆変換された第1の復号映像19を生成する。例えば、逆映像変換部240は、第1の復号映像17の解像度を1440×1080画素から1920×1080画素へとアップコンバートしたり、第1の復号映像17のアスペクト比を4:3から16:9へと変換したりしてもよい。アップコンバートは、例えば線形フィルタ処理、超解像処理などを用いて実現されてよい。
逆映像変換部240は、時間スケーラビリティまたは映像フォーマットスケーラビリティを実現するために、スイッチの出力端をi/p変換部243に接続してもよい。i/p変換部243は、第1の復号映像17の映像フォーマットをインターレース映像からプログレッシブ映像へと変更することにより、逆変換された第1の復号映像19を生成する。i/p変換は、例えば線形フィルタ処理を用いて実現されてよい。
逆映像変換部240は、時間スケーラビリティを実現するために、スイッチの出力端を逆フレームレート変換部244に接続してもよい。逆フレームレート変換部244は、第1の復号映像17のフレームレートを変更することによって、逆変換された第1の復号映像19を生成する。例えば、逆フレームレート変換部244は、第1の復号映像17に対して補間処理を行うことでフレームレートを30fpsから60fpsへと増加させてもよい。補間処理は、例えば生成されるフレームの前後にある複数枚のフレームに対する動き探索を利用してもよい。
逆映像変換部240は、ビット深度スケーラビリティを実現するために、スイッチの出力端を逆ビット深度変換部245に接続してもよい。逆ビット深度変換部245は、第1の復号映像17のビット深度を変更することによって、逆変換された第1の復号映像19を生成する。例えば、逆ビット深度変換部245は、第1の復号映像17のビット深度を8ビットから10ビットに拡張してもよい。ビット深度の拡張は、左ビットシフトを用いて実現されてもよいし、LUTを用いた画素値のマッピングによって実現されてもよい。
逆映像変換部240は、色空間スケーラビリティを実現するために、スイッチの出力端を逆色空間変換部246に接続してもよい。逆色空間変換部246は、第1の復号映像17の色空間フォーマットを変更することによって、逆変換された第1の復号映像19を生成する。例えば、逆色空間変換部246は、第1の復号映像17の色空間をITU−R Rec.BT.709で勧告されている色空間フォーマットからITU−R Rec.BT.2020で勧告されている色空間フォーマットに変更してもよい。なお、ここで例示された色空間フォーマットの変更を実現するための変換式は上記勧告に記載されている。また、他の色空間フォーマットの変更についても所定の変換式などを用いて容易に実現可能である。
逆映像変換部240は、ダイナミックレンジスケーラビリティを実現するために、スイッチの出力端を逆ダイナミックレンジ変換部247に接続してもよい。逆ダイナミックレンジ変換部247は、第1の復号映像17のダイナミックレンジを変更することにより、逆変換された第1の復号映像19を生成する。例えば、逆ダイナミックレンジ変換部247は、第1の復号映像17のダイナミックレンジを広くしてもよい。具体的には、逆ダイナミックレンジ変換部247は、テレビパネルが表現できるダイナミックレンジに応じたガンマ変換を第1の復号映像17に適用することでダイナミックレンジの変更を実現できる。
なお、逆映像変換部240は図4に例示される構成に限定されない。故に、図4に例示される種々の機能部の一部または全部が必要に応じて削除されてもよい。また、図4の例では複数の逆映像変換が択一的に選択されているが、複数の逆映像変換が併用されてもよい。例えば、解像度スケーラビリティおよび映像フォーマットスケーラビリティの両方を実現するために、逆映像変換部240は第1の復号映像17に解像度変換およびi/p変換を逐次適用してもよい。
さらに、目的とする複数のスケーラビリティの組み合わせが予め定められている場合には、当該複数のスケーラビリティを実現するための複数の逆映像変換を予め共通化しておくことで計算コストを抑制できることがある。例えば、アップコンバートおよびi/p変換はいずれも線形フィルタ処理を用いて実現可能であるから、これらを一括して実行すれば2つの線形フィルタ処理を逐次実行する場合に比べて演算誤差および丸め誤差を低減させることができる。
或いは、複数の拡張レイヤ映像を圧縮するために、1つの逆映像変換が複数の段階に分割されてもよい。例えば、逆映像変換部240は、第1の復号映像17の解像度を1440×1080画素から1920×1080画素にアップコンバートすることにより逆変換された第1の復号映像19を生成し、さらに逆変換された第1の復号映像19の解像度を1920×1080画素から3840×2160画素にアップコンバートしてもよい。この3840×2160画素の映像は、第2の映像14よりもさらに高解像度の拡張レイヤ映像に相当する第3の映像(図示されない)を圧縮するために利用可能である。
なお、第1の映像13の映像フォーマットに関する情報は第1のビットストリーム15に明示的に埋め込まれている。同様に、第2の映像14の映像フォーマットに関する情報は第2のビットストリーム20に明示的に埋め込まれている。なお、第1の映像13の映像フォーマットに関する情報は、第1のビットストリーム15に加えて第2のビットストリーム20に明示的に埋め込まれていてもよい。
映像フォーマットに関する情報は、例えば、映像がプログレッシブ映像またはインターレース映像であることを示す情報、インターレース映像の位相を示す情報、映像のフレームレートを示す情報、映像の解像度を示す情報、映像のビット深度を示す情報、映像の色空間フォーマットを示す情報、映像のコーデックを示す情報などである。
圧縮部250は、遅延回路231から第2の映像14を受け取り、予測構造制御部233から第2の予測構造情報18を受け取り、逆映像変換部240から逆変換された第1の復号映像19を受け取る。圧縮部250は、逆変換された第1の復号映像19に基づいて第2の映像14を圧縮することによって第2のビットストリーム20を生成する。なお、圧縮部250は、第2の予測構造情報18の示す予測構造(GOPサイズ、SOPサイズおよびランダムアクセスポイントの位置)に従って第2の映像14を圧縮する。圧縮部250は、第1の映像圧縮器220(圧縮部221)とは異なるコーデック(例えばSHVC)を用いる。圧縮部250は、第2のビットストリーム20をデータ多重化部260へと出力する。
圧縮部250は、図22に例示されるように動作する。圧縮部250が第2の映像14と第2の予測構造情報18と逆変換された第1の復号映像19とを受け取ると、図22の映像圧縮処理は開始する。
圧縮部250は、第2の予測構造情報18に従って、GOPサイズおよびSOPサイズをそれぞれ設定する(ステップS51およびステップS52)。さらに、圧縮部250は、圧縮対象ピクチャが第2の予測構造情報18において定められるランダムアクセスポイントに該当するならば、当該圧縮対象ピクチャをランダムアクセスポイントとして設定する(ステップS53)。
圧縮部250は、逆変換された第1の復号映像19に基づいて第2の映像14を圧縮することによって第2のビットストリーム20を生成する(ステップS54)。ステップS54の後に図22の映像圧縮処理は終了する。なお、第2の映像14は動画像であるから、図21の映像圧縮処理は第2の映像14に含まれる1ピクチャ毎に行われる。
具体的には、圧縮部250は、図28に例示されるように、時空間相関制御部701と、減算器702と、変換/量子化部703と、エントロピー符号化部704と、逆量子化/逆変換部705と、加算器706と、ループフィルタ部707と、画像バッファ部708と、予測画像生成部709と、モード判定部710とを含むことができる。図28の圧縮部250は、図2には示されない符号化制御部711によって制御される。
時空間相関制御部701は、第2の映像14を遅延回路231から受け取り、逆変換された第1の復号映像19を逆映像変換部240から受け取る。時空間相関制御部701は、逆変換された第1の復号映像19と第2の映像14との間の時空間相関を高めるためのフィルタ処理を当該第2の映像14に適用することによってフィルタ画像42を生成する。時空間相関制御部701は、フィルタ画像42を減算器702およびモード判定部710へと出力する。
具体的には、時空間相関制御部701は、図29に例示されるように、時間フィルタ721と、空間フィルタ722と、フィルタ制御部723とを含む。
時間フィルタ721は、第2の映像14を受け取り、当該第2の映像14に対して動き補償を用いた時間方向のフィルタ処理を適用する。この時間方向のフィルタ処理によって第2の映像14に含まれる時間方向の相関の低いノイズが低減される。例えば、時間フィルタ721は、フィルタ対象の画像ブロックの前後2ないし3フレームに対してブロックマッチングを行い、ブロック誤差(差分絶対値和)が閾値以下であった画像ブロックを用いてフィルタ処理を行ってよい。フィルタ処理は、エッジを考慮したεフィルタ処理であってもよいし、通常のローパスフィルタ処理であってもよい。時間方向のローパスフィルタを適用することで時間方向の相関が高まるので、圧縮性能を向上させることができる。
特に、第2の映像14が高精細映像である場合には、イメージセンサの画素サイズが小さくなることに起因して様々なタイプのノイズが増加する。また、第2の映像14に対して現像処理(画像変換)、カラーコレクション処理などのポストプロダクション処理(グレーディング処理)を適用した場合には、リンギングアーチファクト(先鋭なエッジに沿ったノイズ)が強調される。これらのノイズを放置したまま第2の映像14を圧縮すると、当該ノイズを忠実に再現するために相当量の符号が割り当てられるので主観画質は劣化する。時間フィルタ721によってこれらのノイズを低減させることで、圧縮映像データのサイズを維持したまま主観画質を向上させることができる。
時間フィルタ721はバイパスすることも可能である。時間フィルタ721の有効化/無効化はフィルタ制御部723によって制御されてよい。具体的には、フィルタ制御部723は、フィルタ対象の画像ブロック周辺の時間方向の相関が低い(例えば、時間方向の相関係数が閾値以下である)場合、または、シーンチェンジが生じる場合には、時間フィルタ721を無効化としてもよい。
空間フィルタ722は、第2の映像14(または、時間フィルタ721によってフィルタ処理されたフィルタ画像)を受け取り、当該第2の映像14に含まれる各画像の画面内の空間相関を制御するフィルタ処理を行う。具体的には、空間フィルタ722は、逆変換された第1の復号映像19と第2の映像14との間の空間周波数特性の乖離を抑制するように、第2の映像14を逆変換された第1の復号映像19へと近づけるフィルタ処理を行う。空間フィルタ722は、ローパスフィルタ処理または他のより複雑な処理(例えば、バイラテラルフィルタ、画素適応オフセット(sample adaptive offset)、ウィーナーフィルタなど)を用いて実現可能である。
後述されるように、圧縮部250は層間予測および動き補償予測を利用可能であるが、これらの予測によって生成された予測画像の傾向が大きく異なる可能性がある。第2のビットストリーム20によって使用可能なデータ量(目標ビットレート)が第2の映像14のデータ量に比して十分である場合には、層間予測および動き補償予測によって生成された予測画像の傾向が大きく異なっていたとしても変換/量子化部703によって行われる量子化処理によって削減されるデータ量は相対的に小さいので、主観画質への影響は限定的である。他方、第2のビットストリーム20によって使用可能なデータ量が第2の映像14のデータ量に比して十分でない場合には、層間予測に基づいて生成された復号画像と動き補償予測に基づいて生成された復号画像との傾向が大きく異なり、主観画質は劣化するかもしれない。空間フィルタ722によって第2の映像14の空間特性を逆変換された第1の復号映像19の空間特性に近づけることで、係る主観画質の劣化を抑制することができる。
空間フィルタ722のフィルタ強度は固定である必要はなく、フィルタ制御部723によって動的に制御されてよい。空間フィルタ722のフィルタ強度は、例えば、第2のビットストリーム20の目標ビットレート、第2の映像14の圧縮困難性および逆変換された第1の復号映像19の画質の3つの指標に基づいて制御されてよい。具体的には、第2のビットストリーム20の目標ビットレートが低いほど空間フィルタ722のフィルタ強度は強くなるように制御され、第2の映像14の圧縮困難性が高いほど空間フィルタ722のフィルタ強度は強くなるように制御され、逆変換された第1の復号映像19の画質が低いほど空間フィルタ722のフィルタ強度は強くなるように制御されてよい。
なお、空間フィルタ722はバイパスすることも可能である。空間フィルタ722の有効化/無効化はフィルタ制御部723によって制御されてよい。具体的には、フィルタ制御部723は、フィルタ対象画像の空間解像度が高くない場合、または、上記3つの指標に基づいて導出されたフィルタ強度が最低である場合には、空間フィルタ722を無効化してもよい。
なお、第2のビットストリーム20によって使用可能なデータ量が第2の映像14のデータ量に比して十分であるか否かの基準量は、例えば、第2の映像14の映像フォーマットが1920×1080画素、YUV4:2:0、8ビット深度および60fps(1.9Gbps相当)であってコーデックがHEVCであるならば、10Mbps(圧縮比=190:1)程度である。この例において、第2の映像14の解像度が3840×2160画素に拡大するとすれば、基準量は40Mbps程度である。
フィルタ制御部723は、時間フィルタ721の有効化/無効化を制御したり、空間フィルタ722の有効化/無効化および強度を制御したりする。
減算器702は、時空間相関制御部701からフィルタ画像42を受け取り、モード判定部710から予測画像43を受け取る。減算器702は、フィルタ画像42から予測画像43を減算することによって予測誤差44を生成する。減算器702は、予測誤差44を変換/量子化部703へと出力する。
変換/量子化部703は、予測誤差44に対して例えばDCT(Discrete Cosine Transform)などの直交変換を適用することによって変換係数を得る。さらに、変換/量子化部703は、変換係数を量子化することにより量子化変換係数45を得る。量子化は、例えば変換係数を量子化幅に対応する整数で除算する処理で実現されてもよい。変換/量子化部703は、量子化変換係数45をエントロピー符号化部704および逆量子化/逆変換部705へと出力する。
エントロピー符号化部704は、変換/量子化部703から量子化変換係数45を受け取る。エントロピー符号化部704は、量子化変換係数45に加えて復号に必要なパラメータ(量子化情報、予測モード情報など)を2値化および可変長符号化することにより、第2のビットストリーム20を生成する。第2のビットストリーム20の構造は、圧縮部250が用いるコーデック(例えばSHVC)の仕様に準拠する。
逆量子化/逆変換部705は、変換/量子化部703から量子化変換係数45を受け取る。逆量子化/逆変換部705は、量子化変換係数45を逆量子化することによって復元変換係数を得る。さらに、逆量子化/逆変換部705は、復元変換係数に対して例えばIDCT(Inverse DCT)などの逆直交変換を適用することによって復元予測誤差46を得る。逆量子化は、例えば復元変換係数に量子化幅に対応する整数を乗算する処理で実現されてもよい。逆量子化/逆変換部705は、復元予測誤差46を加算器706へと出力する。
加算器706は、モード判定部710から予測画像43を受け取り、逆量子化/逆変換部705から復元予測誤差46を受け取る。加算器706は、予測画像43および復元予測誤差46を加算することによって局所復号画像47を生成する。加算器706は、局所復号画像47をループフィルタ部707へと出力する。
ループフィルタ部707は、加算器706から局所復号画像47を受け取る。ループフィルタ部707は、局所復号画像47に対してフィルタ処理を行うことによってフィルタ画像を生成する。フィルタ処理は、例えば、デブロッキングフィルタ処理、画素適応オフセット処理などであってもよい。ループフィルタ部707は、フィルタ画像を画像バッファ部708へと出力する。
画像バッファ部708は、逆映像変換部240から逆変換された第1の復号映像19を受け取り、ループフィルタ部707からフィルタ画像を受け取る。画像バッファ部708は、逆変換された第1の復号映像19およびフィルタ画像を参照画像として保存する。画像バッファ部708に保存された参照画像は必要に応じて予測画像生成部709へと出力される。
予測画像生成部709は、画像バッファ部708から参照画像を受け取る。予測画像生成部709は、例えば後述される画面内予測、動き補償予測、層間予測、マージモードなどの様々な予測モードを利用可能である。予測画像生成部709は、1以上の予測モードの各々について、参照画像に基づいてブロック単位で予測画像を生成する。予測画像生成部709は、生成した1つ以上の予測画像をモード判定部710へと出力する。
具体的には、予測画像生成部709は、図30に例示されるように、マージモード処理部731と、動き補償予測処理部732と、層間予測処理部733と、画面内予測処理部734とを含んでいてもよい。
マージモード処理部731は、HEVCにおいて規定されるマージモードに従って予測を行う。マージモードは、動き補償予測の一種であるが、圧縮対象ブロックの動き情報(例えば、動きベクトル情報、参照画像のインデックスなど)として当該圧縮対象ブロックと時空間方向で近接する圧縮済みブロックの動き情報がコピーされる。マージモードによれば、圧縮対象ブロックの動き情報そのものは符号化されないので、通常の動き補償予測に比べてオーバーヘッドが抑制される。他方、例えば、ズームイン、ズームアウト、加速度的なカメラモーションなどを含む映像では、圧縮対象ブロックの動き情報が近隣の圧縮済みブロックの動き情報と類似しにくくなる。故に、このような映像に対してマージモード処理を選択すると、特に十分なビットレートが確保できない場合に主観画質が低下することになる。
動き補償予測処理部732は、圧縮対象ブロックとは時間的位置(すなわち、表示順)の異なる局所復号画像(参照画像)を参照して圧縮対象ブロックの動き探索を行い、探索された動き情報に基づいて予測画像を生成する。動き補償予測によれば、予測画像は圧縮対象ブロックとは時間的位置の異なる参照画像から生成されるので、例えば、圧縮対象ブロックの表す移動体が時間と共に変形する場合、画面内の平均輝度が時間と共に変動する場合などには、高い予測精度を達成することが困難となって主観画質が低下することがある。
層間予測処理部733は、逆変換された第1の復号映像19(参照画像)を参照して圧縮対象ブロックに対応する参照画像ブロック(すなわち、圧縮対象ブロックと時間的位置および空間的位置が同一の参照画像内のブロック)をコピーすることにより予測画像を生成する。逆変換された第1の復号映像19の画質が安定していれば、層間予測を選択した場合の主観画質も安定する。
画面内予測処理部734は、圧縮対象ブロックと同じ画面内で当該圧縮対象ブロックに隣接する圧縮済み画素ライン(参照画像)を参照して予測画像を生成する。
モード判定部710は、時空間相関制御部701からフィルタ画像42を受け取り、予測画像生成部709から1つ以上の予測画像を受け取る。モード判定部710は、予測画像生成部709が利用した1つ以上の予測モードの各々の符号化コストを少なくともフィルタ画像42を用いて算出し、符号化コストが最低となる予測モードを選択する。モード判定部710は、選択した予測モードに対応する予測画像を予測画像43として減算器702および加算器706へと出力する。
例えば、モード判定部710は下記数式(1)に従って符号化コストKを算出してもよい。
数式(1)において、SADはフィルタ画像42と予測画像43との間の差分絶対値和(すなわち、予測誤差44の絶対値和)を表す。λは量子化パラメータに基づいて定められるラグランジュ未定乗数である。OHは、対象の予測モードを選択した場合の予測情報(例えば、動きベクトル、予測ブロックサイズなど)の符号量を表す。
なお、数式(1)は、種々の変形が可能である。例えば、モード判定部710は、K=SADまたはK=OHとしてもよいし、SADにアダマール変換を適用することによって得られる値またはその近似値を利用してもよい。
或いは、モード判定部710は下記数式(2)に従って符号化コストJを算出してもよい。
数式(2)において、Dは対象の予測モードに対応する局所復号画像とフィルタ画像42との間の二乗誤差和(すなわち符号化歪)を表す。Rは対象の予測モードに対応する予測誤差を仮符号化した場合の発生符号量を表す。
符号化コストJを算出するためには、予測モード毎に仮符号化処理および局所復号処理を行う必要があるので、回路規模または演算量が増大する。反面、符号化コストJによれば、符号化コストKに比べて符号化コストを適切に評価することが可能であるので、高い符号化効率を安定的に達成できる。
なお、数式(2)は、種々の変形が可能である。例えば、モード判定部710は、J=DまたはJ=Rとしてもよいし、DまたはRの近似値を利用してもよい。
層間予測および動き補償予測を比較すると、両者の符号化コストが同程度であるならば層間予測を選択した方が主観画質は安定しやすい傾向にある。故に、モード判定部710は、例えば下記数式(3)に従って、層間予測が他の予測(特に、動き補償予測)に比べて優先的に選択されるように符号化コストを重み付けしてもよい。
数式(3)において、wは重み係数を表しており1より大きな値(例えば1.5)に設定される。すなわち、層間予測の符号化コストが他の予測モードの重み付け前の符号化コストと同程度であるならば、モード判定部710は層間予測を選択することになる。
なお、数式(3)に示される重み付けは、例えば動き補償予測または層間予測の符号化コストJが閾値以上である場合に限って行われてもよい。動き補償予測の符号化コストが(相当に)高い場合には、対象ブロックに動き補償予測が妥当しないかもしれず、動きのずれやアーチファクトを引き起こすかもしれない。他方、層間予測は、時間的位置が同一の参照画像ブロックを利用するので、これらの(動き関連の)アーチファクトは本質的に生ない。故に、動き補償予測が妥当しない圧縮対象ブロックには層間予測を選択することで、主観画質の劣化(特に、時間方向の画質劣化)が抑制されやすい。このように条件付きで数式(3)に示される重み付けを行うことで、動き補償予測が妥当する圧縮対象ブロックに対しては各予測モードを公平に評価し、動き補償予測が妥当しない圧縮対象ブロックに対しては層間予測モードが優先的に選択されるように各予測モードを評価することが可能である。
符号化制御部711は、前述のように圧縮部250を制御する。具体的には、符号化制御部711は、変換/量子化部703によって行われる量子化例えば、量子化パラメータの大きさ)を制御してもよい。係る制御は、量子化処理によって削減されるデータ量の調整に相当し、レート制御に寄与する。また、符号化制御部711は、第2のビットストリーム20の出力タイミングを制御(すなわち、CPB(Coded Picture Buffer)を制御)したり、画像バッファ部708における占有量を制御したりしてもよい。さらに、符号化制御部711は、第2の予測構造情報18に従って、第2のビットストリーム20の予測構造を制御してもよい。
データ多重化部260は、映像記録装置110から映像同期信号11を受け取り、第1の映像圧縮器220から第1のビットストリーム15を受け取り、第2の映像圧縮器230から第2のビットストリーム20を受け取る。映像同期信号11は、ベースバンド映像10に含まれる各フレームの再生タイミングを示す。データ多重化部260は、映像同期信号11に基づいて後述される参照情報22および同期情報23を生成する。
参照情報22は、映像再生装置300に内蔵されるシステムクロックを映像圧縮装置200に内蔵されるシステムクロックと同期させるための基準クロック値を示す。換言すれば、参照情報22を介して、映像圧縮装置200と映像再生装置300との間のシステムクロックの同期が実現される。
同期情報23は、第1のビットストリーム15および第2のビットストリーム20の上記システムクロックを基準とした再生時刻または復号時刻を示す情報である。故に、映像圧縮装置200と映像再生装置300との間のシステムクロックとの間でシステムクロックが同期していなければ、映像再生装置300は映像圧縮装置200によって設定されたタイミングとは異なるタイミングで映像を復号および再生することになる。
さらに、データ多重化部260は、第1のビットストリーム15、第2のビットストリーム20、参照情報22および同期情報23を多重化することによって多重化ビットストリーム12を生成する。データ多重化部260は、多重化ビットストリーム12を映像送信装置120へと出力する。
多重化ビットストリーム12は、例えばMPEG−2システムにおいて定義されるPES(Packetized Elementary Stream)パケットと呼ばれる可変長パケットを多重化することによって生成されてもよい。PESパケットは、図17に例示されるデータフォーマットを持つ。図17のフラグおよび拡張データのフィールドには、例えばPESパケットの優先度を示すPESプライオリティ、映像または音声の再生(表示)時刻または復号時刻の指定があるか否かの情報、誤り検出符号を使用するか否かの情報などが記述される。
具体的には、データ多重化部260は、図16に例示されるように、STC(System Time Clock)生成部261と、同期情報生成部262と、参照情報生成部263と、メディア多重化部264とを含むことができる。なお、図16のデータ多重化部260は、MPEG−2 TS(Transport Stream)を多重化フォーマットとして利用している。しかしながら、MPEG−2 TSの代わりにMP4、MPEG−DASH、MMT、ASFなどで規定される既存のマルチメディアコンテナが利用されてよい。
STC生成部261は、映像記録装置110から映像同期信号11を受け取り、当該映像同期信号11に応じてSTC信号21を生成する。STC信号21はSTCのカウント値を示しており、STCの動作周波数はMPEG−2 TSでは27MHzに定められている。STC生成部261は、STC信号21を同期情報生成部262および参照情報生成部263へと出力する。
同期情報生成部262は、映像記録装置110から映像同期信号11を受け取り、STC信号21をSTC生成部261から受け取る。同期情報生成部262は、映像または音声の再生時刻または復号時刻に対応するSTC信号21に基づいて同期情報23を生成する。同期情報生成部262は、同期情報23をメディア多重化部264へと出力する。同期情報23は、例えばPTS(Presentation Time Stamp)またはDTS(Decoding Time Stamp)に相当する。映像再生装置300は、その内部で再生したSTC信号がDTSに一致すると対応するユニットを復号し、当該STC信号がPTSに一致すると対応する復号済みユニットを再生(表示)する。
参照情報生成部263は、STC生成部261からSTC信号21を受け取る。参照情報生成部263は、STC信号21に基づいて参照情報22を間欠的に生成し、メディア多重化部264へと出力する。参照情報22は、例えばPCR(Program Clock Reference)に相当する。参照情報22の送信間隔は、映像圧縮装置200と映像再生装置300との間のシステムクロックの同期精度に関わる。
メディア多重化部264は、第1の映像圧縮器220から第1のビットストリーム15を受け取り、第2の映像圧縮器230から第2のビットストリーム20を受け取り、同期情報生成部262から同期情報23を受け取り、参照情報生成部263から参照情報22を受け取る。メディア多重化部264は、第1のビットストリーム15、第2のビットストリーム20、参照情報22および同期情報23を所定のフォーマットに従い多重化し、多重化ビットストリーム12を生成する。メディア多重化部264は、多重化ビットストリーム12を映像送信装置120へと出力する。なお、メディア多重化部264は、図示されない音声圧縮器によって圧縮された音声データに相当する音声のビットストリーム24を多重化ビットストリーム12に埋め込んでもよい。
図25に例示されるように、映像再生装置300は、データ逆多重化部310と、第1の映像復号器320と、第2の映像復号器330とを含む。映像再生装置300は、映像受信装置140から多重化ビットストリーム27を受け取り、当該多重化ビットストリーム27を逆多重化して複数階層(図25の例では2階層)のビットストリームを得る。映像再生装置300は、複数階層のビットストリームを復号することによって第1の復号映像32および第2の復号映像34を再生する。映像再生装置300は、第1の復号映像32および第2の復号映像34を表示装置150へと出力する。
データ逆多重化部310は、映像受信装置140から多重化ビットストリーム27を受け取り、当該多重化ビットストリーム27を逆多重化することによって第1のビットストリーム30および第2のビットストリーム31と種々の制御情報とを抽出する。多重化ビットストリーム27、第1のビットストリーム30および第2のビットストリーム31は、前述の多重化ビットストリーム12、第1のビットストリーム15および第2のビットストリーム20にそれぞれ相当する。
さらに、データ逆多重化部310は、多重化ビットストリーム27から抽出された制御情報に基づいて第1の復号映像32および第2の復号映像34に含まれる各フレームの再生タイミングを示す映像同期信号29を生成する。データ逆多重化部310は、映像同期信号29および第1のビットストリーム30を第1の映像復号器320へと出力し、映像同期信号29および第2のビットストリーム31を第2の映像復号器330へと出力する。
具体的には、データ逆多重化部310は、図26に例示されるように、逆メディア多重化部311と、STC再生部312と、同期情報再生部313と、映像同期信号生成部314とを含むことができる。データ逆多重化部310は、図16のデータ多重化部260の逆処理を行う。
逆メディア多重化部311は、映像受信装置140から多重化ビットストリーム27を受け取る。逆メディア多重化部311は、多重化ビットストリーム27を所定のフォーマットに従って逆多重化することによって、第1のビットストリーム30、第2のビットストリーム31、参照情報35および同期情報36を抽出する。参照情報35および同期情報36は、前述の参照情報22および同期情報23にそれぞれ相当する。逆メディア多重化部311は、第1のビットストリーム30を第1の映像復号器320へと出力し、第2のビットストリーム31を第2の映像復号器330へと出力し、参照情報35をSTC再生部312へと出力し、同期情報36を同期情報再生部313へと出力する。なお、逆メディア多重化部311は、音声のビットストリーム52を多重化ビットストリーム27から抽出し、図示されない音声復号器へと出力してもよい。
STC再生部312は、参照情報35を逆メディア多重化部311から受け取り、当該参照情報35を基準クロック値として用いて、映像圧縮装置200と同期したSTC信号37を再生する。STC再生部312は、STC信号37を同期情報再生部313および映像同期信号生成部314へと出力する。
同期情報再生部313は、逆メディア多重化部311から同期情報36を受け取る。同期情報再生部313は、同期情報36に基づいて、映像の復号時刻または再生時刻を導出する。同期情報再生部313は、導出した復号時刻または再生時刻を映像同期信号生成部314に通知する。
映像同期信号生成部314は、STC再生部312からSTC信号37を受け取り、同期情報再生部313から映像の復号時刻または再生時刻を通知される。映像同期信号生成部314は、STC信号37と通知された復号時刻または再生時刻とに基づいて映像同期信号29を生成する。映像同期信号生成部314は、映像同期信号29を第1のビットストリーム30および第2のビットストリーム31に付加して第1の映像復号器320および第2の映像復号器330へとそれぞれ出力する。
第1の映像復号器320は、データ逆多重化部310から映像同期信号29および第1のビットストリーム30を受け取る。第1の映像復号器320は、映像同期信号29の示すタイミングに従って、第1のビットストリーム30を復号(伸長)することによって第1の復号映像32を生成する。第1の映像復号器320が用いるコーデックは、第1のビットストリーム30を生成するために用いられたものと同じであり、例えばMPEG−2であってよい。第1の映像復号器320は、第1の復号映像32を表示装置150および逆映像変換部331へと出力する。第1の映像復号器320は復号部321を含み、当該復号部321は第1の映像復号器320の動作の一部または全部を行う。
なお、第1のビットストリーム30および第2のビットストリーム31の予測構造が同一であって、かつ、ピクチャリオーダリングが必要な場合には、第1の映像復号器320は好ましくは復号ピクチャを表示順に従って並べ替えずに復号順のまま第1の復号映像32として逆映像変換部331へと出力する。第1の復号映像32をこのように出力することで、第2の映像復号器330は、第1のビットストリーム30の任意の時刻のピクチャの復号完了後に第2のビットストリーム31の同一時刻のピクチャを即座に復号できる。但し、第1の復号映像32が表示装置150によって表示される場合にはピクチャリオーダリングを行う必要がある。故に、例えば、表示装置150によって第1の復号映像32が表示されるか否かに連動してピクチャリオーダリングの有効化/無効化が切り替えられてもよい。
第2の映像復号器330は、データ逆多重化部310から映像同期信号29および第2のビットストリーム31を受け取り、第1の映像復号器320から第1の復号映像32を受け取る。第2の映像復号器330は、映像同期信号29の示すタイミングに従って、第2のビットストリーム31を復号することによって第2の復号映像34を生成する。第2の映像復号器330は、第2の復号映像34を表示装置150へと出力する。
第2の映像復号器330は、逆映像変換部331と、遅延回路332と、復号部333とを含む。
逆映像変換部331は、第1の映像復号器320から第1の復号映像32を受け取る。逆映像変換部331は、第1の復号映像32に逆映像変換を適用することによって、逆変換された第1の復号映像33を生成する。逆映像変換部331は、逆変換された第1の復号映像33を復号部333へと出力する。逆変換された第1の復号映像33の映像フォーマットは第2の復号映像34の映像フォーマットに一致する。すなわち、ベースバンド映像10と第2の復号映像34の映像フォーマットが同一であるならば、逆映像変換部331は図2の映像変換部210の逆変換を行うことになる。なお、第1の復号映像32(即ち、第1の映像13)の映像フォーマットが第2の復号映像34の映像フォーマットと同一であるならば、逆映像変換部331はパススルーを選択してもよい。逆映像変換部331は、図2の逆映像変換部240と同一または類似の処理を行ってよい。
遅延回路332は、データ逆多重化部310から映像同期信号29および第2のビットストリーム31を受け取って一時的に保持してから復号部333へと転送する。遅延回路332は、映像同期信号29および第2のビットストリーム31が後述される逆変換された第1の復号映像33と同期して復号部333に入力されるように、映像同期信号29および第2のビットストリーム31の出力タイミングを映像同期信号29に基づいて制御する。換言すれば、遅延回路332は、第1の映像復号器320および逆映像変換部331による処理遅延を吸収するバッファとして機能する。なお、遅延回路332に相当するバッファは、第2の映像復号器330の代わりに例えばデータ逆多重化部310に内蔵されてもよい。
復号部333は、遅延回路332から映像同期信号29および第2のビットストリーム31を受け取り、逆映像変換部331から逆変換された第1の復号映像33を受け取る。復号部333は、映像同期信号29の示すタイミングに従って、逆変換された第1の復号映像33に基づいて第2のビットストリーム31を復号することによって第2の復号映像34を再生する。復号部333が用いるコーデックは、第2のビットストリーム31を生成するために用いられたものと同じであり、例えばSHVCであってよい。復号部333は、第2の復号映像34を表示装置150へと出力する。
具体的には、復号部333は、図31に例示されるように、エントロピー復号部801と、逆量子化/逆変換部802と、加算器803と、ループフィルタ部804と、画像バッファ部805と、予測画像生成部806とを含むことができる。図31の復号部333は、図25には示されない復号化制御部807によって制御される。
エントロピー復号部801は、第2のビットストリーム31を受け取る。エントロピー復号部801は、第2のビットストリーム31としての2値データ列をエントロピー復号することによって、SHVCのデータフォーマットに準拠した種々の情報(例えば量子化変換係数48、予測モード情報50など)を抽出する。エントロピー復号部801は、量子化変換係数48を逆量子化/逆変換部802へと出力し、予測モード情報50を予測画像生成部806へと出力する。
逆量子化/逆変換部802は、エントロピー復号部801から量子化変換係数48を受け取る。逆量子化/逆変換部802は、量子化変換係数48を逆量子化することによって復元変換係数を得る。さらに、逆量子化/逆変換部802は、復元変換係数に対して例えばIDCTなどの逆直交変換を適用することによって復元予測誤差49を得る。逆量子化/逆変換部802は、復元予測誤差49を加算器803へと出力する。
加算器803は、逆量子化/逆変換部802から復元予測誤差49を受け取り、予測画像生成部806から予測画像51を受け取る。加算器803は、復元予測誤差49および予測画像51を加算することによって復号画像を生成する。加算器803は、復号画像をループフィルタ部804へと出力する。
ループフィルタ部804は、加算器803から復号画像を受け取る。ループフィルタ部804は、復号画像に対してフィルタ処理を行うことによってフィルタ画像を生成する。フィルタ処理は、例えば、デブロッキングフィルタ処理、画素適応オフセット処理などであってもよい。ループフィルタ部804は、フィルタ画像を画像バッファ部805へと出力する。
画像バッファ部805は、逆映像変換部331から逆変換された第1の復号映像33を受け取り、ループフィルタ部707からフィルタ画像を受け取る。画像バッファ部805は、逆変換された第1の復号映像33およびフィルタ画像を参照画像として保存する。画像バッファ部805に保存された参照画像は必要に応じて予測画像生成部806へと出力される。さらに、画像バッファ部805に保存されたフィルタ画像は、映像同期信号29の示すタイミングに従って、第2の復号映像34として表示装置150へと出力される。
予測画像生成部806は、エントロピー復号部801から予測モード情報50を受け取り、画像バッファ部805から参照画像を受け取る。予測画像生成部806は、例えば前述の画面内予測、動き補償予測、層間予測、マージモードなどの様々な予測モードを利用可能である。予測画像生成部806は、予測モード情報50の示す予測モードに従い、参照画像に基づいて予測画像51をブロック単位で生成する。予測画像生成部806は、予測画像51を加算器803へと出力する。
復号化制御部807は、前述のように復号部333を制御する。具体的には、復号化制御部807は、第2のビットストリーム20の入力タイミングを制御(すなわち、CPBを制御)したり、画像バッファ部805における占有量を制御したりしてもよい。
ユーザが例えば表示装置150に対して何らかの操作を行うと、操作内容に応じたユーザ要求28がデータ逆多重化部310または映像受信装置140に入力される。例えば、表示装置150がテレビジョン受信機であれば、ユーザは入力I/F154としてのリモートコントローラを操作してチャンネルを切り替えることができる。ユーザ要求28は、通信部155によって送信されてもよいし、入力I/F154から独自の操作情報として直接出力されてもよい。
チャンネルの切り替えが生じると、データ逆多重化部310は新たな多重化ビットストリームを受け取り、第1の映像復号器320および第2の映像復号器330はランダムアクセスを行う。一般的に、第1の映像復号器320および第2の映像復号器330は、チャンネル切り替え後の最初のランダムアクセスポイント以降のピクチャを正しく復号できるものの、チャンネル切り替え直後のピクチャを必ずしも正しく復号できない。そして、第2のビットストリーム31は、第1のビットストリーム30が正しく復号されるまで正しく復号することができない。故に、第1のビットストリーム30におけるチャンネル切り替え後の最初のランダムアクセスポイントと、第2のビットストリーム31における当該ランダムアクセスポイント以降の最初のランダムアクセスポイントとが一致しない場合には、両者の差分だけ第2のビットストリーム31の復号は遅延する。図12および図13を用いて説明したように、映像圧縮装置200は、第2のビットストリーム20の予測構造(ランダムアクセスポイント)を制御することで第2のビットストリーム31の復号遅延の上限を当該第2のビットストリーム31のSOPサイズ相当量に制限する。故に、表示装置150は、例えばチャンネル切り替えによってランダムアクセスが生じた場合であっても、高品質な拡張レイヤ映像に相当する第2の復号映像34の表示を早期に開始できる。
以上説明したように、第1の実施形態に係る映像配信システムに含まれる映像圧縮装置は、基本レイヤ映像に相当する第1のビットストリームの予測構造に基づいて拡張レイヤ映像に相当する第2のビットストリームの予測構造を制御する。具体的には、この映像圧縮装置は、第2のビットストリームから、第1のビットストリームにおけるランダムアクセスポイント以降で表示順の最も早いSOPを選択する。そして、この映像圧縮装置は、選択したSOPのうち圧縮順で最初のピクチャを第2のビットストリーム向けのランダムアクセスポイントに設定する。従って、この映像圧縮装置によれば、圧縮効率の低下ならびに圧縮遅延および機器コストの増加を回避しつつ、映像再生装置がランダムアクセスを行った場合における第2のビットストリームの復号遅延を抑制することができる。
また、映像圧縮装置および映像再生装置は、階層化された複数の映像を個別のコーデックを用いて圧縮/復号することで、既存の映像再生装置との互換性を確保することができる。例えば、基本レイヤ映像に相当する第1のビットストリームに対してMPEG−2を用いれば、MPEG−2をサポートする既存の映像再生装置は当該第1のビットストリームを復号および再生できる。さらに、拡張レイヤ映像に相当する第2のビットストリームに対してSHVC(すなわち、スケーラブル圧縮)を用いれば、当該第2のビットストリームに対してサイマル圧縮を用いた場合に比べて圧縮効率を大幅に改善することができる。
(第2の実施形態)
図23に例示されるように、第2の実施形態に係る映像配信システム400は、映像記録装置110と、映像圧縮装置500と、第1の映像送信装置421および第2の映像送信装置422と、第1のチャネル431および第2のチャネル432と、第1の映像受信装置441および第2の映像受信装置442と、映像再生装置600と、表示装置150とを含む。
映像圧縮装置500は、映像記録装置110からベースバンド映像を受け取り、スケーラブル圧縮機能を利用して当該ベースバンド映像を圧縮することによって複数の階層の圧縮映像データが個別に多重化された複数の多重化ビットストリームを生成する。映像圧縮装置500は、第1の多重化ビットストリームを第1の映像送信装置421へと出力し、第2の多重化ビットストリームを第2の映像送信装置422へと出力する。
第1の映像送信装置421は、映像圧縮装置500から第1の多重化ビットストリームを受け取り、当該第1の多重化ビットストリームを第1のチャネル431を介して第1の映像受信装置441へと送信する。例えば、第1のチャネル431が地上デジタル放送の伝送帯域に相当する場合に、第1の映像送信装置421はRF送信装置であってもよい。また、第1のチャネル431がネットワーク回線に相当する場合には、第1の映像送信装置421はIP通信装置であってもよい。
第2の映像送信装置422は、映像圧縮装置500から第2の多重化ビットストリームを受け取り、当該第2の多重化ビットストリームを第2のチャネル432を介して第2の映像受信装置442へと送信する。例えば、第2のチャネル432が地上デジタル放送の伝送帯域に相当する場合に、第2の映像送信装置422はRF送信装置であってもよい。また、第2のチャネル432がネットワーク回線に相当する場合には、第2の映像送信装置422はIP通信装置であってもよい。
第1のチャネル431は、第1の映像送信装置421および第1の映像受信装置441の間を接続するネットワークである。第1のチャネル431は、情報伝送に利用可能な様々な通信資源を意味する。第1のチャネル431は、有線チャネルであってもよいし、無線チャネルであってもよいし、両者の混合チャネルであってもよい。第1のチャネル431は、例えば、インターネット網、地上放送網、衛星放送網、ケーブル伝送網などであってよい。また、第1のチャネル431は、例えば、電波通信、PHS、3G、4G、LTE、ミリ波通信、レーダ通信などの種々の通信向けのチャネルであってもよい。
第2のチャネル432は、第2の映像送信装置422および第2の映像受信装置442の間を接続するネットワークである。第2のチャネル432は、情報伝送に利用可能な様々な通信資源を意味する。第2のチャネル432は、有線チャネルであってもよいし、無線チャネルであってもよいし、両者の混合チャネルであってもよい。第2のチャネル432は、例えば、インターネット網、地上放送網、衛星放送網、ケーブル伝送網などであってよい。また、第2のチャネル432は、例えば、電波通信、PHS、3G、LTE、ミリ波通信、レーダ通信などの種々の通信向けのチャネルであってもよい。
第1の映像受信装置441は、第1の多重化ビットストリームを第1のチャネル431を介して第1の映像送信装置421から受信する。第1の映像受信装置441は、受信した第1の多重化ビットストリームを映像再生装置600へと出力する。例えば、第1のチャネル431が地上デジタル放送の伝送帯域に相当する場合には、第1の映像受信装置441はRF受信装置(地上デジタル放送を受信するためのアンテナを含む)であってもよい。また、第1のチャネル431がネットワーク回線に相当する場合には、第1の映像受信装置441はIP通信装置(IPネットワークと接続するためのルータなどに相当する機能を含む)であってもよい。
第2の映像受信装置442は、第2の多重化ビットストリームを第2のチャネル432を介して第2の映像送信装置422から受信する。第2の映像受信装置442は、受信した第2の多重化ビットストリームを映像再生装置600へと出力する。例えば、第2のチャネル432が地上デジタル放送の伝送帯域に相当する場合には、第2の映像受信装置442はRF受信装置(地上デジタル放送を受信するためのアンテナを含む)であってもよい。また、第2のチャネル432がネットワーク回線に相当する場合には、第2の映像受信装置442はIP通信装置(IPネットワークと接続するためのルータなどに相当する機能を含む)であってもよい。
映像再生装置600は、第1の映像受信装置441から第1の多重化ビットストリームを受け取り、第2の映像受信装置442から第2の多重化ビットストリームを受け取り、スケーラブル圧縮機能を利用して当該第1の多重化ビットストリームおよび第2の多重化ビットストリームを復号することによって復号映像を生成する。映像再生装置600は、復号映像を表示装置150へと出力する。映像再生装置600は、テレビジョン受信機本体に組み込まれてもよいし、当該テレビジョン受信機とは別体のSTBとして実装されてもよい。
図24に例示されるように、映像圧縮装置500は、映像変換部210と、第1の映像圧縮器220と、第2の映像圧縮器230と、第1のデータ多重化部561と、第2のデータ多重化部562とを含む。映像圧縮装置500は、映像記録装置110からベースバンド映像10および映像同期信号11を受け取り、スケーラブル圧縮機能を利用して当該ベースバンド映像10を圧縮することによって複数階層(図24の例では2階層)のビットストリームを生成する。映像圧縮装置500は、映像同期信号11に基づいて生成した種々の制御情報と複数階層のビットストリームとを個別に多重化することによって第1の多重化ビットストリーム25および第2の多重化ビットストリーム26を生成する。映像圧縮装置500は、第1の多重化ビットストリーム25を第1の映像送信装置421へと出力し、第2の多重化ビットストリーム26を第2の映像送信装置422へと出力する。
図24の第1の映像圧縮器220は、データ多重化部260の代わりに第1のデータ多重化部561へと第1のビットストリーム15を出力する点で図2の第1の映像圧縮器220とは異なる。図24の第2の映像圧縮器230は、データ多重化部260の代わりに第2のデータ多重化部562へと第2のビットストリーム20を出力する点で図2の第2の映像圧縮器230とは異なる。
第1のデータ多重化部561は、映像記録装置110から映像同期信号11を受け取り、第1の映像圧縮器220から第1のビットストリーム15を受け取る。第1のデータ多重化部561は、映像同期信号11に基づいて参照情報22および同期情報23を生成する。第1のデータ多重化部561は、参照情報22および同期情報23を第2のデータ多重化部562へと出力する。さらに、第1のデータ多重化部561は、第1のビットストリーム15、参照情報22および同期情報23を多重化することによって第1の多重化ビットストリーム25を生成する。第1のデータ多重化部561は、第1の多重化ビットストリーム25を第1の映像送信装置421へと出力する。
第2のデータ多重化部562は、第2の映像圧縮器230から第2のビットストリーム20を受け取り、第1のデータ多重化部561から参照情報22および同期情報23を受け取る。第2のデータ多重化部562は、第2のビットストリーム20、参照情報22および同期情報23を多重化することによって第2の多重化ビットストリーム26を生成する。第2のデータ多重化部562は、第2の多重化ビットストリーム26を第2の映像送信装置422へと出力する。
第1のデータ多重化部561および第2のデータ多重化部562は、データ多重化部260と類似の処理を行ってよい。
第1の多重化ビットストリーム25は第1のチャネル431を介して伝送され、第2の多重化ビットストリーム26は第2のチャネル432を介して伝送される。第1のチャネル431における伝送遅延は、第2のチャネル432における伝送遅延とは異なるかもしれない。しかしながら、第1の多重化ビットストリーム25および第2の多重化ビットストリーム26には共通の参照情報22および同期情報23が埋め込まれる。故に、第1の実施形態と同様に、映像圧縮装置500と映像再生装置600との間のシステムクロックの同期が得られ、映像再生装置600は映像圧縮装置500によって設定されたタイミングで映像を復号および再生できる。
図27に例示されるように、映像再生装置600は、第1のデータ逆多重化部611と、第2のデータ逆多重化部612と、第1の映像復号器320と、第2の映像復号器330とを含む。映像再生装置600は、第1の映像受信装置441から第1の多重化ビットストリーム38を受け取り、第2の映像受信装置442から第2の多重化ビットストリーム39を受け取り、当該第1の多重化ビットストリーム38および第2の多重化ビットストリーム39を個別に逆多重化して複数階層(図27の例では2階層)のビットストリームを得る。第1の多重化ビットストリーム38および第2の多重化ビットストリームは、1の多重化ビットストリーム25および第2の多重化ビットストリーム26にそれぞれ相当する。映像再生装置600は、複数階層のビットストリームを復号することによって第1の復号映像32および第2の復号映像34を再生する。映像再生装置600は、第1の復号映像32および第2の復号映像34を表示装置150へと出力する。
第1のデータ逆多重化部611は、第1の映像受信装置441から第1の多重化ビットストリーム38を受け取り、当該第1の多重化ビットストリーム38を逆多重化することによって第1のビットストリーム30と種々の制御情報とを抽出する。さらに、第1のデータ逆多重化部611は、第1の多重化ビットストリーム38から抽出された制御情報に基づいて第1の復号映像32に含まれる各フレームの再生タイミングを示す第1の映像同期信号40を生成する。第1のデータ逆多重化部611は、第1のビットストリーム30および第1の映像同期信号40を第1の映像復号器320へと出力し、第1の映像同期信号40を第2の映像復号器330へと出力する。
第2のデータ逆多重化部612は、第2の映像受信装置442から第2の多重化ビットストリーム39を受け取り、当該第2の多重化ビットストリーム39を逆多重化することによって第2のビットストリーム31と種々の制御情報とを抽出する。さらに、第2のデータ逆多重化部612は、第2の多重化ビットストリーム39から抽出された制御情報に基づいて第2の復号映像34に含まれる各フレームの再生タイミングを示す第2の映像同期信号41を生成する。第2のデータ逆多重化部612は、第2のビットストリーム31および第2の映像同期信号41を第2の映像復号器330へと出力する。
第1のデータ逆多重化部611および第2のデータ逆多重化部612は、データ逆多重化部310と類似の処理を行ってよい。
図27の第1の映像復号器320は、第1のデータ逆多重化部611から第1の映像同期信号40および第1のビットストリーム30を受け取る点で図25の第1の映像復号器320とは異なる。
図27の第2の映像復号器330は、第1のデータ逆多重化部611から第1の映像同期信号40を受け取り、第2のデータ逆多重化部612から第2の映像同期信号41および第2のビットストリーム31を受け取る点で図25の第2の映像復号器330とは異なる。
図27の遅延回路332は、第1のデータ逆多重化部611から第1の映像同期信号40を受け取り、第2のデータ逆多重化部612から第2のビットストリーム31および第2の映像同期信号41を受け取る。遅延回路332は、第2のビットストリーム31および第2の映像同期信号41を一時的に保持してから復号部333へと転送する。遅延回路332は、第2のビットストリーム31および第2の映像同期信号41が逆変換された第1の復号映像33と同期して復号部333に入力されるように、第2のビットストリーム31および第2の映像同期信号41の出力タイミングを第1の映像同期信号40および第2の映像同期信号41に基づいて制御する。換言すれば、遅延回路332は、第1の映像復号器320および逆映像変換部331による処理遅延を吸収するバッファとして機能する。なお、遅延回路332に相当するバッファは、第2の映像復号器330の代わりに例えば第2のデータ逆多重化部612に内蔵されてもよい。
第1の多重化ビットストリーム38は第1のチャネル431を介して伝送され、第2の多重化ビットストリーム39は第2のチャネル432を介して伝送される。第1のチャネル431における伝送遅延は、第2のチャネル432における伝送遅延とは異なるかもしれない。しかしながら、第1の多重化ビットストリーム38および第2の多重化ビットストリーム39には共通の参照情報および同期情報が埋め込まれる。故に、第1の実施形態と同様に、映像圧縮装置500と映像再生装置600との間のシステムクロックの同期が得られ、映像再生装置600は映像圧縮装置500によって設定されたタイミングで映像を復号および再生できる。
なお、第2のチャネル432において例えばパケットロスなどによって一時的に大きな伝送遅延が生じた場合には、表示装置150は第2の復号映像34の代わりに第1の復号映像32を表示することで表示映像の途切れを回避してもよい。
例えば、第1のチャネル431が帯域保証のあるRFチャネルであって、第2のチャネル432が帯域保証のないIPチャネルである場合には、第2のチャネル432においてパケットロスが生じるかもしれない。第1の映像受信装置441が第1の多重化ビットストリーム38を映像配信システム400における予定時刻に受信したものの、当該予定時刻からの遅延時間がTに達しても第2の映像受信装置442が第2の多重化ビットストリーム39を受信せず第2の復号映像34が再生時刻に間に合わない場合には、第2の映像受信装置442は、映像再生装置600を介して表示装置150にビットストリーム遅延情報を出力する。Tは、第1の多重化ビットストリーム38に対する第2の多重化ビットストリーム39の最大受信遅延時間長を表す。表示装置150は、ビットストリーム遅延情報を受け取ると、ディスプレイ152に表示される映像を第2の復号映像34から第1の復号映像32へと切り替える。
最大受信遅延時間長Tは、例えば、表示装置150に内蔵される映像バッファの最大容量、第1のビットストリーム30および第2のビットストリーム31の復号に必要とされる時間、各装置間の伝送遅延時間などの様々な要素に基づいて設計されてよい。また、最大受信遅延時間長Tは、固定である必要はなく、動的に変更されてもよい。なお、表示装置150に内蔵される映像バッファは、例えばメモリ151を用いて実現されてもよい。表示装置150は、映像バッファがオーバーフローに近づいても拡張レイヤ映像に相当する第2の復号映像34が用意できない場合には、ディスプレイ152に第2の復号映像34の代わりに第1の復号映像32を表示させることで表示映像の途切れを回避する。他方、第1の多重化ビットストリーム38に対する第2の多重化ビットストリーム39の受信遅延が映像バッファがオーバーフローするほど大きくなければ、表示装置150は高品質な拡張レイヤ映像に相当する第2の復号映像34をディスプレイ152に表示させることができる。なお、表示装置150は、チャンネル切り替え時にもTを用いて表示映像を制御することで、第1の復号映像32または第2の復号映像34をディスプレイ152に途切れなく表示させることができる。
以上説明したように、第2の実施形態に係る映像配信システムは、複数のチャネルを経由して複数の多重化ビットストリームを伝送する。例えば、既存の第1のコーデックを用いて生成された第1の多重化ビットストリームを既存の第1のチャネルを介して伝送することで、既存の映像再生装置は基本レイヤ映像を復号および再生できる。他方、第1のコーデックとは異なる第2のコーデックを用いて生成された第2の多重化ビットストリームを第1のチャネルとは異なる第2のチャネルを介して伝送することで、第1のコーデックおよび第2のコーデックの両方をサポートする映像再生装置(例えば、映像再生装置600)は、高品質(例えば、高画質、高解像度、高フレームレートなど)な拡張レイヤ映像を復号および再生できる。さらに、映像圧縮装置が第1の実施形態において説明されたように第2のビットストリームの予測構造を制御するので、第1の実施形態と同様に高いランダムアクセス性を達成することができる。
前述の第1の実施形態に係る映像配信システム100または第2の実施形態に係る映像配信システム400は、アダプティブストリーミング技術を利用してもよい。アダプティブストリーミング技術では、チャネルの帯域幅の変動が予測され、予測結果に基づいて当該チャネルを介して伝送されるビットストリームが切り替えられる。アダプティブストリーミング技術によれば、例えばWebページに配信する映像の品質を帯域幅に応じて切り替えることで当該映像を途切れなく再生することができる。スケーラブル圧縮によれば、サイマル圧縮に比べて、複数のビットストリームを生成した場合の合計の符号量を抑制することができるうえ、多様なビットストリームを高い圧縮効率で生成することができる。故に、スケーラブル圧縮は、サイマル圧縮に比べて、特にチャネルの帯域幅の変動が激しい場合にアダプティブストリーミング技術との相性が良い。
具体的には、映像圧縮装置200は、スケーラブル圧縮を用いて複数の多重化ビットストリーム27を生成し、映像送信装置120へと出力してもよい。そして、映像送信装置120が、チャネル130の現在の帯域幅を予測し、予測結果に応じた多重化ビットストリーム27を選択して送信してもよい。映像送信装置120がこのように動作することで、1対1の映像配信に好適なダイナミック型のアダプティブストリーミング技術が実現可能である。或いは、映像受信装置140が、チャネル130の現在の帯域幅を予測し、予測結果に応じた多重化ビットストリーム27の送信を映像送信装置120に要求してもよい。映像受信装置140がこのように動作することで、1対多の映像配信に好適なスタティック型のアダプティブストリーミング技術が実現可能である。さらに、ダイナミック型のアダプティブストリーミング技術およびスタティック型のアダプティブストリーミング技術が組み合わせて利用されてもよい。
同様に、映像圧縮装置500は、スケーラブル圧縮を用いて複数の第2の多重化ビットストリーム26(または、複数の第1の多重化ビットストリーム25)を生成し、第2の映像送信装置422(または、第1の映像送信装置421)へと出力してもよい。第2の映像送信装置422が、第2のチャネル432(または、第1のチャネル431)の現在の帯域幅を予測し、予測結果に応じた第2の多重化ビットストリーム26(または、第1の多重化ビットストリーム25)を選択して送信してもよい。第2の映像送信装置422がこのように動作することで、ダイナミック型のアダプティブストリーミング技術が実現可能である。或いは、第2の映像受信装置442(または、第1の映像受信装置441)が、第2のチャネル432の現在の帯域幅を予測し、予測結果に応じた第2の多重化ビットストリーム26の送信を第2の映像送信装置422に要求してもよい。第2の映像受信装置442がこのように動作することで、スタティック型のアダプティブストリーミング技術が実現可能である。さらに、ダイナミック型のアダプティブストリーミング技術およびスタティック型のアダプティブストリーミング技術が組み合わせて利用されてもよい。
前述の第1の実施形態に係る映像配信システム100は、同一時刻のピクチャに対応する第1のビットストリーム15および第2のビットストリーム20が略同時に映像送信装置120から送信されるようにタイミング制御を行ってもよい。前述のように、第2のビットストリーム20に含まれる各ピクチャは、第1のビットストリーム15に含まれる対応ピクチャの圧縮および復号後に圧縮されるので、第2のビットストリーム20の生成タイミングは第1のビットストリーム15に比べて遅延する。そこで、データ多重化部260は、第1のビットストリーム15に第1の所定時間の遅延を与えることで、同一時刻のピクチャに対応する第1のビットストリーム15および第2のビットストリーム20を多重化できる。
具体的には、第1のビットストリーム15を一時的に保持してから後続の処理部に転送するストリームバッファが映像圧縮装置200(データ多重化部260)に追加されてよい。上記第1の所定時間は、所与のピクチャに対応する第1のビットストリーム15の生成時刻と当該所与のピクチャと同一時刻のピクチャに対応する第2のビットストリーム20の生成時刻との間の差分によって決まる。係るタイミング制御によれば、第1のビットストリーム15の送信タイミングは上記第1の所定時間だけ遅延するが、映像再生装置300において必要とされるバッファを削減することができる。第2の実施形態に係る映像配信システム400も同様のタイミング制御を行ってもよい。
同様に、第1の実施形態に係る映像配信システム100または第2の実施形態に係る映像配信システム400は、第1の復号映像32および第2の復号映像34が表示装置150に表示されるタイミングを制御してもよい。前述のように、第2のビットストリーム31に含まれる各ピクチャは、第1のビットストリーム30に含まれる対応ピクチャの復号後に復号されるので、第2の復号映像34の生成タイミングは第1の復号映像32に比べて遅延する。そこで、第1の復号映像32に第2の所定時間の遅延が例えば表示装置150に用意された映像バッファによって与えられてもよい。この第2の所定時間は、所与のピクチャに対応する第1の復号映像32の生成時刻と当該所与のピクチャと同一時刻のピクチャに対応する第2の復号映像34の生成時刻との間の差分によって決まる。
ここで説明された2種類のタイミング制御は、処理遅延、伝送遅延、表示遅延などを吸収して高品質な映像を途切れなく再生するために有用であるが、これらの遅延が非常に小さい場合には省略されてもよい。一般的に、ビットストリームをリアルタイムに伝送する映像配信システムでは、当該ビットストリームを正しく復号するためのストリームバッファ、復号された映像と正しく再生するための映像バッファ、当該ビットストリームの送信および受信のためのバッファ、表示装置の内部バッファなどの種々のバッファが用意される。前述の遅延回路231、遅延回路332ならびに上記第1の所定時間および第2の所定時間の遅延を与える遅延回路は、これらのバッファを利用して実装されてもよいし、これらのバッファとは独立に用意されてもよい。
なお、前述の第1の実施形態乃至第2の実施形態の説明では、2種類のビットストリームが生成されているが、3種類以上のビットストリームが生成されてもよい。さらに、3種類以上のビットストリームが生成される場合には様々な階層構造を採用することができる。例えば、基本レイヤと、第1の拡張レイヤと、当該第1の拡張レイヤよりも上位の第2の拡張レイヤとを含む3階層構造が採用されてもよいし、基本レイヤと、第1の拡張レイヤと、当該第1の拡張レイヤと同位の第2の拡張レイヤとを含む2つの2階層構造が採用されてもよい。異なる階層の複数の拡張レイヤを生成することで、例えばアダプティブストリーミング技術の利用時に帯域幅の変動により柔軟に適応することができる。他方、同一階層の複数の拡張レイヤを生成することは、例えば画面内の特定の領域に多くの符号量を割り当てるROI(Region Of Interest)圧縮に好適である。具体的には、複数の拡張レイヤにそれぞれ異なるROIを設定することで、ユーザの要求に応じたROIの画質を他の領域に比べて優先的に高めることができる。或いは、複数の拡張レイヤが異なるスケーラビリティを果たしてもよい。例えば、第1の拡張レイヤはPSNRスケーラビリティを実現し、第2の拡張レイヤは解像度スケーラビリティを実現してもよい。拡張レイヤの層数が増加するほど、機器コストも増加するが、伝送されるビットストリームをより柔軟に選択できるので伝送帯域をより有効に活用することができる。
上記各実施形態において説明された映像圧縮装置および映像再生装置は、CPU、LSI(Large−Scale Integration)チップ、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェアを用いて実現可能である。また、映像圧縮装置および映像再生装置は例えばCPUなどのプロセッサにプログラムを実行させることによって(すなわち、ソフトウェアによって)実現可能である。
上記各実施形態の処理の少なくとも一部は、汎用のコンピュータを基本ハードウェアとして用いることでも実現可能である。上記処理を実現するプログラムは、コンピュータで読み取り可能な記録媒体に格納して提供されてもよい。プログラムは、インストール可能な形式のファイルまたは実行可能な形式のファイルとして記録媒体に記憶される。記録媒体としては、磁気ディスク、光ディスク(CD−ROM、CD−R、DVD等)、光磁気ディスク(MO等)、半導体メモリなどである。記録媒体は、プログラムを記憶でき、かつ、コンピュータが読み取り可能であれば、何れであってもよい。また、上記処理を実現するプログラムを、インターネットなどのネットワークに接続されたコンピュータ(サーバ)上に格納し、ネットワーク経由でコンピュータ(クライアント)にダウンロードさせてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10 ベースバンド映像
11,29 映像同期信号
12,27 多重化ビットストリーム
13 第1の映像
14 第2の映像
15,30 第1のビットストリーム
16 第1の予測構造情報
17,32 第1の復号映像
18 第2の予測構造情報
19,33 逆変換された第1の復号映像
20,31 第2のビットストリーム
21,37 STC信号
22,35 参照情報
23,36 同期情報
24,52 音声のビットストリーム
25,38 第1の多重化ビットストリーム
26,39 第2の多重化ビットストリーム
28 ユーザ要求
34 第2の復号映像
40 第1の映像同期信号
41 第2の映像同期信号
42 フィルタ画像
43,51 予測画像
44 予測誤差
45,48 量子化変換係数
46,49 復元予測誤差
47 局所復号画像
50 予測モード情報
100,400 映像配信システム
110 映像記録装置
111,151 メモリ
112 ストレージ
113,153 CPU
114 出力I/F
115,155 通信部
120 映像送信装置
130 チャネル
140 映像受信装置
150 表示装置
152 ディスプレイ
154 入力I/F
200,500 映像圧縮装置
210 映像変換部
211,241 パススルー部
212 解像度変換部
213 p/i変換部
214 フレームレート変換部
215 ビット深度変換部
216 色空間変換部
217 ダイナミックレンジ変換部
220 第1の映像圧縮器
221,250 圧縮部
230 第2の映像圧縮器
231,332 遅延回路
232,321,333 復号部
233 予測構造制御部
240,331 逆映像変換部
242 逆解像度変換部
243 i/p変換部
244 逆フレームレート変換部
245 逆ビット深度変換部
246 逆色空間変換部
247 逆ダイナミックレンジ変換部
260 データ多重化部
261 STC生成部
262 同期情報生成部
263 参照情報生成部
264 メディア多重化部
300,600 映像再生装置
310 データ逆多重化部
311 逆メディア多重化部
312 STC再生部
313 同期情報再生部
314 映像同期信号生成部
320 第1の映像復号器
330 第2の映像復号器
421 第1の映像送信装置
422 第2の映像送信装置
431 第1のチャネル
432 第2のチャネル
441 第1の映像受信装置
442 第2の映像受信装置
561 第1のデータ多重化部
562 第2のデータ多重化部
611 第1のデータ逆多重化部
612 第2のデータ逆多重化部
701 時空間相関制御部
702 減算器
703 変換/量子化部
704 エントロピー符号化部
705,802 逆量子化/逆変換部
706,803 加算器
707,804 ループフィルタ部
708,805 画像バッファ部
709,806 予測画像生成部
710 モード判定部
711 符号化制御部
721 時間フィルタ
722 空間フィルタ
723 フィルタ制御部
731 マージモード処理部
732 動き補償予測処理部
733 層間予測処理部
734 画面内予測処理部
801 エントロピー復号部

Claims (20)

  1. 階層化された第1の映像および第2の映像のうち当該第1の映像を第1のコーデックを用いて圧縮することによって第1のビットストリームを生成する第1の圧縮部と、
    前記第1のビットストリームに含まれる第1のランダムアクセスポイントに基づいて、前記第2の映像の圧縮データに相当する第2のビットストリームに含まれる第2のランダムアクセスポイントを制御する制御部と、
    前記第2の映像を前記第1のコーデックとは異なる第2のコーデックを用いて前記第1の映像に対応する第1の復号映像に基づいて圧縮することによって前記第2のビットストリームを生成する第2の圧縮部と
    を具備し、
    前記第2のビットストリームは、複数のピクチャグループによって形成され、
    前記複数のピクチャグループの各々は、1つ以上のサブピクチャグループを包含し、
    前記制御部は、前記第2のビットストリームから、前記第1のランダムアクセスポイント以降で表示順の最も早いサブピクチャグループを選択し、選択したサブピクチャグループのうち圧縮順で最初のピクチャを前記第2のランダムアクセスポイントに設定する、
    映像圧縮装置。
  2. 前記サブピクチャグループは、第1の参照関係を持つピクチャ系列に相当し、
    前記ピクチャグループは、第2の参照関係を持つピクチャ系列に相当し、
    前記第2の参照関係は、前記ピクチャグループに包含される1つ以上のサブピクチャグループが持つ1つ以上の第1の参照関係の組み合わせで表される、
    請求項1記載の映像圧縮装置。
  3. 前記第1の復号映像に映像変換を適用することによって、当該第1の復号映像の映像フォーマットを前記第2の映像の映像フォーマットと一致させる変換部をさらに具備する、請求項1記載の映像圧縮装置。
  4. 前記変換部は、(a)前記第1の復号映像の解像度を変更する処理、(b)前記第1の復号映像をインターレース映像またはプログレッシブ映像へと変換する処理、(c)前記第1の復号映像のフレームレートを変更する処理、(d)前記第1の復号映像のビット深度を変更する処理、(e)前記第1の復号映像の色空間フォーマットを変更する処理、(f)前記第1の復号映像のダイナミックレンジを変更する処理、ならびに、(g)前記第1の復号映像のアスペクト比を変更する処理のうち少なくとも1つを前記第1の復号映像に適用する、請求項3記載の映像圧縮装置。
  5. 前記第1の映像は、インターレース映像であって、
    前記第1のビットストリームは、前記第1の映像の位相を示す情報を含み、
    前記第2の映像は、プログレッシブ映像であって、
    前記変換部は、前記第1の映像の位相を示す情報に基づいて、前記第1の復号映像をプログレッシブ映像へと変換する処理を行う、
    請求項4記載の映像圧縮装置。
  6. 前記第1のビットストリームおよび前記第2のビットストリームを多重化することによって多重化ビットストリームを生成する多重化部をさらに具備し、
    前記多重化ビットストリームは、チャネルを介して伝送される、
    請求項1記載の映像圧縮装置。
  7. 前記多重化部は、前記第1の映像および前記第2の映像に対応するベースバンド映像の再生タイミングを示す映像同期信号に基づいて、映像再生装置に内蔵される第1のシステムクロックを前記映像圧縮装置に内蔵される第2のシステムクロックと同期させるための基準クロック値を示す参照情報と前記第1のビットストリームおよび前記第2のビットストリームの前記第2のシステムクロックを基準とした再生時刻または復号時刻を示す同期情報とを生成し、前記第1のビットストリーム、前記第2のビットストリーム、前記参照情報および前記同期情報を多重化することによって前記多重化ビットストリームを生成する、請求項6記載の映像圧縮装置。
  8. 前記多重化部は、前記第1のビットストリームを一時的に保持してから当該第1のビットストリームおよび前記第2のビットストリームを多重化する、請求項6記載の映像圧縮装置。
  9. 前記第1のビットストリームを多重化することによって第1の多重化ビットストリームを生成する第1の多重化部と、
    前記第2のビットストリームを多重化することによって第2の多重化ビットストリームを生成する第2の多重化部と
    をさらに具備し、
    前記第1の多重化ビットストリームは、第1のチャネルを介して伝送され、
    前記第2の多重化ビットストリームは、前記第1のチャネルとは異なる第2のチャネルを介して伝送される、
    請求項1記載の映像圧縮装置。
  10. 前記第1のチャネルは、帯域保証のあるチャネルであって、
    前記第2のチャネルは、帯域保証のないチャネルである、
    請求項9記載の映像圧縮装置。
  11. 前記第1のコーデックは、MPEG−2、MPEG−4、H.264/AVCおよびHEVCのうちいずれかであって、
    前記第2のコーデックは、HEVCのスケーラブル拡張である、
    請求項1記載の映像圧縮装置。
  12. 前記第1のビットストリームは、前記第1の映像がプログレッシブ映像またはインターレース映像であることを示す情報、インターレース映像としての前記第1の映像の位相を示す情報、前記第1の映像のフレームレートを示す情報、前記第1の映像の解像度を示す情報、前記第1の映像のビット深度を示す情報、前記第1の映像の色空間フォーマットを示す情報、ならびに、前記第1のコーデックを示す情報のうち少なくとも1つを含み、
    前記第2のビットストリームは、前記第2の映像がプログレッシブ映像またはインターレース映像であることを示す情報、インターレース映像としての前記第2の映像の位相を示す情報、前記第2の映像のフレームレートを示す情報、前記第2の映像の解像度を示す情報、前記第2の映像のビット深度を示す情報、前記第2の映像の色空間フォーマットを示す情報、ならびに、前記第2のコーデックを示す情報のうち少なくとも1つを含む、
    請求項1記載の映像圧縮装置。
  13. 前記第1のビットストリームを前記第1のコーデックを用いて復号することによって前記第1の復号映像を生成する復号部をさらに具備し、
    前記復号部は、前記第1の復号映像に含まれる復号ピクチャの復号順と表示順とが一致しない場合には、当該復号ピクチャを復号順に従って出力する、
    請求項1記載の映像圧縮装置。
  14. 前記第2の圧縮部は、前記第2のランダムアクセスポイントに相当するピクチャがランダムアクセス可能であることを示す情報を前記第2のビットストリームに記述する、請求項1記載の映像圧縮装置。
  15. 前記第2の圧縮部は、前記第2のランダムアクセスポイントに相当するピクチャをフレーム間予測以外の予測モードを利用して圧縮する、請求項1記載の映像圧縮装置。
  16. 階層化された第1の映像および第2の映像のうち当該第1の映像の圧縮データに相当する第1のビットストリームを第1のコーデックを用いて復号することによって第1の復号映像を生成する第1の復号部と、
    前記第2の映像の圧縮データに相当する第2のビットストリームを第1のコーデックとは異なる第2のコーデックを用いて前記第1の復号映像に基づいて復号することによって第2の復号映像を生成する第2の復号部と
    を具備し、
    前記第2のビットストリームは、複数のピクチャグループによって形成され、
    前記複数のピクチャグループの各々は、1つ以上のサブピクチャグループを包含し、
    前記第1のビットストリームは、第1のアクセスポイントを含み、
    前記第2のビットストリームは、第2のアクセスポイントを含み、
    前記第2のランダムアクセスポイントは、特定のピクチャサブグループのうち圧縮順で最初のピクチャに設定されており、
    前記特定のピクチャサブグループは、前記第1のランダムアクセスポイント以降で表示順の最も早いサブピクチャグループである、
    映像再生装置。
  17. 前記第1のビットストリームは、第1のチャネルを介して伝送され、
    前記第2のビットストリームは、前記第1のチャネルとは異なる第2のチャネルを介して伝送され、
    前記第1のビットストリームの第1の受信時刻に対する前記第2のビットストリームの第2の受信時刻の遅延時間が所定時間長に達する場合には、前記第2の復号映像の代わりに前記第1の復号映像が表示映像として出力される、
    請求項16記載の映像再生装置。
  18. 前記第1の復号部は、前記第1の復号映像に含まれる復号ピクチャの復号順と表示順とが一致しない場合には、当該復号ピクチャを復号順に従って出力する、
    請求項16記載の映像再生装置。
  19. 多重化ビットストリームを逆多重化することによって前記第1のビットストリームおよび前記第2のビットストリームを生成する逆多重化部と、
    前記第2のビットストリームを一時的に保持してから前記第2の復号部へと転送する遅延回路と
    をさらに具備する、請求項16記載の映像再生装置。
  20. ベースバンド映像を記録および再生する映像記録装置と、
    前記ベースバンド映像が階層化された第1の映像および第2の映像をスケーラブル圧縮することによって第1のビットストリームおよび第2のビットストリームを生成する映像圧縮装置と、
    少なくとも1つのチャネルを介して前記第1のビットストリームおよび前記第2のビットストリームを送信する映像送信装置と、
    前記少なくとも1つのチャネルを介して前記第1のビットストリームおよび前記第2のビットストリームを受信する映像受信装置と、
    前記第1のビットストリームおよび前記第2のビットストリームをスケーラブル復号することによって第1の復号映像および第2の復号映像を生成する映像再生装置と、
    前記第1の復号映像および前記第2の復号映像に基づく映像を表示する表示装置と
    を具備し、
    前記映像圧縮装置は、
    前記第1の映像を第1のコーデックを用いて圧縮することによって第1のビットストリームを生成する第1の圧縮部と、
    前記第1のビットストリームに含まれる第1のランダムアクセスポイントに基づいて、前記第2のビットストリームに含まれる第2のランダムアクセスポイントを制御する制御部と、
    前記第2の映像を前記第1のコーデックとは異なる第2のコーデックを用いて前記第1の映像に対応する第1の復号映像に基づいて圧縮することによって前記第2のビットストリームを生成する第2の圧縮部と、
    を具備し、
    前記第2のビットストリームは、複数のピクチャグループによって形成され、
    前記複数のピクチャグループの各々は、1つ以上のサブピクチャグループを包含し、
    前記制御部は、前記第2のビットストリームから、前記第1のランダムアクセスポイント以降で表示順の最も早いサブピクチャグループを選択し、選択したサブピクチャグループのうち圧縮順で最初のピクチャを前記第2のランダムアクセスポイントに設定する、
    映像配信システム。
JP2015214509A 2014-10-30 2015-10-30 映像圧縮装置、映像再生装置および映像配信システム Abandoned JP2016092837A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014221617 2014-10-30
JP2014221617 2014-10-30

Publications (1)

Publication Number Publication Date
JP2016092837A true JP2016092837A (ja) 2016-05-23

Family

ID=55854187

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015214509A Abandoned JP2016092837A (ja) 2014-10-30 2015-10-30 映像圧縮装置、映像再生装置および映像配信システム

Country Status (2)

Country Link
US (1) US20160127728A1 (ja)
JP (1) JP2016092837A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102072615B1 (ko) * 2018-09-19 2020-02-03 인하대학교 산학협력단 Hevc의 복호화 지연 감소 기술을 적용한 임의 접근 영상 스트리밍 방법 및 장치
WO2020256522A1 (ko) * 2019-06-20 2020-12-24 한국전자통신연구원 영역 분할을 사용하는 영상 부호화 및 영상 복호화를 위한 방법 및 장치

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467496B2 (en) * 2015-08-31 2019-11-05 Apple Inc. Temporal filtering of independent color channels in image data
KR102477964B1 (ko) * 2015-10-12 2022-12-16 삼성전자주식회사 미디어 전송 시스템에서 비디오 비트스트림의 임의 접근 및 재생을 가능하게 하는 기법
CN106303682B (zh) * 2016-08-09 2019-09-20 华为技术有限公司 频道切换的方法、装置、终端及服务器
CN110114803B (zh) * 2016-12-28 2023-06-27 松下电器(美国)知识产权公司 三维模型分发方法、三维模型接收方法、三维模型分发装置以及三维模型接收装置
CN110351606B (zh) * 2018-04-04 2022-12-27 华为技术有限公司 媒体信息处理方法、相关设备及计算机存储介质
US11438610B2 (en) 2018-04-13 2022-09-06 Koninklijke Kpn N.V. Block-level super-resolution based video coding
EP3794880A1 (en) * 2018-06-20 2021-03-24 Sony Corporation Infrastructure equipment, communications device and methods
CN111479164A (zh) * 2019-01-23 2020-07-31 上海哔哩哔哩科技有限公司 硬件解码动态分辨率无缝切换方法、装置及存储介质
JP7238441B2 (ja) * 2019-02-04 2023-03-14 富士通株式会社 動画像符号化装置、動画像符号化方法及び動画像符号化プログラム
WO2020181073A1 (en) 2019-03-07 2020-09-10 Alibaba Group Holding Limited Method, apparatus, terminal, capturing system and device for setting capturing devices
CN115866350B (zh) * 2022-11-28 2024-04-12 重庆紫光华山智安科技有限公司 视频倒放方法、装置、电子设备及存储介质

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2362532B (en) * 2000-05-15 2004-05-05 Nokia Mobile Phones Ltd Video coding
GB2362531A (en) * 2000-05-15 2001-11-21 Nokia Mobile Phones Ltd Indicating the temporal order of reference frames in a video sequence
US7751473B2 (en) * 2000-05-15 2010-07-06 Nokia Corporation Video coding
US7675972B1 (en) * 2001-07-30 2010-03-09 Vixs Systems, Inc. System and method for multiple channel video transcoding
US6959348B1 (en) * 2001-07-30 2005-10-25 Vixs Systems, Inc. Method and system for accessing data
US7679649B2 (en) * 2002-04-19 2010-03-16 Ralston John D Methods for deploying video monitoring applications and services across heterogenous networks
AU2003295515A1 (en) * 2002-11-11 2004-06-03 Supracomm, Inc. Multicast videoconferencing
US20060072837A1 (en) * 2003-04-17 2006-04-06 Ralston John D Mobile imaging application, device architecture, and service platform architecture
US7876789B2 (en) * 2005-06-23 2011-01-25 Telefonaktiebolaget L M Ericsson (Publ) Method for synchronizing the presentation of media streams in a mobile communication system and terminal for transmitting media streams
US8879635B2 (en) * 2005-09-27 2014-11-04 Qualcomm Incorporated Methods and device for data alignment with time domain boundary
US8607283B2 (en) * 2009-04-24 2013-12-10 Delta Vidyo, Inc. Systems, methods and computer readable media for instant multi-channel video content browsing in digital video distribution systems
US8976871B2 (en) * 2009-09-16 2015-03-10 Qualcomm Incorporated Media extractor tracks for file format track selection
US20120044987A1 (en) * 2009-12-31 2012-02-23 Broadcom Corporation Entropy coder supporting selective employment of syntax and context adaptation
WO2012124347A1 (en) * 2011-03-17 2012-09-20 Panasonic Corporation Methods and apparatuses for encoding and decoding video using reserved nal unit type values of avc standard
US9392295B2 (en) * 2011-07-20 2016-07-12 Broadcom Corporation Adaptable media processing architectures
US10034018B2 (en) * 2011-09-23 2018-07-24 Velos Media, Llc Decoded picture buffer management
US9456212B2 (en) * 2011-09-30 2016-09-27 Broadcom Corporation Video coding sub-block sizing based on infrastructure capabilities and current conditions
US20130083852A1 (en) * 2011-09-30 2013-04-04 Broadcom Corporation Two-dimensional motion compensation filter operation and processing
US9843844B2 (en) * 2011-10-05 2017-12-12 Qualcomm Incorporated Network streaming of media data
WO2013061523A1 (ja) * 2011-10-28 2013-05-02 パナソニック株式会社 旧来のフォーマットとの互換を維持しつつも、記録内容を編集することができる記録媒体、再生装置、記録装置、再生方法、記録方法
CN108322744B (zh) * 2012-01-31 2022-08-30 Vid拓展公司 用于可缩放的高效视频译码(hevc)的参考图片集(rps)信令
US20140218473A1 (en) * 2013-01-07 2014-08-07 Nokia Corporation Method and apparatus for video coding and decoding
US9807421B2 (en) * 2013-04-05 2017-10-31 Sharp Kabushiki Kaisha NAL unit type restrictions
US9380305B2 (en) * 2013-04-05 2016-06-28 Qualcomm Incorporated Generalized residual prediction in high-level syntax only SHVC and signaling and management thereof

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102072615B1 (ko) * 2018-09-19 2020-02-03 인하대학교 산학협력단 Hevc의 복호화 지연 감소 기술을 적용한 임의 접근 영상 스트리밍 방법 및 장치
WO2020256522A1 (ko) * 2019-06-20 2020-12-24 한국전자통신연구원 영역 분할을 사용하는 영상 부호화 및 영상 복호화를 위한 방법 및 장치

Also Published As

Publication number Publication date
US20160127728A1 (en) 2016-05-05

Similar Documents

Publication Publication Date Title
JP2016092837A (ja) 映像圧縮装置、映像再生装置および映像配信システム
US7899115B2 (en) Method for scalably encoding and decoding video signal
US20230370629A1 (en) Moving picture coding method, moving picture decoding method, moving picture coding apparatus, moving picture decoding apparatus, and moving picture coding and decoding apparatus
RU2653299C2 (ru) Способ и устройство для кодирования и декодирования видеоданных
KR102198120B1 (ko) 비디오 인코딩 방법, 비디오 인코딩 디바이스, 비디오 디코딩 방법, 비디오 디코딩 디바이스, 프로그램, 및 비디오 시스템
TWI510097B (zh) 視頻編碼方法和系統
KR102616143B1 (ko) 인트라 예측 모드 스케일러블 코딩 방법 및 장치
US10291934B2 (en) Modified HEVC transform tree syntax
US11039149B2 (en) Dynamic video insertion based on feedback information
WO2013164922A1 (ja) 画像処理装置及び画像処理方法
US9723321B2 (en) Method and apparatus for coding video stream according to inter-layer prediction of multi-view video, and method and apparatus for decoding video stream according to inter-layer prediction of multi view video
RU2665284C2 (ru) Устройство кодирования изображения и способ, и устройство декодирования изображения и способ
US11317105B2 (en) Modification of picture parameter set (PPS) for HEVC extensions
US9819944B2 (en) Multi-layer video coding method for random access and device therefor, and multi-layer video decoding method for random access and device therefor
JP2007266749A (ja) 符号化方法
US10448050B2 (en) Method and apparatus for managing buffer for encoding and decoding multilayer video
US10375412B2 (en) Multi-layer video encoding method and apparatus, and multi-layer video decoding method and apparatus
US10341685B2 (en) Conditionally parsed extension syntax for HEVC extension processing
JP6677230B2 (ja) 映像符号化装置、映像復号装置、映像システム、映像符号化方法、及び映像符号化プログラム
Hingole H. 265 (HEVC) BITSTREAM TO H. 264 (MPEG 4 AVC) BITSTREAM TRANSCODER
WO2021199374A1 (ja) 映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像システムおよびプログラム
Akramullah et al. Video Coding Standards
JP2007235299A (ja) 画像符号化方法
JP2024506169A (ja) ジョイント動きベクトル差分コーディング
Vijayakumar Low Complexity H. 264 To VC-1 Transcoder

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190109

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20190124