JP2020005201A

JP2020005201A - 送信装置及び受信装置

Info

Publication number: JP2020005201A
Application number: JP2018125275A
Authority: JP
Inventors: 一宏原; Kazuhiro Hara; 片山　美和; Miwa Katayama; 美和片山; 河北　真宏; Masahiro Kawakita; 真宏河北; 三科　智之; Tomoyuki Mishina; 智之三科; 菊池　宏; Hiroshi Kikuchi; 宏菊池; 妹尾　孝憲; Takanori Senoo; 孝憲妹尾; 藤井　俊彰; Toshiaki Fujii; 俊彰藤井
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2020-01-09

Abstract

【課題】表示端末側（受信側）で適正な学習モデルによる機械学習を利用して映像補完処理を行う。【解決手段】機械学習機能を有し、学習結果である学習モデル及び／又は学習パラメータを送信する送信装置と、前記学習モデル及び／又は学習パラメータに基づいて機械学習部を内部に構築する、受信装置とからなる。受信装置は、映像の符号化データを受信し、符号化データを復号した映像から表示映像を作成する際に、前記機械学習部から出力された映像により、表示に必要な映像情報を補完する。【選択図】図１

Description

本発明は、送信装置及び受信装置に関し、特に、データの符号化・復号処理に機械学習を利用する送信装置及び受信装置に関する。

近年、ＨＭＤ（Head Mounted Display）による２眼の３６０度ビデオをコンテンツとしたサービスが普及している。ＶＲ（Virtual Reality）ではユーザーが別の空間に移動したような没入感を得られることが知られる。これらのサービスでは将来のサービス展開として、ユーザーが姿勢を動かしたときの運動視差に対応することが考えられている（例えば、3DoF+：3 degrees of freedom +)。そしてその先の展望として、ユーザーが姿勢だけではなく位置を移動したときの運動視差に対応するサービス（6DoF+）の実用化が期待されている。また、ＨＭＤ以外の表示端末を使用した将来の映像視聴サービスでは、スポーツ中継などでユーザーが見たい視点から映像を楽しむことができる自由視点映像の実用化に向けた開発も進められている。

これらのサービスの実現に向けて、コンテンツ制作手法の議論が進められている。例えば、自由視点映像サービスに向けた撮影手法では膨大な数の映像を一度に取得する必要があり、複数台のカメラで撮影空間を囲むように配置することが知られている。また、運動視差つき３６０度映像では全天周カメラを所定の位置に複数台配置する取り組みが進められている。

表示側では、撮影された映像をもとにレンダリングを行うことでユーザーが好む任意の視点映像を生成することが考えられている。これらのレンダリング処理では、撮影時に実際のカメラのない視点（仮想ビュー）を生成する視点合成処理、すなわち、カメラ間の視点映像の内挿処理、外挿処理、補間処理等が行われる。視点合成処理には、デプス画像の利用も行われている。例えば、カメラの撮影映像とデプス画像を基に内挿する視点位置でのビューを射影する方法や、カメラ映像ではなくデプス画像を射影することで内挿視点でのデプス画像を生成後に、カメラ映像を投影させる方法が存在する。

また、編集などのコンテンツ制作では、３次元モデルシーンやイメージベース（多視点映像及び／又は多視点デプス画像）での編集作業が行われる。伝送と記録では、任意のフォーマットによって符号化が行われデータ量を圧縮した上での記録や、有線や無線ネットワークを介した配信が行われる。

広範囲な運動視差に対応した映像の記録・伝送を行う場合に、情報量が膨大になることから、全ての情報量を記録や伝送することはできず、一部の情報を符号化して記録・伝送する。そのため、復号側では不足した情報を補完することが必要となる。例えばイメージベース（多視点映像及び／又は多視点デプス画像）のフォーマットでは、視点内挿処理による補間があり、３次元モデルシーンのフォーマットでは、映像データベースからの映像をもとに補完処理が行われる。近年、これらの映像処理にＡＩ（Artificial Intelligence：人工知能）技術を用いた学習モデルによる処理を利用することが検討されており、例えば、映像シーン認識方法に深層学習を利用することが提案されている（特許文献１）。

特開２０１８−５６３８号公報

上述のように、映像処理に機械学習を利用することが検討されている。しかしながら、送信側（コンテンツ提供者側）では、正解画像を用いた学習モデル作成が容易であるが、表示端末側（ユーザー側）ではモデルの学習に時間がかかること、正解データの取得ができない場合における教師なし学習では補完の精度が低くなってしまう問題がある。また、コンテンツ毎の映像の特徴が一般的に異なることから統一的な学習モデルと学習パラメータでは補完精度が落ちてしまう問題が挙げられる。

従って、上記のような問題点に鑑みてなされた本発明の目的は、表示端末側（受信側）で適正な学習モデルによる機械学習を利用して映像補完処理を行うことのできる、送信装置及び受信装置を提供することにある。

上記課題を解決するために本発明に係る送信装置は、機械学習機能を有し、学習結果である学習モデル及び／又は学習パラメータを送信することを特徴とする。

また、前記送信装置は、映像を符号化し、符号化データを出力する符号化部と、機械学習機能を有し、学習結果である学習モデル及び／又は学習パラメータを出力する学習モデル作成部と、を備えており、前記学習モデル及び／又は学習パラメータは、前記符号化データを復号した映像から表示映像を作成する際に、不足する映像情報を生成する処理に用いられることが望ましい。

また、前記送信装置は、前記表示映像が、多視点映像から生成された視点内挿映像であることが望ましい。

また、前記送信装置は、前記学習モデルと学習パラメータを、学習モデルモジュール識別子を有するヘッダと、パラメータ識別子及びパラメータ識別子に対応するパラメータ値を有するデータとを備えた伝送パケットにより送信することが望ましい。

また、前記送信装置は、機械学習のための学習用画像が、視点内挿映像と、前記視点内挿映像の周辺視点映像、及び前後フレーム映像をアップサンプリングし、ブロック化したブロック画像を複数配置した構成であることが望ましい。

また、前記送信装置は、映像の符号化データを送信するとともに、前記学習モデル及び／又は学習パラメータを、受信側からのリクエストに応じて、ネットワーク経由で送信することが望ましい。

上記課題を解決するために本発明に係る受信装置は、学習結果である学習モデル及び／又は学習パラメータを受信し、前記学習モデル及び／又は学習パラメータに基づいて学習済みの機械学習機能を取得することを特徴とする。

また、前記受信装置は、映像の符号化データを復号する復号部と、復号された映像から表示映像を作成する際に、機械学習により、不足する映像情報を生成する映像補完部と、を備えていることが望ましい。

また、前記受信装置は、前記表示映像が、多視点映像から生成された視点内挿映像であることが望ましい。

また、前記受信装置は、前記表示映像のオクルージョン領域を埋めるためのインペイント領域の画素値に、機械学習により生成された補正画像を利用することが望ましい。

また、前記受信装置は、作成された映像をブロック画像ごとに機械学習により補正を行い、補正された前記ブロック画像をブロック統合し、表示映像を作成することが望ましい。

また、前記受信装置は、映像の符号化データを復号するとき、送信側に自動的に前記映像に対応した学習モデル及び／又は学習パラメータのリクエストを行い、ネットワーク経由で前記学習モデル及び／又は学習パラメータを取得することが望ましい。

また、前記受信装置は、学習モデル及び／又は学習パラメータを蓄積し、復号後の映像の解析結果に基づいて、映像に対応した前記学習モデル及び／又は学習パラメータを選択する学習モデル選択部を備えることが望ましい。

本発明における送信装置及び受信装置によれば、受信側（表示端末側）で適正な学習モデルによる機械学習を利用して映像補完処理を行うことができる。そして、本発明によれば、復号処理で情報が不足している映像・３次元モデルを、補完処理で品質改善することができ、また、補完処理により伝送・記録する情報量の削減が可能になる。

また、本発明をデプス推定や視点内挿技術に適用すれば、オクルージョン領域（陰になって見えない部分）等におけるノイズの低減をすることができる。さらに、補完処理によってデプス画像や視点内挿画像の画質劣化が低減することにより、より離れたカメラ間隔での視点内挿が可能となり、そのため、符号化対象となる視点数（必要なカメラ台数）を削減することができる。

本発明の送信装置・受信装置の一例のブロック図である。本発明の送信装置の学習モデル作成部の一例のブロック図である。機械学習に用いる画像の一例である。伝送する機械学習用データの構造の一例である。本発明の受信装置の映像補完部の一例のブロック図である。本発明の受信装置の映像補完部の別の例のブロック図である。本発明の受信装置の学習モデル選択部の一例のブロック図である。

以下、本発明の実施の形態について、図面を参照しながら説明する。

図１は、本発明の送信装置・受信装置の一例のブロック図である。本発明の送信装置及び受信装置は、それぞれ、符号化装置、復号装置としても機能し、また、全体として学習モデル・パラメータの送受信システムを構成する。

送信装置１０は、機械学習の学習モデル及び／又は学習パラメータ（学習済みのパラメータ値を含む。）を送信する。また、送信装置１０は、一般にコンテンツ提供者が管理し、受信装置２０に対して映像（多視点映像や３次元シーン等を含むことができる）等のコンテンツを提供する。他方、受信装置２０は、機械学習の学習モデル及び／又は学習パラメータを受信する。また、受信装置２０は、一般にユーザーが管理し、送信装置１０から送信された情報を受信して、映像等のコンテンツを復号・表示することができる。

まず、送信装置１０について説明する。送信装置１０は、入力された撮影映像を編集し、編集された映像を符号化して符号化データを出力するとともに、映像処理の際の機械学習で用いる学習モデル・学習パラメータを出力する。送信装置１０は、入力部１１、映像編集部１２、符号化部１３、及び学習モデル作成部１４を備える。

入力部１１には、撮影された映像が入力される。入力される映像は、立体映像を構成するために複数のカメラで撮影された多視点映像、全天周カメラで撮影された映像等、複数の映像の組み合わせであってもよい。また、多視点映像に対応するデプス画像を含めることができる。

映像編集部１２は、入力された映像を編集し、番組制作を行う。この番組は、３次元モデルシーンや多視点映像、或いは任意の視点映像であってもよい。映像編集部１２は、入力された映像から自動編集を行っても良いが、人為的な編集操作を加えることができるように構成されてもよい。映像編集部１２は、編集した番組映像を、符号化部１３と学習モデル作成部１４に出力する。

符号化部１３は、編集された番組の映像情報の符号化を行う。なお、符号化はデータを圧縮するから、符号化の際に映像情報の一部が消失する。符号化されたデータは受信装置２０に向けて出力される。また、符号化部１３は、符号化されたデータ（符号化後の視点映像や３次元モデル）を復号し、学習モデル作成部１４に出力する。なお、符号化データを復号する処理は、学習モデル作成部１４内で行ってもよい。また、受信装置に伝送しない視点情報を、学習モデル作成部１４に対して出力してもよい。

学習モデル作成部１４は、符号化部１３から入力される符号化・復号処理をされた後の映像と、映像編集部１２から直接入力される編集された番組映像とを元に、学習用画像と正解画像情報を作成し、機械学習を行い、最適な学習モデルと学習パラメータを作成する。そして、作成された学習モデル及び学習パラメータ等を、受信装置２０に送信する。なお、受信側で必要なデータに応じて、学習モデルと学習パラメータの一方を送信してもよい。学習モデル作成部１４の詳細は後述する。

図１では、符号化部１３からの符号化データと、学習モデル作成部１４からの学習モデル等のデータは、別々の伝送路で送信されているが、これらは、ひとまとめのデータとして、一つの伝送路で送信することもできる。送受信方法としては、放送システム、電波通信、ネットワーク等を利用することができる。例えば、符号化データと学習モデルデータを放送システムで同時に配信することができる。また、後述のとおり、符号化データを放送システムで配信し、学習モデルデータをネットワークで送信することができる。さらに、符号化データを記録媒体として提供し、学習モデルデータを伝送路で送信してもよい。

受信装置２０は、映像を符号化した符号化データ及び機械学習で用いる学習モデル・学習パラメータを受信し、符号化データの復号及び補完処理を行って映像を出力する。受信装置２０は、復号部２１、映像補完部２２、レンダリング部２３、及び表示部２４を備えている。

復号部２１は、符号化データの復号を行い、復号映像（復号画像）を映像補完部２２に出力する。

映像補完部２２は、送信装置（コンテンツ提供者側）１０から送信された学習モデル及び／又は学習パラメータを受信する。映像補完部２２では、得られた学習モデル・パラメータをもとに送信側と同じ機械学習機能をその内部に再現し、復号映像から表示映像を作成する際に不足する映像情報を生成する。また、映像補完部２２は視点内挿やフレーム補間の処理を行うと共に、内挿画像や補間フレーム画像を補正する処理を行う。このとき補正処理は得られた学習モデルとパラメータを用いて行われる。映像補完部２２の詳細は後述する。

レンダリング部２３は、映像補完部２２から出力される映像をもとに、表示に必要な画像フォーマットのレンダリングを行う。処理された映像は、表示部２４に出力される。

表示部２４は、レンダリング部２３で処理された映像を表示する。なお、表示部２４は、受信装置２０の内部に設けられることは必須ではなく、受信装置２０とは別体の独立した表示装置として構成してもよい。

（送信装置の学習モデル作成部）
図２に、送信装置１０の学習モデル作成部１４の一例のブロック図を示す。図２は、伝送・記録フォーマットがイメージベース（多視点映像やデプス画像）の場合でのコンテンツ提供者側の学習モデル作成部１４の構成を示している。

ここでは、学習モデル作成部１４が、ある対象視点のフレームに基づいて、ブロック単位で映像の補正・補完を行う機械学習を行い、学習モデルを作成する例を説明する。図２において、学習モデル作成部１４は、周辺視点映像入力部１０１、前後フレーム映像入力部１０２、視点内挿部１０３、アップサンプル部１０４、ブロック分割部１０５、入力画像生成部１０６、対象視点フレーム入力部１０７、ブロック分割部１０８、機械学習部１１０、学習モデル・パラメータ圧縮部１１１、変調部１１２、及び送信部１１３を備えている。

入力対象となる映像は、例えば、符号化部１３から入力される符号化・復号処理をされた後の映像、及び／又は、映像編集部１２から入力される符号化処理を経ていない映像である。入力映像には学習用の正解画像として視点内挿を行う視点の映像、視点内挿時に参照をされる周辺視点映像などが含まれている。例えば、複数枚の多視点画像とそれに対応する複数枚のデプス画像を入力映像とする。これらの画像は、対象物を３６０度の方向から撮影した多視点映像や、インテグラル立体映像を構成するための複数映像であってもよい。また、それぞれの視点映像は、予め奇数フレームと偶数フレームの映像に分かれていてもよい。

周辺視点映像入力部１０１は、図１の符号化部１３において符号化され、更に復号された映像から、対象視点の映像に対してその周辺視点の映像を選択し、視点内挿部１０３及びアップサンプル部１０４に出力する。

前後フレーム映像入力部１０２は、図１の符号化部１３において符号化され、更に復号された映像から、対象視点フレーム（又は視点内挿が行われるフレーム）の前後のフレームの映像を選択し、アップサンプル部１０４に出力する。対象視点のフレームの前後のフレームからのフレーム間内挿を利用することにより、予測画像の精度が向上する。

視点内挿部１０３は、周辺視点映像入力部１０１から入力された周辺視点映像（対象視点の周辺の視点の映像）に基づいて、視点の内挿処理を行い、対象視点の仮想ビュー（映像）を生成し、その生成された映像をアップサンプル部１０４に出力する。

アップサンプル部１０４は、周辺視点映像入力部１０１、前後フレーム映像入力部１０２、及び視点内挿部１０３から入力されたそれぞれの映像について、アップサンプリングを行い、映像の解像度を高く（例えば、縦横２倍に）する。なお、映像をアップサンプリングして処理することにより、予測画像の精度が向上する。

ブロック分割部１０５は、アップサンプル処理されたそれぞれの映像をブロックに分割する。ブロックとしては、例えば、１６×１６ピクセル（pixel）を単位ブロックとする。分割対象の映像はアップサンプル処理されているため、このブロックは、元の映像の８×８ピクセルのブロック画像に対応する。なお、単位ブロックのサイズは、上記に限定されるものではなく、例えば、３２×３２ピクセルとしてもよい。

入力画像生成部１０６は、機械学習部１１０の入力画像を作成する。入力画像は、機械学習の学習用画像（予測の元になる画像）となる。ここでは、ブロック分割された各映像から、対象視点の映像に関連する複数のブロック映像（ブロック画像）をタイル状に並べて、入力画像を構成する。

図３に、機械学習に用いる画像の一例を示す。図３（Ａ）は、入力画像の例である。ここでは１６×１６ピクセル（pixel）のブロック画像が９（３×３）個配列され、４８×４８ピクセルの入力画像が構成されている。まず、視点補間画像（対象視点の映像に対応する視点内挿画像）を入力画像の中央部に配置する。この視点補間画像は、視点内挿部１０３で作成された対象視点の映像をアップサンプリング（２倍）してブロック化したものである。また、視点補間画像の周囲には、隣接画像１〜４及び隣接デプス画像１〜４のブロックを配置する。例えば、隣接画像１〜４は、視点補間画像の上下左右に隣接する視点の映像ブロックや、対象視点の映像フレームの前後フレームの対応する視点の映像ブロックであり、周辺視点映像入力部１０１や前後フレーム映像入力部１０２の出力をアップサンプリングしてブロック化したものから適宜選択して配置する。また、隣接デプス画像１〜４も同様に、視点補間画像の上下左右に隣接する視点のデプス画像や、前後フレームの対応する視点のデプス画像のブロックであり、これらから適宜選択して配置する。なお、隣接画像やデプス画像をそれぞれ幾つ選び、どのように配置するか等は、適宜設定することができる。

次に、対象視点フレーム入力部１０７は、例えば、図１の映像編集部１２で編集された映像から、対象視点のフレームの映像を選択し、ブロック分割部１０８に出力する。なお、対象視点のフレームの映像は映像編集部１２からの映像に限定されるものではなく、図１の符号化部１３において符号化され、更に復号された映像から、対象視点の映像を選択してもよい。対象視点フレーム入力部１０７から入力された映像からは、機械学習における学習用正解画像が作成される。

ブロック分割部１０８は、対象視点フレーム入力部１０７から入力された対象視点フレームの映像を、ブロックに分割する。ブロックとしては、例えば、８×８ピクセル（pixel）を単位ブロックとする。対象視点フレーム入力部１０７からの映像はアップサンプル処理されていないため、このブロックは、入力画像の１６×１６ピクセルのブロック画像に対応する。なお、単位ブロックは、上記のサイズに限定されるものではなく、学習用画像のサイズと対応させればよい。ブロック分割部１０８で分割され出力された映像が、９ブロックの入力画像の中央にある１６×１６ピクセルの視点補間画像（視点内挿画像）に対応する正解画像となる。図３（Ｂ）に、正解画像の一例（イメージ）を示す。

機械学習部１１０は、入力画像生成部１０６からの入力画像を学習用画像（訓練用画像）とし、ブロック分割部１０８から入力された正解画像との比較を行うことで、機械学習を進め、最適な学習モデルと学習パラメータを算出する。なお、ここでの機械学習は広い概念でとらえて良い。例えば、畳み込みニューラルネットワークを用いて構築される機械学習であって良く、特徴量の抽出とモデリングを自動的に行うディープラーニング等を含むことができる。また、畳み込みニューラルネットワーク以外に、例えば、ＳＶＭ（Support Vector Machine）などを用いて構築してもよい。

学習により、最適な学習モデルと学習パラメータを習得した機械学習部１１０は、図３（Ａ）に示す入力画像が入力されると、正解画像に近似した補間画像を出力することができる。図３（Ｃ）に、出力画像（補間画像）の一例（イメージ）を示す。出力画像（補間画像）は、正解画像と同じく、８×８ピクセル（pixel）の単位ブロックである。

なお、学習用画像に対象視点を内挿して生成した映像を用い、正解画像に対象視点における実際の映像を用いることにより、機械学習部は、内挿映像で不足する映像情報（例えば、オクルージョン領域の映像情報）を生成する学習機能を得ることができる。また、学習用画像に符号化及び復号された映像を用い、正解画像に映像編集部から入力された符号化前の映像を用いることにより、機械学習部は、符号化で失われた映像情報（画質改善のための映像情報）を生成する学習機能を得ることができる。

学習を終了すると、機械学習部１１０は、最適な学習モデル及び／又は学習パラメータを学習モデル・パラメータ圧縮部１１１に出力する。なお、学習モデルと学習パラメータを出力後も、機械学習部１１０は継続的に学習を行い、より精度の高い学習モデルと学習パラメータや、異なるシーンやフレームにおける最適な学習モデルと学習パラメータ等を算出して、更新データとして学習モデル・パラメータ圧縮部１１１に出力してもよい。

学習モデル・パラメータ圧縮部１１１は、機械学習部１１０から入力された最適な学習モデル及び／又は学習パラメータを、伝送に適したデータ形式に圧縮処理を行う。エントロピー符号化等を利用してもよいし、圧縮データを差分データのみとしてもよい。なお、必要に応じて、入力画像生成部１０６で生成された入力画像の一部を、学習データとして圧縮して送信してもよい。

その後、変調部１１２は、圧縮処理された所定の形式の学習モデル・パラメータデータを、送信に適した信号に変調する。例えば、データを伝送パケットの形式とする。そして、送信部１１３は、変調された学習モデル・パラメータデータの信号を、ユーザー側（受信装置）に送信する。

図４に、伝送する機械学習用データの構造の一例を示す。これは、機械学習用データを伝送パケットとして送信するときの例である。図４（Ａ）は、伝送データの基本構成である。伝送データは、ヘッダと、データと、ビット調整とを含む。ビット調整とは、伝送データをＢｙｔｅ単位とするための調整用ビットである。

図４（Ｂ）は、ヘッダの構成例である。ヘッダは、「フレーム情報・前情報コピー識別子」と、「学習モデルのモジュール読み出し番号・フィードバック有無・フィードバック接続先情報」と、「学習モデルモジュール識別子」とを備える。「フレーム情報・前情報コピー識別子」には、対象となる映像のフレームの情報、及び前フレーム情報のコピー用識別子を格納する。また、「学習モデルのモジュール読み出し番号」は、あらかじめ定義した０からスタートする番号であって、学習モデルのモジュール読み出しに用いる。「フィードバック有無・フィードバック接続先情報」については、基本的には学習モデルのモジュール読み出し番号が連番で接続されていくが、別の学習モデルのモジュールへ接続する時はフィードバック接続先情報で番号を指定する。「学習モデルモジュール識別子」については、事前に学習モデルのモジュール読み出し番号を定義し（例えば、0001：畳込み層モジュール、0002：プーリング層モジュール、等）、識別子とする。

図４（Ｃ）は、データの構成例である。データは、「パラメータ識別子」と、「カウンタ識別子」と、「パラメータ識別子に対応するパラメータ値」とを備える。「パラメータ識別子」については、事前に学習用モデルのモジュール毎に、パラメータ識別子を定義しておき、該当する識別子を格納する。（例えば、0001：畳込み層モジュールに対応するパラメータ識別子では、0001:レイヤーの入力サイズ、0002: 畳み込むカーネルのサイズ）「カウンタ識別子」については、パラメータ識別子でのパケット情報が何番目のデータかを、カウンタ識別子で把握する。なお、特定の値によりパラメータ値終了を判断してもよい（例：1111111111111111:パラメータ値の終了フラグ）。「パラメータ識別子に対応するパラメータ値」には、パラメータ識別子に設定する値や、機械学習で得られたパラメータ値を入力する。また、機械学習で得られたパラメータ値が一つのファイル形式である場合には、バイナリ形式のファイルデータを圧縮してパラメータ値の中にパケット化してもよい。

（受信装置の映像補完部）
図５に、受信装置２０の映像補完部２２の一例のブロック図を示す。図５は、伝送・記録フォーマットがイメージベース（多視点映像やデプス画像）の場合でのユーザー側の映像補完部２２の構成を示している。

映像補完部２２は、送信装置１０から伝送された学習モデル及び学習パラメータを用いて送信側と同じ機械学習部を構築し、符号化データを復号して得られた映像から表示映像を作成する際に、映像の補完処理を行う。図５において、映像補完部２２は、復調部２０１、解凍部２０２、周辺視点映像入力部２０３、前後フレーム映像入力部２０４、視点内挿部２０５、アップサンプル部２０６、ブロック分割部２０７、入力画像生成部２０８、機械学習部２１０、視点内挿補正部２１１、ブロック統合部２１２、インペイント部２１３、及び平滑フィルタ２１４を備えている。

映像補完部２２の入力対象となる映像は、伝送された符号化データを、復号部２１で復号処理した映像である。例えば、複数枚の多視点画像と複数枚のデプス画像を入力映像とすることができる。これらの画像は、対象物を３６０度の方向から撮影した多視点映像や、インテグラル立体映像を構成するための複数映像であってもよい。

復調部２０１は、送信装置１０から所定の方式で変調されて伝送された学習モデル・学習パラメータについて、変調方式に対応する方式により復調処理を行い、復調されたデータを解凍部２０２に出力する。

解凍部２０２は、復調部２０１で復調されたデータについて、送信側で行った圧縮処理に対応する解凍処理を行って、学習モデル・学習パラメータを復元し、機械学習部２１０に出力する。

周辺視点映像入力部２０３は、図１の復号部２１において復号された映像から、対象視点の映像に対してその周辺視点の映像を抽出し、視点内挿部２０５及びアップサンプル部２０６に出力する。

前後フレーム映像入力部２０４は、図１の復号部２１において復号された映像から、視点内挿が行われるフレームの前後のフレームの映像を抽出し、アップサンプル部２０６に出力する。

視点内挿部２０５は、周辺視点映像入力部２０３から入力された周辺視点映像（対象視点の周辺の視点の映像）に基づいて、視点の内挿処理を行い、対象視点の仮想ビュー（映像）を生成する。この映像は、映像補完部２２の出力映像の基礎となる映像であり、その生成された映像をインペイント部２１３とアップサンプル部２０６に出力する。

アップサンプル部２０６は、周辺視点映像入力部２０３、前後フレーム映像入力部２０４、及び視点内挿部２０５から入力されたそれぞれの映像について、アップサンプリングを行い、映像の解像度を高く（例えば、縦横２倍に）する。なお、映像をアップサンプリングして処理することにより、補完画像の精度が向上する。

ブロック分割部２０７は、アップサンプル処理されたそれぞれの映像をブロックに分割する。ブロックとしては、例えば、１６×１６ピクセル（pixel）を単位ブロックとする。分割対象の映像はアップサンプル処理されているため、このブロックは、元の映像の８×８ピクセルのブロック画像に対応する。なお、単位ブロックのサイズは、上記に限定されるものではなく、例えば、３２×３２ピクセルとしてもよい。

入力画像生成部２０８は、機械学習部２１０及び／又は視点内挿補正部２１１の入力画像を作成する。この入力画像生成部２０８の構成・動作は、送信側の入力画像生成部１０６と同一である。入力画像は、機械学習により補正画像（補間画像）を予測するための元になる画像となる。ここでは、ブロック分割された各映像から、対象視点の映像に関連する複数のブロック映像（ブロック画像）をタイル状に並べて、図３（Ａ）に示される入力画像を作成する。

機械学習部２１０には、解凍部２０２で解凍された学習モデル・学習パラメータが入力される。この学習モデル・学習パラメータは、送信側（コンテンツ提供者側）の学習済みの機械学習部１１０から得られたデータであり、このデータに基づいて、機械学習部２１０を学習済み機械学習部として機能させることができる。なお、この機械学習機能は、符号化データを復号した映像から表示映像を作成する際に、不足する映像情報を生成する機能である。機械学習部２１０は、入力画像生成部２０８で生成された入力画像を補正するための学習モデル・学習パラメータを視点内挿補正部２１１に出力する。或いは、機械学習部２１０は、入力画像から、学習結果に基づいて出力画像（図３（Ｃ））を予測生成し、視点内挿補正部２１１に出力してもよい。

視点内挿補正部２１１は、機械学習部２１０からの最適の学習モデル・学習パラメータに基づいて、入力画像生成部２０８から出力される入力画像を受けて機械学習により視点内挿画像の補正をブロック毎に行う。或いは、機械学習部２１０からの出力画像（予測画像）を受けて、視点内挿等の処理により作成された内挿画像を補正してもよい。出力される補正画像は、例えば、８×８ピクセルのブロックである。補正された画像は、表示映像を作成する際に不足する画像部分を補完することができる。

ブロック統合部２１２は、視点内挿補正部２１１でブロック毎に生成された補正画像（ブロック画像）を統合し、一枚の補正された視点内挿映像（対象視点の映像）を生成する。

インペイント部２１３には、視点内挿部２０５からの対象視点の内挿映像と、ブロック統合部２１２からの補正映像とが入力される。視点内挿部２０５で生成された内挿映像は、オクルージョン領域等を生じる可能性があり、インペイント部２１３は、ブロック統合部２１２からの補正映像により、このオクルージョン領域を埋める補完処理を行う。すなわち、視点内挿部で発生したオクルージョン領域を埋めるためのインペイント領域の画素値に、学習モデル結果を使用することができる。補完された映像は、平滑フィルタ２１４に出力される。

平滑フィルタ２１４は、インペイント部２１３からの入力された映像に対して、フィルタ処理を行う。入力された映像は、ブロック統合処理やインペイント処理により、ブロックや領域の境界にノイズ（つなぎ目）を生じやすい。このノイズを平滑フィルタ処理により除去することができる。この平滑フィルタ２１４の出力が、受信装置２０の映像補完部２２の出力映像となる。

このように、視点内挿で得られた映像のオクルージョン領域を埋めるためのインペイント領域の画素値に、学習モデル結果（機械学習による予測）を使用することにより、視点内挿映像の精度を向上させることができる。

（受信装置の映像補完部の別の例）
図６に、受信装置２０の映像補完部２２の別の例のブロック図を示す。図６は、伝送・記録フォーマットがイメージベース（多視点映像やデプス画像）の場合でのユーザー側の映像補完部２２の別の構成を示している。

映像補完部２２は、送信装置１０から伝送された学習モデル及び学習パラメータを用いて送信側と同じ機械学習部を構築し、符号化データを復号して得られた映像から表示映像を作成する際に、映像の補完処理を行う。図６において、映像補完部２２は、復調部２０１、解凍部２０２、周辺視点映像入力部２０３、前後フレーム映像入力部２０４、視点内挿部２０５、アップサンプル部２０６、ブロック分割部２０７、入力画像生成部２０８、機械学習部２１０、視点内挿補正部２１１、ブロック統合部２１２、及び平滑フィルタ２１４を備えている。

図５の映像補完部２２との違いは、インペイント部を備えておらず、視点内挿補正部２１１で補正されたブロック映像をブロック統合して、出力映像を得ている点である。図５と共通の構成は、説明を簡略化する。映像補完部２２の入力対象となる映像は、伝送された符号化データを、図１の復号部２１で復号処理した映像である。

復調部２０１及び解凍部２０２は、図５の映像補完部２２と同様であり、送信装置１０から圧縮・変調されて伝送された学習モデル・学習パラメータについて復調処理及び解凍処理を行って、学習モデル・学習パラメータを復元し、機械学習部２１０に出力する。

周辺視点映像入力部２０３は、復号部２１において復号された映像から、対象視点の映像に対してその周辺視点の映像を抽出し、視点内挿部２０５及びアップサンプル部２０６に出力する。

前後フレーム映像入力部２０４は、復号部２１において復号された映像から、視点内挿が行われるフレームの前後のフレームの映像を抽出し、アップサンプル部２０６に出力する。

視点内挿部２０５は、周辺視点映像に基づいて、視点の内挿処理を行い、対象視点の仮想ビュー（映像）を生成し、アップサンプル部２０６に出力する。

アップサンプル部２０６は、周辺視点映像入力部２０３、前後フレーム映像入力部２０４、及び視点内挿部２０５から入力されたそれぞれの映像について、アップサンプリングを行い、映像の解像度を高くする。

ブロック分割部２０７は、アップサンプル処理されたそれぞれの映像をブロックに分割する。ブロックとしては、例えば、１６×１６ピクセル（pixel）を単位ブロックとする。なお、単位ブロックのサイズは、３２×３２ピクセルとしてもよい。

入力画像生成部２０８は、機械学習部２１０及び／又は視点内挿補正部２１１の入力画像を作成する。入力画像は、機械学習により補正画像（補間画像）を予測するための元になる画像となる。図５の映像補完部２２と同様に、ブロック分割された各映像から、対象視点の映像に関連する複数のブロック映像（ブロック画像）をタイル状に並べて、図３（Ａ）に示される入力画像を作成する。

機械学習部２１０には、解凍部２０２で解凍された学習モデル・学習パラメータが入力され、このデータに基づいて、機械学習部２１０を学習済み機械学習部として機能させることができる。機械学習部２１０は、入力画像生成部２０８で生成された入力画像を補正するための学習モデル・学習パラメータを視点内挿補正部２１１に出力する。或いは、機械学習部２１０は、入力画像から、学習結果に基づいて出力画像（図３（Ｃ））を予測生成し、視点内挿補正部２１１に出力してもよい。

視点内挿補正部２１１は、機械学習部２１０からの最適の学習モデル・学習パラメータに基づいて、入力画像生成部２０８から出力される入力画像を受けて機械学習により視点内挿画像の補正をブロック毎に行う。或いは、機械学習部２１０から出力画像（予測画像）を受けて、視点内挿等の処理により作成された内挿画像を補正してもよい。視点内挿補正部２１１の出力は、例えば、図３（Ｃ）に示される８×８ピクセルの補間画像（補正画像）である。補正された画像は、表示映像を作成する際に不足する画像部分を補完することができる。

ブロック統合部２１２は、視点内挿補正部２１１でブロック毎に生成された補正画像（ブロック画像）を統合し、一枚の補正された視点内挿映像（対象視点の映像）を生成する。なお、補正された視点内挿映像は、機械学習の結果（学習モデル結果）により、オクルージョン領域が予測され補完されている。

平滑フィルタ２１４は、ブロック統合部２１２から入力された映像に対して、フィルタ処理を行う。ブロック境界に生じるノイズを平滑フィルタ処理により除去することができる。この平滑フィルタ２１４の出力が、受信装置２０の映像補完部２２の出力映像となる。

このように、学習モデル結果（機械学習による予測）を使用することにより、視点内挿映像の精度を向上させることができる。また、補正された画像は符号化・復号処理で失った画像情報も補完するから、出力映像の画質を向上させることができる。なお、ここでは視点内挿映像について説明したが、学習モデル結果の使用は、３次元モデルシーンの復号処理においても適用できる。

図１〜図６では、機械学習用データ（学習モデル及び学習パラメータ）が、映像符号化データと共に、送信装置から送信されてくることを想定した構成を示しているが、例えば、送信装置と受信装置がネットワークで接続されている送受信システムにおいて、コンテンツ視聴時に受信装置が自動的にコンテンツに対応した機械学習データのリクエストを行い、ネットワーク経由で学習モデルや学習パラメータ等のデータを取得する構成としてもよい。

（受信装置の学習モデルの最適化）
次に、ユーザー側（受信側）において、機械学習によって最適な学習モデル・学習パラメータを選択し、より適正な映像補完を行うことができる受信装置について説明する。一般に、映像のコンテンツや映像シーンによって、適した学習モデルや学習パラメータが異なると考えられている。

図７に、受信装置２０に設ける、学習モデル選択部２２０の一例のブロック図を示す。図７の学習モデル選択部２２０は、例えば、図５、図６の映像補完部２２において、解凍部２０２と機械学習部２１０の間に配置することができる。

学習モデル選択部２２０は、学習モデル・学習パラメータを蓄積し、その中から入力画像の補完に最も適切な学習モデル・学習パラメータを選択して、機械学習部２１０に出力する。学習モデル選択部２２０は、学習モデル・学習パラメータ蓄積用メモリ２２１と、入力画像解析部２２２と、学習モデル選択用機械学習部２２３とを備える。

学習モデル・学習パラメータ蓄積用メモリ２２１は、複数の学習モデル・学習パラメータ値を蓄積する。蓄積される学習モデル等は、例えば、送信装置（コンテンツ提供側）１０から送信され、復調部２０１及び解凍部２０２を経て、学習モデル・学習パラメータ蓄積用メモリ２２１に入力されたものであって良く、また、元々受信装置２０に準備されていた学習モデル等を蓄積してもよい。蓄積された学習モデル・学習パラメータは、指示に基づいて、学習モデル選択用機械学習部２２３に出力される。

入力画像解析部２２２は、入力画像（ここでは、コンテンツ提供側から送信され、復号部２１で復号された映像等）を解析する。例えば、入力された映像のコンテンツ内容を解析して映像ジャンルの分析等を行い、その結果を学習モデル選択用機械学習部２２３に出力する。

学習モデル選択用機械学習部２２３は、学習段階においては、例えば、入力画像解析部２２２での解析結果と出力画像或いは補完画像との対比等に基づいて、入力画像に適した学習モデル・学習パラメータの選択方法について機械学習を行う。入力画像がコンテンツ映像のジャンルを示す識別子を備えている場合は、識別子と出力画像或いは補完画像との対比に基づいて機械学習を行っても良い。なお、最適な学習モデルを逐次的に選択する学習モデルは、教師なし学習を行っても良いし、学習モデルをネットワーク経由でダウンロードしても良い。

学習モデル選択用機械学習部２２３は、学習後においては、入力画像解析部２２２での解析結果（入力画像のジャンル）、又はジャンルを示す識別子に基づいて、最適な学習モデル・学習パラメータを、学習モデル・学習パラメータ蓄積用メモリ２２１から選択して読み出し、機械学習部２１０へ出力する。

映像補完部２２は、機械学習部２１０で用いる機械学習データを、学習モデル選択用機械学習部２２３で選択された学習モデルと学習パラメータに切り替え、適切な学習モデルに基づいて機械学習部２１０での処理、すなわち、補正（補完）画像の生成を行い、入力画像から不足する情報を補完して出力画像とする。学習モデル・学習パラメータは、映像の内容（コンテンツ）が変わるごとに、又はシーンが変わるごとに切り替えてもよい。

ここでは、学習モデル選択部２２０は、図５、図６の映像補完部２２の一部として説明したが、一般に、機械学習により映像を補正・補完する受信装置において、適正な学習モデル・学習パラメータを用いるために利用することができる。

これまで、伝送・記録フォーマットがイメージベース（多視点映像やデプス画像）の場合であって、視点内挿をする場合を例として説明したが、本発明は、３次元モデルの符号化及び復号処理にも適用できる。

上記の実施の形態では、送信装置１０及び受信装置２０の構成と動作について説明したが、本発明はこれに限らず、学習モデル・学習パラメータの送信方法及び受信方法として構成されてもよい。また、送信装置１０及び受信装置２０からなる送受信システムとして構成されてもよい。

なお、上述した送信装置１０及び受信装置２０として機能させるためにコンピュータを好適に用いることができ、そのようなコンピュータは、送信装置１０及び受信装置２０の各機能を実現する処理内容を記述したプログラムを該コンピュータの記憶部に格納しておき、該コンピュータのＣＰＵによってこのプログラムを読み出して実行させることで実現することができる。なお、このプログラムは、コンピュータ読取り可能な記録媒体に記録可能である。

上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。

１０送信装置
１１入力部
１２映像編集部
１３符号化部
１４学習モデル作成部
２０受信装置
２１復号部
２２映像補完部
２３レンダリング部
２４表示部
１０１周辺視点映像入力部
１０２前後フレーム映像入力部
１０３視点内挿部
１０４アップサンプル部
１０５ブロック分割部
１０６入力画像生成部
１０７対象視点フレーム入力部
１０８ブロック分割部
１１０機械学習部
１１１学習モデル・パラメータ圧縮部
１１２変調部
１１３送信部
２０１復調部
２０２解凍部
２０３周辺視点映像入力部
２０４前後フレーム映像入力部
２０５視点内挿部
２０６アップサンプル部
２０７ブロック分割部
２０８入力画像生成部
２１０機械学習部
２１１視点内挿補正部
２１２ブロック統合部
２１３インペイント部
２１４平滑フィルタ

Claims

機械学習機能を有し、学習結果である学習モデル及び／又は学習パラメータを送信する送信装置。
請求項１に記載の送信装置であって、
映像を符号化し、符号化データを出力する符号化部と、
機械学習機能を有し、学習結果である学習モデル及び／又は学習パラメータを出力する学習モデル作成部と、を備えており、
前記学習モデル及び／又は学習パラメータは、前記符号化データを復号した映像から表示映像を作成する際に、不足する映像情報を生成する処理に用いられることを特徴とする、送信装置。
請求項２に記載の送信装置であって、
前記表示映像は、多視点映像から生成された視点内挿映像であることを特徴とする、送信装置。
請求項１乃至３のいずれか一項に記載の送信装置であって、
前記学習モデルと学習パラメータを、学習モデルモジュール識別子を有するヘッダと、パラメータ識別子及びパラメータ識別子に対応するパラメータ値を有するデータとを備えた伝送パケットにより送信することを特徴とする、送信装置。
請求項１乃至４のいずれか一項に記載の送信装置であって、
機械学習のための学習用画像は、視点内挿映像と、前記視点内挿映像の周辺視点映像、及び前後フレーム映像をアップサンプリングし、ブロック化したブロック画像を複数配置した構成であることを特徴とする、送信装置。
請求項１乃至５のいずれか一項に記載の送信装置であって、
映像の符号化データを送信するとともに、
前記学習モデル及び／又は学習パラメータを、受信側からのリクエストに応じて、ネットワーク経由で送信することを特徴とする、送信装置。
学習結果である学習モデル及び／又は学習パラメータを受信し、前記学習モデル及び／又は学習パラメータに基づいて学習済みの機械学習機能を取得する、受信装置。
請求項７に記載の受信装置であって、
映像の符号化データを復号する復号部と、
復号された映像から表示映像を作成する際に、機械学習により、不足する映像情報を生成する映像補完部と、を備えていることを特徴とする、受信装置。
請求項８に記載の受信装置であって、
前記表示映像は、多視点映像から生成された視点内挿映像である、受信装置。
請求項８又は９に記載の受信装置であって、
前記表示映像のオクルージョン領域を埋めるためのインペイント領域の画素値に、機械学習により生成された補正画像を利用することを特徴とする、受信装置。
請求項８又は９に記載の受信装置であって、
作成された映像をブロック画像ごとに機械学習により補正を行い、補正された前記ブロック画像をブロック統合し、表示映像を作成することを特徴とする、受信装置。
請求項７乃至１１のいずれか一項に記載の受信装置であって、
映像の符号化データを復号するとき、送信側に自動的に前記映像に対応した学習モデル及び／又は学習パラメータのリクエストを行い、ネットワーク経由で前記学習モデル及び／又は学習パラメータを取得することを特徴とする、受信装置。
請求項７乃至１２のいずれか一項に記載の受信装置であって、
学習モデル及び／又は学習パラメータを蓄積し、復号後の映像の解析結果に基づいて、映像に対応した前記学習モデル及び／又は学習パラメータを選択する学習モデル選択部を備えることを特徴とする、受信装置。