WO2020170785A1

WO2020170785A1 - 生成装置及びコンピュータプログラム

Info

Publication number: WO2020170785A1
Application number: PCT/JP2020/003955
Authority: WO
Inventors: 翔太折橋; 忍工藤; 隆一谷田; 清水　淳
Original assignee: 日本電信電話株式会社
Priority date: 2019-02-19
Filing date: 2020-02-03
Publication date: 2020-08-27
Also published as: JP2020136884A; US20220122297A1; JP7161107B2

Abstract

複数のフレームで構成される動画像から、動画像を構成する一又は複数のフレーム内の一部領域が補間された補間フレームを生成する補間部と、入力された複数のフレームが、一部領域が補間された補間フレームであるか否かを識別する識別部と、を備え、識別部は、入力された複数のフレームを時間的に識別する時間方向識別部と、入力された複数のフレームを空間的に識別する空間方向識別部と、時間方向識別部と、空間方向識別部との識別結果を統合する統合部とで構成される、生成装置。

Description

生成装置及びコンピュータプログラム

　本発明は、生成装置及びコンピュータプログラムに関する。

　画像内の一部が欠損した画像から、欠損が生じている領域（以下、「欠損領域」という。）を推定して、欠損領域を補間する画像補間技術が知られている。画像補間技術は、本来の目的である画像の補間だけでなく、画像の非可逆圧縮符号化において符号化を行う装置で画像を欠損させて、復号を行う装置で欠損領域を補間することで、送信すべき画像に要する符号量を削減する等の応用も可能である。

　また、深層学習を用いて欠損を含む静止画像を補間する技術として、敵対的生成ネットワーク（ＧＡＮ：Generative Adversarial Networks）の枠組みを用いた方法が提案されている（例えば、非特許文献１参照）。非特許文献１における技術では、欠損領域を有する画像と、欠損領域を示すマスクとの入力に応じて、欠損領域が補間された画像（以下、「補間画像」という。）を出力する補間ネットワークと、入力された画像が、補間画像又は欠損領域を有していない画像（以下、「非欠損画像」という。）のいずれの画像であるかを識別する識別ネットワークとの敵対的学習により、欠損領域を補間するネットワークを学習することができる。

　非特許文献１における補間ネットワーク及び識別ネットワークの構成を図９に示す。図９に示す欠損画像は、欠損領域を１、欠損が生じていない領域（以下、「非欠損領域」という。）を０で表現する欠損領域マスクＭ＾（＾はＭの上、以下同様）と、非欠損画像ｘとに基づいて生成される。図９に示す例では、画像の中央部分が欠損した欠損画像が生成されたとする。欠損画像は、欠損領域マスクＭ＾と、非欠損画像ｘとの要素積で以下の式（１）のように表すことができる。なお、以下の説明においても同様に、欠損画像は、式（１）のように表すことができるものとして説明する。

　補間ネットワークＧは、上記の式（１）のように表される欠損画像を入力として、補間画像を出力する。補間画像は、以下の式（２）のように表すことができる。なお、以下の説明においても同様に、補間画像は、式（２）のように表すことができるものとして説明する。

　識別ネットワークＤは、画像ｘを入力として、画像ｘが補間画像である確率Ｄ（ｘ）を出力する。このとき、敵対的生成ネットワークの学習の枠組みに基づき、以下の目的関数Ｖの最適化のため、補間ネットワークＧと識別ネットワークＤのパラメータは以下の式（３）に基づいて交互に更新される。

　ここで、式（３）におけるＸは教師データの画像群の分布を表し、Ｌ（ｘ，Ｍ＾）は以下の式（４）のように、画像ｘと補間画像の画素の二乗誤差である。

　また、式３に示すαは、補間ネットワークＧの学習において、画素の二乗誤差と、識別ネットワークＤから伝播した誤差との重みを表すパラメータである。

　次に、非特許文献１の技術を、複数枚の静止画像を、動画像を構成する各フレームとして時間方向に連続させた動画像に適用し、欠損画像を含む動画像を補間する技術を考える。簡易な方法として、動画像を構成する各フレームに対して、非特許文献１に示す技術を独立に適用することで動画像を補間する方法がある。しかしながら、この方法では、各フレームを独立した静止画像として欠損領域の補間を行うため、動画像として時間方向の連続性を持つ出力を得ることができない。

　そこで、図１０のように、欠損画像を含む動画像を補間ネットワークＧに、各フレームをチャネル方向に結合することで３次元データとして入力し、空間方向、時間方向いずれも整合性の取れた補間結果を出力させる方法が考えられる。このとき、識別ネットワークＤは静止画像の場合と同様に、入力された動画像が補間された動画像であるか欠損画像を含まない動画像であるかを識別するものとし、補間ネットワークＧと識別ネットワークＤのパラメータを交互に更新することで、動画像の補間を実現するネットワークを構築する。

D. Pathak, P. Krahenbuhl, J. Donahue, T. Darrell, A.A. Efros, "Context Encoders: Feature Learning by Inpainting", Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Graphics (cs.GR); Machine Learning (cs.LG), pp.2536-2544, 2016.

　上記の方法は、各フレーム内で空間方向の整合性を取りながら、時間方向の整合性を取れる画像を出力しなければならないため、補間ネットワークＧによる生成は静止画像に比べて難易度が高まる。一方で、識別ネットワークＤは、動画像単位で、入力された動画像が補間された動画像であるか欠損画像を含まない動画像であるかを識別するため、入力の情報量が豊富であり識別の難易度は１枚の静止画像の識別に比べて低くなる。敵対的生成ネットワークの枠組みで上記の補間ネットワークＧを学習する場合、識別ネットワークＤの学習が補間ネットワークＧの学習に先行して進みやすいことから、学習を成功に導くための学習スケジュールやネットワークのパラメータに関する調整が難しい。

　また、あるフレームの欠損領域と同一位置の領域が別フレームから参照可能な場合、補間ネットワークＧは参照可能な別フレームの重み付き平均を出力することで、特に時間方向での整合性を取りやすい。これにより、補間ネットワークＧは時間方向での平均による画像の出力を獲得しやすくなる。しかしながら、出力画像にはボケが生じてしまい画像内のテクスチャが消失して出力画像の品質が低下してしまうという問題があった。

　上記事情に鑑み、本発明は、動画像の補間を敵対的生成ネットワークの枠組みに適用した場合において、出力画像の品質を向上させることができる技術の提供を目的としている。

　本発明の一態様は、複数のフレームで構成される動画像から、前記動画像を構成する一又は複数のフレーム内の一部領域が補間された補間フレームを生成する補間部と、入力された複数のフレームが、一部領域が補間された補間フレームであるか否かを識別する識別部と、を備え、前記識別部は、入力された前記複数のフレームを時間的に識別する時間方向識別部と、入力された前記複数のフレームを空間的に識別する空間方向識別部と、前記時間方向識別部と、前記空間方向識別部との識別結果を統合する統合部とで構成される、生成装置である。

　本発明の一態様は、上記の生成装置であって、前記時間方向識別部は、入力された前記複数のフレームの補間領域のみが抽出されたフレームの時系列データを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力し、前記空間方向識別部は、入力された各時刻の入力されたフレームを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力する。

　本発明の一態様は、上記の生成装置であって、入力された前記複数のフレームに、フレーム内の一部又は全ての領域が補間されていない参照フレームが含まれる場合、前記時間方向識別部は、前記参照フレームと、前記補間フレームとを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力し、前記空間方向識別部は、入力された各時刻の前記複数のフレームのうち補間フレームを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力する。

　本発明の一態様は、上記の生成装置であって、前記参照フレームは、第１の参照フレーム及び第２の参照フレームの２枚であり、入力された前記複数のフレームは、少なくとも前記第１の参照フレーム、前記補間フレーム、第２の参照フレームの時系列順になっている。

　本発明の一態様は、上記の生成装置であって、前記識別部は、前記空間方向識別部と前記時間方向識別部が識別を行った結果の正答率に基づいて、前記空間方向識別部と前記時間方向識別部との重み付けに用いるパラメータを更新する。

　本発明の一態様は、上記の生成装置によって学習された補間部を備え、前記補間部は、動画像が入力されると、前記動画像を構成する一又は複数のフレーム内の一部領域が補間された補間フレームを生成する。

　本発明の一態様は、複数のフレームで構成される動画像から、前記動画像を構成する一又は複数のフレーム内の一部領域が補間された補間フレームを生成する補間ステップと、入力された複数のフレームが、一部領域が補間された補間フレームであるか否かを識別する識別ステップと、をコンピュータに実行させ、前記識別ステップにおいて、入力された前記複数のフレームを時間的に識別し、入力された前記複数のフレームを空間的に識別し、前記識別ステップにおける識別結果を統合する、コンピュータプログラムである。

　本発明により、動画像の補間を敵対的生成ネットワークの枠組みに適用した場合において、出力画像の品質を向上させることが可能となる。

第１の実施形態における画像生成装置の機能構成を表す概略ブロック図である。第１の実施形態における画像生成装置が行う学習処理の流れを示すフローチャートである。第１の実施形態における画像生成装置が行う欠損画像補間処理、画像分割処理及び識別処理の具体例を示す図である。第２の実施形態における画像生成装置の機能構成を表す概略ブロック図である。第２の実施形態における画像生成装置が行う学習処理の流れを示すフローチャートである。第２の実施形態における画像生成装置が行う欠損画像補間処理、画像分割処理及び識別処理の具体例を示す図である。第３の実施形態における画像生成装置の機能構成を表す概略ブロック図である。第３の実施形態における画像生成装置が行う学習処理の流れを示すフローチャートである。従来技術における補間ネットワーク及び識別ネットワークの構成を示す図である。従来技術における補間ネットワーク及び識別ネットワークの構成を示す図である。

　以下、本発明の一実施形態を、図面を参照しながら説明する。
　以下の説明では、畳み込みニューラルネットワークによる生成、識別の敵対的学習を前提とするが、本発明の学習対象は畳み込みニューラルネットワークに限られるものではない。すなわち、敵対的生成ネットワークで学習可能な画像の補間生成を行う任意の生成モデルおよび画像の識別問題を扱う任意の識別モデルに対して適用することができる。なお、本件発明について説明に用いている画像という言葉はフレームと置き換えてもよい。

（第１の実施形態）
　図１は、第１の実施形態における画像生成装置１００の機能構成を表す概略ブロック図である。
　画像生成装置１００は、バスで接続されたＣＰＵ（Central Processing Unit）やメモリや補助記憶装置などを備え、学習プログラムを実行する。学習プログラムの実行によって、画像生成装置１００は、欠損領域マスク生成部１１、欠損画像生成部１２、欠損画像補間部１３、補間画像識別部１４及び更新部１５を備える装置として機能する。なお、画像生成装置１００の各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。また、学習プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、学習プログラムは、電気通信回線を介して送受信されてもよい。

　欠損領域マスク生成部１１は、欠損領域マスクを生成する。具体的には、欠損領域マスク生成部１１は、動画像を構成する非欠損画像それぞれに異なる欠損領域マスクを生成してもよいし、共通の欠損領域マスクを生成してもよい。
　欠損画像生成部１２は、非欠損画像と、欠損領域マスク生成部１１によって生成された欠損領域マスクとに基づいて欠損画像を生成する。具体的には、欠損画像生成部１２は、動画像を構成する全ての非欠損画像と、欠損領域マスク生成部１１によって生成された欠損領域マスクとに基づいて複数の欠損画像を生成する。

　欠損画像補間部１３は、補間ネットワークＧ、すなわちＧＡＮにおける生成器により構成され、欠損画像における欠損領域を補間することによって補間画像を生成する。補間ネットワークＧは、例えば非特許文献１に示す技術で用いられるような畳み込みニューラルネットワークで実現される。具体的には、欠損画像補間部１３は、欠損領域マスク生成部１１によって生成された欠損領域マスクと、欠損画像生成部１２によって生成された複数の欠損画像とに基づいて、欠損画像における欠損領域を補間することによって複数の補間画像を生成する。

　補間画像識別部１４は、画像分割部１４１、識別部１４２及び識別結果統合部１４３で構成される。画像分割部１４１は、複数の補間画像を入力とし、入力された補間画像それぞれを補間領域の時系列画像と、各時刻の補間画像とに分割する。ここで、補間領域の時系列画像とは、各補間画像の補間領域のみが抽出された静止画像をチャネル方向に結合したデータである。

　識別部１４２は、時間方向識別ネットワークＤ_Ｔと、空間方向識別ネットワークＤ_Ｓ０～Ｄ_ＳＮ（０～ＮはＳの下付きであり、Ｎは１以上の整数）により構成される。時間方向識別ネットワークＤ_Ｔは、補間領域の時系列画像を入力し、入力された画像が補間画像である確率を出力する。空間方向識別ネットワークＤ_Ｓ０～Ｄ_ＳＮは、特定時刻の補間画像を入力とし、入力された画像が補間画像である確率を出力する。例えば、空間方向識別ネットワークＤ_Ｓ０は、時刻０の補間画像を入力とし、入力された画像が補間画像である確率を出力する。時間方向識別ネットワークＤ_Ｔと空間方向識別ネットワークＤ_Ｓ０～Ｄ_ＳＮは、例えば非特許文献１に示す技術で用いられるような畳み込みニューラルネットワークで実現すればよい。

　識別結果統合部１４３は、識別部１４２から出力された各確率を入力として、補間画像識別部１４へ入力された画像が補間画像である確率を出力する。

　図２は、第１の実施形態における画像生成装置１００が行う学習処理の流れを示すフローチャートである。
　欠損領域マスク生成部１１は、欠損領域マスクＭ＾を生成する（ステップＳ１０１）。
具体的には、欠損領域マスク生成部１１は、画面中央の領域やランダムに導出した領域等を欠損領域として、欠損領域を１、非欠損領域を０で表現する欠損領域マスクＭ＾を生成する。欠損領域マスク生成部１１は、生成した欠損領域マスクＭ＾を欠損画像生成部１２及び欠損画像補間部１３に出力する。

　欠損画像生成部１２は、外部から動画像を構成する複数の非欠損画像ｘと、欠損領域マスク生成部１１によって生成された欠損領域マスクＭ＾とを入力する。欠損画像生成部１２は、入力した複数の非欠損画像ｘと、欠損領域マスク生成部１１によって生成された欠損領域マスクＭ＾とに基づいて複数の欠損画像を生成する（ステップＳ１０２）。具体的には、欠損画像生成部１２は、非欠損画像ｘにおいて欠損領域マスクＭ＾により求められる領域を欠損させることによって欠損画像を生成する出力する。欠損領域マスクＭ＾を上記の２値マスク画像として表現する場合、欠損画像は上式（１）のように、非欠損画像ｘと欠損領域マスクＭ＾との要素積で表すことができる。

　欠損画像生成部１２は、生成した複数の欠損画像を欠損画像補間部１３に出力する。欠損画像生成部１２によって生成される複数の欠損画像は、図３に示すように、時系列順に並んでいる。図３に示すｎは、補間画像のフレーム番号を表し、ｎ＝０，１，…，Ｎ－１である。図３は、第１の実施形態における画像生成装置１００が行う欠損画像補間処理、画像分割処理及び識別処理の具体例を示す図である。

　欠損画像補間部１３は、欠損領域マスクＭ＾と、複数の欠損画像とを入力し、入力した欠損領域マスクＭ＾と、複数の欠損画像とに基づいて、欠損画像における欠損領域を補間することによって複数の補間画像を生成する（ステップＳ１０３）。欠損画像補間部１３は、生成した複数の補間画像を画像分割部１４１に出力する。画像分割部１４１は、欠損画像補間部１３から出力された複数の補間画像を用いて画像分割処理を行う（ステップＳ１０４）。具体的には、画像分割部１４１は、複数の補間画像を識別部１４２が有する識別ネットワークの入力単位に分割する。そして、画像分割部１４１は、複数の補間画像を入力として、補間領域の時系列画像、各時刻の補間画像を各識別ネットワークに出力する。

　例えば、画像分割部１４１は、図３に示すように、補間領域の時系列画像を時間方向識別ネットワークＤ_Ｔに出力し、時刻０の補間画像を空間方向識別ネットワークＤ_Ｓ０に出力し、時刻１の補間画像を空間方向識別ネットワークＤ_Ｓ１に出力し、時刻Ｎ－１の補間画像を空間方向識別ネットワークＤ_ＳＮ－１に出力する。

　ここで、補間画像を式（５）で表すとき、補間領域の時系列画像は式（６）で表すものとする。なお、各補間画像で補間領域が異なる場合は、各補間画像の補間領域の共通部分または和集合等を用いることができる。また、補間画像を式（５）で表すとき、時刻ｎの補間画像を式（７）で表すものとする。

　識別部１４２は、入力された補間領域の時系列画像及び各時刻の補間画像を用いて、各識別ネットワークへ入力された画像が補間画像である確率を出力する（ステップＳ１０５）。具体的には、識別部１４２が有する時間方向識別ネットワークＤ_Ｔは、補間領域の時系列画像を入力として、入力された画像が補間画像である確率を識別結果統合部１４３に出力する。なお、時間方向識別ネットワークＤ_Ｔにより得られる画像が補間画像である確率を以下の式（８）で表すものとする。識別部１４２が有する空間方向識別ネットワークＤ_Ｓ０～Ｄ_ＳＮはそれぞれ、時刻ｎの画像を入力として、入力された画像が補間画像である確率を時刻毎に識別結果統合部１４３に出力する。なお、空間方向識別ネットワークＤ_Ｓ０～Ｄ_ＳＮにより得られる画像が補間画像である確率を以下の式（９）で表すものとする。なお、空間方向識別ネットワークＤ_Ｓ０～Ｄ_ＳＮは、時刻ｎに応じて別のパラメータを持つネットワークとしても、共通のパラメータを持つネットワークとしても良い。

　識別結果統合部１４３は、識別部１４２から出力された各確率を入力として、以下の式（１０）を用いて統合して得られた値を、補間画像識別部１４への入力画像に対する最終的な確率として出力する（ステップＳ１０６）。

　なお、式（１０）におけるＷ_Ｔ及びＷ_ｓｎは、事前に決定された重み付けのパラメータ（以下、「重みパラメータ」という。）である。
　更新部１５は、識別ネットワークＤに識別されにくく、かつ欠損画像に対応する非欠損画像から画素値が大きく離れない補間画像を得るように、補間ネットワークＧのパラメータを更新する（ステップＳ１０７）。
　更新部１５は、識別ネットワークＤが補間画像と非欠損画像を識別するように、識別ネットワークＤのパラメータを更新する（ステップＳ１０８）。

　なお、これらの更新処理は、例えば非特許文献１と同様に、生成ネットワーク更新処理を補間画像とそれに対応する非欠損画像の画素の二乗誤差および識別ネットワークとの敵対的学習により伝播される誤差、識別ネットワーク更新処理を識別ネットワークの出力する値と正解値との相互情報量に基づき行うとすると、下記のように目的関数Ｖの最適化として以下の式（１１）のように定式化される。更新部１５は、目的関数Ｖの最適化のため、補間ネットワークＧと識別ネットワークＤのパラメータを以下の式（１１）に基づいて交互に更新する。

　ここで、Ｘは教師データの画像群の分布を表し、Ｌ（ｘ，Ｍ＾）は上式（４）の通り、画像ｘと補間画像の画素の二乗誤差である。また、αは補間ネットワークの学習において画素の二乗誤差と識別ネットワークから伝播した誤差の重みを表すパラメータである。なお、各パラメータの更新においては、識別ネットワークの正答率により更新対象とするネットワークを学習の反復毎に変更する、識別ネットワークの中間層の二乗誤差の最小化を生成ネットワークの目的関数に含める等、任意の敵対的生成ネットワーク、およびニューラルネットワークの学習に関する従来技術を適用することができる。

　その後、画像生成装置１００は、学習終了条件を満たすか否かを判定する（ステップＳ１０９）。学習の終了は、予め定義した反復回数分だけ実行されたことであってもよいし、誤差関数の推移により判定してもよい。学習終了条件を満たされた場合（ステップＳ１０９－ＹＥＳ）、画像生成装置１００は図２の処理を終了する。
　一方、学習終了条件を満たされていない場合（ステップＳ１０９－ＮＯ）、画像生成装置１００はステップＳ１０１以降の処理を繰り返し実行する。これにより、画像生成装置１００は、補間ネットワークＧの学習を行う。

　ここで、上記の学習処理によって学習された補間ネットワークＧを用いて、動画像を入力すると補間された動画像を出力する補間画像生成装置について説明する。補間画像生成装置は、画像入力部と、欠損画像補間部とを備える。画像入力部は、外部から欠損画像を含む動画像を入力する。欠損画像補間部は、画像生成装置１００における欠損画像補間部１３と同様の構成であり、画像入力部を介して動画像を入力する。欠損画像補間部は、入力された動画像を補間することによって、補間された動画像を出力する。なお、補間画像生成装置は、単体の装置として構成されてもよいし、画像生成装置１００内に設けられてもよい。

　以上のように構成された画像生成装置１００は、識別ネットワークを時間方向のみから識別するネットワークと空間方向のみから識別するネットワークに分割することで、識別ネットワークの学習を意図的に難化させ、補間ネットワークＧとの敵対的学習を行いやすくすることができる。特に、従来技術では、参照可能な領域の重み付き平均を出力するとして補間ネットワークＧが学習されやすく、フレーム単位でのテクスチャが消失しやすいという課題があったのに対し、本発明のように空間方向識別ネットワークＤ_Ｓ０～Ｄ_ＳＮを導入することにより、空間方向に整合性が取れる補間画像を出力する学習となるよう補間ネットワークＧのパラメータを取得できる。その結果、テクスチャの消失を防止することができ、補間ネットワークＧの補間精度を向上させることができる。そのため、動画像の補間を敵対的生成ネットワークの枠組みに適用した場合において、出力画像の品質の精度を向上させることが可能になる。

　＜変形例＞
　補間画像識別部１４における空間方向識別ネットワークＤ_Ｓ０～Ｄ_ＳＮは、時刻毎に別のネットワークとして示されているが、共通のネットワークを用いて入力から出力を各時刻で導出してもよい。

（第２の実施形態）
　第２の実施形態は、第１の実施形態と欠損画像補間処理、画像分割処理および識別結果統合処理が異なる。第１の実施形態では、図３に示されるように動画像を構成する全ての画像に欠損領域が存在することを前提としていた。しかしながら、動画像を構成する画像内の全ての領域が非欠損領域の画像（以下、「参照画像」という。）が存在する場合も想定される。そこで、第２の実施形態では、動画像を構成する画像に参照画像が含まれる場合の学習方法について説明する。

　図４は、第２の実施形態における画像生成装置１００ａの機能構成を表す概略ブロック図である。
　画像生成装置１００ａは、バスで接続されたＣＰＵやメモリや補助記憶装置などを備え、学習プログラムを実行する。学習プログラムの実行によって、画像生成装置１００ａは、欠損領域マスク生成部１１、欠損画像生成部１２、欠損画像補間部１３ａ、補間画像識別部１４ａ、更新部１５及び画像判別部１６を備える装置として機能する。なお、画像生成装置１００ａの各機能の全て又は一部は、ＡＳＩＣやＰＬＤやＦＰＧＡ等のハードウェアを用いて実現されてもよい。また、学習プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、学習プログラムは、電気通信回線を介して送受信されてもよい。

　画像生成装置１００ａは、欠損画像補間部１３及び補間画像識別部１４に代えて欠損画像補間部１３ａ及び補間画像識別部１４ａを備える点、画像判別部１６を新たに備える点で画像生成装置１００と構成が異なる。画像生成装置１００ａは、他の構成については画像生成装置１００と同様である。そのため、画像生成装置１００ａ全体の説明は省略し、欠損画像補間部１３ａ、補間画像識別部１４ａ及び画像判別部１６について説明する。

　画像判別部１６は、非欠損画像及び参照画像情報を入力し、入力した参照画像情報に基づいて、動画像を構成する非欠損画像のうちいずれの非欠損画像を参照画像とするのかを判別する。参照画像情報は、参照画像とする非欠損画像を特定するための情報であり、例えば動画像を構成する非欠損画像のうち何番目の非欠損画像を参照画像とするのかを示す情報である。

　欠損画像補間部１３ａは、補間ネットワークＧ、すなわちＧＡＮにおける生成器により構成され、欠損画像における欠損領域を補間することによって補間画像を生成する。具体的には、欠損画像補間部１３ａは、欠損領域マスク生成部１１によって生成された欠損領域マスクと、欠損画像生成部１２によって生成された複数の欠損画像と、参照画像とに基づいて、欠損画像における欠損領域を補間することによって複数の補間画像を生成する。

　補間画像識別部１４ａは、画像分割部１４１ａ、識別部１４２ａ及び識別結果統合部１４３で構成される。画像分割部１４１ａは、複数の補間画像及び参照画像を入力とし、入力された補間画像それぞれを補間領域の時系列画像と、各時刻の補間画像とに分割し、参照画像を補間領域の時系列画像にのみ分割する。このように、画像分割部１４１ａは、参照画像については、時間方向識別ネットワークＤ_Ｔにのみ参照画像を入力する。第２の実施形態における補間領域の時系列画像は、各補間画像及び参照画像から補間領域のみが抽出された静止画像をチャネル方向に結合したデータである。参照画像には補間領域は存在しないが、他の補間画像における補間領域が参照画像から抽出されて補間領域の時系列画像として用いられる。

　識別部１４２ａは、時間方向識別ネットワークＤ_Ｔと、空間方向識別ネットワークＤ_Ｓ０～Ｄ_ＳＮにより構成される。時間方向識別ネットワークＤ_Ｔは、補間領域の時系列画像及び参照画像の時系列画像を入力し、入力された画像が補間画像である確率を出力する。
空間方向識別ネットワークＤ_Ｓ０～Ｄ_ＳＮは第１の実施形態における同名の機能部と同様の処理を行う。

　図５は、第２の実施形態における画像生成装置１００ａが行う学習処理の流れを示すフローチャートである。図２と同様の処理については図５において図２と同様の符号を付して説明を省略する。
　画像判別部１６は、非欠損画像及び参照画像情報を入力し、入力した参照画像情報に基づいて、動画像を構成する非欠損画像のうちいずれの非欠損画像を参照画像とするのかを判別する（ステップＳ２０１）。ここでは、一例として、動画像を構成する非欠損画像のうち、時系列順で最古（最も過去）の非欠損画像と最新（最も未来）の非欠損画像が参照画像とする情報が参照画像情報に含まれていたとする。この場合、画像判別部１６は、時系列順で最も過去の非欠損画像と最も未来の非欠損画像を参照画像として、欠損画像補間部１３ａに出力する。また、画像判別部１６は、参照画像情報に含まれていなかった非欠損画像については欠損画像生成部１２に出力する。これにより、欠損画像生成部１２に出力された非欠損画像は、欠損画像として欠損画像補間部１３ａに入力される。ここで、一例として、動画像を構成する非欠損画像のうち、時系列順で最古の非欠損画像と最新の非欠損画像を用いた理由は、図６のような内挿の補間ネットワークＧの構成で補間を有利に行いやすいためである。すなわち、補間する対象の画像を参照画像で時系列的に挟むためである。例えば、参照画像１→参照画像２→補間対象画像という時系列であれば、未来若しくは過去を予測した補間ということになってしまうため、時系列的に挟み込むことで補間精度の向上を図っている。

　欠損画像補間部１３ａに入力される画像は、図６に示すように、非欠損画像と欠損画像とが混在している。図６は、第２の実施形態における画像生成装置が行う欠損画像補間処理、画像分割処理及び識別処理の具体例を示す図である。欠損画像補間部１３ａは、欠損領域マスクＭ＾と、複数の欠損画像と、参照画像とを入力し、入力した欠損領域マスクＭ＾と、複数の欠損画像と、参照画像とに基づいて、過去と未来の参照画像から中間時刻の欠損画像の欠損領域を生成する補間ネットワークを構築し、補間ネットワークを再帰的に適用することで欠損画像補間処理を実現する（ステップＳ２０２）。このとき、各補間ネットワークのパラメータは共通のものを用いても、異なるものを用いても良い。欠損画像補間部１３ａは、生成した複数の補間画像を及び参照画像を画像分割部１４１ａに出力する。

　画像分割部１４１ａは、欠損画像補間部１３ａから出力された複数の補間画像及び参照画像を用いて画像分割処理を行う（ステップＳ２０３）。具体的には、画像分割部１４１ａは、複数の補間画像を識別部１４２ａが有する識別ネットワークの入力単位に分割する。そして、画像分割部１４１ａは、複数の補間画像及び参照画像を入力として、補間領域の時系列画像、各時刻の補間画像を各識別ネットワークに出力する。第２の実施形態では、時間方向識別ネットワークＤ_Ｔで出力される補間領域の時系列画像に、参照画像で補間領域に対応する領域も含めるものとする。また、空間方向識別ネットワークＤ_Ｓ０～Ｄ_ＳＮに入力される各時刻の画像は参照画像を含まない、すなわちｎ＝１，２，…，Ｎ－２である。

　例えば、画像分割部１４１ａは、図６に示すように、補間領域の時系列画像を時間方向識別ネットワークＤ_Ｔに出力し、時刻１の補間画像を空間方向識別ネットワークＤ_Ｓ１に出力し、時刻２の補間画像を空間方向識別ネットワークＤ_Ｓ２に出力し、時刻Ｎ－２の補間画像を空間方向識別ネットワークＤ_ＳＮ－２に出力する。図６に示すように、時間方向識別ネットワークＤ_Ｔにのみ、参照画像の一部の画像が出力される。すなわち、時間方向識別ネットワークＤ_Ｔは、参照画像及び補間画像における補間領域の時系列画像を用いて、入力された画像が補間画像である確率を識別結果統合部１４３に出力する。

　識別結果統合部１４３は、識別部１４２ａから出力された各確率を入力として、以下の式（１２）を用いて統合して得られた値を、補間画像識別部１４ａへの入力画像に対する最終的な確率として出力する（ステップＳ２０４）。

　その後、学習終了条件を満たされるまで学習がなされることによって、画像生成装置１００ａは、補間ネットワークＧの学習を行う。次に、上記の学習処理によって学習された補間ネットワークＧを用いて、動画像を入力すると補間された動画像を出力する補間画像生成装置について説明する。補間画像生成装置は、画像入力部と、欠損画像補間部とを備える。画像入力部は、外部から欠損画像を含む動画像を入力する。欠損画像補間部は、画像生成装置１００における欠損画像補間部１３ａと同様の構成であり、画像入力部を介して動画像を入力する。欠損画像補間部は、入力された動画像を補間することによって、補間された動画像を出力する。なお、補間画像生成装置は、単体の装置として構成されてもよいし、画像生成装置１００ａ内に設けられてもよい。

　以上のように構成された画像生成装置１００ａは、非欠損画像を参照画像として学習に用いる構成とし、非欠損画像を学習に用いる場合には時間方向識別ネットワークＤ_Ｔにのみ参照画像を入力している。従来技術の拡張では、参照画像が存在する場合、参照画像の重み付き和を補間ネットワークが出力することで空間方向のテクスチャの消失が生じやすくなるのに対して、本発明では参照画像が時間方向の整合性の識別にしか適用されないため、テクスチャの消失が発生しにくくなる。したがって、補間ネットワークＧの補間精度を向上させることができる。そのため、動画像の補間を敵対的生成ネットワークの枠組みに適用した場合において、出力画像の品質の精度を向上させることが可能になる。

＜変形例＞
　上記では過去の１フレームと未来の１フレームを参照画像として用いる構成を示したが、参照画像の与え方はこれに限るものではない。すなわち、例えば過去の複数枚の非欠損画像が参照画像であってもよいし、動画像を構成する画像のうち中間時刻の非欠損画像が参照画像であってもよい。

（第３の実施形態）
　第３の実施形態では、画像生成装置１００が、補間ネットワーク更新処理及び識別ネットワーク更新処理における重みパラメータを変更する。

　図７は、第３の実施形態における画像生成装置１００ｂの機能構成を表す概略ブロック図である。
　画像生成装置１００ｂは、バスで接続されたＣＰＵやメモリや補助記憶装置などを備え、学習プログラムを実行する。学習プログラムの実行によって、画像生成装置１００ｂは、欠損領域マスク生成部１１、欠損画像生成部１２、欠損画像補間部１３、補間画像識別部１４ｂ、更新部１５及び重みパラメータ決定部１７を備える装置として機能する。なお、画像生成装置１００ｂの各機能の全て又は一部は、ＡＳＩＣやＰＬＤやＦＰＧＡ等のハードウェアを用いて実現されてもよい。また、学習プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、学習プログラムは、電気通信回線を介して送受信されてもよい。

　画像生成装置１００ｂは、補間画像識別部１４に代えて補間画像識別部１４ｂを備える点、重みパラメータ決定部１７を新たに備える点で画像生成装置１００と構成が異なる。
画像生成装置１００ｂは、他の構成については画像生成装置１００と同様である。そのため、画像生成装置１００ｂ全体の説明は省略し、補間画像識別部１４ｂ及び重みパラメータ決定部１７について説明する。
　重みパラメータ決定部１７は、各識別ネットワークへ入力された画像が補間画像である確率を入力とし、学習時に用いられる重みパラメータを決定する。具体的には、重みパラメータ決定部１７は、識別部１４２によって得られた各識別ネットワーク（時間方向識別ネットワークＤ_Ｔ及び空間方向識別ネットワークＤ_Ｓ０～Ｄ_ＳＮ）へ入力された画像が補間画像である確率を用いて各識別ネットワークの正答率を算出し、算出した各識別ネットワークの正答率に基づいて学習時に用いられる重みパラメータを決定する。

　補間画像識別部１４ｂは、画像分割部１４１、識別部１４２及び識別結果統合部１４３ｂで構成される。識別結果統合部１４３ｂは、識別部１４２から出力された各確率を入力として、補間画像識別部１４ｂへ入力された画像が補間画像である確率を出力する。この際、補間画像識別部１４ｂは、補間画像識別部１４ｂへ入力された画像が補間画像である確率を算出する。ここで、重みパラメータは、重みパラメータ決定部１７によって得られた重みパラメータを用いてもよい。なお、正答率が低い識別ネットワークＤが重くなる重みをつける場合、識別ネットワークＤの識別が不利になるため、統合の際は重みを逆転させるか、固定値を用いる必要がある。

　図８は、第３の実施形態における画像生成装置１００ｂが行う学習処理の流れを示すフローチャートである。図２と同様の処理については図８において図２と同様の符号を付して説明を省略する。
　重みパラメータ決定部１７は、領域別識別処理の結果得られた各ネットワークへの入力が補間画像である確率を用いて、各識別ネットワークの正答率を算出する。正答率の導出には、過去の学習の反復で導出された正答率を踏まえても良い。導出された正答率に基づき、補間ネットワーク更新処理、識別ネットワーク更新処理のいずれかまたは両方で適用する重みパラメータを決定する（ステップＳ３０１）。例えば、重みパラメータ決定部１７は、補間ネットワークＧの学習を促進する場合には正答率が高い識別ネットワークに対応する重みパラメータの値が相対的に大きくなるように重みパラメータを決定し、識別ネットワークの学習を促進する場合には正答率が低い識別ネットワークに対応する重みパラメータの値を相対的に大きくなるように重みパラメータを決定する。このように、重みパラメータ決定部１７は、学習を促進させる対象によって、重みパラメータを決定する対象が異なる。

　更新部１５は、識別ネットワークＤに識別されにくく、かつ欠損画像に対応する非欠損画像から画素値が大きく離れない補間画像を得るように、補間ネットワークＧのパラメータを更新する（ステップＳ３０２）。例えば、更新部１５は、補間ネットワークの学習を促進する場合は、正答率が高い識別ネットワークに対応する重みパラメータの値を相対的に大きくして、補間ネットワーク更新処理を実施する。具体的には、図３のような第１の実施形態を想定する場合、時間方向識別ネットワークＤ_Ｔ及び空間方向識別ネットワークＤ_Ｓ０～Ｄ_ＳＮの正答率がそれぞれａ_Ｔ及びａ_ＳＮで表されるとき、更新部１５は以下の式（１３）として補間ネットワーク更新処理を実施する。

　更新部１５は、識別ネットワークＤが補間画像と非欠損画像を識別するように、識別ネットワークＤのパラメータを更新する（ステップＳ３０３）。例えば、更新部１５は、識別ネットワークの学習を促進する場合は、正答率が低い識別ネットワークに対応する重みパラメータの値を相対的に大きくして、識別ネットワーク更新処理を実施する。具体的には、図３のような第１の実施形態を想定する場合、時間方向識別ネットワークＤ_Ｔ及び空間方向識別ネットワークＤ_Ｓ０～Ｄ_ＳＮの正答率がそれぞれａ_Ｔ及びａ_ＳＮで表されるとき、更新部１５は以下の式（１４）として補間ネットワーク更新処理を実施する。なお、本処理の適用対象とするネットワークは、例えば各ネットワークの誤差関数の値に基づいて決定すれば良い。

　以上のように構成された画像生成装置１００ｂは、分割された各識別ネットワークの教師データに対する正答率を考慮することにより、補間ネットワークが苦手としている領域、若しくは識別ネットワークが得意としている領域を抽出することができる。この情報を用いて、補間ネットワーク更新処理、若しくは識別ネットワーク更新処理における更新時の重みパラメータを制御することにより、補間ネットワーク若しくは識別ネットワークの学習を意図的に有利に進めることが可能となる。その結果、制御方法により学習を安定化させることができる。

　以下、各実施形態に共通する変形例について説明する。
　上記の各実施形態では、学習に用いる画像として欠損画像を例に説明したが、学習に用いる画像は欠損画像に限られない。例えば、学習に用いる画像は、アップコンバートされた画像であってもよい。

　以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１１…欠損領域マスク生成部，　１２…欠損画像生成部，　１３、１３ａ…欠損画像補間部，　１４、１４ａ、１４ｂ…補間画像識別部，　１５…更新部，　１６…画像判別部，　１７…重みパラメータ決定部，１００、１００ａ、１００ｂ…画像生成装置，　１４１、１４１ａ…画像分割部，　１４２、１４２ａ…識別部，　１４３、１４３ｂ…識別結果統合部

Claims

　複数のフレームで構成される動画像から、前記動画像を構成する一又は複数のフレーム内の一部領域が補間された補間フレームを生成する補間部と、
　入力された複数のフレームが、一部領域が補間された補間フレームであるか否かを識別する識別部と、
　を備え、
　前記識別部は、
　入力された前記複数のフレームを時間的に識別する時間方向識別部と、
　入力された前記複数のフレームを空間的に識別する空間方向識別部と、
　前記時間方向識別部と、前記空間方向識別部との識別結果を統合する統合部とで構成される、生成装置。
　前記時間方向識別部は、入力された前記複数のフレームの補間領域のみが抽出されたフレームの時系列データを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力し、
　前記空間方向識別部は、入力された各時刻の入力されたフレームを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力する、請求項１に記載の生成装置。
　入力された前記複数のフレームに、フレーム内の一部又は全ての領域が補間されていない参照フレームが含まれる場合、
　前記時間方向識別部は、前記参照フレームと、前記補間フレームとを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力し、
　前記空間方向識別部は、入力された各時刻の前記複数のフレームのうち補間フレームを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力する、請求項１に記載の生成装置。
　前記参照フレームは、第１の参照フレーム及び第２の参照フレームの２枚であり、
　入力された前記複数のフレームは、少なくとも前記第１の参照フレーム、前記補間フレーム、第２の参照フレームの時系列順になっている、請求項３に記載の生成装置。
　前記識別部は、前記空間方向識別部と前記時間方向識別部が識別を行った結果の正答率に基づいて、前記空間方向識別部と前記時間方向識別部との重み付けに用いるパラメータを更新する、請求項１から４のいずれか一項に記載の生成装置。
　請求項１から請求項５のいずれか一項に記載の生成装置によって学習された補間部を備え、
　前記補間部は、動画像が入力されると、前記動画像を構成する一又は複数のフレーム内の一部領域が補間された補間フレームを生成する生成装置。
　複数のフレームで構成される動画像から、前記動画像を構成する一又は複数のフレーム内の一部領域が補間された補間フレームを生成する補間ステップと、
　入力された複数のフレームが、一部領域が補間された補間フレームであるか否かを識別する識別ステップと、
　をコンピュータに実行させ、
　前記識別ステップにおいて、
　入力された前記複数のフレームを時間的に識別し、
　入力された前記複数のフレームを空間的に識別し、
　前記識別ステップにおける識別結果を統合する、コンピュータプログラム。