JP2018132855A

JP2018132855A - 画像スタイル変換装置、画像スタイル変換方法および画像スタイル変換プログラム

Info

Publication number: JP2018132855A
Application number: JP2017024688A
Authority: JP
Inventors: 啓司柳井; Keiji Yanai
Original assignee: University of Electro Communications NUC
Current assignee: University of Electro Communications NUC
Priority date: 2017-02-14
Filing date: 2017-02-14
Publication date: 2018-08-23

Abstract

【課題】リアルタイム処理を可能としつつ、任意のスタイルに変換することのできる、画像スタイル変換技術を提供する。【解決手段】画像スタイル変換装置１は、変換元となる画像を入力する変換元画像入力部１０１と、スタイル参照用の画像を入力するスタイル参照用画像入力部１０４と、変換元となる画像を事前の学習結果に基づいて変換後の画像に変換する、畳み込みニューラルネットワークによるエンコーダ・デコーダ・ネットワーク１０２と、スタイル参照用の画像のスタイルを示すスタイル・ベクトルを抽出する、畳み込みニューラルネットワークによるスタイル抽出ネットワーク１０５と、スタイル抽出ネットワークにより抽出されたスタイル・ベクトルを、エンコーダ・デコーダ・ネットワークの中間層に結合する結合部１０８と、エンコーダ・デコーダ・ネットワークから変換後の画像を取得して出力する変換後画像出力部１０９とを備える。【選択図】図３

Description

本発明は、画像スタイル変換装置、画像スタイル変換方法および画像スタイル変換プログラムに関する。

絵画等の画像が、その画像に含まれる対象物に対応するコンテンツと、表現の手法に対応するスタイルとに分離可能であることが知られている。そして、畳み込みニューラルネットワーク（Convolutional Neural Networks：ＣＮＮ）を用いることにより、任意の写真等の画像から、コンテンツを残しつつ、元のスタイルを著名な画家の画風等のスタイルに変換する技術が提案されている（非特許文献１〜４等を参照）。

非特許文献１に開示される技術は、反復処理を必要とすることから、画像１枚についての処理時間が長く（例：５分程度）、リアルタイムの処理は困難であった。

非特許文献２に開示される技術は、フィードフォワード処理により処理時間を短縮し、リアルタイムの処理を可能としているが、学習された１種類のスタイルについてしか適用できないものであった。

非特許文献３に開示される技術は、リアルタイム処理を可能としつつ、３０種類程度の学習済のスタイルからスタイルを選択可能としているが、任意のスタイルに変換することはできなかった。

非特許文献４に開示される技術は、コンテンツ特徴とスタイル特徴から変換後の画像の特徴マップを生成し、事前に学習した逆変換ネットワークによって特徴マップから画像を復元することで、スタイルが入れ替わった画像を得ている。しかし、特徴マップの生成に若干時間がかかり（１秒程度）、高速ではあるが厳密なリアルタイム処理は難しい。また、本来難しい逆変換が行われているため、生成される画像のクオリティーを高めるのは困難である。

L. A. Gatys et al.: Image style transfer using convolutional neural networks, CVPR, 2016. (ArXiv:1508.06576, 2015/08) J. Johnson et al.: Perceptual Losses for Real-Time Style Transfer and Super-Resolution, ECCV, 2016. (ArXiv: 1603.08155) V. Dumoulin et al.: A Learned Representation for Artistic Style, ArXiv 1610.07629, 2016/10. Tian Qi Chen et al.: Fast Patch-based Style Transfer of Arbitrary Style, arXiv 1612.04337v1 [cs.CV] 13 Dec 2016.

上述したように、従来、リアルタイム処理を可能としつつ、任意のスタイルに変換することは困難であり、その解決が要望されていた。

本発明は上記の従来の問題点に鑑み提案されたものであり、その目的とするところは、リアルタイム処理を可能としつつ、任意のスタイルに変換することのできる、画像スタイル変換技術を提供することにある。

上記の課題を解決するため、本発明にあっては、変換元となる画像を入力する第１の画像入力部と、スタイル参照用の画像を入力する第２の画像入力部と、前記第１の画像入力部により入力された変換元となる画像を、事前の学習結果に基づいて変換後の画像に変換する、畳み込みニューラルネットワークによるエンコーダ・デコーダ・ネットワークと、前記第２の画像入力部により入力されたスタイル参照用の画像のスタイルを示すスタイル・ベクトルを抽出する、畳み込みニューラルネットワークによるスタイル抽出ネットワークと、前記スタイル抽出ネットワークにより抽出されたスタイル・ベクトルを、前記エンコーダ・デコーダ・ネットワークの中間層に結合する結合部と、前記エンコーダ・デコーダ・ネットワークから変換後の画像を取得して出力する画像出力部とを備える。

本発明にあっては、リアルタイム処理を可能としつつ、任意のスタイルに変換することができる。

本発明の一実施形態にかかる画像スタイル変換装置の学習時における機能構成例を示す図（その１）である。本発明の一実施形態にかかる画像スタイル変換装置の学習時における機能構成例を示す図（その２）である。本発明の一実施形態にかかる画像スタイル変換装置の変換時における機能構成例を示す図（その１）である。本発明の一実施形態にかかる画像スタイル変換装置の変換時における機能構成例を示す図（その２）である。本発明の一実施形態にかかる画像スタイル変換装置の変換時における機能構成例を示す図（その３）である。画像スタイル変換装置のハードウェア構成例を示す図である。学習時の処理例を示すフローチャートである。変換時の処理例を示すフローチャート（その１）である。変換元画像、スタイル参照画像および変換後画像の例を示す図である。変換時の処理例を示すフローチャート（その２）である。

以下、本発明の好適な実施形態につき説明する。

＜構成＞
図１は本発明の一実施形態にかかる画像スタイル変換装置１の学習時における機能構成例を示す図である。図１において、画像スタイル変換装置１は、変換元画像入力部１０１とエンコーダ・デコーダ・ネットワーク１０２とロス・ネットワーク１０３とを備えている。また、画像スタイル変換装置１は、スタイル参照用画像入力部１０４とスタイル抽出ネットワーク１０５と圧縮部１０６と複製部１０７と結合部１０８とを備えている。

変換元画像入力部１０１は、学習用の変換元画像（例えば、８万枚程度）を逐次に入力する機能を有している。学習用の変換元画像は、変換時に与えられる可能性のある変換元画像をカバーできるような、偏りのない広範な画像が選ばれる。

エンコーダ・デコーダ・ネットワーク１０２は、変換元画像入力部１０１により入力された変換元画像に対して変換を行い、変換後画像を出力する機能を有している。エンコーダ・デコーダ・ネットワーク１０２は、畳み込みニューラルネットワークによる複数のエンコード層（畳み込み層）convと、複数のデコード層deconvとを有している。また、複数のエンコード層とデコード層の中間に、複製後スタイル・ベクトルが結合される結合層Ｌｃと、その直後にデータ（Feature Maps）のサイズが結合前のサイズに戻される調整層Ｌｔとが設けられている。各エンコード層は、１以上の畳み込み処理部と、プーリング処理部とを有し、各層の結果のデータ（Feature Maps）が内部的に保持される。各デコード層は、エンコード層と逆方向の変換を行う。結合層Ｌｃと調整層Ｌｔは、例えば、図示のようにエンコード層とデコード層の繋ぎ目に設けられるものでもよいし、繋ぎ目よりも前のエンコード層の途中に設けられるものでもよい。

ロス・ネットワーク１０３は、学習済の畳み込みニューラルネットワークによるものであり、評価対象の画像と、コンテンツ参照用の画像と、スタイル参照用の画像とを入力する。そして、ロス・ネットワーク１０３は、評価対象の画像のコンテンツとコンテンツ参照用の画像のコンテンツとの差異（コンテンツ・ロス）と、評価対象の画像のスタイルとスタイル参照用の画像のスタイルとの差異（スタイル・ロス）とを出力する機能を有している。コンテンツ・ロスとスタイル・ロスはエンコーダ・デコーダ・ネットワーク１０２にフィードバックされ、コンテンツ・ロスとスタイル・ロスが最小となるようにバックプロパゲーションにより最適化が行われる。

ロス・ネットワーク１０３において、コンテンツについては、例えば、畳み込みニューラルネットワークのいずれかの中間層のデータが比較に用いられる。スタイルについては、例えば、畳み込みニューラルネットワークの複数の中間層のデータのチャンネル相関により得られるグラム行列（Gram Matrix）が比較に用いられる。スタイルについては、チャンネル相関に代えて、各チャンネルの平均、分散等の、特徴マップ（Feature Maps）のチャンネルに関する分布統計量が用いられてもよい。評価対象の画像にはエンコーダ・デコーダ・ネットワーク１０２の出力が用いられる。コンテンツ参照用の画像は変換元画像入力部１０１により入力された変換元画像が用いられる。スタイル参照用の画像はスタイル参照用画像入力部１０４により入力されたスタイル参照用画像が用いられる。

スタイル参照用画像入力部１０４は、学習用のスタイル参照用画像（例えば、５千枚程度）を逐次に入力する機能を有している。学習用のスタイル参照用画像は、変換時に与えられる可能性のあるスタイル参照用画像をカバーできるような、偏りのない広範な画像が選ばれる。

スタイル抽出ネットワーク１０５は、ロス・ネットワーク１０３と同様に、学習済の畳み込みニューラルネットワークによるものである。スタイル抽出ネットワーク１０５は、入力されたスタイル参照用画像からスタイルを示すデータを抽出し、スタイル・ベクトルとして出力する機能を有している。スタイルを示すデータは、複数の中間層のデータのチャンネル相関により得られるグラム行列のほか、各チャンネルの平均、分散等の、特徴マップ（Feature Maps）のチャンネルに関する分布統計量が用いられる。スタイル・ベクトルについて解説した文献として、「Shin Matsuo and Keiji Yanai: CNN-based Style Vector for Style Image Retrieval, ICMR (2016/06).」がある。分布統計量によるスタイルの表現について言及した文献として、「Yanghao Liy et al.: Demystifying Neural Style Transfer, arXiv 1701.01036v1 [cs.CV] 4 Jan 2017.」がある。

圧縮部１０６は、スタイル抽出ネットワーク１０５から出力されるスタイル・ベクトルを、スタイルの特徴を損なわずに圧縮する機能を有している。具体的には、主成分分析（Principal Component Analysis：ＰＣＡ）や非負行列因子分解法（Non-negative Matrix Factorization：ＮＭＦ）が用いられる。学習済のニューラルネットワークが用いられてもよい。ＰＣＡとＮＭＦとの比較では、実験上、非負の重みが得られるＮＭＦの方が良い結果が得られているが、ＮＭＦは反復計算のために若干計算時間が掛るため、ＰＣＡの方が高速処理（変換時にはリアルタイム処理）には向いていると考えられる。

複製部１０７は、圧縮部１０６により得られた圧縮後スタイル・ベクトルを結合時のサイズ（ピクセル数に対応）に合わせて複製する機能を有している。

結合部１０８は、複製部１０７により得られた複製後スタイル・ベクトルをエンコーダ・デコーダ・ネットワーク１０２の中間層である結合層Ｌｃに結合（concatenation）する機能を有している。結合は、例えば、結合層Ｌｃの直前のデコード層のデータ（Feature Maps）の奥行き方向にデータが追加されることで行われる。

なお、スタイル・ベクトルがエンコーダ・デコーダ・ネットワーク１０２の中間層のデータに結合されることが重要であり、圧縮部１０６や複製部１０７は副次的なものである。例えば、スタイル抽出ネットワーク１０５において、結合部１０８において直接に結合できる形式のスタイル・ベクトルを出力する場合には、圧縮部１０６や複製部１０７を省略することもできる。

図２は本発明の一実施形態にかかる画像スタイル変換装置１の学習時における他の機能構成例を示す図である。図２では、スタイル抽出ネットワーク１０５がニューラルネットワークにより構成され、圧縮後と同等のスタイル情報が出力されるようになっており、圧縮部１０６は省略されている。また、スタイル抽出ネットワーク１０５には、エンコーダ・デコーダ・ネットワーク１０２と同様に、ロス・ネットワーク１０３からコンテンツ・ロスとスタイル・ロスがフィードバックされ、ランダムな初期値の状態から同時に一体的に学習（End-to-End学習）が行われる。

図３は本発明の一実施形態にかかる画像スタイル変換装置１の変換時における機能構成例を示す図であり、図１に示した構成のうち変換時において用いられる構成である。図３において、図１の構成と比較して、ロス・ネットワーク１０３がなくなっている点と、エンコーダ・デコーダ・ネットワーク１０２により変換された画像を変換後画像として外部に出力する変換後画像出力部１０９が設けられている点が異なる。また、変換元画像入力部１０１により入力される変換元画像は変換の対象となる１枚の画像となり、スタイル参照用画像入力部１０４により入力されるスタイル参照用画像は流用したいスタイルを示す１枚の画像となる。入力される変換元画像やスタイル参照用画像は学習時に用いられた画像である必要はなく、任意の画像でよい。

図４は本発明の一実施形態にかかる画像スタイル変換装置１の変換時における機能構成例を示す図であり、図２に示した構成のうち変換時において用いられる構成である。図４において、図２の構成と比較して、ロス・ネットワーク１０３がなくなっている点と、エンコーダ・デコーダ・ネットワーク１０２により変換された画像を変換後画像として外部に出力する変換後画像出力部１０９が設けられている点が異なる。また、変換元画像入力部１０１により入力される変換元画像は変換の対象となる１枚の画像となり、スタイル参照用画像入力部１０４により入力されるスタイル参照用画像は流用したいスタイルを示す１枚の画像となる。入力される変換元画像やスタイル参照用画像は学習時に用いられた画像である必要はなく、任意の画像でよい。

図５は本発明の一実施形態にかかる画像スタイル変換装置１の変換時における他の機能構成例を示す図であり、スタイル参照用画像の入力に代え、ユーザ操作によりスタイル設定の入力が行われるようにしたものである。

図５において、図３の構成と比較して、スタイル参照用画像入力部１０４とスタイル抽出ネットワーク１０５がなくなっている点と、スタイル設定入力部１１０とスタイル・ベクトル生成部１１１とが設けられている点が異なる。スタイル設定入力部１１０は、例えば、スタイル・ベクトルの各要素に対応したスライダ等を備えたユーザインタフェースにより、スタイル設定を入力させる。スタイル・ベクトル生成部１１１は、スタイル設定入力部１１０により入力されたスタイル設定に基づいてスタイル・ベクトルを生成する。

また、図４の構成に対応させて、スタイル・ベクトル生成部１１１によりスタイル抽出ネットワーク１０５の出力するスタイル情報と同等の情報量のスタイル・ベクトルが生成されるようにすることで、圧縮部１０６が省略可能である。

なお、変換時の実装として、図３〜図５における変換元画像入力部１０１、スタイル参照用画像入力部１０４、スタイル設定入力部１１０、変換後画像出力部１０９をスマートフォン等のクライアント端末に設けることができる。また、画像スタイル変換装置１の他の機能をクラウド上のサーバに配置し、クライアント端末とサーバの間で入出力データの送受信機能を持たせる。これにより、モバイル環境での画像スタイル変換を実現することができる。

図６は画像スタイル変換装置１のハードウェア構成例を示す図である。図６において、画像スタイル変換装置１は、バス１７を介して相互に接続されたＣＰＵ（Central Processing Unit）１１、ＲＯＭ（Read Only Memory）１２、ＲＡＭ（Random Access Memory）１３、ＨＤＤ（Hard Disk Drive）／ＳＳＤ（Solid State Drive）１４を備えている。また、画像スタイル変換装置１は、接続Ｉ／Ｆ（Interface）１５、通信Ｉ／Ｆ１６を備えている。

ＣＰＵ１１は、ＲＡＭ１３をワークエリアとしてＲＯＭ１２またはＨＤＤ／ＳＳＤ１４等に格納されたプログラムを実行することで、画像スタイル変換装置１の動作を統括的に制御する。図１〜図５で説明した画像スタイル変換装置１の機能は、ＣＰＵ１１において所定のプログラムが実行されることで実現される。プログラムは、記録媒体を経由して取得されるものでもよいし、ネットワークを経由して取得されるものでもよいし、ＲＯＭ組込でもよい。

＜動作＞
図７は学習時の処理例を示すフローチャートであり、図１の構成における動作である。図７において、管理者の指示等に応じて学習が開始されると、変換元画像入力部１０１とスタイル参照用画像入力部１０４は、変換元画像とスタイル参照用画像をそれぞれ入力する。そして、変換元画像とスタイル参照用画像の各組み合わせについて以下のループ処理が行われる（ステップＳ１１〜Ｓ１５）。

ループ処理において、スタイル抽出ネットワーク１０５は入力されたスタイル参照用画像からスタイル・ベクトルを抽出する。そして、圧縮部１０６はスタイル・ベクトルを圧縮し、複製部１０７は圧縮後スタイル・ベクトルを複製して複製後スタイル・ベクトルを生成する（ステップＳ１２）。

次いで、エンコーダ・デコーダ・ネットワーク１０２は入力された変換元画像を変換するが、その過程で、結合部１０８はエンコーダ・デコーダ・ネットワーク１０２の中間層に複製後スタイル・ベクトルを結合する（ステップＳ１３）。

次いで、ロス・ネットワーク１０３はエンコーダ・デコーダ・ネットワーク１０２の出力画像と変換元画像とスタイル参照用画像とからコンテンツ・ロスとスタイル・ロスを計算する。そして、コンテンツ・ロスとスタイル・ロスはエンコーダ・デコーダ・ネットワーク１０２にフィードバックされ、バックプロパゲーションが実施される（ステップＳ１４）。

その後、変換元画像とスタイル参照用画像の全ての組み合わせについて未処理の場合はループ処理が継続され、全ての組み合わせについて処理が行われた場合はループ処理が終了され（ステップＳ１５）、学習処理が終了される。

図２の構成については、ステップＳ１２において明示的な圧縮が行われない点と、ステップＳ１４において、スタイル抽出ネットワーク１０５についても同時にバックプロパゲーションによる学習が実施される点が異なる。

以上の処理により、用意された多数の変換元画像とスタイル参照用画像について、変換元画像のコンテンツを残しつつ、スタイル参照用画像のスタイルが適用された画像へ変換する変換器としてエンコーダ・デコーダ・ネットワーク１０２が学習される。

図８は変換時の処理例を示すフローチャートであり、図３の構成における動作である。図８において、ユーザの指示等に応じて変換処理が開始されると、変換元画像入力部１０１とスタイル参照用画像入力部１０４は変換元画像とスタイル参照用画像をそれぞれ入力する（ステップＳ２１）。

次いで、スタイル抽出ネットワーク１０５は入力されたスタイル参照用画像からスタイル・ベクトルを抽出する。そして、圧縮部１０６はスタイル・ベクトルを圧縮し、複製部１０７は圧縮後スタイル・ベクトルを複製して複製後スタイル・ベクトルを生成する（ステップＳ２２）。

次いで、エンコーダ・デコーダ・ネットワーク１０２は入力された変換元画像を変換するが、その過程で、結合部１０８はエンコーダ・デコーダ・ネットワーク１０２の中間層に複製後スタイル・ベクトルを結合する（ステップＳ２３）。

次いで、変換後画像出力部１０９はエンコーダ・デコーダ・ネットワーク１０２から出力される画像についてフォーマット変換等を行い、変換後画像として外部に出力し（ステップＳ２４）、変換処理が終了される。

図４の構成については、ステップＳ２２において明示的な圧縮が行われない点が異なる。

以上の変換処理において、エンコーダ・デコーダ・ネットワーク１０２による画像変換は一方向に流れる処理で完了するため、高速なリアルタイム処理が可能となる。また、任意に与えられるスタイル参照用画像のスタイルを考慮した変換が可能となる。概念的には、学習時における多数のスタイル参照用画像のスタイルが融合された形で、任意に与えられるスタイル参照用画像のスタイルに近似されて適用される。

図９は変換の例を示しており、（ａ）は変換元画像、（ｂ）はスタイル参照用画像（出典：https://www.wikiart.org/en/vincent-van-gogh/the-starry-night-1889）、（ｃ）は変換後画像を示している。すなわち、（ａ）の変換元画像のコンテンツ（山と道の風景）に（ｂ）のスタイル参照用画像のスタイル（画風）が適用された変換後画像が（ｃ）のように得られる。

また、スタイルとしては、絵画における画風に限らず、質感等でもよい。例えば、変換元画像のコンテンツを「野球のボール」とし、スタイル参照用画像のスタイルを「岩石の質感を示す画像」とすると、変換元画像の野球のボールの表面が岩石の質感に置き換えられた変換後画像が得られる。

図１０は変換時の他の処理例を示すフローチャートであり、図５の構成における動作である。図１０において、ユーザの指示等に応じて変換処理が開始されると、スタイル設定入力部１１０はユーザからスタイル設定を入力する（ステップＳ３１）。

次いで、変換元画像入力部１０１は変換元画像を入力する（ステップＳ３２）。なお、ユーザの操作としては、変換元画像の指定がスタイル設定の入力より先でもよい。

次いで、スタイル・ベクトル生成部１１１は、スタイル設定入力部１１０により入力されたスタイル設定からスタイル・ベクトルを生成する。そして、圧縮部１０６はスタイル・ベクトルを圧縮し、複製部１０７は圧縮後スタイル・ベクトルを複製して複製後スタイル・ベクトルを生成する（ステップＳ３３）。

次いで、エンコーダ・デコーダ・ネットワーク１０２は入力された変換元画像を変換するが、その過程で、結合部１０８はエンコーダ・デコーダ・ネットワーク１０２の中間層に複製後スタイル・ベクトルを結合する（ステップＳ３４）。

次いで、変換後画像出力部１０９はエンコーダ・デコーダ・ネットワーク１０２から出力される画像についてフォーマット変換等を行い、変換後画像として外部に出力し（ステップＳ３５）、変換処理が終了される。

図４の構成に対応して、図５の構成から圧縮部１０６が省略される場合、ステップＳ３３において明示的な圧縮は行われない。

以上の変換処理では、特にスタイル参照用画像を用意しなくても、ユーザがスライダ等のユーザインタフェースを操作することで、任意のスタイルによる所望の変換後画像を行わせることができる。

＜総括＞
以上説明したように、本実施形態によれば、リアルタイム処理を可能としつつ、任意のスタイルに変換することができる。

以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範な趣旨および範囲から逸脱することなく、これら具体例に様々な修正および変更を加えることができることは明らかである。すなわち、具体例の詳細および添付の図面により本発明が限定されるものと解釈してはならない。

１画像スタイル変換装置
１０１変換元画像入力部
１０２エンコーダ・デコーダ・ネットワーク
１０３ロス・ネットワーク
１０４スタイル参照用画像入力部
１０５スタイル抽出ネットワーク
１０６圧縮部
１０７複製部
１０８結合部
１０９変換後画像出力部
１１０スタイル設定入力部
１１１スタイル・ベクトル生成部

Claims

変換元となる画像を入力する第１の画像入力部と、
スタイル参照用の画像を入力する第２の画像入力部と、
前記第１の画像入力部により入力された変換元となる画像を、事前の学習結果に基づいて変換後の画像に変換する、畳み込みニューラルネットワークによるエンコーダ・デコーダ・ネットワークと、
前記第２の画像入力部により入力されたスタイル参照用の画像のスタイルを示すスタイル・ベクトルを抽出する、畳み込みニューラルネットワークによるスタイル抽出ネットワークと、
前記スタイル抽出ネットワークにより抽出されたスタイル・ベクトルを、前記エンコーダ・デコーダ・ネットワークの中間層に結合する結合部と、
前記エンコーダ・デコーダ・ネットワークから変換後の画像を取得して出力する画像出力部と
を備えたことを特徴とする画像スタイル変換装置。
変換元となる画像を入力する画像入力部と、
前記画像入力部により入力された変換元となる画像を、事前の学習結果に基づいて変換後の画像に変換する、畳み込みニューラルネットワークによるエンコーダ・デコーダ・ネットワークと、
ユーザ設定に応じてスタイルを示すスタイル・ベクトルを生成するスタイル・ベクトル生成部と、
前記スタイル・ベクトル生成部により生成されたスタイル・ベクトルを、前記エンコーダ・デコーダ・ネットワークの中間層に結合する結合部と、
前記エンコーダ・デコーダ・ネットワークから変換後の画像を取得して出力する画像出力部と
を備えたことを特徴とする画像スタイル変換装置。
前記結合部に与えられるスタイル・ベクトルを圧縮する圧縮部を備え、
前記結合部は、圧縮後のスタイル・ベクトルを前記エンコーダ・デコーダ・ネットワークの中間層に結合する
ことを特徴とする請求項１または２に記載の画像スタイル変換装置。
前記圧縮部は、主成分分析、非負行列因子分解法、または、ニューラルネットワークにより、スタイル・ベクトルを圧縮する
ことを特徴とする請求項３に記載の画像スタイル変換装置。
前記圧縮後のスタイル・ベクトルを複製する複製部を備え、
前記結合部は、複製後のスタイル・ベクトルを前記エンコーダ・デコーダ・ネットワークの中間層に結合する
ことを特徴とする請求項３または４に記載の画像スタイル変換装置。
変換元となる画像およびスタイル参照用の画像を入力し、
入力された前記スタイル参照用の画像のスタイルを示すスタイル・ベクトルを、畳み込みニューラルネットワークのスタイル抽出ネットワークにより抽出し、
抽出された前記スタイル・ベクトルを、畳み込みニューラルネットワークのエンコーダ・デコーダ・ネットワークの中間層に結合し、
入力された前記変換元となる画像を、前記エンコーダ・デコーダ・ネットワークにより、事前の学習結果に基づいて変換後の画像に変換し、
前記エンコーダ・デコーダ・ネットワークから変換後の画像を取得して出力する、
処理をコンピュータが実行することを特徴とする画像スタイル変換方法。
変換元となる画像を入力し、
ユーザ設定に応じてスタイルを示すスタイル・ベクトルを生成し、
生成された前記スタイル・ベクトルを、畳み込みニューラルネットワークのエンコーダ・デコーダ・ネットワークの中間層に結合し、
入力された前記変換元となる画像を、前記エンコーダ・デコーダ・ネットワークにより、事前の学習結果に基づいて変換後の画像に変換し、
前記エンコーダ・デコーダ・ネットワークから変換後の画像を取得して出力する、
処理をコンピュータが実行することを特徴とする画像スタイル変換方法。
変換元となる画像およびスタイル参照用の画像を入力し、
入力された前記スタイル参照用の画像のスタイルを示すスタイル・ベクトルを、畳み込みニューラルネットワークのスタイル抽出ネットワークにより抽出し、
抽出された前記スタイル・ベクトルを、畳み込みニューラルネットワークのエンコーダ・デコーダ・ネットワークの中間層に結合し、
入力された前記変換元となる画像を、前記エンコーダ・デコーダ・ネットワークにより、事前の学習結果に基づいて変換後の画像に変換し、
前記エンコーダ・デコーダ・ネットワークから変換後の画像を取得して出力する、
処理をコンピュータに実行させることを特徴とする画像スタイル変換プログラム。
変換元となる画像を入力し、
ユーザ設定に応じてスタイルを示すスタイル・ベクトルを生成し、
生成された前記スタイル・ベクトルを、畳み込みニューラルネットワークのエンコーダ・デコーダ・ネットワークの中間層に結合し、
入力された前記変換元となる画像を、前記エンコーダ・デコーダ・ネットワークにより、事前の学習結果に基づいて変換後の画像に変換し、
前記エンコーダ・デコーダ・ネットワークから変換後の画像を取得して出力する、
処理をコンピュータに実行させることを特徴とする画像スタイル変換プログラム。