JP2023545189A

JP2023545189A - 画像処理方法、装置、及び電子機器

Info

Publication number: JP2023545189A
Application number: JP2023522881A
Authority: JP
Inventors: 奕兵宋; 玉▲瑩▼ 葛; 威 ▲劉▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-27
Filing date: 2022-01-20
Publication date: 2023-10-26
Also published as: WO2022161234A1; US20230077356A1; CN113570685A

Abstract

本願の実施例は画像処理方法、及び装置を開示し、該方法は、目標人物を含む第１画像と目標服装を含む第２画像とを取得するステップと、前記第１画像の画像特徴と前記第２画像の画像特徴とに基づいて、前記目標服装が前記目標人物の人体に適応して生じた変形を表すことに用いられる目標外観フロー特徴を生成し、且つ前記目標外観フロー特徴に基づき、前記目標服装が前記人体に適応する変形後画像を生成するステップと、前記変形後画像と前記第１画像との融合に基づいて仮想着せ替え画像を生成するステップであって、前記仮想着せ替え画像において、前記目標人物は前記人体に適応する目標服装を着用している、ステップと、を含む。本願の実施例の技術的解決手段は人体解析結果に依存する必要がなく、高品質の仮想着せ替えを実現することができる。

Description

本願は画像処理の技術分野に関し、具体的には、画像処理方法、装置、電子機器、コンピュータ可読記憶媒体に関する。

本願は、２０２１年１月２７日に中国特許局に提出された、出願番号が第２０２１１０１４１３６０．３号であり、出願の名称が「画像処理方法、装置、電子機器、及び記憶媒体」である中国特許出願の優先権を主張し、その全部の内容は引用により本願に組み込まれている。

仮想着せ替え技術とは、技術的手段によって人体画像と衣服画像とを融合し、ユーザーが衣服を着た後の画像を獲得することを指し、ユーザーが衣服を着た後の効果を理解しやすくすることができ、ユーザーが実際の衣服を着る必要がない。仮想着せ替え技術はオンラインショッピング、服装展示、服装デザイン、又はオフラインショッピングの仮想試着等のシーンにおいて広く応用されている。

現状の仮想着せ替え技術において、人体画像の人体解析結果に依存する必要がある。１つの理想的な仮想着せ替えデータセットは、指定人物が任意の服装を着用する画像、目標服装を含む画像、及び指定人物が目標服装を着用する画像を含むべきであるが、同一人が完全に同じ動作を維持して２つの異なる服装を着用する画像は取得しにくい。そのため、現状で採用されている仮想着せ替えデータセットにおいては、指定人物が目標服装を着用する画像のみを含むことになり、人体解析結果を利用して指定人物の目標服装領域をクリアしてから、次に目標服装を含む画像を利用して人体画像を再構成する必要がある。

このことから分かるように、このような技術の実現は人体解析結果に大きく依存し、人体解析結果が正確でないときに、指定人物と目標服装とがマッチングしない仮想着せ替え画像を生成し得る。また実際の応用シーンにおいては、人体解析の過程に長い時間をかける必要があり、リアルタイムに仮想着せ替え結果を獲得することができないことを引き起こす。

上記の技術的な課題を解決するために、本願の実施例は画像処理方法、装置、電子機器、及びコンピュータ可読記憶媒体を提供し、人体解析結果に依存して仮想着せ替えを行う必要がなく、さらに人体解析結果に依存して仮想着せ替えを行うことにより引き起こされた様々な問題を回避し、高品質の仮想着せ替えを実現する。同時に、仮想着せ替えの効率を向上させ、リアルタイムな仮想着せ替えを実現する。

本願の実施例の一態様によれば、画像処理方法を提供し、前記方法はコンピュータ機器により実行され、目標人物を含む第１画像と目標服装を含む第２画像とを取得するステップと、前記第１画像の画像特徴と前記第２画像の画像特徴とに基づいて、前記目標服装が前記目標人物の人体に適応して生じた変形を表すことに用いられる目標外観フロー特徴を生成し、且つ前記目標外観フロー特徴に基づき、前記目標服装が前記人体に適応する変形後画像を生成するステップと、前記変形後画像と前記第１画像との融合に基づいて仮想着せ替え画像を生成するステップであって、前記仮想着せ替え画像において、前記目標人物は前記人体に適応する目標服装を着用している、ステップと、を含む。

本願の実施例の一態様によれば、画像処理装置を提供し、目標人物が含まれる第１画像と目標服装が含まれる第２画像とを取得するように構成される画像取得モジュールと、前記第１画像の画像特徴と前記第２画像の画像特徴とに基づいて、前記目標服装が前記目標人物の人体に適応して生じた変形を表すことに用いられる目標外観フロー特徴を生成し、且つ前記目標外観フロー特徴に基づき、前記目標服装が前記人体に適応する変形後画像を生成するように構成される情報生成モジュールと、前記変形後画像と前記第１画像との融合に基づいて仮想着せ替え画像を生成するように構成される仮想着せ替えモジュールであって、前記仮想着せ替え画像において、前記目標人物は前記人体に適応する目標服装を着用している、仮想着せ替えモジュールと、を含む。

本願の実施例の一態様によれば、電子機器を提供し、プロセッサと、メモリとを含み、前記メモリにおいてコンピュータ可読命令が記憶されており、前記コンピュータ可読命令は前記プロセッサにより実行されるときに、前記画像処理方法を実現する。

本願の実施例の一態様によれば、コンピュータ可読記憶媒体を提供し、それにおいてコンピュータ可読命令が記憶されており、前記コンピュータ可読命令はコンピュータのプロセッサにより実行されるときに、コンピュータに前記画像処理方法を実行させる。

本願の実施例の一態様によれば、コンピュータプログラム製品、又はコンピュータプログラムを提供し、該コンピュータプログラム製品、又はコンピュータプログラムはコンピュータ命令を含み、該コンピュータ命令はコンピュータ可読記憶媒体において記憶される。コンピュータ機器のプロセッサはコンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサは該コンピュータ命令を実行し、該コンピュータ機器に前記様々な選択可能な実施例において提供された画像処理方法を実行させる。

本願の実施例が提供する技術的解決手段において、人体解析結果に依存して仮想着せ替えを行う必要がなく、目標服装が目標人物の人体に適応して生じた変形の目標外観フロー特徴を取得することによって目標服装に対して人体に適応する変形を生成し、最後に変形後の目標服装の画像（例えば変形後画像）と目標人物を含む第１画像とを融合して仮想着せ替え画像を獲得し、これにより、関連技術の実現において人体解析結果に依存して仮想着せ替えを行うことにより引き起こされた様々な問題を解決し、高品質の仮想着せ替えを実現する。同時に、仮想着せ替えの効率を向上させ、リアルタイムな仮想着せ替えを実現する。

理解すべきである点として、以上の一般的な記述、及び下記の細部記述は単に例示的で解釈的なものであり、本願を限定することができるものではない。

ここでの図面は明細書に組み込まれて本明細書の一部を構成し、本願に適合する実施例を示しており、且つ明細書とともに本願の原理を解釈することに用いられる。明らかなように、以下の記述における図面は単に本願のいくつかの実施例であり、当業者にとっては、創造的な労働を必要としない前提において、さらにそれらの図面に基づいて他の図面を取得することができる。

本願に関わる一種の実施環境の模式図である。本願の一実施例に示される仮想着せ替え生徒モデルの構造模式図である。図２に示される第１服装変形サブモデル１１の一実施例における構造模式図である。図３に示される「ＦＮ－２」モジュールが２番目の画像特徴層に行った外観フロー特徴予測のフローチャートである。本願の他の実施例に示される画像処理方法のフローチャートである。本願の一実施例に示される仮想着せ替え生徒モデルの訓練フローチャートである。本願の一実施例に示される画像処理装置のブロック図である。本願の実施例を実現するために適する電子機器のコンピュータシステムの構造模式図を示す。

ここでは、例示的な実施例に対する説明を詳細に実行し、その例は図面において表される。以下の記述は図面に関するときに、特に表記されない限り、異なる図面における同じ数字は同じ、又は類似する要素を表す。以下の例示的な実施例において記述される実施形態は本願と合致するすべての実施形態を表すものではない。逆に、それらは添付した特許請求の範囲において詳述される、本願のいくつかの態様と合致する装置、及び方法の例に過ぎない。

図面において示されるブロック図は単に機能エンティティであり、必ずしも物理的に独立したエンティティと対応する必要はない。すなわち、ソフトウェア形式を採用してそれらの機能エンティティを実現し、又は１つもしくは複数のハードウェアモジュールもしくは集積回路においてそれらの機能エンティティを実現し、又は異なるネットワーク及び／又はプロセッサ装置及び／又はマイクロコントローラ装置においてそれらの機能エンティティを実現することができる。

図面において示されるフローチャートは例示的な説明に過ぎず、すべての内容、及び操作／ステップを含む必要はなく、記述される順序に応じて実行する必要もない。例えば、ある操作／ステップはさらに分解することができるが、ある操作／ステップは合併し、又は部分的に合併することができ、従って、実際の実行順序は実際の状況に基づいて変化する可能性がある。

さらに説明する必要がある点として、本願において言及される「複数」とは、２つ又は２つ以上を指す。本願に使用される「第１」、及び「第２」等の用語は本明細書において様々な概念を記述することに用いることができるが、特に説明しない限り、それらの概念はそれらの用語により限定されない。それらの用語は１つの概念と他の概念とを区別することのみに用いられる。例を挙げると、本願の範囲から逸脱しない状況において、第１画像を第２画像と呼んでもよく、且つ同様に、第２画像を第１画像と呼んでもよい。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）はデジタルコンピュータ、又はデジタルコンピュータが制御する機械を利用して人の知能を模擬、延伸、及び拡張し、環境を感知し、知識を取得し、且つ知識を使用して最適な結果を取得する理論、方法、技術、及び応用システムである。言い換えれば、人工知能はコンピュータ科学の１つの総合技術であり、それは知能の本質を理解し、且つ人類の知能と類似する方式で反応できる新しい知能機械を製造しようとする。人工知能は様々な知能機械の設計原理、及び実現方法を研究し、機械に感知、推理、及び意思決定の機能を有させるものである。

人工知能技術は１つの総合学科であり、関連する分野が広く、ハードウェア面の技術もあり、ソフトウェア面の技術もある。人工知能の基礎技術は一般的に、例えばセンサ、専用人工知能チップ、クラウドコンピューティング、分散型記憶、ビッグデータ処理技術、オペレーティング／インタラクティブシステム、及びメカトロニクス等の技術を含む。人工知能ソフトウェア技術は自然言語処理技術、及び機械学習を含む。

機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ、ＭＬ）は、１つの多分野融合学科であり、確率論、統計学、近似論、凸解析、及びアルゴリズム複雑度理論等の複数の学科に関する。コンピュータがどのように人類の学習挙動を模擬、又は実現することで、新しい知識、又は技能を取得し、既存の知識構造を組織し直して自体の性能を絶えず改善するかを専門的に研究する。機械学習は人工知能のコアであり、コンピュータに知能を有させる根本的な経路であり、その応用は人工知能の各分野に広がっている。機械学習、及び深層学習は通常、人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納学習、及び教示学習等の技術を含む。

コンピュータ視覚技術（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、ＣＶ）については、コンピュータ視覚は如何に機械に「見させる」かを研究する１つの科学であり、さらに言えば、人間の目の代わりにカメラ、及びコンピュータを用いて目標に対して認識、追跡、及び測定等を行う機械視覚を指し、且つさらにグラフィック処理を行い、人間の目による観察、又は計器へ伝送して検出するのにより適合する画像となるように、コンピュータに処理させる。１つの科学学科として、コンピュータ視覚は関連する理論、及び技術を研究し、画像、又は多次元データから情報を取得できる人工知能システムを作成しようとする。コンピュータ視覚技術は通常、画像処理、画像認識、画像意味理解、画像検索、ビデオ処理、ビデオ意味理解、ビデオ内容／挙動認識、３次元物体再構築、仮想現実、拡張現実、同期測位、及び地図構築等の技術を含み、一般的な顔認識、及び指紋認識等の生体特徴認識技術をさらに含む。

以下、人工知能技術、及びコンピュータ視覚技術に基づき、本願の実施例が提供する画像処理方法を説明する。

本願の実施例は画像処理方法を提供し、実行主体はコンピュータ機器であり、人体画像と衣服画像とを融合することができる。一種の実現可能な方式において、該コンピュータ機器は端末であり、端末はスマートフォン、タブレットパソコン、ノートパソコン、デスクトップコンピュータ、スマートスピーカー、スマートウォッチ、及び車載コンピュータ等であってもよい。他の実現可能な方式において、該コンピュータ機器はサーバであり、サーバは独立した物理サーバであってもよく、複数の物理サーバから構成されたサーバクラスター、又は分散型システムであってもよく、ここで、複数のサーバは１つのブロックチェーンを構成することができる。サーバはブロックチェーンにおけるノードであってもよく、サーバはさらに、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウド記憶、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、並びにビッグデータ、及び人工知能プラットフォーム等の基礎的なクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。

本願の実施例が提供する画像処理方法は、人体画像と衣服画像とを融合する任意のシーンにおいて応用することができる。例えば、オンラインショッピング時に仮想着せ替えを行うシーンにおいて、もしユーザーがある衣服を着る効果を理解しようとするならば、該ユーザーの人体画像、及び該衣服の衣服画像のみを提供し、本願の実施例が提供する方法を採用して、人体画像、及び衣服画像を処理すれば、該ユーザーが該衣服を着た人体画像を獲得することができ、オンライン仮想着せ替えを実現し、ユーザーが実際の衣服を着る必要がない。

それ以外に、本願の実施例が提供する画像処理方法はさらに服装デザイン、服装展示、又はオフラインショッピングの仮想試着等のシーンにおいて応用することができ、それによりリアルタイムな仮想着せ替え機能を提供し得るが、ここでは列挙しない。

図１に参照されるように、図１は本願の一実施例に示される画像処理方法のフローチャートである。該画像処理方法は少なくともＳ１１０～Ｓ１５０を含み、該Ｓ１１０～Ｓ１５０は具体的に仮想着せ替え生徒モデルとして実現することができる。ここで、仮想着せ替え生徒モデルは一種の人工知能モデルであり、人体解析結果に依存する必要がなく目標人物の仮想着せ替えを実現することができ、高品質の仮想着せ替え画像を生成することができるだけでなく、仮想着せ替えのリアルタイム性を向上させることができる。

以下、図１に示される画像処理方法に対して詳細な記述を行う。

Ｓ１１０：目標人物を含む第１画像と目標服装を含む第２画像とを取得する。

本実施例において言及される目標人物とは、仮想着せ替えを行う対象の人物を指し、目標服装とは目標人物が着用しようとする服装を指す。

例えば、オンラインショッピング時に仮想着せ替えを行うシーンにおいて、目標人物は現在オンラインショッピングを行っているユーザーであり、第１画像は該ユーザーが提供するユーザー自身の人体画像であり、第２画像はショッピングプラットフォームにおいてロードされた目標服装のピクチャであってもよい。説明する必要がある点として、第１画像において含有される目標人物、及び第２画像において含有される目標服装は実際の応用シーンに基づいて決定することができるが、ここではこれについて限定しない。

Ｓ１３０：第１画像の画像特徴と第２画像の画像特徴とに基づいて、目標服装が目標人物の人体に適応して生じた変形を表すことに用いられる目標外観フロー特徴を生成し、且つ目標外観フロー特徴に基づき、目標服装が人体に適応する変形後画像を生成する。

まず、第１画像の画像特徴は、第１画像に対して画像特徴抽出を行って獲得したものであり、第２画像の画像特徴は、第２画像に対して画像特徴抽出を行って獲得したものである。例えば、いくつかの実施例において、第１画像を第１画像特徴抽出モデルに入力し、及び第２画像を第２画像特徴抽出モデルに入力することができ（すなわち、第１画像を第１画像特徴抽出モデルの入力信号とし、且つ第２画像を第２画像特徴抽出モデルの入力信号とする）、第１画像特徴抽出モデル、及び第２画像特徴抽出モデルにおいていずれも画像特徴抽出アルゴリズムが配置されることにより、第１画像特徴抽出モデルが第１画像に対して出力した画像特徴を取得し、及び第２画像特徴抽出モデルが第２画像に対して出力した画像特徴を取得する。

第１画像特徴抽出モデルが出力した第１画像の画像特徴、及び第２画像特徴抽出モデルが出力した第２画像の画像特徴は多層画像特徴であってもよく、該多層画像特徴とは、第１画像、及び第２画像に対して画像特徴抽出を行う過程において順に獲得した複数の特徴図を指す。

例示的には、第１画像特徴抽出モデル、及び第２画像特徴抽出モデルはピラミッド特徴抽出モデルであってもよい。ピラミッド特徴抽出モデルにおいて特徴ピラミッドネットワーク（ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｒｋｓ、ＦＰＮ）が配置され、特徴ピラミッドネットワークから出力された特徴図ピラミッドはすなわち画像に対応する多層画像特徴である。例えば、いくつかの実施例において、ピラミッド特徴抽出モデルにおける下から上への部分を採用して第１画像、及び第２画像に対して画像特徴抽出を行うことができ、当該下から上への部分は畳み込みネットワークを使用して画像特徴抽出を行うものであると理解される。畳み込みが深くなることに伴って、画像の空間解像度が比較的少なくなり、空間情報が紛失されるが、ハイレベルの意味情報を豊かにすることにより、特徴図の大きさ順序が大から小となる多層画像特徴を獲得する。

外観フロー（ＡｐｐｅａｒａｎｃｅＦｌｏｗ）特徴とは、２次元座標ベクトルを指し、通常、ソース画像のどの画素が目標画像の指定画素を再構成することに用いることができるかを指示することに用いられる。本実施例では、高品質の仮想着せ替えを実現するために、目標人物の人体と目標服装との間の正確で密集した対応関係を構築する必要があり、それにより目標服装に人体に適応する変形を生じさせる。従って、本実施例において、ソース画像とは第２画像を指し、具体的に第２画像における目標服装領域を指すことができ、再構成する必要がある目標画像とは目標服装が第１画像における目標人物の人体に適応して生じた変形後画像を指す。

このことから明らかなように、目標外観フロー特徴は目標服装が第１画像における目標人物の人体に適応して生じた変形を表すことができ、獲得された目標外観フロー特徴に基づいて、目標服装が人体に適応する変形後画像を生成することができる。

第１画像の画像特徴が第１画像特徴抽出モデルを介して出力された多層画像特徴であり、且つ第２画像の画像特徴が第２画像特徴抽出モデルを介して出力された多層画像特徴であるときに、第１画像特徴抽出モデル、及び第２画像特徴抽出が出力した多層画像特徴に基づいて、外観フロー特徴の抽出を層毎に行い、最後の１つの画像特徴層に対して抽出を行って獲得した外観フロー特徴を、最終的に生成する目標外観フロー特徴とすることができる。

例示的には、１番目の画像特徴層に、第１画像特徴抽出モデル、及び第２画像特徴抽出モデルが出力した画像特徴に基づいて、目標服装が目標人物の人体に適応して生じた変形を表すことに用いられる外観フロー特徴を抽出することができる。１番目の画像特徴層の後の各画像特徴層に、第１画像特徴抽出モデル、及び第２画像特徴抽出モデルが出力した画像特徴に基づいて、１つ前の画像特徴層に対応する外観フロー特徴に対して最適化処理を行い、現在の画像特徴層に対応する外観フロー特徴を獲得することができる。

第１画像特徴抽出モデル、及び第２画像特徴抽出モデルが出力した多層画像特徴に基づいて、外観フロー特徴の抽出を層毎に行う過程において、さらに、予め設定された二次平滑拘束条件に基づいて外観フロー特徴の抽出を行うことができる。ここで、二次平滑拘束条件は、隣接する外観フロー間のリニア対応関係に対して設定された拘束条件であり、それによって、目標服装のパターン、及び縞模様等の特徴をさらに残すことにより、生成された目標服装が目標人物の人体に適応する変形後画像の画像品質を向上させる。

Ｓ１５０：目標服装が目標人物の人体に適応する変形後画像と第１画像との融合に基づいて仮想着せ替え画像を生成し、仮想着せ替え画像において、目標人物は人体に適応する目標服装を着用している。

目標服装が目標人物の人体に適応する変形後画像と第１画像との融合に基づいて仮想着せ替え画像を生成することは、仮想着せ替えに適用する画像融合アルゴリズムによって具体的に実現することができ、例えば、Ｒｅｓ－ＵＮｅｔアルゴリズムを採用することができ、本実施例これについて限定しない。

上記から分かるように、実施例が提供する技術的解決手段は、人体解析結果に依存して仮想着せ替えを行う必要がなく、目標服装が目標人物の人体に適応して生じた変形の目標外観フロー特徴を取得することによって目標服装に対して人体に適応する変形を生成し、最後に変形後の目標服装の画像（例えば変形後画像）と目標人物を含む第１画像とを融合して仮想着せ替え画像を獲得する。これにより、人体解析結果に依存して仮想着せ替えを行うことにより引き起こされた仮想着せ替え画像の品質が高くなく、仮想着せ替えのリアルタイム性が比較的弱い等の問題の発生を回避し、高品質の仮想着せ替えを実現する。同時に仮想着せ替えの効率を向上させ、リアルタイムな仮想着せ替えを実現する。

図２に参照されるように、図２は本願の一実施例に示される仮想着せ替え生徒モデルの構造模式図である。該例示的な仮想着せ替え生徒モデル１０は第１服装変形サブモデル１１と、第１着せ替え生成サブモデル１２とを含み、ここで、第１服装変形サブモデル１１は図１に示される実施例におけるＳ１３０を実行することができ、第１着せ替え生成サブモデル１２は図１に示される実施例におけるＳ１５０を実行することができる。

図２に示すように、目標人物が含まれる第１画像と目標服装が含まれる第２画像とを仮想着せ替え生徒モデル１０に入力することによって、仮想着せ替え生徒モデル１０は相応な仮想着せ替え画像を出力することができ、出力された仮想着せ替え画像において、目標人物は人体に適応する目標服装を着用している。

第１画像、及び第２画像を除き、仮想着せ替え生徒モデル１０は他のさらなる入力信号を必要とせず、仮想着せ替え生徒モデル１０に第１画像において含有される目標人物の人体解析結果を入力する必要がない。

図３は図２に示される第１服装変形サブモデル１１の一実施例における構造模式図である。図３に示すように、第１服装変形サブモデル１１において第１画像特徴抽出モデル、第２画像特徴抽出モデル、及び外観フロー特徴予測モデルが含有される。

ここで、第１画像特徴抽出モデルは第１画像の画像特徴を抽出することに用いられ、第２画像特徴抽出モデルは第２画像の画像特徴を抽出することに用いられる。図３に示すように、第１画像特徴抽出モデルは第１画像に対して画像特徴抽出を行い、順にｃ１～ｃ３に示される多層画像特徴を獲得し、第２画像特徴抽出モデルは第２画像に対して画像特徴抽出を行い、順にｐ１～ｐ３に示される多層画像特徴を獲得する。

説明する必要がある点として、図３に示される多層画像特徴は例に過ぎず、第１画像特徴抽出モデル、及び第２画像特徴抽出モデルによって抽出された入力画像の画像特徴の層数は実際の必要に応じて設定することができ、本実施例はこれについて限定しない。

外観フロー特徴予測モデルは、第１画像特徴抽出モデル、及び第２画像特徴抽出モデルが出力した多層画像特徴に基づいて、外観フロー特徴の抽出を層毎に行い、最後の１つの画像特徴層に対して抽出を行って獲得した外観フロー特徴を、最終的に生成する目標外観フロー特徴とすることに用いられる。例えば、図３に示される「ＦＮ－１」モジュールは１番目の画像特徴層に外観フロー特徴予測を行うことに用いられ、「ＦＮ－２」モジュールは２番目の画像特徴層に外観フロー特徴予測を行うことに用いられ、「ＦＮ－３」モジュールは３番目の画像特徴層に外観フロー特徴予測を行うことに用いられる。すなわち、外観フロー特徴予測モデルは漸進的な外観フロー特徴予測モデルである。

図３に示すように、外観フロー特徴予測モデルは１番目の画像特徴層に、第１画像特徴抽出モデル、及び第２画像特徴抽出モデルが出力した画像特徴に基づいて、目標服装が目標人物の人体に適応して生じた変形を表すことに用いられる外観フロー特徴を初めて抽出する。１番目の画像特徴層の後の各画像特徴層に、外観フロー特徴予測モデルは第１画像特徴抽出モデル、及び第２画像特徴抽出モデルが出力した画像特徴に基づいて、１つ前の画像特徴層から出力された外観フロー特徴に対して最適化処理を行って、現在の画像特徴層に対応する外観フロー特徴を獲得する。

このような漸進的な処理方式によって、多層画像特徴は畳み込みが絶えず深くなることに伴って、画像の空間解像度が徐々に減少するため、空間情報も徐々に紛失されるが、ハイレベルの意味情報を豊かにし、それにより外観フロー特徴予測モデルが層毎に獲得した外観フロー特徴において含有される特徴情報もますます豊かで正確になる。例えば、図３に示される外観フロー特徴ｆ１～ｆ３において、含有される特徴情報は徐々に豊かになり、且つ徐々に目標人物の人体と適応する。

このことから明らかなように、外観フロー特徴予測モデルが最後の１つの画像特徴層において獲得した外観フロー特徴は、目標服装が目標人物の人体に適応して生じた変形を非常に正確に反映することができる。外観フロー特徴予測モデルが最後の１つの画像特徴層において獲得した外観フロー特徴に基づき、生成された目標服装に対応する変形後画像は、目標人物の人体と正確で緊密な対応関係を作成することができることにより、その後に目標服装に生じた正確な変形、及び目標人物の人体に基づいて融合して、高品質の仮想着せ替え画像を獲得することができる。

図４は、図３に示される「ＦＮ－２」モジュールが２番目の画像特徴層に行った外観フロー特徴予測のフローチャートである。図４に示すように、まず、１つ前の画像特徴層に対応する外観フロー特徴ｆ１に対してアップサンプリング処理を行い、アップサンプリング特徴ｆ１’を獲得する。次にアップサンプリング特徴ｆ１’に基づいて、現在の特徴層に対応する第２画像の画像特徴ｃ２に対して第１変形処理を行い、第１変形後特徴ｃ２’を獲得する。続いて、現在の画像特徴層に対応する第１画像の画像特徴ｐ２に基づき、第１変形後特徴ｃ２’に対して校正処理を行い、校正後特徴ｒ２を獲得し、且つ校正後特徴ｒ２に対して畳み込み計算を行って第１畳み込み特徴ｆ２’’’を獲得する。続いて、第１畳み込み特徴ｆ２’’’とアップサンプリング特徴ｆ１’とを繋ぎ合わせて獲得した特徴ｆ２’’に基づいて、現在の画像特徴層に対応する第２画像の画像特徴ｃ２に対して第２変形処理を行い、第２変形後特徴ｐ２ｃ２’’を獲得する。第２変形後特徴はすなわち現在の画像特徴層が出力した第１画像の画像特徴ｐ２と他の特徴ｃ２’’との組み合わせである。最後に、第２変形後特徴ｐ２ｃ２’’に対して第２畳み込み計算を行い、且つ計算により獲得された第２畳み込み特徴ｆ２’と第１畳み込み特徴ｆ２’’とを繋ぎ合わせて、現在の画像特徴層に対応する外観フロー特徴ｆ２を獲得することができる。

上記から分かるように、１つ前の画像特徴層が出力した外観フロー特徴に対してアップサンプリング処理を行うことは、現在の画像特徴層の外観フロー特徴の解像度の向上に有益である。その後に、２回の変形処理、及び２回の畳み込み計算を行うことによって、アップサンプリング特徴において含有される特徴情報をさらに細分化することができ、１つ前の画像特徴層が出力した外観フロー特徴を基に外観フロー特徴の空間情報を新たに追加することに相当する。これにより、１つ前の画像特徴層が出力した外観フロー特徴に対する最適化を実現し、目標服装が目標人物の人体に適応する変形をさらに反映することができる外観フロー特徴を獲得する。

また言及する点として、いくつかの実施例において、外観フロー特徴予測モデルは第１画像特徴抽出モデル、及び第２画像特徴抽出モデルが出力した多層画像特徴に基づいて、外観フロー特徴の抽出を層毎に行う過程において、さらに、隣接する外観フロー間のリニア対応関係に対して予め設定された二次平滑拘束条件に基づいて外観フロー特徴の抽出を行い、それによって、目標服装のパターン、及び縞模様等の特徴をさらに残す。

図５は、本願の他の実施例に示される画像処理方法のフローチャートである。図５に示すように、該方法は図１に示される実施例を基に、Ｓ２１０～Ｓ２５０をさらに含み、詳細な紹介は以下のとおりである。

Ｓ２１０：仮想着せ替えティーチングアシスタントモデルを呼び出し、指定人物が含まれる人物画像に対応する人体解析結果、及び着せ替え対象の服装が含まれる第１服装画像を仮想着せ替えティーチングアシスタントモデルに入力して、仮想着せ替えティーチングアシスタントモデルが出力したティーチングアシスタント画像を獲得する。ティーチングアシスタント画像において指定人物は指定人物の人体に適応する着せ替え対象の服装を着用している。

まず、説明する点として、本実施例は図２に示される仮想着せ替え生徒モデルに対して訓練を行う過程を開示している。仮想着せ替え生徒モデルの訓練段階に、仮想着せ替えティーチングアシスタントモデルを呼び出して補助訓練を行う必要があり、具体的に言えば、仮想着せ替えティーチングアシスタントモデルは人体解析結果に依存する人工知能モデルである。仮想着せ替えティーチングアシスタントモデルに指定人物が含まれる人物画像に対応する人体解析結果、及び着せ替え対象の服装が含まれる第１服装画像を入力することによって、仮想着せ替えティーチングアシスタントモデルは対応するティーチングアシスタント画像を出力することができる。ティーチングアシスタント画像において指定人物は指定人物の人体に適応する着せ替え対象の服装を着用している。

本実施例において、仮想着せ替えデータセットは指定人物を含む人物画像、着せ替え対象の服装を含む第１服装画像、及び指定人物が着用した元の服装を含む第２服装画像により構成された画像データセットである。ここで、人物画像、第１服装画像、及び第２服装画像の数量はいずれも複数枚であってもよく、異なる人物画像において含有される指定人物は同じであってもよく、同じでなくてもよく、本実施例はこれについて限定しない。

Ｓ２３０：元の服装が含まれる第２服装画像、及びティーチングアシスタント画像を訓練対象の仮想着せ替え生徒モデルに入力して、訓練対象の仮想着せ替え生徒モデルが出力した生徒画像を獲得する。生徒画像において指定人物はティーチングアシスタント画像における指定人物の人体に適応する元の服装を着用しており、元の服装は指定人物が人物画像において着用している服装である。

仮想着せ替え生徒モデルが人体解析結果に依存して仮想着せ替えを実現するということではなく、仮想着せ替えティーチングアシスタントモデルが人体解析結果に基づき抽出した特徴にはより豊かな意味情報、及び特徴表現が含まれ得るため、本実施例は仮想着せ替えティーチングアシスタントモデルを使用して仮想着せ替え生徒モデルを指導して訓練する。

すなわち、本実施例は知識蒸留の方式で仮想着せ替え生徒モデルに対して訓練を行う。

ここで、知識蒸留とは、教師ネットワークの内在情報を利用して生徒ネットワークを訓練することを指し、実施例において、教師ネットワークは仮想着せ替えティーチングアシスタントモデルであり、教師ネットワークの内在情報とは、仮想着せ替えティーチングアシスタントモデルが人体解析結果に基づいて抽出した特徴表現、及び意味情報を指す。

良く訓練された仮想着せ替え生徒モデルは人体と服装との間の正確で密集した対応関係を十分に学習する。従って、実際の応用において、目標人物の人体解析結果を取得する必要がなく、仮想着せ替え生徒モデルは依然としてそれに入力された目標人物が含まれる第１画像、及び目標服装が含まれる第２画像に基づいて、高品質の仮想着せ替え画像を出力することができる。

具体的に言えば、本実施例は仮想着せ替えティーチングアシスタントモデルが出力したティーチングアシスタント画像をティーチングアシスタント知識として訓練対象の仮想着せ替え生徒モデルに入力し、且つ元の服装が含まれる第２服装画像を訓練対象の仮想着せ替え生徒モデルに入力し、それにより訓練対象の仮想着せ替え生徒モデルに生徒画像を出力させる。生徒画像において指定人物はティーチングアシスタント画像における指定人物の人体に適応する元の服装を着用している。

Ｓ２５０：人物画像を教師画像とし、生徒画像と教師画像との間の画像損失情報に基づいて、訓練対象の仮想着せ替え生徒モデルに対してパラメータ更新を行う。

本実施例は、人物画像を教師画像として、仮想着せ替え生徒モデルの訓練過程を監督する。つまり、仮想着せ替え生徒モデルは訓練過程において教師画像の監督を直接受けることができ、仮想着せ替え生徒モデルの性能の向上に有益である。そのため最終的に訓練により獲得された仮想着せ替え生徒モデルは実際の応用において、人体解析結果に対する依存から解放されることができ、それに入力された第１画像、及び第２画像に基づいて高品質の仮想着せ替え画像を出力することができる。

生徒画像と教師画像との間の画像損失情報は生徒画像、及び教師画像に対して損失関数値計算を行うことによって獲得されたものであってもよい。例示的には、生徒画像の教師画像に対する画像損失値を取得することができ、画像損失値は画素距離損失関数値、感知損失関数値、及び対抗損失関数値のうちの少なくとも一種を含んでもよい。次に、画像損失値に対して加算演算を行い、生徒画像の教師画像に対する画像損失和値を獲得し、最後に画像損失和値を生徒画像と教師画像との間の画像損失情報として、訓練対象の仮想着せ替え生徒モデルに対してパラメータ更新を行い、これにより１回の仮想着せ替え生徒モデルの訓練を完了する。

訓練対象の仮想着せ替え生徒モデルに対して複数回の訓練を行うことによって、仮想着せ替え生徒モデルのモデル性能を徐々に向上させる。生徒画像と教師画像との間の画像損失情報が予め設定された画像損失閾値よりも小さい、又はそれに等しくなったときに、仮想着せ替え生徒モデルが既に比較的良いモデル性能に達したことを示し、仮想着せ替え生徒モデルの訓練過程を終了することができる。

また、さらに言及する必要がある点として、人体解析結果は人体のキーポイント、人体姿勢ヒートマップ、及び密集姿勢推定等の情報を含んでもよく、多くの状況において、仮想着せ替えティーチングアシスタントモデルは人体解析結果に基づいてより豊かな意味情報を抽出することができ、予測により獲得された外観フロー特徴もより正確になる。従って、仮想着せ替えティーチングアシスタントモデルが出力したティーチングアシスタント画像の画像品質は仮想着せ替え生徒モデルが出力した生徒画像よりも高くなるはずである。

もし仮想着せ替えティーチングアシスタントモデルに入力された人体解析結果が正確でなければ、仮想着せ替え生徒モデルの訓練過程において、仮想着せ替えティーチングアシスタントモデルが仮想着せ替え生徒モデルに完全に間違った指導を提供することを引き起こすようになる。従って、調整可能な知識蒸留メカニズムを設定する必要があり、それによって、仮想着せ替え生徒モデルの訓練に正確なティーチングアシスタント画像のみを用いることができることを確保する。

具体的に言えば、Ｓ２５０の前にティーチングアシスタント画像と生徒画像との間の画像品質差の取得を行うことによって、もしこの画像品質差が正の値であると判断するならばティーチングアシスタント画像の画像品質が生徒画像の画像品質よりも大きいことを示し、さらにＳ２５０を実行し、それによってこのティーチングアシスタント画像に基づき、仮想着せ替え生徒モデルに対して訓練を行う。もしこの画像品質差が負の値、又はゼロであると判断するなら、ティーチングアシスタント画像の画像品質が生徒画像の画像品質よりも大きくないことを示し、仮想着せ替えティーチングアシスタントモデルに入力された人体解析結果は完全に間違ったものである可能性があり、従って、Ｓ２５０の実行を終止し、次のラウンドの仮想着せ替え生徒モデルの訓練過程に入る。

図６は、本願の一実施例に示される仮想着せ替え生徒モデルの訓練フローチャートである。図６に示すように、仮想着せ替えティーチングアシスタントモデル２０を、仮想着せ替え生徒モデル１０を訓練することに用いられる補助モデルとし、仮想着せ替えティーチングアシスタントモデル２０はそれに入力された第１服装画像と、人物画像（すなわち教師画像）に対して人体解析を行って獲得した人体解析結果とに基づいて、対応するティーチングアシスタント画像を出力する。次に、仮想着せ替えティーチングアシスタントモデル２０が出力したティーチングアシスタント画像、及び第２服装画像を仮想着せ替え生徒モデル１０に入力し、仮想着せ替え生徒モデル１０が出力した生徒画像を獲得する。生徒画像と教師画像との間の画像損失情報に基づいて、仮想着せ替え生徒モデル１０に対してパラメータ更新を行うことができる。

仮想着せ替えティーチングアシスタントモデル２０は第２服装変形サブモデル２１と、第２服装生成サブモデル２２とを含み、第２服装変形サブモデル２１を呼び出すことによって、人体解析結果と第１服装画像の画像特徴とに基づいて、着せ替え対象の服装が指定人物の人体に適応する変形後画像を生成することができる。詳細な過程は図３、及び図４の対応する実施例の記述を参考することができるため、ここでは詳しく説明しない。第２着せ替え生成サブモデル２２を呼び出すことによって、第２服装変形サブモデルが出力した着せ替え対象の服装に対応する変形後画像と、人物画像における元の服装を着用している領域を除く他の画像領域との融合に基づいてティーチングアシスタント画像を生成することができる。

別の実施例において、第２着せ替え生成サブモデル２２を呼び出すことによって、さらに、人体解析結果に基づいて、人物画像において含有される指定人物が元の服装を着用している領域をクリアすることができ、それによって人物画像における元の服装を着用している領域を除く他の画像領域を獲得する。

説明する必要がある点として、仮想着せ替え生徒モデルにおいて含有される第１服装変形サブモデルと仮想着せ替えティーチングアシスタントモデルにおいて含有される第２服装変形サブモデルとの間は同じネットワーク構造を有してもよく、例えば、図３に示されるネットワーク構造を有する。仮想着せ替え生徒モデルにおいて含有される第１着せ替え生成サブモデルと仮想着せ替えティーチングアシスタントモデルにおいて含有される第２着せ替え生成サブモデルとの間も同じネットワーク構造を有してもよい。例えば、第１着せ替え生成サブモデル、及び第２着せ替え生成サブモデルはエンコーダ－デコーダネットワーク、及び残差ネットワークにより構成されてもよく、残差ネットワークはそれが接続された上位層ネットワークに対して正規化処理を行うことに用いられ、これにより、モデルの訓練過程においてパラメータの最適化処理を行いやすい。

上記から分かるように、本願は一種の新規な「教師－ティーチングアシスタント－生徒」の知識蒸留メカニズムによって人体解析結果に依存する必要がない仮想着せ替え生徒モデルを訓練し、仮想着せ替え生徒モデルが訓練過程において教師画像の監督を受ける。それにより最終的に訓練により獲得された仮想着せ替え生徒モデルは人体解析結果に依存する必要がなく、リアル感が高い仮想着せ替え結果を生成することができ、人体解析結果に依存する必要がない状況において高品質の仮想着せ替えを実現する。

図７は、本願の一実施例に示される画像処理装置のブロック図である。図７に示すように、１つの例示的な実施例において、該画像処理装置は、
目標人物が含まれる第１画像と目標服装が含まれる第２画像とを取得するように構成される画像取得モジュール３１０と、第１画像の画像特徴と第２画像の画像特徴とに基づいて、目標服装が目標人物の人体に適応して生じた変形を表すことに用いられる目標外観フロー特徴を生成し、且つ目標外観フロー特徴に基づき、目標服装が人体に適応する変形後画像を生成するように構成される情報生成モジュール３３０と、変形後画像と第１画像との融合に基づいて仮想着せ替え画像を生成するように構成される仮想着せ替えモジュール３５０であって、仮想着せ替え画像において、目標人物は人体に適応する目標服装を着用している、仮想着せ替えモジュール３５０と、を含む。

他の例示的な実施例において、情報生成モジュール３３０は、
第１画像を第１画像特徴抽出モデルの入力信号とし、且つ第２画像を第２画像特徴抽出モデルの入力信号として、第１画像特徴抽出モデル、及び第２画像特徴抽出モデルによってそれぞれ入力信号に対応する多層画像特徴を抽出するように構成される多層画像特徴取得ユニットと、第１画像特徴抽出モデル、及び第２画像特徴抽出モデルが出力した多層画像特徴に基づいて、外観フロー特徴の抽出を層毎に行い、最後の１つの画像特徴層に対して抽出を行って獲得した外観フロー特徴を目標外観フロー特徴とするように構成される外観フロー特徴抽出ユニットと、を含む。

他の例示的な実施例において、外観フロー特徴抽出ユニットは、
１番目の画像特徴層に、第１画像特徴抽出モデル、及び第２画像特徴抽出モデルが出力した画像特徴に基づいて、目標服装が目標人物の人体に適応して生じた変形を表すことに用いられる外観フロー特徴を抽出するように構成される第１特徴抽出サブユニットと、１番目の画像特徴層の後の各画像特徴層に、第１画像特徴抽出モデル、及び第２画像特徴抽出モデルが出力した画像特徴に基づいて、１つ前の画像特徴層に対応する外観フロー特徴に対して最適化処理を行い、現在の画像特徴層に対応する外観フロー特徴を獲得するように構成される第２特徴抽出サブユニットと、を含む。

他の例示的な実施例において、第２特徴抽出サブユニットは、
１つ前の画像特徴層に対応する外観フロー特徴に基づいてアップサンプリング処理を行ってアップサンプリング特徴を獲得し、アップサンプリング特徴に基づいて現在の画像特徴層に対応する第２画像の画像特徴に対して第１変形処理を行い、第１変形後特徴を獲得するように構成される第１変形処理サブユニットと、現在の画像特徴層に対応する第１画像の画像特徴に基づき、第１変形後特徴に対して校正処理を行い、且つ校正処理により獲得された校正後特徴に対して第１畳み込み計算を行い、第１畳み込み特徴を獲得するように構成される校正処理サブユニットと、第１畳み込み特徴とアップサンプリング特徴とを繋ぎ合わせて獲得した特徴に基づいて、現在の画像特徴層に対応する第２画像の画像特徴に対して第２変形処理を行い、第２変形後特徴を獲得するように構成される第２変形処理サブユニットと、第２変形後特徴に対して第２畳み込み計算を行い、且つ計算により獲得された第２畳み込み特徴と第１畳み込み特徴とを繋ぎ合わせて、現在の画像特徴層に対応する外観フロー特徴を獲得するように構成される外観フロー特徴取得サブユニットと、を含む。

他の例示的な実施例において、情報生成モジュール３３０は、
第１画像特徴抽出モデル、及び第２画像特徴抽出モデルが出力した多層画像特徴に基づいて、外観フロー特徴の抽出を層毎に行う過程において、さらに、二次平滑拘束条件に基づいて外観フロー特徴の抽出を行うように構成される二次平滑拘束ユニットであって、二次平滑拘束条件は隣接する外観フローの間のリニア対応関係に対して予め設定された拘束条件である、二次平滑拘束ユニットをさらに含む。

他の例示的な実施例において、情報生成モジュール３３０は、仮想着せ替え生徒モデルにおいて含有される第１服装変形サブモデルとして配置され、仮想着せ替えモジュール３５０は、仮想着せ替え生徒モデルにおいて含有される第１着せ替え生成サブモデルとして配置される。

他の例示的な実施例において、該画像処理装置は、
仮想着せ替えティーチングアシスタントモデルを呼び出し、指定人物が含まれる人物画像に対応する人体解析結果、及び着せ替え対象の服装が含まれる第１服装画像を仮想着せ替えティーチングアシスタントモデルに入力して、仮想着せ替えティーチングアシスタントモデルが出力したティーチングアシスタント画像を獲得するように構成されるティーチングアシスタント画像取得モジュールであって、ティーチングアシスタント画像において指定人物は指定人物の人体に適応する着せ替え対象の服装を着用している、ティーチングアシスタント画像取得モジュールと、元の服装が含まれる第２服装画像、及びティーチングアシスタント画像を訓練対象の仮想着せ替え生徒モデルに入力して、訓練対象の仮想着せ替え生徒モデルが出力した生徒画像を獲得するように構成される生徒画像取得モジュールであって、生徒画像において指定人物はティーチングアシスタント画像における指定人物の人体に適応する元の服装を着用しており、元の服装は上記指定人物が人物画像において着用している服装である、生徒画像取得モジュールと、人物画像を教師画像とし、生徒画像と教師画像との間の画像損失情報に基づいて、訓練対象の仮想着せ替え生徒モデルに対してパラメータ更新を行うように構成されるパラメータ更新モジュールと、をさらに含む。

他の例示的な実施例において、該画像処理装置は、
ティーチングアシスタント画像と生徒画像との間の画像品質差を取得し、もし画像品質差が正の値であれば、人物画像を教師画像とし、生徒画像と教師画像との間の画像損失情報に基づいて、訓練対象の仮想着せ替え生徒モデルに対してパラメータ更新を行うステップを実行するように構成される画像品質差取得モジュールをさらに含む。

他の例示的な実施例において、ティーチングアシスタント画像取得モジュールは、
仮想着せ替えティーチングアシスタントモデルにおける第２服装変形サブモデルを呼び出し、人体解析結果と第１服装画像の画像特徴とに基づいて、着せ替え対象の服装が指定人物の人体に適応する変形後画像を生成するように構成される第２服装変形サブモデル呼び出しユニットと、仮想着せ替えモデルにおける第２着せ替え生成サブモデルを呼び出し、第２服装変形サブモデルが出力した着せ替え対象の服装に対応する変形後画像と、人物画像における元の服装を着用している領域を除く他の画像領域との融合に基づいてティーチングアシスタント画像を生成するように構成される第２着せ替え生成サブモデル呼び出しユニットと、を含む。

他の例示的な実施例において、ティーチングアシスタント画像取得モジュールは、
仮想着せ替えモデルにおける第２着せ替え生成サブモデルを呼び出し、人体解析結果に基づいて、人物画像において含有される指定人物が元の服装を着用している領域をクリアし、それによって、人物画像における元の服装を着用している領域を除く他の画像領域を獲得するように構成される画像領域情報取得ユニットをさらに含む。

他の例示的な実施例において、パラメータ更新モジュールは、
生徒画像の教師画像に対する画像損失値を取得するように構成される画像損失値取得ユニットであって、画像損失値は画素距離損失関数値、感知損失関数値、及び対抗損失関数値のうちの少なくとも一種を含む、画像損失値取得ユニットと、画像損失値に対して加算演算を行い、生徒画像の教師画像に対する画像損失和値を獲得するように構成される損失値加算ユニットと、画像損失和値を生徒画像と教師画像との間の画像損失情報として、訓練対象の仮想着せ替え生徒モデルに対してパラメータ更新を行うように構成されるモデルパラメータ更新ユニットと、を含む。

他の例示的な実施例において、第１着せ替え生成サブモデルはエンコーダ－デコーダネットワーク、及び残差ネットワークにより構成され、残差ネットワークは接続された上位層ネットワークに対して正規化処理を行うことに用いられる。

説明する必要がある点として、上記実施例が提供した装置は上記実施例が提供した方法と同一の構想に属し、ここで、各モジュール、及びユニットが操作を実行する具体的な方式は既に方法実施例において詳細に記述されており、ここでは詳しく記述しない。

本願の実施例はさらに電子機器を提供し、プロセッサと、メモリとを含み、ここで、メモリにおいてコンピュータ可読命令が記憶されており、該コンピュータ可読命令はプロセッサにより実行されるときに、上記画像処理方法を実現する。

図８は本願の実施例を実現するために適する電子機器のコンピュータシステムの構造模式図を示す。

説明する必要がある点として、図８に示される電子機器のコンピュータシステム１６００は１つの例に過ぎず、本願の実施例の機能、及び使用範囲に対して何らの限定をもたらすべきではない。

図８に示すように、コンピュータシステム１６００は中央処理ユニット（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）１６０１を含み、それは読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）１６０２に記憶されたプログラム、又は記憶部分１６０８からランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）１６０３にロードされたプログラムに基づいて様々な適当な動作、及び処理を実行することができ、例えば、上記実施例において記載の方法を実行する。ＲＡＭ１６０３において、システム操作に必要な様々なプログラム、及びデータが記憶されている。ＣＰＵ１６０１、ＲＯＭ１６０２、及びＲＡＭ１６０３はバス１６０４によって互いに連結される。入力／出力（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ、Ｉ／Ｏ）インタフェース１６０５もバス１６０４に接続される。

キーボード、及びマウス等を含む入力部分１６０６と、例えばカソードレイチューブ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ、ＣＲＴ）、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）等、及びスピーカ等を含む出力部分１６０７と、ハードディスク等を含む記憶部分１６０８と、例えばＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、ローカルエリアネットワーク）カード、及びモデム等のネットワークインタフェースカードを含む通信部分１６０９とは、Ｉ／Ｏインタフェース１６０５に接続される。通信部分１６０９は例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ１６１０も必要に応じてＩ／Ｏインタフェース１６０５に接続される。例えば磁気ディスク、光ディスク、光磁気ディスク、及び半導体メモリ等の取り外し可能な媒体１６１１は、必要に応じてドライバ１６１０に取り付けられ、それによりそれから読み出したコンピュータプログラムは必要に応じて記憶部分１６０８にインストールされやすい。

特に、本願の実施例によれば、上記でフローチャートを参照して記述された過程はコンピュータソフトウェアプログラムとして実現されてもよい。例えば、本願の実施例は一種のコンピュータプログラム製品を含み、それはコンピュータ可読媒体に載せられるコンピュータプログラムを含み、該コンピュータプログラムはフローチャートに示される方法を実行することに用いられるコンピュータプログラムを含む。このような実施例において、該コンピュータプログラムは通信部分１６０９によってネットワークからダウンロード及びインストールされ、及び／又は取り外し可能な媒体１６１１からインストールされるようにしてもよい。該コンピュータプログラムは中央処理ユニット（ＣＰＵ）１６０１により実行されるときに、本願のシステムに限定された様々な機能を実行する。

説明する必要がある点として、本願の実施例に示されるコンピュータ可読媒体はコンピュータ可読信号媒体、又はコンピュータ可読記憶媒体、又は上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置、又はデバイス、又は任意の以上の組み合わせであってもよい。コンピュータ可読記憶媒体のさらに具体的な例は、１つ又は複数の導線を有する電気的接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ、ＥＰＲＯＭ）、フラッシュメモリ、光ファイバー、ポータブルコンパクト磁気ディスク読み取り専用メモリ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、又は上記任意の適切な組み合わせを含んでもよいが、それらに限定されない。本願において、コンピュータ可読記憶媒体は、プログラムを含む、又は記憶する何らの有形媒体であってもよく、該プログラムは命令実行システム、装置、又はデバイスに使用される、又はそれと併せて使用されるようにしてもよい。本願において、コンピュータ可読信号媒体はベースバンドにおいて、又は搬送波の一部として伝播されるデータ信号を含んでもよく、ここでコンピュータ可読コンピュータプログラムが載せられている。このように伝播されるデータ信号は複数種の形式を採用することができ、電磁信号、光信号、又は上記任意の適切な組み合わせを含むが、それらに限定されない。コンピュータ可読信号媒体はさらにコンピュータ可読記憶媒体以外の何らのコンピュータ可読媒体であってもよく、該コンピュータ可読媒体は命令実行システム、装置、又はデバイスにより使用されるか、又はそれと併せて使用されることに用いられるプログラムを送信、伝播、又は伝送することができる。コンピュータ可読媒体に含まれるコンピュータプログラムは何らの適当な媒体で伝送されてもよく、無線、有線等、又は上記任意の適切な組み合わせを含むが、それらに限定されない。

図面におけるフローチャート、及びブロック図は、本願の様々な実施例によるシステム、方法、及びコンピュータプログラム製品の実現可能な体系アーキテクチャ、機能、及び操作を図示している。ここで、フローチャート、又はブロック図における各ブロックは１つのモジュール、プログラムセグメント、又はコードの一部を表すことができ、上記モジュール、プログラムセグメント、又はコードの一部は所定のロジック機能を実現することに用いられる１つ又は複数の実行可能な命令を含む。また、注意すべき点として、いくつかの代替としての実現において、ブロックにおいてマークされた機能は図面においてマークされた順序とは異なる順序で行われてもよい。例えば、連続して示される２つのブロックは実際にほぼ並行に実行されてもよく、場合によってそれらは逆の順序で実行されてもよく、これは関連する機能によって決められる。さらに注意すべき点として、ブロック図、又はフローチャートにおける各ブロック、及びブロック図、又はフローチャートにおけるブロックの組み合わせは、所定の機能、又は操作を実行するハードウェアに基づく専用システムで実現されてもよく、又は専用ハードウェアとコンピュータ命令との組み合わせで実現されてもよい。

本願の実施例の記述において、関連するユニットはソフトウェアの方式によって実現されてもよく、ハードウェアの方式によって実現されてもよく、記述されたユニットはプロセッサにおいて設置されてもよい。ここで、ある状況において、それらのユニットの名称は該ユニット自体に対する限定を構成しない。

本願の他の態様はさらにコンピュータ可読記憶媒体を提供し、それにおいてコンピュータプログラムが記憶されており、該コンピュータプログラムはプロセッサにより実行されるときに、上記画像処理方法を実現する。該コンピュータ可読記憶媒体は上記実施例で記述された電子機器に含まれてもよく、該電子機器に組み立てられずに単独で存在してもよい。

本願の他の態様はさらにコンピュータプログラム製品、又はコンピュータプログラムを提供し、該コンピュータプログラム製品、又はコンピュータプログラムはコンピュータ命令を含み、該コンピュータ命令はコンピュータ可読記憶媒体において記憶されている。コンピュータ機器のプロセッサはコンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサは該コンピュータ命令を実行し、該コンピュータ機器に上記各実施例において提供された画像処理方法を実行させる。

上記内容は、本願の好ましい例示的な実施例に過ぎず、本願の実施手段を限定することに用いられるものではなく、当業者は本願の主な構想、及び精神に基づいて、相応な変更、又は改定を非常に容易に行うことができ、従って、本願の保護範囲は特許請求の範囲により要求される保護範囲に準じるべきである。

３１０画像取得モジュール
３３０情報生成モジュール
１６００コンピュータシステム
１６０１中央処理ユニット
１６０２メモリ
１６０３ランダムアクセスメモリ
１６０４バス
１６０５Ｉ／Ｏインタフェース
１６０６入力部分
１６０７出力部分
１６０８記憶部分
１６０９通信部分
１６１０ドライバ
１６１１媒体

Claims

コンピュータ機器により実行される、画像処理方法であって、前記方法は、
目標人物を含む第１画像と目標服装を含む第２画像とを取得するステップと、
前記第１画像の画像特徴と前記第２画像の画像特徴とに基づいて、前記目標服装が前記目標人物の人体に適応して生じた変形を表すことに用いられる目標外観フロー特徴を生成し、且つ前記目標外観フロー特徴に基づき、前記目標服装が前記人体に適応する変形後画像を生成するステップと、
前記変形後画像と前記第１画像との融合に基づいて仮想着せ替え画像を生成するステップであって、前記仮想着せ替え画像において、前記目標人物は前記人体に適応する目標服装を着用している、ステップと、を含む、画像処理方法。
前記第１画像の画像特徴と前記第２画像の画像特徴とに基づいて、前記目標服装が前記目標人物の人体に適応して生じた変形を表すことに用いられる目標外観フロー特徴を生成する前記ステップは、
前記第１画像を第１画像特徴抽出モデルの入力信号とし、且つ前記第２画像を第２画像特徴抽出モデルの入力信号として、前記第１画像特徴抽出モデル、及び前記第２画像特徴抽出モデルによってそれぞれ入力信号に対応する多層画像特徴を抽出するステップと、
前記第１画像特徴抽出モデル、及び前記第２画像特徴抽出モデルが出力した多層画像特徴に基づいて、外観フロー特徴の抽出を層毎に行い、最後の１つの画像特徴層に対して抽出を行って獲得した外観フロー特徴を前記目標外観フロー特徴とするステップと、を含む、請求項１に記載の方法。
前記第１画像特徴抽出モデル、及び前記第２画像特徴抽出モデルが出力した多層画像特徴に基づいて、外観フロー特徴の抽出を層毎に行う前記ステップは、
１番目の画像特徴層に、前記第１画像特徴抽出モデル、及び前記第２画像特徴抽出モデルが出力した画像特徴に基づいて、前記目標服装が前記目標人物の人体に適応して生じた変形を表すことに用いられる外観フロー特徴を抽出するステップと、
前記１番目の画像特徴層の後の各画像特徴層に、前記第１画像特徴抽出モデル、及び前記第２画像特徴抽出モデルが出力した画像特徴に基づいて、１つ前の画像特徴層に対応する外観フロー特徴に対して最適化処理を行い、現在の画像特徴層に対応する外観フロー特徴を獲得するステップと、を含む、請求項２に記載の方法。
前記１番目の画像特徴層の後の各画像特徴層に、前記第１画像特徴抽出モデル、及び前記第２画像特徴抽出モデルが出力した画像特徴に基づいて、１つ前の画像特徴層に対応する外観フロー特徴に対して最適化処理を行い、現在の画像特徴層に対応する外観フロー特徴を獲得する前記ステップは、
１つ前の画像特徴層に対応する外観フロー特徴に基づいてアップサンプリング処理を行ってアップサンプリング特徴を獲得するステップと、
前記アップサンプリング特徴に基づいて現在の画像特徴層に対応する第２画像の画像特徴に対して第１変形処理を行い、第１変形後特徴を獲得するステップと、
現在の画像特徴層に対応する第１画像の画像特徴に基づき、前記第１変形後特徴に対して校正処理を行い、且つ校正処理により獲得された校正後特徴に対して第１畳み込み計算を行い、第１畳み込み特徴を獲得するステップと、
前記第１畳み込み特徴と前記アップサンプリング特徴とを繋ぎ合わせて獲得した特徴に基づいて、前記現在の画像特徴層に対応する第２画像の画像特徴に対して第２変形処理を行い、第２変形後特徴を獲得するステップと、
前記第２変形後特徴に対して第２畳み込み計算を行い、且つ計算により獲得された第２畳み込み特徴と前記第１畳み込み特徴とを繋ぎ合わせて、現在の画像特徴層に対応する外観フロー特徴を獲得するステップと、を含む、請求項３に記載の方法。
前記第１画像特徴抽出モデル、及び前記第２画像特徴抽出モデルが出力した多層画像特徴に基づいて、外観フロー特徴の抽出を層毎に行う過程において、さらに、二次平滑拘束条件に基づいて前記外観フロー特徴の抽出を行い、前記二次平滑拘束条件は隣接する外観フローの間のリニア対応関係に対して予め設定された拘束条件である、請求項２に記載の方法。
前記第１画像の画像特徴と前記第２画像の画像特徴とに基づいて、前記目標服装が前記目標人物の人体に適応して生じた変形を表すことに用いられる目標外観フロー特徴を生成し、且つ前記目標外観フロー特徴に基づき、前記目標服装が前記人体に適応する変形後画像を生成する前記ステップは、仮想着せ替え生徒モデルにおける第１服装変形サブモデルにより実行され、
前記変形後画像と前記第１画像との融合に基づいて仮想着せ替え画像を生成する前記ステップは、前記仮想着せ替え生徒モデルにおける第１着せ替え生成サブモデルにより実行される、請求項１に記載の方法。
前記方法は、
仮想着せ替えティーチングアシスタントモデルを呼び出し、指定人物が含まれる人物画像に対応する人体解析結果、及び着せ替え対象の服装が含まれる第１服装画像を前記仮想着せ替えティーチングアシスタントモデルに入力して、前記仮想着せ替えティーチングアシスタントモデルが出力したティーチングアシスタント画像を獲得するステップであって、前記ティーチングアシスタント画像において前記指定人物は前記指定人物の人体に適応する着せ替え対象の服装を着用している、ステップと、
元の服装が含まれる第２服装画像、及び前記ティーチングアシスタント画像を訓練対象の仮想着せ替え生徒モデルに入力して、前記訓練対象の仮想着せ替え生徒モデルが出力した生徒画像を獲得するステップであって、前記生徒画像において前記指定人物は前記ティーチングアシスタント画像における指定人物の人体に適応する元の服装を着用しており、前記元の服装は前記指定人物が人物画像において着用している服装である、ステップと、
前記人物画像を教師画像とし、前記生徒画像と前記教師画像との間の画像損失情報に基づいて、前記訓練対象の仮想着せ替え生徒モデルに対してパラメータ更新を行うステップと、をさらに含む、請求項６に記載の方法。
前記人物画像を教師画像とし、前記生徒画像と前記教師画像との間の画像損失情報に基づいて、前記訓練対象の仮想着せ替え生徒モデルに対してパラメータ更新を行うステップの前に、前記方法は、
前記ティーチングアシスタント画像と前記生徒画像との間の画像品質差を取得するステップと、
もし前記画像品質差が正の値であれば、前記人物画像を教師画像とし、前記生徒画像と前記教師画像との間の画像損失情報に基づいて、前記訓練対象の仮想着せ替え生徒モデルに対してパラメータ更新を行う前記ステップを実行するステップと、をさらに含む、請求項７に記載の方法。
仮想着せ替えティーチングアシスタントモデルを呼び出し、人物が含まれる人物画像に対応する人体解析結果、及び着せ替え対象の服装が含まれる第１服装画像を前記仮想着せ替えティーチングアシスタントモデルに入力して、前記仮想着せ替えティーチングアシスタントモデルが出力したティーチングアシスタント画像を獲得する前記ステップは、
前記仮想着せ替えティーチングアシスタントモデルにおける第２服装変形サブモデルを呼び出し、前記人体解析結果と前記第１服装画像の画像特徴とに基づいて、前記着せ替え対象の服装が前記指定人物の人体に適応する変形後画像を生成するステップと、
前記仮想着せ替えモデルにおける第２着せ替え生成サブモデルを呼び出し、前記第２服装変形サブモデルが出力した前記着せ替え対象の服装に対応する変形後画像と、前記人物画像における元の服装を着用している領域を除く他の画像領域との融合に基づいて前記ティーチングアシスタント画像を生成するステップと、を含む、請求項７に記載の方法。
前記方法は、
前記仮想着せ替えモデルにおける第２着せ替え生成サブモデルを呼び出し、前記人体解析結果に基づいて、前記人物画像において含有される前記指定人物が元の服装を着用している領域をクリアして、前記人物画像における元の服装を着用している領域を除く他の画像領域を獲得するステップをさらに含む、請求項９に記載の方法。
前記生徒画像と前記教師画像との間の画像損失情報に基づいて、前記訓練対象の仮想着せ替え生徒モデルに対してパラメータ更新を行う前記ステップは、
前記生徒画像の前記教師画像に対する画像損失値を取得するステップであって、前記画像損失値は画素距離損失関数値、感知損失関数値、及び対抗損失関数値のうちの少なくとも一種を含む、ステップと、
前記画像損失値に対して加算演算を行い、前記生徒画像の前記教師画像に対する画像損失和値を獲得するステップと、
前記画像損失和値を前記生徒画像と前記教師画像との間の画像損失情報として、前記訓練対象の仮想着せ替え生徒モデルに対してパラメータ更新を行うステップと、を含む、請求項７に記載の方法。
前記第１着せ替え生成サブモデルはエンコーダ－デコーダネットワーク、及び残差ネットワークにより構成され、前記残差ネットワークは接続された上位層ネットワークに対して正規化処理を行うことに用いられる、請求項６に記載の方法。
画像処理装置であって、前記装置はコンピュータ機器に搭載され、前記装置は、
目標人物が含まれる第１画像と目標服装が含まれる第２画像とを取得するように構成される画像取得モジュールと、
前記第１画像の画像特徴と前記第２画像の画像特徴とに基づいて、前記目標服装が前記目標人物の人体に適応して生じた変形を表すことに用いられる目標外観フロー特徴を生成し、且つ前記目標外観フロー特徴に基づき、前記目標服装が前記人体に適応する変形後画像を生成するように構成される情報生成モジュールと、
前記変形後画像と前記第１画像との融合に基づいて仮想着せ替え画像を生成するように構成される仮想着せ替えモジュールであって、前記仮想着せ替え画像において、前記目標人物は前記人体に適応する目標服装を着用している、仮想着せ替えモジュールと、を含む、画像処理装置。
電子機器であって、
コンピュータ可読命令が記憶されているメモリと、
メモリに記憶されているコンピュータ可読命令を読み取って請求項１～１２のいずれか一項に記載の方法を実行するプロセッサと、を含む、電子機器。
コンピュータ可読記憶媒体であって、コンピュータ可読命令が記憶されており、前記コンピュータ可読命令はコンピュータのプロセッサにより実行されるときに、コンピュータに請求項１～１２のいずれか一項に記載の方法を実行させる、コンピュータ可読記憶媒体。
コンピュータプログラム製品であって、前記コンピュータプログラム製品は実行されるときに、請求項１～１２のいずれか一項に記載の方法を実行することに用いられる、コンピュータプログラム製品。