JP2019148980A - 画像変換装置及び画像変換方法 - Google Patents

画像変換装置及び画像変換方法 Download PDF

Info

Publication number
JP2019148980A
JP2019148980A JP2018033140A JP2018033140A JP2019148980A JP 2019148980 A JP2019148980 A JP 2019148980A JP 2018033140 A JP2018033140 A JP 2018033140A JP 2018033140 A JP2018033140 A JP 2018033140A JP 2019148980 A JP2019148980 A JP 2019148980A
Authority
JP
Japan
Prior art keywords
image
face
input
sight
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018033140A
Other languages
English (en)
Inventor
利浩 北島
Toshihiro Kitajima
利浩 北島
延偉 陳
Yen Wei Chen
延偉 陳
昌孝 瀬尾
Masataka Seo
昌孝 瀬尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ritsumeikan Trust
Samsung R&D Institute Japan Co Ltd
Original Assignee
Ritsumeikan Trust
Samsung R&D Institute Japan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ritsumeikan Trust, Samsung R&D Institute Japan Co Ltd filed Critical Ritsumeikan Trust
Priority to JP2018033140A priority Critical patent/JP2019148980A/ja
Publication of JP2019148980A publication Critical patent/JP2019148980A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)

Abstract

【課題】目線がカメラに向いているように、顔画像を変換できる装置及び方法を提供できる。【解決手段】ユーザの顔の少なくとも一部を入力画像として取得する画像取得器、及び事前に登録された画像を用いて学習を行うことによって、視線又は顔の向きを変換するモデルを生成し、前記モデルを用いて前記入力画像の視線又は顔の向きを変換する変換器を備える。【選択図】図2

Description

顔画像の変換装置及び変換方法に関する。
特許文献1ではハーフミラーを追加して正面向きの顔画像を取得する。特許文献2ではモニター画面の左右に1台ずつカメラを設置することにより正面向きの顔画像を生成している。従来のカメラ1台に加えてハードウェアを追加するとシステムが大型化してしまう。
特開平11−177949号公報 特開平8−251562号公報
映像対話システムでは、カメラの位置と画面上の会話相手の位置が異なるため、カメラでユーザの顔を撮像すると、目線が合わないことが多い。この現象に関して本願発明者らは課題の存在を認識した。すなわちより自然な対話のためには、目線がカメラに向いているように、顔画像を変換できる映像対話システムが必要である。
本開示による画像変換装置は、ユーザの顔の少なくとも一部を入力画像として取得する画像取得器、及び事前に登録された画像を用いて学習を行うことによって、視線又は顔の向きを変換するモデルを生成し、前記モデルを用いて前記入力画像の視線又は顔の向きを変換する変換器を備える。
ある実施形態では、前記変換器は、前記モデルを生成する生成器及び識別器を含む。
ある実施形態では、前記ユーザの顔の少なくとも一部は、目の周辺である。
本開示による画像変換方法は、ユーザの顔の少なくとも一部を入力画像として取得すること、及び事前に登録された画像を用いて学習を行うことによって、視線又は顔の向きを変換するモデルを生成し、前記モデルを用いて前記入力画像の視線又は顔の向きを変換することを含む。
ある実施形態では、前記変換することは、前記モデルを生成するために生成器及び識別器を用いることを含む。
ある実施形態では、前記ユーザの顔の少なくとも一部は、目の周辺である。
目線がカメラに向いているように、顔画像を変換できる装置及び方法を提供できる。
本開示による画像変換装置の入力画像及び出力画像を示す図である。 画像変換装置の構造を示す図である。 生成器の構造を示す図である。 識別器の構造を示す図である。 畳み込み層における層間結合のイメージを示す図である。 畳み込み層における演算を示す図である。 正規化線形関数の例と、Leaky ReLUの例とを示す図である。 入力された非カメラ目線の顔画像を示す図である。 図2〜4に示されるpix2pixネットワークによって処理されて得られた顔画像を示す図である。 事前に用意した正解画像である。
図1は、本開示による画像変換装置の入力画像110及び出力画像120を示す図である。この装置は、ビデオチャット動画像から話者フレーム画像を取得し、話者の視線を補正する。入力画像110は、いわゆる「非カメラ目線」(カメラに目線が合っていない)の顔画像である。本装置は、入力画像110に基づいて、カメラ目線の顔画像を自動生成する。画像生成には、深層学習(deep learning)ベースの生成モデルである敵対的生成ネットワーク(generative adversarial networks、GAN)を用いる。出力画像120は、入力画像110にGANを適用して生成したカメラ目線の顔画像である。
図2は、画像変換装置200の構造を示す図である。画像変換装置200は、画像取得器210及び変換器220を備える。画像変換装置200は、入力端子202においてビデオチャット動画像を受け取る。画像取得器210は、ユーザの顔の少なくとも一部を入力画像として取得する。ある実施形態では、ビデオチャット動画像からフレーム画像を抽出する。
変換器220は、事前に登録された画像を用いて学習を行うことによって、視線又は顔の向きを変換するモデルを生成し、モデルを用いて前記入力画像の視線又は顔の向きを変換する。具体的には変換器220は、フレーム画像を画像取得器210から受け取り、非カメラ目線の顔画像をカメラ目線の顔画像に変換して出力端子228から出力する。変換器220は、生成器222、バイパス経路223、スイッチ224、及び識別器226を有する。
生成器222は、データの認識及び生成を担う。識別器226は、入力データが現実に真に存在するものか否かを判定する。変換器220は、以下のステップ1〜3を含むアルゴリズムに従って、非カメラ目線の顔画像からカメラ目線の画像を生成する。バイパス経路223及びスイッチ224は、ステップ1〜3を実行するときに適宜、使用される。
1.事前に撮影したフレーム画像から深層学習の教師データとなる非カメラ目線顔画像及びカメラ目線顔画像のペアを多数用意する。ここで十分多くの学習データ数を用意するために、さまざまな手法でデータの水増しを行ってもよい。また、教師データとは別に非カメラ目線のテスト顔画像を複数用意する。
2.GANの一種であるpix2pixネットワークを構築し,前述の学習データを利用してネットワークパラメータの学習を実施する。
3.非カメラ目線顔画像をインプットし、カメラ目線顔画像を生成する。
オリジナルのGANではランダムな初期重みから事前に学習したデータの分布に基づいて新たなサンプルを生成するが、pix2pixではインプット及びアウトプット情報を画像に限定し、インプット画像に任意の変換を施した変換した後、画像を生成することができる。さらに生成器222は、Encoder(エンコーダ)部及びDecoder(デコーダ)部を備える。Encoder部は、インプット画像の特徴抽出を実施し、Decoder部では特徴に応じた画像生成を実施する。
図3は、生成器222の構造を示す図である。オーソドックスなpix2pixでは、処理前後のエッジ情報保存の為、U-Netというネットワークが利用されているが、本開示ではエッジ情報を保持する必要がない為、それらは除いている。生成器222は、入力部(input)301、畳み込み層(convolution)302、逆畳み込み層(deconvolution)304、正規化線形関数(rectified linear unit、ReLU)306、Leaky ReLU308、バッチ正規化(batch normalization、BN)310、及び出力部390を備える。
図4は、識別器226の構造を示す図である。識別器226は、一般的な判別問題に利用されるネットワークを利用する。本開示ではサイズの大きな入力画像への対応を実現するために、パッチベースで局所領域ごとに真偽判定を実施する。そしてネットワーク最終層の平均プーリング(average pooling)により画像全体での真偽判定を実施する。これにより画像全体を入力情報とする場合に比べ、汎化性能の向上も見込まれる。
識別器226は、入力部402、404、連結(concat)420、畳み込み層302、BN310、ReLU306、平均プーリング410、及び出力部490を備える。
生成器222及び識別器226での損失関数は、以下の数1及び数2を使用する。各損失関数の意味は、生成器222では事前に用意した教師データと生成データとの誤差最小化を、識別器226では真偽判別誤差の最小化を示している。
ただし、
である。
ここで、pix2pixを用いた生成器222及び識別器226のネットワーク各層におけるさまざまな処理を説明する。
図5は、畳み込み層302における層間結合のイメージを示す図である。畳み込み層302は、局所受容野及び重み共有と呼ばれる特別な層間結合を持つ点が、一般的な層との違いである。一般的な順伝搬型ネットワークは隣接層間のすべてのユニット間において結合が存在する(510)が、畳み込み層は隣接層間の特定のユニットのみが結合を持つ(520)。
図6は、畳み込み層302における演算を示す図である。層610、620、及び630のそれぞれのユニットについて、2次元的な並びとみなされて、演算が実施される。図6では中間層の各ユニットは、入力層の3×3のユニット群とのみ結合を持ち(局所受容野)、そこに特定のパターンが入力されるとそれに反応して活性化する(すなわち、大きな値を出力する)。ここで3×3のユニット群の結合重みを1セットとし、フィルタと呼ぶ。複数のユニット間接続において同じ重み(フィルタ)が共有されるという特徴をもつ(重み共有と呼ばれる)。このフィルタによる演算は画像処理における畳み込み演算と同様の働きをし、出力結果のサイズはフィルタサイズに応じ、畳み込み前に比べ小さくなる。
GANにおける生成器222では、畳み込み層302を多数経ることで元データから特徴を抽出し、次元を圧縮し、一方で、逆畳み込み層304を経ることで元の次元の情報を生成する。GANの様な生成モデルでは、生成したい対象に応じて逆畳み込み層304の挙動が異なる。ネットワークの学習時、入出力の教師データを同一の画像とするとオートエンコーダ(autoencoder)を作成できる。オートエンコーダでは、逆畳み込み層304は、畳み込み層302の逆演算を学習により獲得する。逆畳み込み層304の結合重みは、畳み込み層302の結合重みの逆数をそのまま使用することも可能である。
図7は、正規化線形関数306の例(710)と、Leaky ReLU308の例(720)とを示す図である。正規化線形関数306は、ランプ関数とも呼ばれ、ニューラルネットワークにおける隠れ層で使用される活性化関数の一種である。正規化線形関数306は、入力が0未満の場合には0を返し、0以上の場合は恒等写像となる関数である。0以上の部分では微分値が常に1であるため、勾配消失の心配がなく、多層のネットワークを構築する際に多用される。
Leaky ReLU308は、正規化線形関数306を拡張した活性化関数の一種である。正規化線形関数306では入力が0未満の場合には一律で0を返していた。それに対しLeaky ReLU308では入力が負の場合(すなわちユニットがアクティブでない場合)にも弱い勾配を与える。
Leaky ReLU308における負の領域の勾配は用途に応じてユーザが指定できる。Leaky ReLU308は、正規化線形関数306と同様に勾配消失の心配がない。活性化関数としての正規化線形関数306及びLeaky ReLU308、その他の派生関数の効用については、様々な議論があるものの、現状では理論から明らかになっていない部分も多く、経験則に従って選択されるケースが多い。
深層学習において、学習係数を上げるとパラメータのスケールの問題によって、勾配が消失又は発散することが問題視されている。これは多層ネットワークの学習を阻害する大きな要因となり得る。バッチ正規化310は、この問題の解決策として用いられ得る。機械学習やパターン認識の分野では、訓練データのサンプリングと実際のテストデータの分布に隔たりがあった場合、この隔たりにアルゴリズムが対応できなくなり、十分な性能を実現できない可能性がある。バッチ正規化310ではこの問題を解決する。バッチ正規化310のアルゴリズムは以下の通りである。
1.m個のデータからなるミニバッチを定義する。
2.学習データにおけるミニバッチ内での平均と分散を計算する。
3.平均と分散を使用し、正規化を実施する。
このアルゴリズムで取得した
がバッチ正規化310の結果であり、Xの代わりに学習に使用する。なお、γやβはユーザが事前に決定するか、又は別途学習を行い、最適化する。実際のテストデータに対しても同様の処理を施したのち、ネットワークに入力する。本手法は従来の機械学習における白色化等の代わりに位置付けられ、ドロップアウト(dropout)等の各種手法を適用しなくとも学習を安定化させられるという効果を奏する。
pix2pixにおける平均プーリング410は、バッチベースで局所領域ごとに判定された真偽情報(0〜1の連続値であり、例えば0.5以上は真を表し、0.5未満は偽を表す)を局所領域数だけ受け取り、それらの平均値を算出する。識別器226としては、この平均値が0.5以上か、又は0.5未満かで画像全体の真偽判定を実施する。
pix2pixにおける連結420は、識別器226の入力値となる変化前後の画像、すなわち図4中の入力部402(Input before)と入力部404(Input after)とを連結し、その後のネットワークに引き渡す。その後、識別器226では、連結されたデータに対して畳み込み層302による特徴抽出を行い、変化前後の画像が共通の特徴を持っているのかどうかを判定する。識別器226は、明示的にそのような処理を行うわけではないが、学習後のネットワークはそのような挙動を示す。
図2〜4に示されるpix2pixネットワークを使用して、非カメラ目線の顔画像からカメラ目線顔画像を生成した結果を以下に示す。
図8は、入力された非カメラ目線の顔画像を示す図である。図9は、図2〜4に示されるpix2pixネットワークによって処理されて得られた顔画像を示す図である。図10は、事前に用意した正解画像である。図9及び10に示されるように、25枚の入力データに対して画像生成を実施した。図1と同種の画像ペアを学習データとして使用し、図8の入力情報に対して図9の結果が得られた。図9を図10と比較すれば、入力情報に対応したカメラ目線の顔画像が高精度に生成できていることが分かる。
本開示による画像取得器210は、ユーザの顔の画像のうち、目の周辺の画像を取り出し、変換器220は、目の周辺の画像を変換してもよい。
本開示による画像変換装置のさまざまな機能は、典型的にはソフトウェアによって実現されるが、これには限定されない。例えば一部の機能がハードウェアによって実現されてもよく、全ての機能がハードウェアによって実現されてもよい。
200 画像変換装置
202 入力端子
210 画像取得器
220 変換器
222 生成器
223 バイパス経路
224 スイッチ
226 識別器
228 出力端子

Claims (6)

  1. ユーザの顔の少なくとも一部を入力画像として取得する画像取得器、及び
    事前に登録された画像を用いて学習を行うことによって、視線又は顔の向きを変換するモデルを生成し、前記モデルを用いて前記入力画像の視線又は顔の向きを変換する変換器
    を備える画像変換装置。
  2. 前記変換器は、前記モデルを生成する生成器及び識別器を含む
    請求項1に記載の画像変換装置。
  3. 前記ユーザの顔の少なくとも一部は、目の周辺である
    請求項1に記載の画像変換装置。
  4. ユーザの顔の少なくとも一部を入力画像として取得すること、及び
    事前に登録された画像を用いて学習を行うことによって、視線又は顔の向きを変換するモデルを生成し、前記モデルを用いて前記入力画像の視線又は顔の向きを変換すること
    を含む画像変換方法。
  5. 前記変換することは、前記モデルを生成するために生成器及び識別器を用いることを含む
    請求項4に記載の画像変換方法。
  6. 前記ユーザの顔の少なくとも一部は、目の周辺である
    請求項4に記載の画像変換方法。
JP2018033140A 2018-02-27 2018-02-27 画像変換装置及び画像変換方法 Pending JP2019148980A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018033140A JP2019148980A (ja) 2018-02-27 2018-02-27 画像変換装置及び画像変換方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018033140A JP2019148980A (ja) 2018-02-27 2018-02-27 画像変換装置及び画像変換方法

Publications (1)

Publication Number Publication Date
JP2019148980A true JP2019148980A (ja) 2019-09-05

Family

ID=67848822

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018033140A Pending JP2019148980A (ja) 2018-02-27 2018-02-27 画像変換装置及び画像変換方法

Country Status (1)

Country Link
JP (1) JP2019148980A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783603A (zh) * 2020-06-24 2020-10-16 有半岛(北京)信息科技有限公司 生成对抗网络训练方法、图像换脸、视频换脸方法及装置
JP2021114279A (ja) * 2020-01-20 2021-08-05 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 画像の生成方法、生成装置、電子機器、コンピュータ可読媒体およびコンピュータプログラム
CN113486944A (zh) * 2021-07-01 2021-10-08 深圳市英威诺科技有限公司 人脸融合方法、装置、设备及存储介质
KR20220050504A (ko) 2020-10-16 2022-04-25 주식회사 케이티 안면 이미지 변환 장치 및 안면 이미지 변환 방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021114279A (ja) * 2020-01-20 2021-08-05 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 画像の生成方法、生成装置、電子機器、コンピュータ可読媒体およびコンピュータプログラム
JP7084457B2 (ja) 2020-01-20 2022-06-14 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 画像の生成方法、生成装置、電子機器、コンピュータ可読媒体およびコンピュータプログラム
US11463631B2 (en) 2020-01-20 2022-10-04 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating face image
CN111783603A (zh) * 2020-06-24 2020-10-16 有半岛(北京)信息科技有限公司 生成对抗网络训练方法、图像换脸、视频换脸方法及装置
KR20220050504A (ko) 2020-10-16 2022-04-25 주식회사 케이티 안면 이미지 변환 장치 및 안면 이미지 변환 방법
CN113486944A (zh) * 2021-07-01 2021-10-08 深圳市英威诺科技有限公司 人脸融合方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
JP2019148980A (ja) 画像変換装置及び画像変換方法
CN106096582B (zh) 区分真人面部与平坦表面
CN111985281B (zh) 图像生成模型的生成方法、装置及图像生成方法、装置
US11917158B2 (en) Static video recognition
US20190303746A1 (en) Multilayer neural network learning apparatus and method of controlling the same
EP3779775A1 (en) Media processing method and related apparatus
EP2804369A1 (en) Image processing method, image processing apparatus, and image processing program
CN112446352A (zh) 行为识别方法、装置、介质及电子设备
KR20200019282A (ko) 표정 관련 정보 생성 장치와 방법 및 표정 생성 장치
CN111861956A (zh) 图片处理方法、装置、电子设备以及介质
CN113297624B (zh) 图像的预处理方法及装置
US20190180148A1 (en) Artificial neural network
JP6651038B1 (ja) 顔認識用の年齢プライバシー保護方法及びシステム
WO2020044630A1 (ja) 検出器生成装置、モニタリング装置、検出器生成方法及び検出器生成プログラム
JP7400886B2 (ja) ビデオ会議システム、ビデオ会議方法、およびプログラム
JP2020071627A (ja) 画像処理装置および画像処理方法
CN102314612B (zh) 一种笑脸图像的识别方法、识别装置和图像获取设备
WO2008018459A1 (fr) Procédé de traitement d'image, appareil de traitement d'image, programme de traitement d'image, et appareil de prise d'image
JP2013210778A (ja) 撮像装置
Hongo et al. Personal authentication with an iris image captured under visible-light condition
JP6539624B2 (ja) 視線一致顔画像合成方法、テレビ会議システム、及びプログラム
CN113706429B (zh) 图像处理方法、装置、电子设备和存储介质
JP7110669B2 (ja) ビデオ会議システム、ビデオ会議方法、およびプログラム
JP3245447U (ja) 顔認識システム
CN114373204A (zh) 图像处理方法及装置、电子设备及存储介质