JP2022147713A - 画像生成装置、学習装置、及び、画像生成方法 - Google Patents

画像生成装置、学習装置、及び、画像生成方法 Download PDF

Info

Publication number
JP2022147713A
JP2022147713A JP2021049089A JP2021049089A JP2022147713A JP 2022147713 A JP2022147713 A JP 2022147713A JP 2021049089 A JP2021049089 A JP 2021049089A JP 2021049089 A JP2021049089 A JP 2021049089A JP 2022147713 A JP2022147713 A JP 2022147713A
Authority
JP
Japan
Prior art keywords
image
statistical information
feature amount
learning model
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021049089A
Other languages
English (en)
Inventor
優也 田中
Yuya Tanaka
真也 木内
Shinya Kiuchi
友子 森田
Tomoko Morita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2021049089A priority Critical patent/JP2022147713A/ja
Publication of JP2022147713A publication Critical patent/JP2022147713A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

Figure 2022147713000001
【課題】機械学習モデルの検出性能をより確実に向上させることができる画像生成装置等を提供する。
【解決手段】画像生成装置10は、カメラにより対象物を撮像した第1画像を取得し、第1画像に映る対象物の特徴量の第1統計情報を第1画像から抽出する領域情報抽出部11と、対象物が映り、第1画像と異なる第2画像を取得し、第2画像に映る対象物の特徴量の第2統計情報を第2画像から抽出するCG生成部13と、第1統計情報と第2統計情報との対応関係に基づいて、第2画像の第2統計情報を第1画像の第1統計情報に近づける補正を行う特徴量変換部15とを備える。
【選択図】図1

Description

本開示は、画像生成装置、学習装置、及び、画像生成方法に関する。
近年、ディープラーニング等の機械学習を利用した物体検出技術の開発が行われている。例えば、物体検出技術が車載に利用される場合、人物等の対象物は、出現頻度が多く検出対象として重要であり、当該対象物を精度よく検出することが望まれる。
このような学習モデルは、対象物が映る実写画像を用いた訓練により生成されることが多い。どのような実写画像を用いて訓練されるかは、物体の検出性能に大きく影響する。
特許文献1には、第二の画像の対象物の特徴(例えば、色)を変更した第一の画像を生成する技術が開示されている。これにより、所望の特徴を有する学習用の画像を生成することができる。
国際公開第2020/121811号
しかしながら、特許文献1の技術のように、画像処理により生成された学習用の画像を用いて機械学習モデルの訓練を行う場合、訓練による機械学習モデルの検出性能の向上が抑制されることがある。
そこで、本開示では、機械学習モデルの検出性能をより確実に向上させることができる画像生成装置、学習装置、及び、画像生成方法を提供する。
本開示の一態様に係る画像生成装置は、カメラにより対象物を撮像した第1画像を取得する第1取得部と、前記第1画像に映る前記対象物の特徴量の第1統計情報を前記第1画像から抽出する第1抽出部と、前記対象物が映り、前記第1画像と異なる第2画像を取得する第2取得部と、前記第2画像に映る前記対象物の前記特徴量の第2統計情報を前記第2画像から抽出する第2抽出部と、前記第1統計情報と前記第2統計情報との対応関係に基づいて、前記第2画像の前記第2統計情報を前記第1画像の前記第1統計情報に近づける補正を行う補正部とを備える。
本開示の一態様に係る学習装置は、上記の画像生成装置により生成された前記第2画像を用いて、機械学習モデルに対して学習処理を行う。
本開示の一態様に係る画像生成方法は、カメラにより対象物を撮像した第1画像を取得し、前記第1画像に映る前記対象物の特徴量の第1統計情報を前記第1画像から抽出し、前記対象物が映り、前記第1画像と異なる第2画像を取得し、前記第2画像に映る前記対象物の前記特徴量の第2統計情報を前記第2画像から抽出し、前記第1統計情報と前記第2統計情報との対応関係に基づいて、前記第2画像の前記第2統計情報を前記第1画像の前記第1統計情報に近づける補正を行う。
本開示の一態によれば、機械学習モデルの検出性能をより確実に向上させることができる画像生成装置等を実現することができる。
図1は、実施の形態に係る情報処理システムの機能構成を示すブロック図である。 図2は、実施の形態に係る情報処理システムの動作を示すフローチャートである。 図3Aは、実写画像を示す図である。 図3Bは、実写画像における部位ごとの領域、及び、特徴量を示す図である。 図4Aは、実写画像の上半身のR値のヒストグラムを示す図である。 図4Bは、CG画像の上半身のR値のヒストグラムを示す図である。 図4Cは、上半身のR値の変換テーブルを示す図である。 図5は、対象物の姿勢を示す図である。
(本開示に至った経緯)
本開示の実施の形態の説明に先立ち、本開示の基礎となった知見について、図5を参照しながら説明する。図5は、対象物の姿勢を示す図である。
機械学習を用いた物体検出により人物を検出する場合、人物が映る画像(実写画像)を用いて機械学習が行われることが多い。人物を精度よく検出する場合、例えば、様々な姿勢の人物が映る画像を用いて訓練が行われることで、効果的に学習モデルの人物に対する検出性能を向上させることができる。
しかしながら、実写画像の取得において、対象物の姿勢等によっては、収集することが容易な画像と、収集することが困難な画像とがある。
図5に示すように、歩行者等の画像は、比較的容易に収集することができるが、座り姿勢、寝姿勢等の姿勢変動を伴った画像、及び、子供等の出現頻度が低い画像は、歩行者等の画像に比べて収集に時間的及び費用的なコストがかかることがある。
このように、対象物によっては収集が容易な集合と、収集が困難な集合とが混在していることがある。
収集が困難な集合に属する対象物の実写画像を収集するための代替手法のひとつとしてCG(Computer Graphics)が提案されている。例えば、CGにより生成された対象物を実写背景に合成した画像を学習用の画像として用いる手法が提案されている。
しかしながら、CGにより生成された対象物を合成した画像を用いて機械学習モデルを訓練した場合、CGにより生成された対象物を含まない実写画像を用いて機械学習モデルを訓練した場合と比べて、検知率が劣るという問題が指摘されている。CGの特徴量(例えば、エッジ強度又は色調のような特徴量)分布が合成先の実写画像の特徴量(例えば、エッジ強度又は色調のような特徴量)分布と乖離している場合があり、そのために機械学習モデルが合成画像に固有の特徴量を学習してしまうことが原因として挙られる。
上記のように、特許文献1の技術、及び、CGにより生成された画像、つまり画像処理により生成された画像を用いて機械学習モデルの訓練を行う場合、訓練による機械学習モデルの検出性能の向上が抑制されることがある。
そこで、本願発明者は、検出性能をより確実に向上させることができる画像生成装置等について鋭意検討を行い、以下に説明する画像生成装置等を創案した。なお、本開示に係る画像生成装置等は、CGにより生成された対象物を含む合成画像以外の画像を用いて機械学習モデルを訓練する場合にも、適用可能である。
本開示の一態様に係る画像生成装置は、カメラにより対象物を撮像した第1画像を取得する第1取得部と、前記第1画像に映る前記対象物の特徴量の第1統計情報を前記第1画像から抽出する第1抽出部と、前記対象物が映り、前記第1画像と異なる第2画像を取得する第2取得部と、前記第2画像に映る前記対象物の前記特徴量の第2統計情報を前記第2画像から抽出する第2抽出部と、前記第1統計情報と前記第2統計情報との対応関係に基づいて、前記第2画像の前記第2統計情報を前記第1画像の前記第1統計情報に近づける補正を行う補正部とを備える。
これにより、画像生成装置は、第2画像の特徴量の統計情報を、カメラにより撮像された画像(実写画像)の特徴量の統計情報に近づけることができる。つまり、第1画像の特徴量と第2画像の特徴量との乖離が生じることを抑制することができる。よって、画像生成装置により補正された第2画像を用いて機械学習モデルの訓練が行われることで、機械学習モデルが第2画像に固有の特徴量を学習してしまうことを抑制することができるので、機械学習モデルの検出性能をより確実に向上させることができる。
また、例えば、前記第2画像は、CG(Computer Graphics)により生成された前記対象物を含むCG画像であってもよい。
これにより、CGにより生成された対象物の特徴量を、カメラが撮像した対象物の特徴量に近づけることができる。よって、CGにより生成された対象物を含む学習用画像を用いて機械学習モデルの訓練が行われた場合に、機械学習モデルの検出性能をより確実に向上させることができる。
また、例えば、前記第1抽出部は、さらに前記第1画像から前記特徴量の第3統計情報であって前記第1統計情報より情報量が少ない第3統計情報を抽出し、前記第2抽出部は、さらに前記第2画像から前記特徴量の第4統計情報であって前記第2統計情報より情報量が少ない第4統計情報を抽出し、前記第2画像は、前記第3統計情報と前記第4統計情報との関係に基づいて、前記CGにより生成された前記対象物の前記第4統計情報を前記第3統計情報に近づける補正が行われた画像であってもよい。
これにより、CGにより生成された対象物の特徴量を、第1統計情報と第2統計情報とにより補正する前に、実写画像の対象物の特徴量に近づけることができる。第3統計情報と第4統計情報とにより補正することで、第1統計情報と第2統計情報とによる補正を効果的に行うことが可能となり、機械学習モデルの検出性能をさらに確実に向上させることが可能となる。
また、例えば、前記第1統計情報及び前記第2統計情報は、前記特徴量の分布を示す特徴量分布を含み、前記補正部は、前記第1統計情報における前記特徴量分布と前記第2統計情報における前記特徴量分布とに基づく前記第2統計情報を前記第1統計情報に近づけるための変換テーブルを用いて、前記補正を行ってもよい。
これにより、変換テーブルを用いることで、機械学習モデルの検出性能をより確実にかつより簡単に向上させることができる。
また、例えば、前記第1統計情報における前記特徴量分布、及び、前記第2統計情報における前記特徴量分布は、前記対象物の部位ごとに生成され、前記補正部は、前記対象物の前記部位ごとに前記変換テーブルを生成し、前記補正を行ってもよい。
これにより、第1画像の特徴量と第2画像の特徴量との乖離が生じることを対象物の部位のそれぞれにおいて抑制することができる。よって、画像生成装置により補正された第2画像を用いて機械学習モデルの訓練が行われることで、機械学習モデルが第2画像に固有の特徴量を学習してしまうことをさらに抑制することができるので、機械学習モデルの検出性能をさらに確実に向上させることができる。
また、例えば、前記特徴量は、前記対象物の色調であり、前記第1統計情報及び前記第2統計情報は、横軸を階調値としたヒストグラムであり、前記第3統計情報及び前記第4統計情報は、前記色調の平均値であってもよい。
これにより、第1画像及び第2画像の色調に関するヒストグラム及び平均値を取得することで、第2画像の色調を第1画像の色調に近づけることができる。よって、機械学習モデルが第2画像に固有の色調を学習してしまうことを抑制することができるので、機械学習モデルの検出性能をより確実に向上させることができる。
また、例えば、前記第1画像に映る前記対象物と前記第2画像に映る前記対象物とは、前記対象物の姿勢が互いに異なっていてもよい。
これにより、第2画像は、第1画像より様々な姿勢の対象物を含む画像となり得る。このような第2画像を用いて機械学習モデルが訓練されることにより、様々な姿勢の対象物の検出性能を向上させ得る。
また、例えば、前記第2画像は、さらに、前記対象物の背景も前記CGにより生成された画像であってもよい。
これにより、背景もCGにより生成された第2画像を学習用画像として用いた場合に、機械学習モデルの検出性能をより確実に向上させることができる。
また、例えば、前記第2画像は、前記CGにより生成された前記対象物を前景とし、実写画像を背景として重畳することにより生成された画像であってもよい。
これにより、実写画像にCGにより生成された対象物を重畳した第2画像を学習用画像として用いた場合に、機械学習モデルの検出性能をより確実に向上させることができる。
また、例えば、前記補正部により補正された前記第2画像は、機械学習モデルの学習時に使用される学習用画像であってもよい。
これにより、機械学習モデルの検出性能をより確実に向上させることができる。
また、例えば、前記機械学習モデルは、物体検出用の学習モデル、画像セグメンテーション用の学習モデル、又は、深度推定用の学習モデルであってもよい。
これにより、物体検出用の学習モデル、画像セグメンテーション用の学習モデル、又は、深度推定用の学習モデルの検出性能をより確実に向上させることができる。
また、本開示の一態様に係る学習装置は、上記の画像生成装置により生成された前記第2画像を用いて、機械学習モデルに対して学習処理を行う。
これにより、生成される機械学習モデルは、第2画像に固有の特徴量を学習してしまうことが抑制されるので、当該機械学習モデルの検出性能をより確実に向上させることができる。
また、本開示の一態様に係る画像生成方法は、カメラにより対象物を撮像した第1画像を取得し、前記第1画像に映る前記対象物の特徴量の第1統計情報を前記第1画像から抽出し、前記対象物が映り、前記第1画像と異なる第2画像を取得し、前記第2画像に映る前記対象物の前記特徴量の第2統計情報を前記第2画像から抽出し、前記第1統計情報と前記第2統計情報との対応関係に基づいて、前記第2画像の前記第2統計情報を前記第1画像の前記第1統計情報に近づける補正を行う。
これにより、上記画像生成装置と同様の効果を奏する。
なお、これらの全般的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータで読み取り可能なCD-ROM等の非一時的記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム又は記録媒体の任意な組み合わせで実現されてもよい。プログラムは、記録媒体に予め記憶されていてもよいし、インターネット等を含む広域通信網を介して記録媒体に供給されてもよい。
以下、実施の形態について、図面を参照しながら具体的に説明する。
なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序等は、一例であり、本開示を限定する主旨ではない。例えば、数値は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数%程度の差異をも含むことを意味する表現である。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
また、各図は、模式図であり、必ずしも厳密に図示されたものではない。したがって、例えば、各図において縮尺などは必ずしも一致しない。また、各図において、実質的に同一の構成については同一の符号を付しており、重複する説明は省略又は簡略化する。
また、本明細書において、同一などの要素間の関係性を示す用語、及び、矩形などの要素の形状を示す用語、並びに、数値、及び、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数%程度(例えば、5%程度)の差異をも含むことを意味する表現である。
(実施の形態)
以下、本実施の形態に係る情報処理システムについて、図1~図4Cを参照しながら説明する。
[1.情報処理システムの構成]
図1は、本実施の形態に係る情報処理システム1の機能構成を示すブロック図である。
図1に示すように、情報処理システム1は、画像生成部10と、学習部20とを備える。情報処理システム1は、対象物をカメラで撮像した実写画像の特徴量を用いて、CGで生成された対象物の特徴量を補正することで、学習モデルが訓練時に、CGで生成された対象物を含む合成画像に固有の特徴量を学習することを抑制するためのシステムである。
なお、対象物は、特に限定されず、学習モデルが実装される装置の用途、利用場面等に応じて適宜決定される。対象物は、例えば、人物、人物以外の動物であってもよいし、車両等の移動体であってもよいし、固定されている物体であってもよい。
画像生成部10は、学習部20における訓練に用いられる学習用の画像を生成する。画像生成部10は、例えば、実写画像では収集が困難である画像をCGを用いて生成し、生成した画像(CG画像)の特徴量を実写画像の特徴量に近づける補正をすることで、特徴量が補正されたCG画像を、学習用画像として出力する。画像生成部10は、画像生成装置の一例である。
画像生成部10は、領域情報抽出部11と、統計情報計算部12と、CG生成部13と、テーブル生成部14と、特徴量変換部15とを有する。
領域情報抽出部11は、対象物の画像(実写画像)を取得し、取得した実写画像の領域を示す領域情報を抽出する。領域情報抽出部11は、少なくとも実写画像に映る対象物の領域を示す領域情報を抽出する。領域情報抽出部11は、例えば、実写画像に映る対象物の各構成部を、領域情報として抽出する。対象物が人物である場合、領域情報抽出部11は、例えば、人物の体の各部位を、領域情報として抽出する。領域情報は、例えば、構成部ごとの当該構成部の実写画像上の位置又は領域を含む。実写画像は、カメラにより対象物を撮像した画像であり、第1画像の一例である。
領域情報抽出部11は、画像検出又は画像セグメンテーション等の画像認識処理を実行することで、領域情報を抽出する。領域情報抽出部11は、例えば、画像認識の訓練によって得られた学習済みモデルを含み、当該画像認識処理は、画像に映る人物の体の部分をこの学習済みモデルに入力することで実行される。なお、領域情報の抽出方法は、これに限定されず、既知のいかなる方法が用いられてもよい。
なお、実写画像は、カメラにより現実世界を撮像した対象物が映る画像である。実写画像は、例えば、公知のデータセットに含まれる画像であってもよい。また、実写画像は、CGにより生成された対象物を含まない画像である。
統計情報計算部12は、実写画像に映る対象物の特徴量の第1統計情報を当該実写画像から抽出する。統計情報計算部12は、実写画像と領域情報とに基づいて、対象物の少なくとも1つの領域(構成部)の特徴量の統計情報を計算する。また、統計情報計算部12は、領域情報により特定される実写画像上の領域に基づいて、当該領域の特徴量の統計情報を計算する。つまり、統計情報計算部12は、実写画像(例えば、実写画像の画素値)から特徴量の統計情報を計算する。なお、本実施の形態では、統計情報計算部12は、対象物の領域ごと(構成部ごとであり、例えば、人物の体の部位ごと)に、当該実写画像から特徴量の第1統計情報を計算する。
特徴量は、実写画像から取得され得る情報であり、例えば、対象物の画像自体の特徴を示す情報である。また、特徴量は、例えば、CG画像と実写画像とで乖離する情報であってもよい。以下では、特徴量が対象物の色調である例について説明する。なお、特徴量は、色調に限定されるものではなく画像に含まれるノイズ等であってもよい。ノイズは、例えば、ホワイトノイズ等である。なお、以下では、特徴量の統計情報を単に特徴量とも記載する。
第1統計情報は、例えば、特徴量の分布を示す特徴量分布を含む。特徴量が色調である場合、第1統計情報は、例えば、特徴量分布の一例として、RGBヒストグラムであってもよい。RGBヒストグラムは、横軸を階調値とし、縦軸を当該領域におけるR(赤)、G(緑)及びB(青)の画素値(階調値)ごとの画素数としたヒストグラムである。RGBヒストグラムは、R(赤)、G(緑)及びB(青)ごとのヒスとグラムを含む。統計情報計算部12が抽出するRGBヒストグラムは、図1に示す実写画像のヒストグラムの一例である。
また、統計情報計算部12は、さらに、対象物の特徴量の第3統計情報であって第1統計情報より情報量が少ない第3統計情報を実写画像から抽出してもよい。特徴量が色調である場合、第3統計情報は、平均RGB値であってもよい。平均RGB値は、当該領域におけるR(赤)、G(緑)及びB(青)それぞれの画素値の平均値(色調の平均値)を示す。なお、第3統計情報は、平均値であることに限定されず、色調の最大値、最小値、中央値又は最頻値等であってもよい。また、RGBヒストグラムは、色調の分布を示す特徴量分布であれば、ヒストグラムであることに限定されない。
このように、統計情報計算部12は、対象物の特徴量を示す2つの統計情報を計算してもよい。2つの統計情報は、対象物における同一の特徴量を示す情報であり、かつ、情報量が異なる情報である。
また、統計情報計算部12は、少なくとも第1統計情報における特徴量分布を対象物の部位ごとに生成する。統計情報計算部12は、例えば、第1統計情報における特徴量分布及び第3統計情報を、対象物の部位ごとに生成する。統計情報計算部12は、例えば、対象物の領域ごと(人物の体の部位ごと)に、平均RGB値、及び、RGBヒストグラムを計算する。統計情報計算部12は、第1抽出部の一例である。
CG生成部13は、実写画像に映る対象物とカテゴリが同じ対象物をCGにより生成し、CGにより生成された対象物を含むCG画像を生成する。CG画像は、第2画像の一例である。実写画像に映る対象物のカテゴリとCGにより生成された対象物のカテゴリとが同一のカテゴリであることを、対象物が同じであるとも記載する。CG生成部13は、CGにより対象物を生成することで、当該対象物が映り、実写画像と異なるCG画像を取得する。CG生成部13は、第2取得部として機能する。
実写画像に映る対象物が人物である場合、CG生成部13は、CGにより人物を生成する。CG生成部13は、例えば、実写画像に映る対象物と姿勢が異なる対象物をCGにより生成する。また、CG生成部13は、例えば、実写画像に映る対象物と属性が異なる対象物をCGにより生成してもよい。対象物が人物である場合、属性は、例えば、年齢であってもよいし、体格であってもよいし、肌の色であってもよい。
CG生成部13が対象物をCGにより生成する手法は、特に限定されず、既知のいかなる方法が用いられてもよい。CG生成部13は、例えば、DAZ Studio、又は、Autodesk Character Generator等のソフトウェアを用いて対象物を生成してもよい。
CG生成部13は、例えば、CGにより生成した対象物を前景とし、実写画像を背景として重畳させることで、CG画像を生成する。CG画像は、少なくとも一部がCGにより生成された画像である。ここでの実写画像は、領域情報抽出部11が取得した実写画像であってもよいし、他の実写画像であってもよい。他の実写画像は、例えば、領域情報抽出部11が取得した実写画像が撮像された環境が同一又は類似である実写画像であってもよい。環境は、例えば、実写画像が撮像された位置、時間帯、周囲の明るさ、カメラの撮像条件の少なくとも1つを含む。
なお、CG生成部13は、対象物に加えて当該対象物の周囲の背景もCGにより生成してもよい。つまり、第2画像は、さらに、対象物の背景もCGにより生成された画像であってもよい。例えば、CG画像の全体がCGにより生成されてもよい。CG生成部13は、様々な背景に対象物が映るCG画像を容易に生成することができる。例えば、対象物を精度よく検出したい状況を示す背景をCGにより再現することで、特定の状況での対象物の検出精度を向上可能な学習用画像を生成し得る。
また、CG生成部13がCGにより背景を生成する場合、領域情報抽出部11は実写画像の背景についても領域情報を抽出し、統計情報計算部12は、背景の領域ごとに特徴量の統計情報を計算してもよい。背景の領域ごとの特徴量は、対象物の領域ごとの特徴量と同一種類の特徴量ある。統計情報計算部12は、例えば、背景の領域ごとに特徴量を計算する。例えば、統計情報計算部12は、背景の領域ごとに2種類の統計情報(例えば、平均RGB値、及び、RGBヒストグラム)を計算してもよい。
CG生成部13は、対象物をCGにより生成するときに、CG画像に含まれる対象物の特徴量を取得可能である。CG生成部13は、上記のソフトウェアでCGをレンダリングするときに、領域ごとの特徴量に関する情報を取得可能である。CG生成部13は、対象物の領域、及び、領域ごとの特徴量を取得可能である。CG生成部13は、例えば、統計情報計算部12が実写画像から抽出した特徴量と同じ特徴量をCGにより生成された対象物から取得する。
CG生成部13は、CG画像に映る対象物の特徴量の第2統計情報を当該CG画像から抽出する。CG生成部13は、CG画像に基づいて、対象物の少なくとも1つの領域(構成部)の特徴量の統計情報を計算する。なお、本実施の形態では、CG生成部13は、対象物の領域ごと(構成部ごとであり、例えば、人物の体の部位ごと)に、当該CG画像から特徴量の第2統計情報を計算する。
特徴量は、CG画像から取得され得る情報であり、統計情報計算部12が抽出した特徴量と同一の情報である。第2統計情報は、第1統計情報と同一の特徴量である。
第2統計情報は、例えば、特徴量の分布を示す特徴量分布を含む。特徴量が色調である場合、第2統計情報は、例えば、特徴量分布の一例として、RGBヒストグラムであってもよい。CG生成部13が抽出するRGBヒストグラムは、図1に示すCG画像のヒストグラムの一例である。
また、CG生成部13は、さらに、対象物の特徴量の第4統計情報であって第2統計情報より情報量が少ない第4統計情報をCG画像から抽出してもよい。第4統計情報は、第2統計情報と同一の特徴量である。特徴量が色調である場合、第4統計情報は、平均RGB値であってもよい。
このように、CG生成部13は、対象物の特徴量を示す2つの統計情報を計算してもよい。2つの統計情報は、対象物における同一の特徴量を示す情報であり、情報量が異なる情報であり、かつ、統計情報計算部12が実写画像から抽出した特徴量と同一の特徴量を示す情報である。
また、CG生成部13は、少なくとも第2統計情報における特徴量分布を対象物の部位ごとに生成する。CG生成部13は、例えば、第2統計情報における特徴量分布及び第4統計情報を、対象物の部位ごとに生成する。CG生成部13は、例えば、対象物の領域ごと(人物の体の部位ごと)に、平均RGB値、及び、RGBヒストグラムを計算する。CG生成部13は、特徴量(例えば、特徴量の統計情報)を抽出する第2抽出部としても機能する。
テーブル生成部14は、実写画像の特徴量とCG画像の特徴量とに基づいて、実写画像の特徴量とCG画像の特徴量との対応関係を示す変換テーブルを生成する。具体的には、テーブル生成部14は、実写画像の特徴量の特徴量分布(例えば、RGBヒストグラム)とCG画像の特徴量の特徴量分布(例えば、RGBヒストグラム)とに基づいて、変換テーブルを生成する。テーブル生成部14は、対象物の領域ごと(例えば、人物の体の部位ごと)に変換テーブルを生成する。変換テーブルは、CG画像の特徴量(例えば、第2統計情報)を実写画像の特徴量(例えば、第1統計情報)に近づけるためのテーブルである。変換テーブルは、CG画像の特徴量(例えば、第2統計情報)を実写画像の特徴量(例えば、第1統計情報)に近づけるためのテーブルである。
特徴量変換部15は、変換テーブル(実写画像の特徴量とCG画像の特徴量との対応関係の一例)に基づいて、CG画像の特徴量を実写画像の特徴量に近づける補正を行う。特徴量変換部15は、例えば、変換テーブルに基づいて、CG画像に含まれる対象物の第2統計情報を、実写画像に映る当該対象物の第1統計情報に近づける補正を行う。特徴量変換部15は、CG画像と変換テーブルとに基づいて、CG画像の特徴量を変換した画像を生成する。特徴量変換部15は、例えば、対象物の領域ごと(例えば、人物の体の部位ごと)に、当該部位に対応する変換テーブルを用いて、CG画像の特徴量を補正する。
このように、特徴量変換部15は、第1統計情報における特徴量分布(例えば、RGBヒストグラム)と第2統計情報における特徴量分布(例えば、RGBヒストグラム)とに基づく第2統計情報を第1統計情報に近づけるための変換テーブルを用いて、CG画像の特徴量の補正を行う。特徴量変換部15は、補正部の一例である。
CG画像の特徴量が補正された画像は、学習部20による機械学習モデルの学習時に使用される学習用画像である。CG画像の特徴量が補正された画像は、CG画像の特徴量が変換された画像であるとも言える。
学習部20は、カメラ等で撮像された画像に対して物体の識別等を行う学習モデルの訓練を行う。学習部20は、画像生成部10により生成された画像(特徴量が変換されたCG画像)を用いて、学習モデルに対して学習処理を行う。学習部20は、画像生成部10により生成された画像と、当該画像に付与されたアノテーション情報とを含む学習用データセットを用いた機械学習により、学習モデルの訓練を行う。学習部20は、学習装置の一例である。
学習モデルは、画像に基づいて物体を識別等の何らかのタスクを行う機械学習モデルの一例であり、例えば、Deep Learning(深層学習)等のニューラルネットワークを用いた機械学習モデルである。学習モデルは、画像に映る対象物(物体)を検出する物体検出用の学習モデル(物体検出モデル)であってもよいし、画像の各画素がどのカテゴリに属するかを特定する(同じカテゴリに属する物体を同一ラベルとして扱う)画像セグメンテーション用の機械学習モデル(セグメンテーションモデル)であってもよいし、入力された画像の各画素の深度を推定する深度推定用のモデル(深度推定用モデル)であってもよい。セグメンテーションモデルには、例えば、畳み込みニューラルネットワーク(CNN)を用いることができる。深度推定モデルには、例えば、CNN-Depthを用いることができる。
なお、学習モデルは、ニューラルネットワークを用いた機械学習モデルである例について説明したが、他の機械学習モデルであってもよい。例えば、機械学習モデルは、Random Forest、Genetic Programming等を用いた機械学習モデルであってもよい。
また、機械学習は、例えば、ディープラーニングなどにおける誤差逆伝播法(BP:BackPropagation)などによって実現される。具体的には、学習部20は、訓練されていない学習モデルに画像生成部10が生成した学習用画像を入力し、当該学習モデルが出力する識別結果を取得する。そして、学習部20は、識別結果が正解情報となるように当該学習モデルを調整する。学習部20は、このような調整をそれぞれ異なる複数の(例えば数千組の)学習用画像及びこれに対応する正解情報について繰り返すことによって、学習モデルの識別精度を向上させる。
[2.情報処理システムの動作]
続いて、上記のように構成された情報処理システム1の動作について、図2~図4Cを参照しながら説明する。図2は、本実施の形態に係る情報処理システム1の動作を示すフローチャートである。図3Aは、実写画像を示す図である。図3Bは、実写画像における部位ごとの領域、及び、特徴量を示す図である。図4Aは、実写画像の上半身のR値のヒストグラムを示す図である。図4Bは、CG画像の上半身のR値のヒストグラムを示す図である。図4Cは、上半身のR値の変換テーブルを示す図である。
図2におけるステップS11~S18は、画像生成部10の動作であり、ステップS19は、学習部20の動作である。また、図3Bでは、部位ごとの領域を互いに異なるハッチングで示している。また、図4A及び図4Bは、横軸が画素値(R値)を示し、縦軸が画素数を示す。なお、以下では、対象物が人物である例について説明するが、これに限定されない。
図2に示すように、領域情報抽出部11は、実写画像を取得する(S11)。領域情報抽出部11は、例えば、図3Aに示すように、人物が映る実写画像を複数取得する。領域情報抽出部11は、実写画像を取得する第1取得部として機能する。
なお、ステップS12以降の処理は、実写画像を取得するたびに実行されてもよいし、所定の枚数の実写画像を取得した場合に実行されてもよい。
図2を再び参照して、次に、領域情報抽出部11は、実写画像に映る人物の部位ごとの領域情報を抽出する(S12)。図3Bでは、領域情報抽出部11が、頭部、顔、上半身、左腕、右腕、下半身、左足及び右足の8個の領域を示す領域情報を、画像セグメンテーション等の画像認識処理を用いて抽出した例を示している。領域情報抽出部11は、例えば、複数の画像のそれぞれにおいて領域情報を抽出してもよい。領域情報抽出部11は、抽出した領域情報を統計情報計算部12に出力する。なお、図3Bには、上半身及び下半身の特徴量(特徴量の統計情報)も参考として図示している。
図2を再び参照して、次に、統計情報計算部12は、実写画像の部位ごとに、所定の特徴量に関する第1平均値及び第1ヒストグラムを計算する(S13)。所定の特徴量は、例えば、色調であり、予め設定されている。第1平均値は、例えば、実写画像の平均RGB値であり、第1ヒストグラムは、実写画像のヒストグラムであり、本実施の形態では、RGBヒストグラムである。第1平均値と、第1ヒストグラムとは、実写画像の人物の同一部位における統計情報である。
統計情報計算部12は、例えば、図4Aに示すような第1ヒストグラムを計算する。図4Aは、実写画像の人物の複数の部位(例えば、8個の部位)のうち上半身におけるRGBヒストグラムのうちのR値のヒストグラム(第1ヒストグラム)、及び、上半身におけるR値の第1平均値(図4A中の平均値)を示す。なお、上半身における第1ヒストグラムには、G値のヒストグラム及びB値のヒストグラムも含まれるが、図示を省略している。
統計情報計算部12は、例えば、上半身のR値の第1ヒストグラム及び上半身のR値の第1平均値を、当該上半身の領域に含まれる複数の画素それぞれの画素値に基づいて計算する。統計情報計算部12は、当該領域に含まれる複数の画素において、同一の画素値の画素数をカウントすることで、第1ヒストグラムを生成する。また、統計情報計算部12は、当該領域に含まれる複数の画素それぞれの画素値の平均を第1平均値として計算する。統計情報計算部12は、第1ヒストグラム(実写画像のヒストグラム)をテーブル生成部14に出力し、第1平均値(平均RGB値)をCG生成部13に出力する。
図2を再び参照して、CG生成部13は、第1平均値を用いてCG画像を生成する(S14)。CG生成部13は、CGにより人物を生成し、生成した人物の部位ごとの平均RGB値(第2平均値)を算出し、部位ごとに、当該部位の第1平均値及び第2平均値の対応関係により当該部位の色調を変換する。CG生成部13は、例えば、当該部位の第2平均値を当該部位の第1平均値に近づける補正を行うとも言える。なお、第2平均値(例えば、図4Bに示す平均値)は、第1平均値と画像上における同一の特徴量を示す値である。第1平均値は、第3統計情報の一例であり、第2平均値は、第4統計情報の一例である。
CG生成部13は、例えば、第1平均値と第2平均値との差異に基づいて、CG画像における当該部位の画素値を補正する。差異は、例えば、差分又は比率である。CG生成部13は、例えば、当該部位の第1平均値と第2平均値との比率(=第1平均値/第2平均値)を算出し、算出した比率をCGにより生成した人物の当該部位を構成する複数の画素のそれぞれに反映する。例えば、CG生成部13は、当該比率を複数の画素のそれぞれに演算(乗算)する。CG生成部13は、部位ごとに、上記の補正を行う。
これにより、CGにより生成された人物の特徴(例えば、色調)を、CGを生成した時点で実写画像に映る人物に近づけることができる。CGにより生成された人物は、生成時の条件に応じた光沢、シワ、凹凸、影等を含む画像である。例えば、第2平均値を第1平均値に置き換える場合、人物からシワ等が消失してしまう。一方、本実施の形態では、CGにより生成された人物に、当該差異を演算するので、シワ等が消失することなく、CGにより生成された人物の特徴量を実写画像の人物に近づけることができる。よって、より現実に近いCG画像を生成することが可能となる。
なお、生成時の条件は、例えば、光源の位置、光源の明るさ等を含み、例えば、ユーザにより設定される。
CG生成部13は、上記のような補正が行われたCGにより生成された人物を、実写画像に重畳することでCG画像を生成する。このように、CG画像は、第1平均値と第2平均値との関係に基づいて、CGにより生成された人物の第2平均値を第1平均値に近づける補正が行われた画像である。CG生成部13は、生成したCG画像を特徴量変換部15に出力する。
なお、CG生成部13は、CG画像の生成に第1ヒストグラムの情報を用いない。また、CG生成部13は、第1平均値を用いてCGにより生成された人物の色調を補正することに限定されない。
次に、CG生成部13は、CG画像の部位ごとに、所定の特徴量に関する第2ヒストグラムを計算する(S15)。所定の特徴量は、例えば、ステップS13における特徴量と同じ特徴量であり、本実施の形態では、色調である。第2ヒストグラムは、CG画像のヒストグラムであり、本実施の形態では、RGBヒストグラムである。第2ヒストグラムと、第2平均値とは、CG画像の人物の同一部位における統計情報である。
CG生成部13は、例えば、図4Bに示すような第2ヒストグラムを計算する。図4Bは、CG画像の人物の複数の部位(例えば、8個の部位)のうち上半身におけるRGBヒストグラムのうちのR値のヒストグラム(第2ヒストグラム)、及び、上半身のR値の第2平均値(図4B中の平均値)を示す。
なお、上半身における第2ヒストグラムには、G値のヒストグラム及びB値のヒストグラムも含まれるが、図示を省略している。なお、第2ヒストグラムにおける画素値(R値)は、第1ヒストグラムにおける画素値(R値)と同じビット数(例えば、8bit)の情報である。
CG生成部13は、例えば、上半身のR値のヒストグラムを、CG画像における当該上半身の領域に含まれる複数の画素それぞれの画素値に基づいて計算する。CG生成部13は、第2ヒストグラム(CG画像のヒストグラム)をテーブル生成部14に出力する。
図2を再び参照して、テーブル生成部14は、第1ヒストグラムと第2ヒストグラムとに基づいて、第2ヒストグラムを第1ヒストグラムに近づけるための変換テーブルを生成する(S16)。テーブル生成部14は、図4A及び図4Bに示すヒストグラムの対応関係に基づいて、図4Cに示す上半身のR値の変換テーブルを生成する。テーブル生成部14は、図4A及び図4BのそれぞれのR値の出現頻度の対応関係に基づいて変換テーブルを生成する。テーブル生成部14は、図4A及び図4BのそれぞれのR値を出現頻度ごとに順にプロットし、多項式近似、折れ線近似等の近似により変換関係が数式化された変換テーブルを生成する。テーブル生成部14は、部位ごとに変換テーブルを生成する。テーブル生成部14は、生成した変換テーブルを特徴量変換部15に出力する。
変換テーブルは、横軸が入力R値を示し、縦軸が出力R値を示す。入力R値は、CG生成部13がステップS14で生成したCG画像における上半身のR値であり、出力R値は、当該R値の変換後のR値を示す。
図2を再び参照して、特徴量変換部15は、変換テーブルに基づいて、CG画像の特徴量分布を変換する(S17)。特徴量変換部15は、変換テーブルを用いて、CG画像における人物の部位ごとのRGB値を変調させる。これにより、CG画像の人物のRGBヒストグラムを、実写画像の人物のRGBヒストグラムに近づけることができる。言い換えると、特徴量変換部15は、CGに特有の特徴量(例えば、色調)が低減されたCG画像を生成することができる。
次に、特徴量変換部15は、全ての実写画像に対して処理が完了したか否かを判定する(S18)。特徴量変換部15は、全ての実写画像に対して処理が完了している場合(S18でYes)、特徴量が変換されたCG画像を学習用画像として学習部20に出力する。また、特徴量変換部15は、全ての実写画像に対して処理が完了していない場合(S18でNo)、ステップS11に戻り処理を継続する。
次に、学習部20は、画像生成部10から取得した学習用画像を用いて、学習モデルに対して学習処理を実行する(S19)。学習部20は、既知の学習処理により学習モデルのパラメータを最適化する。
学習部20は、上記のように画像生成部10が生成した特徴量が補正されたCG画像を用いることで、特徴量が補正されていないCG画像を用いる場合に比べて、CGに固有の特徴量を学習することが抑制された学習済みモデルを生成することができる。つまり、学習部20は、CG画像を用いて訓練する場合であっても、検知率の低下が抑制された学習モデルを生成することができる。
なお、特徴量変換部15は、1つの変換テーブルを、複数のCG画像に適用してもよい。複数のCG画像は、例えば、同一の人物が映り、かつ、当該人物の姿勢が異なるCG画像であってもよい。例えば、特徴量変換部15は、1つの変換テーブルを用いて、複数のCG画像のそれぞれの特徴量を補正する。この場合、例えば、ステップS17及びS18の間に、1つの変換テーブルを用いて、複数のCG画像のそれぞれの特徴量を変換したか否かを判定してもよい。
(その他の実施の形態)
以上、一つまたは複数の態様に係る画像生成装置等について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示に含まれてもよい。
例えば、上記実施の形態では、画像生成部は、実写画像を用いてCG画像の特徴量を補正する例について説明したが、補正される対象となる画像はCG画像に限定されず、例えば、実写画像であってもよいし、イラスト等の絵を撮像又は取り込んだ画像であってもよい。
また、上記実施の形態では、統計情報計算部は、対象物の特徴量を示す2つの統計情報を計算する例について説明したが、計算する統計情報の数はこれに限定されず、1つであってもよいし、3つ以上であってもよい。
また、上記実施の形態では、領域情報抽出部は、実写画像に映る対象物の各構成部の領域情報として抽出する例について説明したが、少なくとも1つの構成部の領域情報を抽出すればよい。領域情報抽出部は、例えば、特定の構成部のみを領域情報として抽出してもよい。例えば、対象物が人物である場合、領域情報抽出部は、特定の部位(例えば、上半身)のみを領域情報として抽出してもよい。
また、上記実施の形態では、実写画像には1人の人物が映る例について説明したが、人物は複数写っていてもよい。この場合、領域情報抽出部は、複数の人物それぞれの領域を抽出してもよいし、任意の1人の人物の領域を抽出してもよい。
また、上記実施の形態では、画像生成部は、CG画像を生成する例について説明したが、これに限定されず、外部の装置等からCG画像を取得してもよい。
また、上記実施の形態では、CG生成部が第2統計情報を抽出する例について説明したがこれに限定されない。例えば、統計情報計算部がCG画像から第2統計情報を取得してもよい。
また、上記実施の形態では、学習モデルの訓練時に用いられる学習用の画像の生成について説明したが、本開示は、学習済みモデルを再学習するときに用いられる再学習用の画像の生成にも適用可能である。
また、上記実施の形態では、学習モデルは、Deep Learning等のニューラルネットワークを用いた機械学習モデルである例について説明したが、他の機械学習モデルであってもよい。例えば、機械学習モデルは、Random Forest、Genetic Programming等を用いた機械学習モデルであってもよい。
また、上記実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が他のステップと同時(並列)に実行されてもよいし、上記ステップの一部は実行されなくてもよい。
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。
また、上記実施の形態等に係る画像生成装置及び学習装置のそれぞれは、単一の装置として実現されてもよいし、複数の装置により実現されてもよい。画像生成装置及び学習装置が複数の装置によって実現される場合、当該画像生成装置及び学習装置が有する各構成要素は、複数の装置にどのように振り分けられてもよい。また、画像生成装置及び学習装置が備える各構成要素の少なくとも1つは、サーバ装置により実現されてもよい。また、画像生成装置及び学習装置が複数の装置で実現される場合、当該画像生成装置及び学習装置間の通信方法は、特に限定されず、無線通信であってもよいし、有線通信であってもよい。また、装置間では、無線通信および有線通信が組み合わされてもよい。
また、上記実施の形態で説明した各構成要素は、ソフトウェアとして実現されても良いし、典型的には、集積回路であるLSIとして実現されてもよい。これらは、個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)又は、LSI内部の回路セルの接続若しくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。更には、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて構成要素の集積化を行ってもよい。
システムLSIは、複数の処理部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Random Access Memory)などを含んで構成されるコンピュータシステムである。ROMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
また、本開示の一態様は、図2に示す画像生成方法に含まれる特徴的な各ステップ(S11~S18)をコンピュータに実行させるコンピュータプログラムであってもよい。また、本開示の一態様は、学習部が行う学習方法に含まれる特徴的な各ステップ(S19)をコンピュータに実行させるコンピュータプログラムであってもよい。このような学習方法は、上記の画像生成方法により生成された学習用の画像を取得し、取得された学習用の画像を用いて機械学習モデルに対して学習処理を行うことを含む。
また、例えば、プログラムは、コンピュータに実行させるためのプログラムであってもよい。また、本開示の一態様は、そのようなプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。例えば、そのようなプログラムを記録媒体に記録して頒布又は流通させてもよい。例えば、頒布されたプログラムを、他のプロセッサを有する装置にインストールして、そのプログラムをそのプロセッサに実行させることで、その装置に、上記各処理を行わせることが可能となる。
本開示は、学習モデルの訓練用の画像を生成する画像生成装置等に有用である。
1 情報処理システム
10 画像生成部
11 領域情報抽出部
12 統計情報計算部
13 CG生成部
14 テーブル生成部
15 特徴量変換部
20 学習部

Claims (13)

  1. カメラにより対象物を撮像した第1画像を取得する第1取得部と、
    前記第1画像に映る前記対象物の特徴量の第1統計情報を前記第1画像から抽出する第1抽出部と、
    前記対象物が映り、前記第1画像と異なる第2画像を取得する第2取得部と、
    前記第2画像に映る前記対象物の前記特徴量の第2統計情報を前記第2画像から抽出する第2抽出部と、
    前記第1統計情報と前記第2統計情報との対応関係に基づいて、前記第2画像の前記第2統計情報を前記第1画像の前記第1統計情報に近づける補正を行う補正部とを備える
    画像生成装置。
  2. 前記第2画像は、CG(Computer Graphics)により生成された前記対象物を含むCG画像である
    請求項1に記載の画像生成装置。
  3. 前記第1抽出部は、さらに前記第1画像から前記特徴量の第3統計情報であって前記第1統計情報より情報量が少ない第3統計情報を抽出し、
    前記第2抽出部は、さらに前記第2画像から前記特徴量の第4統計情報であって前記第2統計情報より情報量が少ない第4統計情報を抽出し、
    前記第2画像は、前記第3統計情報と前記第4統計情報との関係に基づいて、前記CGにより生成された前記対象物の前記第4統計情報を前記第3統計情報に近づける補正が行われた画像である
    請求項1又は2に記載の画像生成装置。
  4. 前記第1統計情報及び前記第2統計情報は、前記特徴量の分布を示す特徴量分布を含み、
    前記補正部は、前記第1統計情報における前記特徴量分布と前記第2統計情報における前記特徴量分布とに基づく前記第2統計情報を前記第1統計情報に近づけるための変換テーブルを用いて、前記補正を行う
    請求項1~3のいずれか1項に記載の画像生成装置。
  5. 前記第1統計情報における前記特徴量分布、及び、前記第2統計情報における前記特徴量分布は、前記対象物の部位ごとに生成され、
    前記補正部は、前記対象物の前記部位ごとに前記変換テーブルを生成し、前記補正を行う
    請求項4に記載の画像生成装置。
  6. 前記特徴量は、前記対象物の色調であり、
    前記第1統計情報及び前記第2統計情報は、横軸を階調値としたヒストグラムであり、
    前記第3統計情報及び前記第4統計情報は、前記色調の平均値である
    請求項3に記載の画像生成装置。
  7. 前記第1画像に映る前記対象物と前記第2画像に映る前記対象物とは、前記対象物の姿勢が互いに異なる
    請求項1~6のいずれか1項に記載の画像生成装置。
  8. 前記第2画像は、さらに、前記対象物の背景も前記CGにより生成された画像である
    請求項1~7のいずれか1項に記載の画像生成装置。
  9. 前記第2画像は、前記CGにより生成された前記対象物を前景とし、実写画像を背景として重畳することにより生成された画像である
    請求項1~7のいずれか1項に記載の画像生成装置。
  10. 前記補正部により補正された前記第2画像は、機械学習モデルの学習時に使用される学習用画像である
    請求項1~9のいずれか1項に記載の画像生成装置。
  11. 前記機械学習モデルは、物体検出用の学習モデル、画像セグメンテーション用の学習モデル、又は、深度推定用の学習モデルである
    請求項10に記載の画像生成装置。
  12. 請求項1~11のいずれか1項に記載の画像生成装置により生成された前記第2画像を用いて、機械学習モデルに対して学習処理を行う
    学習装置。
  13. カメラにより対象物を撮像した第1画像を取得し、
    前記第1画像に映る前記対象物の特徴量の第1統計情報を前記第1画像から抽出し、
    前記対象物が映り、前記第1画像と異なる第2画像を取得し、
    前記第2画像に映る前記対象物の前記特徴量の第2統計情報を前記第2画像から抽出し、
    前記第1統計情報と前記第2統計情報との対応関係に基づいて、前記第2画像の前記第2統計情報を前記第1画像の前記第1統計情報に近づける補正を行う
    画像生成方法。
JP2021049089A 2021-03-23 2021-03-23 画像生成装置、学習装置、及び、画像生成方法 Pending JP2022147713A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021049089A JP2022147713A (ja) 2021-03-23 2021-03-23 画像生成装置、学習装置、及び、画像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021049089A JP2022147713A (ja) 2021-03-23 2021-03-23 画像生成装置、学習装置、及び、画像生成方法

Publications (1)

Publication Number Publication Date
JP2022147713A true JP2022147713A (ja) 2022-10-06

Family

ID=83463335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021049089A Pending JP2022147713A (ja) 2021-03-23 2021-03-23 画像生成装置、学習装置、及び、画像生成方法

Country Status (1)

Country Link
JP (1) JP2022147713A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023157622A1 (ja) * 2022-02-15 2023-08-24 ソニーグループ株式会社 情報処理装置、および情報処理方法、並びにプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023157622A1 (ja) * 2022-02-15 2023-08-24 ソニーグループ株式会社 情報処理装置、および情報処理方法、並びにプログラム

Similar Documents

Publication Publication Date Title
CN109325988B (zh) 一种面部表情合成方法、装置及电子设备
JP4574249B2 (ja) 画像処理装置及びその方法、プログラム、撮像装置
KR101303877B1 (ko) 얼굴 검출과 피부 영역 검출을 적용하여 피부의 선호색변환을 수행하는 방법 및 장치
JP2008234342A (ja) 画像処理装置及び画像処理方法
JP2007257087A (ja) 肌色領域検出装置及び肌色領域検出方法
US20160092726A1 (en) Using gestures to train hand detection in ego-centric video
JP7303844B2 (ja) データ拡張システム、データ拡張方法、及びプログラム
JP2006006359A (ja) 画像生成装置、画像生成装置方法、およびそのプログラム
JP2005196678A (ja) テンプレートマッチング方法および対象画像領域抽出装置
JP2006325937A (ja) 画像判定装置、画像判定方法およびそのプログラム
CN111862116A (zh) 动漫人像的生成方法及装置、存储介质、计算机设备
KR102118937B1 (ko) 3d 데이터서비스장치, 3d 데이터서비스장치의 구동방법 및 컴퓨터 판독가능 기록매체
JP2022147713A (ja) 画像生成装置、学習装置、及び、画像生成方法
CN112839167B (zh) 图像处理方法、装置、电子设备及计算机可读介质
JP2007115109A (ja) 画像処理装置および方法、プログラム、並びに記録媒体
JP3902887B2 (ja) 唇抽出方法
US20220180597A1 (en) Image processing apparatus, image processing method, and program
JP5816069B2 (ja) シルエット補正方法及びシルエット補正システム
CN113239867B (zh) 一种基于掩码区域自适应增强的光照变化人脸识别方法
JP5051671B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2009050035A (ja) 画像処理方法、画像処理システムおよび画像処理プログラム
JP2007243987A (ja) 画像処理方法、画像処理システムおよび画像処理プログラム
JP4171354B2 (ja) カラー画像処理装置及び方法
JP2007025901A (ja) 画像処理装置、画像処理方法
JP2005013363A (ja) 画像解析装置