JP2023183255A - 学習用データ生成装置 - Google Patents

学習用データ生成装置 Download PDF

Info

Publication number
JP2023183255A
JP2023183255A JP2022096778A JP2022096778A JP2023183255A JP 2023183255 A JP2023183255 A JP 2023183255A JP 2022096778 A JP2022096778 A JP 2022096778A JP 2022096778 A JP2022096778 A JP 2022096778A JP 2023183255 A JP2023183255 A JP 2023183255A
Authority
JP
Japan
Prior art keywords
image
data
learning
variation
data generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022096778A
Other languages
English (en)
Inventor
拓実 會下
Takumi EGE
洋登 永吉
Hirotaka Nagayoshi
朋晟 平岡
Tomoaki HIRAOKA
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2022096778A priority Critical patent/JP2023183255A/ja
Priority to PCT/JP2023/013389 priority patent/WO2023243185A1/ja
Publication of JP2023183255A publication Critical patent/JP2023183255A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】多様な学習用画像を生成することが可能な学習用データ生成装置を提供する。【解決手段】学習用データ生成装置1において、第二CGデータ生成部21は、1つ以上のCGモデルを含むCG空間に関する1つ以上のCGパラメータを有する第一CGデータを取得し、第一CGデータのCGパラメータを変動させた第二CGデータを1つ以上生成する。画像生成部22は、第一CGデータから1つ以上の第一画像を生成し、第二CGデータから1つ以上の第二画像を生成する。画像変動算出部23は、第一画像と第二画像の間の変動量を算出する。第二CGデータ選択部24は、変動量に基づいて、1つ以上の第二CGデータからいずれかを選択する。学習用画像生成部31は、第二CGデータ選択部24によって選択された第二CGデータから、1つ以上の学習用画像を生成する。【選択図】図2

Description

本発明は、機械学習に使用される学習用データを生成する装置に関する。
従来、ディープラーニングに代表される機械学習を用いた画像認識手法が広く知られている。このような画像認識手法において、機械学習を実行するモデルの学習を効果的に行うためには、認識対象の物体や、認識対象の物体が存在する場面に関して、これらの画像上での見え方がそれぞれ異なる多様な学習用画像を用いた学習用データを準備することが求められる。
しかしながら、学習用画像に適した大量の実画像を準備するのは手間がかかるため、容易ではない。そこで、実画像の代わりにCG(Computer Graphics)を用いて学習用画像を生成する手法が提案されている。実画像と異なり、CGの場合はパラメータを変更するだけでプログラムによって多様な画像を作成できるため、学習用データに適した大量の画像を容易に生成することが可能である。
たとえば、特許文献1では、認識対象の物体の3次元CGを作成し、これを2次元平面に投影することで2次元画像を作成し、作成した2次元画像を、認識対象の物体の様々な形状の学習画像として用いることが記載されている。
また、特許文献2では、元フレーム画像と作成したCGモデルとの間の類似度を算出し、この類似度に基づいてCGモデルから教師データを生成することで、実写画像とCG画像との間における認識性能を向上させる教師データ生成装置が記載されている。
特開2010-211732号公報 特開2021-107981号公報
特許文献1では、生成された学習画像の見え方を考慮していないため、見た目が類似する学習画像が大量に生成されてしまう可能性がある。また、特許文献2では、実写画像である元フレーム画像とCGモデルとのセットに対して教師データが生成されるため、実写画像に含まれない多様な教師データを生成することができない。このように、従来の手法では、CGを用いることで学習用画像を大量に生成することが可能だが、見た目が類似する画像の割合が高くなり、その結果、多様性に乏しい学習用画像が生成されてしまうおそれがある。こうした多様性に乏しい学習用画像をモデルの学習に用いると、効果的に学習を行うことができないため、画像認識の精度が向上しないという問題がある。
本発明は、こうした背景に基づきなされたものであり、多様な学習用画像を生成することが可能な学習用データ生成装置を提供することを目的とする。
本発明による学習用データ生成装置は、1つ以上のCGモデルを含むCG空間に関する1つ以上のCGパラメータを有する第一CGデータを取得し、前記第一CGデータの前記CGパラメータを変動させた第二CGデータを1つ以上生成する第二CGデータ生成部と、前記第一CGデータから1つ以上の第一画像を生成し、前記第二CGデータから1つ以上の第二画像を生成する画像生成部と、前記第一画像と前記第二画像の間の変動量を算出する画像変動算出部と、前記変動量に基づいて、1つ以上の前記第二CGデータからいずれかを選択する第二CGデータ選択部と、前記第二CGデータ選択部によって選択された前記第二CGデータから、1つ以上の学習用画像を生成する学習用画像生成部と、を備える。
本発明によれば、多様な学習用画像を生成することが可能な学習用データ生成装置を提供することができる。
本発明の一実施形態に係る学習用データ生成装置のハードウェア構成を示す図である。 学習用データ生成装置の機能構成を示すブロック図である。 本発明の第1の実施形態に係る学習用データ生成装置が学習用CGデータを生成する処理の例を示すフローチャートである。 CGデータ変動制約表の一例を示す図である。 算出対象選定表の一例を示す図である。 操作画面の一例を示す図である。 学習用データ生成装置が学習用データを生成する処理の例を示すフローチャートである。 本発明の第2の実施形態に係る学習用データ生成装置が学習用CGデータを生成する処理の例を示すフローチャートである。
以下、本発明の実施形態について図面を参照しつつ説明する。以下の説明において、同一のまたは類似する構成に同一の符号を付して重複した説明を省略することがある。また以下の説明において、同種の構成を区別する必要がある場合、構成を総称する符号の後に括弧書きで識別子(数字、アルファベット等)を表記することがある。
(第1の実施形態)
はじめに、本発明の第1の実施形態について、図1~図7を参照して以下に説明する。
<学習用データ生成装置1のハードウェア構成例>
図1は、本発明の一実施形態に係る学習用データ生成装置のハードウェア構成を示す図である。図1に示す学習用データ生成装置1は、機械学習に用いられる学習用データを生成する情報処理装置(コンピュータ)であり、プロセッサ2、主記憶装置3、補助記憶装置4、入力装置5、出力装置6、および通信装置7を備える。
プロセッサ2は、演算処理を行う装置であり、たとえばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等を用いて構成される。主記憶装置3は、各種プログラムやデータを記憶する装置であり、たとえばROM(Read Only Memory)、マスクROM、PROM(Programmable ROM)、RAM(Random Access Memory)、DRAM(Dynamic RAM)、SRAM(Static RAM)、NVRAM(Non Volatile RAM)等を用いて構成される。補助記憶装置4は、プログラムやデータを格納する装置であり、たとえばHDD(Hard Disk Drive)、フラッシュメモリ、SSD(Solid State Drive)、光学式記憶媒体等を用いて構成される。補助記憶装置4に格納されているプログラムやデータは、プロセッサ2によって主記憶装置3に随時読み込まれ、プロセッサ2が行う処理や制御に利用される。
入力装置5は、ユーザから情報を受付けるユーザインタフェースであり、たとえば、キーボード、マウス、カードリーダ、タッチパネル等である。出力装置6は、各種の情報を出力(表示出力、音声出力、印字出力等)するユーザインタフェースであり、たとえば、各種情報を可視化する表示装置(LCD(Liquid Crystal Display)、グラフィックカード等)や音声出力装置(スピーカ)、印字装置等である。
通信装置7は、通信手段を介して他の装置と通信する通信インタフェースである。通信手段の構成は必ずしも限定されないが、たとえば、USB(Universal Serial Bus)やRS-232C等の各種通信規格に準拠した通信手段、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、専用線等である。通信装置7は、たとえば、NIC(Network Interface Card)、無線通信モジュール、USBモジュール、シリアル通信モジュール等である。通信装置7は、通信可能に接続する他の装置から情報を受信する入力装置として機能することもできる。また通信装置7は、通信可能に接続する他の装置に情報を送信する出力装置として機能することもできる。
<学習用データ生成装置1の機能構成>
図2は、学習用データ生成装置1の機能構成を示すブロック図である。同図に示すように、学習用データ生成装置1は、記憶部10、学習用CGデータ生成部20、学習用データ生成部30の各機能を備える。記憶部10は、たとえば主記憶装置3や補助記憶装置4によって実現される。また、学習用CGデータ生成部20および学習用データ生成部30は、たとえばプロセッサ2が主記憶装置3に格納されているプログラムを読み出して、このプログラムに従った処理を実行することにより実現される。
なお、学習用データ生成装置1において、図1に示したもの以外に、たとえばFPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)、AI(Artificial Intelligence)チップ等のハードウェアをさらに搭載し、これらのハードウェアを単独で、またはプロセッサ2と協働して用いることで、図2に示す機能の一部または全部を実現してもよい。
記憶部10は、第一CGデータ群11、CGデータ変動制約表12、算出対象選定表13、学習用CGデータ群14および学習用データ群15を記憶する。記憶部10は、たとえば、DBMS(DataBase Management System)が提供するデータベースのテーブルや、ファイルシステムが提供するファイルとして、これらの情報(データ)を記憶することができる。
第一CGデータ群11は、1つ以上のCGデータ(第一CGデータ)により構成される。第一CGデータ群11の各第一CGデータは、CG空間に関する1つ以上のCGパラメータを有している。たとえば、CG空間内に存在する1つ以上のCGモデルとその構成部品の形状、角度、位置等の情報や、CG空間内に設定されるカメラモデルの位置や向きの情報、CG空間内で各CGモデルに照射される環境光や照明の情報などが、第一CGデータにおけるCGパラメータとして設定される。これらのCGパラメータの値は、たとえば、ユーザが入力装置5を用いて入力したり、通信装置7から取得したりすることで、学習用データ生成装置1において予め設定される。
学習用CGデータ群14は、1つ以上の学習用CGデータにより構成される。学習用CGデータ群14の各学習用CGデータは、学習用CGデータ生成部20によって生成される。なお、学習用CGデータ生成部20による学習用CGデータの生成方法の詳細については後述する。
学習用データ群15は、1つ以上の学習用データにより構成される。学習用データ群15の各学習用データは、学習用データ生成部30によって生成される。なお、学習用データ生成部30による学習用データの生成方法の詳細については後述する。
CGデータ変動制約表12は、第一CGデータ群11の各第一CGデータのCGパラメータを変動させる際の制約条件を表す情報である。なお、CGデータ変動制約表12の詳細については後述する。
算出対象選定表13は、学習用CGデータ生成部20が学習用CGデータを生成する際に算出する画像間の変動量の算出条件に関する情報である。なお、算出対象選定表13の詳細については後述する。
学習用CGデータ生成部20は、第二CGデータ生成部21、画像生成部22、画像変動算出部23、第二CGデータ選択部24を有する。
第二CGデータ生成部21は、記憶部10に記憶された第一CGデータ群11からいずれかの第一CGデータを取得する。そして、CGデータ変動制約表12に基づき、取得した第一CGデータが有する1つ以上のCGパラメータを変動させることで、第一CGデータとは異なるCGデータ(第二CGデータ)を1つ以上生成する。
画像生成部22は、第二CGデータ生成部21が取得した第一CGデータから、1つ以上のCG画像(第一画像)を生成する。また画像生成部22は、第二CGデータ生成部21が生成した第二CGデータから、第一画像とは異なる1つ以上のCG画像(第二画像)を生成する。このとき画像生成部22は、生成した第一画像と第二画像に対して、グレースケール化やエッジ検出などの画像処理を適用してもよい。なお、第二CGデータは第一CGデータからCGパラメータが変動されているため、第一画像と第二画像は見た目が異なる。
画像変動算出部23は、画像生成部22が生成した第一画像と第二画像を取得し、これらの画像間の変動量を算出する。たとえば、画像変動算出部23は、背景差分法やオプティカルフローによって、第一画像と第二画像の差分を表す変動画像を生成し、この変動画像から算出対象選定表13に基づき変動量を算出する。また画像変動算出部23は、第一画像と第二画像からそれぞれの画像の特徴量を計算し、これらの特徴量間の距離を変動量として算出してもよい。
第二CGデータ選択部24は、画像変動算出部23が算出した変動量を取得し、この変動量に基づいて、画像生成部22が生成した1つ以上の第二CGデータからいずれかを選択する。そして、選択した第二CGデータを学習用CGデータとして、記憶部10に記憶された学習用CGデータ群14に格納する。
学習用データ生成部30は、学習用画像生成部31および教師信号生成部32を有する。
学習用画像生成部31は、記憶部10に記憶された学習用CGデータ群14からいずれかの学習用CGデータ、すなわち、第二CGデータ選択部24によって選択された第二CGデータを取得する。そして、取得した学習用CGデータ(第二CGデータ)からCG画像(学習用画像)を生成する。
教師信号生成部32は、学習用画像生成部31が取得した学習用CGデータ(第二CGデータ)に基づき、教師信号を生成する。そして、学習用画像生成部31が生成した学習用画像と教師信号とを対応付けた学習用データを生成し、記憶部10に記憶された学習用データ群15に格納する。
これにより、学習用データ生成装置1は、学習用CGデータ生成部20において、第二CGデータから生成される第二画像の変動量に基づいていずれかの第二CGデータを選択し、学習用データ生成部30において、選択された第二CGデータから学習用データを生成することができる。したがって、学習用データ生成装置1は、見た目が異なる多様な学習用画像を含む学習用データの生成を図ることができる。
<学習用CGデータ生成部20の処理例>
図3は、本発明の第1の実施形態に係る学習用データ生成装置1が、学習用CGデータ生成部20において、学習用CGデータを生成する処理の例を説明するフローチャートである。
まず、学習用CGデータ生成部20は、第二CGデータ生成部21において、記憶部10が有する第一CGデータ群11から第一CGデータを取得する(S210)。
第一CGデータは、1つ以上のCGモデルを含むCG空間に関する1つ以上のCGパラメータを有する。CGパラメータとは、CG空間およびCG空間内に存在する各CGモデルを制御するためのパラメータである。たとえば、CGパラメータは、CG空間に関して、背景情報や環境光に関するパラメータを含む。また、各CGモデルおよび各CGモデルを構成する部品に関して、これらの個数や、CG空間上でのこれらの位置および角度、色、模様、反射特性、動き、形状などのパラメータを含む。また、CG空間内に設置される照明に関して、個数や、CG空間上での位置および角度、照射方向、照度などのパラメータを含む。また、カメラモデルに関して、CG空間上での位置や角度などのパラメータを含む。これ以外にも、CG画像に関する任意のパラメータをCGパラメータとして設定することができる。
続いて、学習用CGデータ生成部20は、第二CGデータ生成部21において、CGデータ変動制約表12に基づき、ステップS210で取得した第一CGデータから、1つ以上の第二CGデータを生成する(S220)。
図4に、CGデータ変動制約表12の例を示す。同図に示すように、CGデータ変動制約表12は、各CGパラメータに関して、第一CGデータの設定値、変動値の最小値および最大値、変動させる割合等の情報を保持する。このうち、第一CGデータの設定値は第一CGデータから得られるため、省略してもよい。また、変動値の最小値および最大値と変動させる割合は、ユーザがあらかじめ設定してもよい。さらに、変動値の最小値および最大値は、各CGパラメータがCG空間上で取り得る値の最小値と最大値をそれぞれ自動的に設定してもよく、もしくは、第一CGデータの設定値を中心とした区間の最小値と最大値をそれぞれ自動的に設定してもよい。
第二CGデータ生成部21は、まず、CGデータ変動制約表12に示された変動させる割合に基づき、第一CGデータにおいて変動させるCGパラメータを決定する。続いて、CGデータ変動制約表12に示された変動値の最小値および最大値に基づき、変動後のCGパラメータの値を無作為に決定する。たとえば、図4のCGデータ変動制約表12において、行121に記載されたCGパラメータ(CGモデルM1の構成部品P1の角度を制御するCGパラメータ)は、変動させる割合が0.5、変動値の最小値が30°、最大値が90°にそれぞれ設定されている。したがって、このCGパラメータの値は、第二CGデータ生成部21により、50%の確率で、30°以上かつ90°以下の範囲内で無作為に決定された値へと変更される。
このように、第二CGデータ生成部21は、図3のステップS220において、CGデータ変動制約表12に基づき、第一CGデータのCGパラメータを変更することで、第一CGデータとはCGパラメータの値が異なる第二CGデータを生成することができる。
図3の説明に戻ると、続いて、学習用CGデータ生成部20は、画像生成部22において、第二CGデータ生成部21がステップS210で取得した第一CGデータから、第一合成画像と第一領域画像を生成する(S230)。
具体的には、画像生成部22は、第一CGデータが有するCGパラメータに基づき、CG空間を作成し、そのCG空間内に1つ以上のCGモデルとカメラモデルをそれぞれ設定(配置)する。そして、カメラモデルによって各CGモデルを撮影することで得られる画像を、第一合成画像として生成する。
また画像生成部22は、第一合成画像上の各CGモデル、および/または各CGモデルを構成する各部品の領域を、これらに対してそれぞれ個別に割り当てられた特定の形態(色、模様、明度等)で塗り分けることにより、第一領域画像を生成する。これにより、たとえば、第一合成画像上に複数のCGモデルが存在した場合であっても、第一領域画像上で特定の形態を有する領域を参照することで、特定のCGモデルや特定の部品に関して、これらに対応する領域を第一合成画像内および第一領域画像内で容易に抽出することができる。
なお、画像生成部22は、第一合成画像を生成せずに第一領域画像のみを生成してもよい。また、第一合成画像の各画素に対して、当該画素に対応するCGモデルとカメラモデルとの間のCG空間における距離値を埋め込むことにより、距離情報を含む第一合成画像を生成してもよい。さらに、画像生成部22は、生成した第一合成画像に対して、グレースケール化やエッジ検出、HSV(Hue, Saturation and Value)変換などの画像処理を適用してもよい。
続いて、学習用CGデータ生成部20は、第二CGデータ生成部21がステップS220で生成した1つ以上の第二CGデータの各々に対して、以下のステップS240からステップS270の処理を行うことで、第一CGデータによる画像と第二CGデータによる画像の間での変動量を算出する。
ステップS240では、画像生成部22において、処理対象の第二CGデータから、第二合成画像と第二領域画像を生成する。ここでは、ステップS230で第一合成画像および第一領域画像を生成したのと同様の処理により、第二CGデータから第二合成画像および第二領域画像を生成することができる。このとき、第二合成画像上の各CGモデル、および/または各CGモデルを構成する各部品の領域を、それぞれ第一領域画像と同じ形態で塗り分けることにより、第二領域画像を生成することが好ましい。
ステップS250では、画像変動算出部23において、画像生成部22がステップS230、S240でそれぞれ生成した第一合成画像と第二合成画像から、これらの画像間の差分を表す変動画像を求める。具体的には、第一合成画像と第二合成画像から、背景差分法やオプティカルフローによってこれらの差分を抽出し、変動画像を求めることができる。このとき画像変動算出部23は、変動画像の各画素の値に対して、絶対値化および正規化などの処理を行ってもよい。たとえば、変動画像では、第一合成画像と第二合成画像とで変化が生じなかった領域の画素の値が0となり、変化が生じた領域に含まれる画素の値が0以外の値となる。
あるいは、他の方法を用いて変動画像を生成することもできる。たとえば、第一合成画像および第二合成画像から色味および明度成分の少なくとも一方をそれぞれ抽出し、抽出した色味や明度成分が第一合成画像と第二合成画像の間で異なる領域を抽出して、その領域を示す画像を変動画像として生成してもよい。また、第一領域画像を第一合成画像、第二領域画像を第二合成画像としてそれぞれ用いて、これらの画像間で位置が変化したCGモデルの領域や、オクルージョンの発生によって可視領域が変化したCGモデルの領域等を抽出することで、変動画像を生成してもよい。さらに、第一合成画像および第二合成画像において、前述のように各画素に距離値が埋め込まれている場合には、第一合成画像と第二合成画像とで距離値が変化した画素の領域、すなわち、3次元的に形状が変化した領域を抽出することで、変動画像を生成してもよい。これ以外にも、第一合成画像と第二合成画像の間の差分を適切に表すことができれば、任意の方法で変動画像を生成することが可能である。
ステップS260では、画像変動算出部23において、ステップ250で求めた変動画像に対して、画像生成部22がステップS230、S240でそれぞれ生成した第一領域画像と第二領域画像から、算出対象選定表13に基づき、1つ以上の算出対象領域を抽出する。
図5に、算出対象選定表13の例を示す。同図に示すように、算出対象選定表13は、第一CGデータが有する各CGモデルおよびCGモデルを構成する各部品に関して、変動量の算出対象とするか否かの情報と、重みの値とを有する。変動量の算出対象とするか否かの情報として、算出対象とする場合には「1」、しない場合には「0」が設定される。重みの値は、0から1の間でいずれかの値が設定される。これらの値は、ユーザがあらかじめ設定してもよい。
画像変動算出部23は、まず、算出対象選定表13において、変動量の算出対象とするか否かの情報が「1」と設定された各CGモデルおよびCGモデルを構成する各部品に関して、これらに対応する第一領域画像上での領域と、第二領域画像上での領域とをそれぞれ抽出する。そして、抽出したこれらの領域の和集合の領域を、変動量の算出対象領域として抽出する。たとえば、算出対象選定表13において、認識対象のCGモデルに関して、変動量の算出対象とするか否かの情報を「1」と設定することで、そのCGモデルの領域が算出対象領域として抽出される。もしくは、第一領域画像と第二領域画像から変動量の算出対象としてそれぞれ抽出した領域の積集合、差集合、対称差集合などを、変動量の算出対象領域として抽出してもよい。
図3の説明に戻ると、ステップS270では、画像変動算出部23において、ステップS260で抽出した算出対象領域に基づき、ステップS250で求めた変動画像から変動量を算出する。具体的には、画像変動算出部23は、たとえば、変動画像において算出対象領域に対応する領域を抽出し、その領域内に含まれる各画素の値の平均値を変動量として算出する。このとき画像変動算出部23は、算出対象選定表13を参照し、これに基づいて変動量を重み付けしてもよい。たとえば、変動画像から抽出した領域に対して、その領域に対応する算出対象領域の重みの値を算出対象選定表13から取得し、取得した重みを領域内の各画素の値に乗算した後に、各画素の値の平均値を変動量として算出してもよい。
あるいは、他の方法を用いて変動画像から変動量を算出することもできる。たとえば、変動画像から抽出した領域内の各画素の値を所定の閾値とそれぞれ比較し、閾値を超える画素の割合を変動量として算出してもよい。この閾値は、たとえば、変動画像の画素の値が取り得る値の中央値を設定してもよいし、ユーザがあらかじめ設定してもよい。これ以外にも、第一合成画像と第二合成画像の間の変動量を変動画像から適切に算出することができれば、任意の方法で変動量を算出することが可能である。
上記のステップS240からS270の処理を第二CGデータごとに繰り返すことで、学習用CGデータ生成部20は、第二CGデータ生成部21が生成した1つ以上の第二CGデータの各々に対して、第一CGデータからの変動量を算出することができる。
第二CGデータ生成部21が生成した全ての第二CGデータに対してステップS240からステップS270の処理を実施したら、続いて、学習用CGデータ生成部20は、第二CGデータ選択部24において、画像変動算出部23がステップS270で算出した変動量に基づき、いずれかの第二CGデータを選択する。そして、選択した第二CGデータを学習用CGデータとして、記憶部10に記憶された学習用CGデータ群14に格納する(S280)。その後、図3のフローチャートに示す処理を終了する。
具体的には、第二CGデータ選択部24は、たとえば、第二CGデータ生成部21がステップS220で生成した1つ以上の第二CGデータのうち、画像変動算出部23がステップS270で算出した変動量が所定の閾値を超える第二CGデータを選択する。このとき閾値としては、たとえば、変動画像の画素の値が取り得る値の中央値を設定することができる。もしくは、ユーザがあらかじめ設定してもよい。
図6は、第二CGデータ選択部24における操作画面の一例を示す説明図である。同図に示す操作画面1000は、ステップS280において、学習用データ生成装置1の出力装置6や、通信装置7を介して通信可能な不図示のディスプレイなどに表示される。
操作画面1000には、選択結果1001と変動量設定1002が含まれる。選択結果1001では、第二CGデータの選択結果が列1011に、各第二CGデータの変動量の値が列1012に、第一合成画像と第二合成画像、またはこれらの縮小画像が列1013にそれぞれ表示される。列1011において、第二CGデータ選択部24がステップS280で選択した第二CGデータの欄には「1」が表示され、他の欄には「0」が表示される。また、変動量設定1002では、第二CGデータ選択時の変動量の使用結果が列1021に、閾値が列1022にそれぞれ表示される。列1021において、第二CGデータ選択部24がステップS280で第二CGデータを選択する際に使用された変動量の欄には「1」が表示され、他の欄には「0」が表示される。
ユーザは、選択結果1001の列1011を書き換えることで、選択される第二CGデータを任意に変更することができる。また、変動量設定1002の列1021、1022を書き換えることで、第二CGデータ選択部24が第二CGデータを選択する際に使用される変動量と閾値を任意に変更することができる。
以上、詳細に説明したように、本実施形態の学習用データ生成装置1において、学習用CGデータ生成部20は、第一CGデータのCGパラメータを変動させることで、第二CGデータを1つ以上生成する。そして、第一CGデータから生成される第一合成画像と、第二CGデータから生成される第二合成画像との間の変動に基づき、第一CGデータに対して見た目が異なる画像を生成可能な第二CGデータを選択することができる。したがって、学習用データ生成装置1は、学習用CGデータ生成部20によって選択された第二CGデータ(学習用CGデータ)から学習用画像を生成することで、多様な学習用画像の生成を図ることができる。
<学習用データ生成部30の処理例>
図7は、学習用データ生成装置1が、学習用データ生成部30において、学習用データを生成する処理の例を説明するフローチャートである。
まず、学習用データ生成部30は、学習用画像生成部31において、記憶部10が有する学習用CGデータ群14から学習用CGデータ、すなわち、第二CGデータ選択部24が図3のステップS280で選択した第二CGデータを取得する(S310)。
続いて、学習用データ生成部30は、学習用画像生成部31において、ステップS310で取得した学習用CGデータ(第二CGデータ)から、学習用画像を生成する(S320)。具体的には、学習用画像生成部31は、学習用CGデータが有するCGパラメータに基づき、CG空間を作成し、そのCG空間内に1つ以上のCGモデルとカメラモデルをそれぞれ設定(配置)する。そして、カメラモデルによって各CGモデルを撮影することで得られる画像を、学習用画像として生成する。このとき学習用画像生成部31は、生成した学習用画像に対して、グレースケール化などの画像処理や、深層学習による画像変換などを適用してもよい。また、図3のステップS240で画像生成部22が生成した第二合成画像を記憶部10に保存しておき、これを用いることで、ステップS320の処理を省略してもよい。
続いて、学習用データ生成部30は、教師信号生成部32において、学習用画像生成部31がステップS310で取得した学習用CGデータ(第二CGデータ)から、教師信号を生成する(S330)。具体的には、教師信号生成部32は、たとえば、ステップS320で学習用画像生成部31が生成した学習用画像上の各CGモデル、および/または各CGモデルを構成する各部品の領域を、前述の第一領域画像や第二領域画像と同様に塗り分けた領域画像を、教師信号として生成する。なお、図3のステップS240で画像生成部22が生成した第二領域画像を記憶部10に保存しておき、これを用いることで、ステップS330の処理を省略してもよい。
さらに教師信号生成部32は、生成した領域画像に基づき、各CGモデルやCGモデルを構成する各部品の領域を囲む二次元バウンディングボックスを作成し、これを教師信号に含めてもよい。また教師信号生成部32は、ステップS320で学習用画像生成部31が生成した学習用画像の各画素に対して、当該画素に対応するCGモデルとカメラモデルとの間のCG空間における距離値を埋め込み、これを教師信号に含めてもよい。また教師信号生成部32は、学習用画像生成部31がステップS310で取得した学習用CGデータ(第二CGデータ)に含まれる各CGパラメータ、たとえば、CG空間に関する背景情報や環境光に関するパラメータ、各CGモデルおよびCGモデルを構成する各部品に関するCG空間上での位置および角度、色、模様、反射特性、動き、形状などのパラメータ、照明に関するCG空間上での位置および角度、照射方向、照度などのパラメータ、カメラモデルに関するCG空間上での位置や角度などのパラメータなどを、教師信号に含めてもよい。また教師信号生成部32は、学習用画像上の各CGモデルおよびCGモデルを構成する各部品に関して、学習用画像生成部31がステップS310で取得した学習用CGデータ(第二CGデータ)に含まれる各CGパラメータから作成される情報、たとえば、クラス名や属性情報、三次元バウンディングボックス、ボリュームデータ等を教師信号に含めてもよい。これ以外にも、学習用CGデータから得られる任意の情報を教師信号に含めることができる。
続いて、学習用データ生成部30は、教師信号生成部32において、ステップS320で学習用画像生成部31が生成した学習用画像と、ステップS330で生成した教師信号とを互いに対応付けて、学習用データを作成する。そして、作成した学習用データを記憶部10に記憶された学習用データ群15に格納する(S340)。その後、図7のフローチャートに示す処理を終了する。
以上、詳細に説明したように、本実施形態の学習用データ生成装置1は、学習用CGデータ生成部20において、見た目が異なる画像を生成することのできる第二CGデータを生成し、学習用データ生成部30において、学習用CGデータ生成部20が生成した第二CGデータから学習用データを生成する。これにより、多様な学習用画像を含む学習用データの生成を図ることができる。
以上説明した本発明の第1の実施形態によれば、以下の作用効果が得られる。
(1)学習用データ生成装置1は、第二CGデータ生成部21と、画像生成部22と、画像変動算出部23と、第二CGデータ選択部24と、学習用画像生成部31とを備える。第二CGデータ生成部21は、1つ以上のCGモデルを含むCG空間に関する1つ以上のCGパラメータを有する第一CGデータを取得し(S210)、第一CGデータのCGパラメータを変動させた第二CGデータを1つ以上生成する(S220)。画像生成部22は、第一CGデータから1つ以上の第一画像を生成し(S230)、第二CGデータから1つ以上の第二画像を生成する(S240)。画像変動算出部23は、第一画像と第二画像の間の変動量を算出する(S250~S270)。第二CGデータ選択部24は、変動量に基づいて、1つ以上の第二CGデータからいずれかを選択する(S280)。学習用画像生成部31は、第二CGデータ選択部24によって選択された第二CGデータから、1つ以上の学習用画像を生成する(S320)。このようにしたので、多様な学習用画像を生成することが可能な学習用データ生成装置を提供することができる。
(2)画像生成部22は、ステップS230では、第一CGデータが有するCGパラメータに基づくCG空間において、第一CGデータが有するCGパラメータに基づいてカメラモデル(第一カメラモデル)を設定する。そして、第一カメラモデルによってCG空間内の各CGモデルを撮影した第一合成画像と、第一合成画像上の各CGモデルおよび/または各CGモデルを構成する各部品の領域をそれぞれ異なる形態で塗り分けた第一領域画像と、を生成する。また、ステップS240では、第二CGデータが有するCGパラメータに基づくCG空間において、第二CGデータが有するCGパラメータに基づいてカメラモデル(第二カメラモデル)を設定する。そして、第二カメラモデルによってCG空間内の各CGモデルを撮影した第二合成画像と、第二合成画像上の各CGモデルおよび/または各CGモデルを構成する各部品の領域をそれぞれ異なる形態で塗り分けた第二領域画像と、を生成する。画像変動算出部23は、第一合成画像と第二合成画像から変動画像を生成し(S250)、第一領域画像と第二領域画像から算出対象領域を抽出し(S260)、変動画像における算出対象領域の画像情報に基づいて変動量を算出する(S270)。このようにしたので、第一画像と第二画像の間の変動の大きさを表す変動量を、確実に算出することができる。
(3)画像変動算出部23は、第一合成画像および第二合成画像から色味および明度成分の少なくとも一方をそれぞれ抽出し、抽出した色味および明度成分の少なくとも一方に基づいて変動画像を生成することができる。このようにすれば、変動画像を容易に生成することが可能となる。
(4)また、画像変動算出部23は、第一領域画像を第一合成画像、第二領域画像を第二合成画像としてそれぞれ用いて変動量を算出してもよい。このようにすれば、変動量を容易に算出することが可能となる。
(5)さらに、画像生成部22は、第一合成画像の各画素に対して、当該画素に対応するCGモデルと第一カメラモデルとの間のCG空間における距離値を埋め込むとともに、第二合成画像の各画素に対して、当該画素に対応するCGモデルと第二カメラモデルとの間のCG空間における距離値を埋め込むようにしてもよい。このようにすれば、画像変動算出部23が変動画像を容易に生成することが可能となる。
(6)学習用データ生成装置1は、第二CGデータから教師信号を生成し(S330)、生成した教師信号と学習用画像とを対応付けた学習用データを生成する(S340)教師信号生成部32を備える。このようにしたので、多様な学習用画像を含む学習用データを生成することができる。
(第2の実施形態)
次に、本発明の第2の実施形態について、図8を参照して以下に説明する。本実施形態では、変動量が所定の閾値を超える第二CGデータが十分に得られなかった場合に、第二CGデータを再生成する例を説明する。
なお、本実施形態における学習用データ生成装置のハードウェア構成と機能構成は、第1の実施形態において図1、図2に示したものとそれぞれ同一である。したがって以下では、第1の実施形態と共通のハードウェア構成と機能構成を用いて、本実施形態の学習用データ生成装置を説明する。
図8は、本発明の第2の実施形態に係る学習用データ生成装置1が、学習用CGデータ生成部20において、学習用CGデータを生成する処理の例を説明するフローチャートである。なお、図8のフローチャートにおいて、第1の実施形態で説明した図3のフローチャートと同様の処理を行う部分については、図3と共通のステップ番号としている。以下では、図3と共通のステップ番号が付された処理の説明を省略して、図8のフローチャートを説明する。
第二CGデータ生成部21が生成した全ての第二CGデータに対してステップS240からステップS270の処理を実施したら、続いて、学習用CGデータ生成部20は、画像変動算出部23がステップS270で算出した変動量を所定の閾値と比較し、変動量が閾値以上の第二CGデータが所定数以上あるか否かを判定する(S271)。変動量が閾値以上の第二CGデータが所定数以上ある場合はステップS280Aへ進み、ない場合はステップS272へ進む。
ステップS272では、第二CGデータ選択部24において、第二CGデータ生成部21がステップS220で生成した1つ以上の第二CGデータのうち、画像変動算出部23がステップS270で算出した変動量が最も大きい第二CGデータを選択する。そして、第二CGデータ生成部21において、第二CGデータ選択部24が選択した第二CGデータのCGパラメータを、さらに変動量が大きくなるように調整することで、1つ以上の新たな第二CGデータを再生成する。たとえば、選択した第二CGデータが有する各CGパラメータを、第一CGデータにおけるCGパラメータ値との差分が大きくなるように変化させることで、変動量が大きくなるように第二CGデータを調整することができる。
ステップS272で1つ以上の第二CGデータを再生成したら、学習用CGデータ生成部20は、ステップS240へ戻り、再生成後の各第二パラメータに対して、ステップS240からS270の処理を繰り返す。これにより、学習用CGデータ生成部20は、第二CGデータ生成部21が再生成した1つ以上の第二CGデータの各々に対して、第一CGデータからの変動量を算出することができる。
ステップS280Aでは、第二CGデータ選択部24において、第二CGデータ生成部21がステップS220で生成するか、もしくはステップS272で再生成した1つ以上の第二CGデータのうち、画像変動算出部23がステップS270で算出した変動量が所定の閾値を超える第二CGデータを選択する。そして、選択した第二CGデータを学習用CGデータとして、記憶部10に記憶された学習用CGデータ群14に格納する。その後、図8のフローチャートに示す処理を終了する。
以上説明した本発明の第2の実施形態によれば、第二CGデータ生成部21は、変動量に基づき、1つ以上の第二CGデータを再生成する(S272)。このようにしたので、多様な学習用画像を確実に生成することができる。
なお、本発明は上記の実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。たとえば、上記の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、説明した全ての構成を備えるものに必ずしも限定されるものではない。また上記実施形態の構成の一部について、他の構成の追加や削除、置換をすることが可能である。
また上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、たとえば、集積回路で設計する等によりハードウェアで実現してもよい。また上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD等の記録装置、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また上記の各図において、制御線や情報線は説明上必要と考えられるものを示しており、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。たとえば、実際には殆ど全ての構成が相互に接続されていると考えてもよい。
また以上に説明した各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は、これらの装置が備えるハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。
また前述した各種のデータを格納するデータベースの構成(スキーマ(Schema)等)は、リソースの効率的な利用、処理効率向上、アクセス効率向上、検索効率向上等の観点から柔軟に変更し得る。
1 学習用データ生成装置
2 プロセッサ
3 主記憶装置
4 補助記憶装置
5 入力装置
6 出力装置
7 通信装置
10 記憶部
11 第一CGデータ群
12 CGデータ変動制約表
13 算出対象選定表
14 学習用CGデータ群
15 学習用データ群
20 学習用CGデータ生成部
21 第二CGデータ生成部
22 画像生成部
23 画像変動算出部
24 第二CGデータ選択部
30 学習用データ生成部
31 学習用画像生成部
32 教師信号生成部

Claims (7)

  1. 1つ以上のCGモデルを含むCG空間に関する1つ以上のCGパラメータを有する第一CGデータを取得し、前記第一CGデータの前記CGパラメータを変動させた第二CGデータを1つ以上生成する第二CGデータ生成部と、
    前記第一CGデータから1つ以上の第一画像を生成し、前記第二CGデータから1つ以上の第二画像を生成する画像生成部と、
    前記第一画像と前記第二画像の間の変動量を算出する画像変動算出部と、
    前記変動量に基づいて、1つ以上の前記第二CGデータからいずれかを選択する第二CGデータ選択部と、
    前記第二CGデータ選択部によって選択された前記第二CGデータから、1つ以上の学習用画像を生成する学習用画像生成部と、を備える、学習用データ生成装置。
  2. 請求項1に記載の学習用データ生成装置であって、
    前記画像生成部は、
    前記第一CGデータが有する前記CGパラメータに基づく前記CG空間において、前記第一CGデータが有する前記CGパラメータに基づいて第一カメラモデルを設定し、
    前記第一カメラモデルによって前記CG空間内の各CGモデルを撮影した第一合成画像と、前記第一合成画像上の各CGモデルおよび/または各CGモデルを構成する各部品の領域をそれぞれ異なる形態で塗り分けた第一領域画像と、を生成し、
    前記第二CGデータが有する前記CGパラメータに基づく前記CG空間において、前記第二CGデータが有する前記CGパラメータに基づいて第二カメラモデルを設定し、
    前記第二カメラモデルによって前記CG空間内の各CGモデルを撮影した第二合成画像と、前記第二合成画像上の各CGモデルおよび/または各CGモデルを構成する各部品の領域をそれぞれ異なる形態で塗り分けた第二領域画像と、を生成し、
    前記画像変動算出部は、
    前記第一合成画像と前記第二合成画像から変動画像を生成し、
    前記第一領域画像と前記第二領域画像から算出対象領域を抽出し、
    前記変動画像における前記算出対象領域の画像情報に基づいて前記変動量を算出する、学習用データ生成装置。
  3. 請求項2に記載の学習用データ生成装置であって、
    前記画像変動算出部は、前記第一合成画像および前記第二合成画像から色味および明度成分の少なくとも一方をそれぞれ抽出し、抽出した前記色味および前記明度成分の少なくとも一方に基づいて前記変動画像を生成する、学習用データ生成装置。
  4. 請求項2に記載の学習用データ生成装置であって、
    前記画像変動算出部は、前記第一領域画像を前記第一合成画像、前記第二領域画像を前記第二合成画像としてそれぞれ用いて前記変動量を算出する、学習用データ生成装置。
  5. 請求項2に記載の学習用データ生成装置であって、
    前記画像生成部は、前記第一合成画像の各画素に対して、当該画素に対応する前記CGモデルと前記第一カメラモデルとの間の前記CG空間における距離値を埋め込むとともに、前記第二合成画像の各画素に対して、当該画素に対応する前記CGモデルと前記第二カメラモデルとの間の前記CG空間における距離値を埋め込む、学習用データ生成装置。
  6. 請求項1に記載の学習用データ生成装置であって、
    前記第二CGデータ生成部は、前記変動量に基づき、1つ以上の前記第二CGデータを再生成する、学習用データ生成装置。
  7. 請求項1に記載の学習用データ生成装置であって、
    前記第二CGデータから教師信号を生成し、生成した前記教師信号と前記学習用画像とを対応付けた学習用データを生成する教師信号生成部を備える、学習用データ生成装置。
JP2022096778A 2022-06-15 2022-06-15 学習用データ生成装置 Pending JP2023183255A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022096778A JP2023183255A (ja) 2022-06-15 2022-06-15 学習用データ生成装置
PCT/JP2023/013389 WO2023243185A1 (ja) 2022-06-15 2023-03-30 学習用データ生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022096778A JP2023183255A (ja) 2022-06-15 2022-06-15 学習用データ生成装置

Publications (1)

Publication Number Publication Date
JP2023183255A true JP2023183255A (ja) 2023-12-27

Family

ID=89192580

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022096778A Pending JP2023183255A (ja) 2022-06-15 2022-06-15 学習用データ生成装置

Country Status (2)

Country Link
JP (1) JP2023183255A (ja)
WO (1) WO2023243185A1 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010211732A (ja) * 2009-03-12 2010-09-24 Nippon Telegr & Teleph Corp <Ntt> 物体認識装置および方法
JP7011146B2 (ja) * 2017-03-27 2022-01-26 富士通株式会社 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法
JP6675691B1 (ja) * 2019-01-22 2020-04-01 日本金銭機械株式会社 学習用データ生成方法、プログラム、学習用データ生成装置、および、推論処理方法
JP2021107981A (ja) * 2019-12-27 2021-07-29 トヨタ自動車株式会社 教師データ生成装置

Also Published As

Publication number Publication date
WO2023243185A1 (ja) 2023-12-21

Similar Documents

Publication Publication Date Title
US10789686B2 (en) Denoising Monte Carlo renderings using machine learning with importance sampling
US12014471B2 (en) Generation of synthetic 3-dimensional object images for recognition systems
JP6441980B2 (ja) 教師画像を生成する方法、コンピュータおよびプログラム
US10311552B2 (en) De-noising images using machine learning
US20170278308A1 (en) Image modification and enhancement using 3-dimensional object model based recognition
US8824821B2 (en) Method and apparatus for performing user inspired visual effects rendering on an image
JP6612487B1 (ja) 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム
US20220156987A1 (en) Adaptive convolutions in neural networks
CN111047509A (zh) 一种图像特效处理方法、装置及终端
CN111738265A (zh) Rgb-d图像的语义分割方法、***、介质及电子设备
JP2023519728A (ja) 二次元画像の三次元化方法、装置、機器及びコンピュータプログラム
WO2018080533A1 (en) Real-time generation of synthetic data from structured light sensors for 3d object pose estimation
US20230237777A1 (en) Information processing apparatus, learning apparatus, image recognition apparatus, information processing method, learning method, image recognition method, and non-transitory-computer-readable storage medium
CN113869219A (zh) 人脸活体检测方法、装置、设备及存储介质
CN114359269A (zh) 基于神经网络的虚拟食品盒缺陷生成方法及***
CN112434581A (zh) 一种室外目标颜色识别方法、***、电子设备及存储介质
WO2023243185A1 (ja) 学習用データ生成装置
CN115035224A (zh) 图像处理和重构图像生成的方法和装置
CN113762059A (zh) 图像处理方法、装置、电子设备及可读存储介质
CN111104470A (zh) 一种电子沙盘和应急平台联动的方法和***
CN117994173B (zh) 修复网络训练方法、图像处理方法、装置及电子设备
US20240161391A1 (en) Relightable neural radiance field model
CN118036336A (zh) 范围自适应高保真深度数据模拟方法
US20240169701A1 (en) Affordance-based reposing of an object in a scene
Hagn Training and Validation of Visual Perception Functions for Autonomous Driving with Synthetic Data