JP7262689B1

JP7262689B1 - 情報処理装置、生成方法、及び生成プログラム

Info

Publication number: JP7262689B1
Application number: JP2022576495A
Authority: JP
Inventors: 健瑠白神
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2023-04-21
Anticipated expiration: 2042-07-06
Also published as: WO2024009427A1; TW202403670A; JPWO2024009427A1

Abstract

情報処理装置（１００）は、角度θが対応付けられており、かつ対象物を示す前景画像、背景画像、背景画像の各ピクセルに対応する３次元座標を示す点群データ、及び背景画像が生成されたときのカメラ位置を取得する取得部（１２０）と、背景画像の中から、重畳位置を決定する重畳位置決定部（１４１）と、点群データを用いて、重畳位置を含む領域である平面を算出し、カメラ位置と重畳位置とを結ぶ直線と、算出された平面との間の角度である角度θＢを算出する算出部（１４２）と、前景画像を背景画像に重畳する重畳部（１４６）と、を有する。角度θは、前景画像の元画像が生成されたときの対象物が設置された平面と、対象物を撮影する方向である撮影方向を示す直線との間の角度であり、かつ角度θＢと同じ又は類似する角度である。

Description

本開示は、情報処理装置、生成方法、及び生成プログラムに関する。

学習済モデルを用いて、物体認識が行われることが知られている。学習済モデルの学習フェーズでは、大量の画像が必要である。人、車、動物などの一般的な対象物を含む画像を大量に用意することは、可能である。例えば、オープンソースを用いれば、一般的な対象物を含む画像を大量に用意することは、可能である。しかし、特定の車、設備、製品などの特定の対象物の画像を大量に用意することは、困難である。また、対象物の姿勢が変わる場合、様々な姿勢の対象物を大量に用意することは、困難である。そこで、画像を生成する技術が提案されている（特許文献１を参照）。特許文献１の情報処理装置は、複数の画像を含む３次元情報を取得し、３次元情報から認識対象を選択し、複数の画像の各々から、選択された認識対象に対応する範囲である認識対象範囲の画像を切り取ることで、複数の画像から複数の前景画像を生成し、複数の背景画像の各々に、複数の前景画像の各々を合成することで、複数の合成画像を生成する。

国際公開第２０２０／１５２７６３号

ところで、背景画像に前景画像を重畳する場合、制約が設けられていないため、現実的なデータが生成されない場合がある。例えば、現実的ではない角度に対象物が配置されている画像などが生成される。このような画像が学習データとして用いられた場合、学習済モデルの認識精度が低下する。

本開示の目的は、現実的なデータを生成することである。

本開示の一態様に係る情報処理装置が提供される。情報処理装置は、前景画像角度が対応付けられており、かつ対象物を示す前景画像、背景画像、前記背景画像の各ピクセルに対応する３次元座標を示す点群データ、及び前記背景画像が生成されたときのカメラ位置を取得する取得部と、前記背景画像の中から、重畳位置を決定する重畳位置決定部と、前記点群データを用いて、前記重畳位置を含む領域である平面を算出し、前記カメラ位置と前記重畳位置とを結ぶ直線と、算出された平面との間の角度である背景画像角度を算出する算出部と、ワールド座標系における前記前景画像に対応する回転行列であるカメラ姿勢と、前記ワールド座標系における前記背景画像に対応する回転行列であるカメラ姿勢とが等しくなるように、前記背景画像における撮影方向に、前記前景画像を射影変換する変換部と、前記前景画像を前記背景画像に重畳する重畳部と、を有する。前記前景画像角度は、前記前景画像の元画像が生成されたときの前記対象物が設置された平面と、前記対象物を撮影する方向である撮影方向を示す直線との間の角度であり、かつ前記背景画像角度と同じ又は類似する角度である。

本開示によれば、現実的なデータを生成することができる。

情報処理装置が有するハードウェアを示す図である。情報処理装置の機能を示すブロック図である。対象物の撮影方法の例（その１）を示す図である。対象物の撮影方法の例（その２）を示す図である。対象物の撮影方法の例（その３）を示す図である。物体が一定方向に移動する場合の例を示す。対象物の撮影方法の例（その４）を示す図である。角度θの例を示す図である。計測テーブルの例を示す図である。前景画像生成部の機能を示すブロック図である。画像の例（その１）を示す図である。（Ａ），（Ｂ）は、画像の例（その２）を示す図である。（Ａ），（Ｂ）は、画像の例（その３）を示す図である。前景画像生成部が実行する処理の例を示すフローチャートである。カメラ座標系の例を示す図である。データ生成部の機能を示す図である。重畳位置決定部及び算出部が実行する処理の例（その１）を示すフローチャートである。重畳位置決定部及び算出部が実行する処理の例（その２）を示すフローチャートである。重畳処理の例を示すフローチャート（その１）である。重畳処理の例を示すフローチャート（その２）である。（Ａ），（Ｂ）は、見え方が異なる場合の例を示す図である。物体設置位置座標系の例を示す図である。（Ａ），（Ｂ）は、射影変換を説明するための図（その１）である。射影変換を説明するための図（その２）である。スケール変換された画像の例を示す図である。射影変換から重畳までの流れを示す図である。

以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。

実施の形態．
図１は、情報処理装置が有するハードウェアを示す図である。情報処理装置１００は、生成方法を実行する装置である。例えば、情報処理装置１００は、サーバ、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、スマートフォンなどである。
情報処理装置１００は、プロセッサ１０１、揮発性記憶装置１０２、不揮発性記憶装置１０３、入力装置１０４、及び表示装置１０５を有する。入力装置１０４及び表示装置１０５は、情報処理装置１００の外部に存在してもよい。

プロセッサ１０１は、情報処理装置１００全体を制御する。例えば、プロセッサ１０１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などである。プロセッサ１０１は、マルチプロセッサでもよい。また、情報処理装置１００は、処理回路を有してもよい。

揮発性記憶装置１０２は、情報処理装置１００の主記憶装置である。例えば、揮発性記憶装置１０２は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）である。不揮発性記憶装置１０３は、情報処理装置１００の補助記憶装置である。例えば、不揮発性記憶装置１０３は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）である。
入力装置１０４は、キーボード、タッチパネルなどである。表示装置１０５は、ディスプレイである。

次に、情報処理装置１００が有する機能を説明する。
図２は、情報処理装置の機能を示すブロック図である。情報処理装置１００は、記憶部１１０、取得部１２０、前景画像生成部１３０、及びデータ生成部１４０を有する。

記憶部１１０は、揮発性記憶装置１０２又は不揮発性記憶装置１０３に確保した記憶領域として実現してもよい。
取得部１２０、前景画像生成部１３０、及びデータ生成部１４０の一部又は全部は、処理回路によって実現してもよい。また、取得部１２０、前景画像生成部１３０、及びデータ生成部１４０の一部又は全部は、プロセッサ１０１が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ１０１が実行するプログラムは、生成プログラムとも言う。例えば、生成プログラムは、記録媒体に記録されている。

記憶部１１０は、様々な情報を記憶する。例えば、記憶部１１０は、計測テーブルを記憶する。計測テーブルは、後で説明する。

取得部１２０は、対象物２０を含む画像を取得する。例えば、取得部１２０は、画像をカメラから取得する。例えば、カメラは、ＲＧＢ（ＲｅｄＧｒｅｅｎＢｌｕｅ）－Ｄ（Ｄｅｐｔｈ）カメラである。また、カメラがＲＧＢカメラである場合、取得部１２０は、ＲＧＢカメラと対象物２０との間の距離を測定可能なセンサ（例えば、ＩＭＵ（ＩｎｅｒｔｉａｌＭｅａｓｕｒｅｍｅｎｔＵｎｉｔ）センサ、赤外線センサ、ＬｉＤＡＲ（ＬｉｇｈｔＤｅｔｅｃｔｉｏｎＡｎｄＲａｎｇｉｎｇ））と、ＲＧＢカメラとの組合せから画像を取得してもよい。

また、取得部１２０は、対象物２０を含む画像を外部装置から取得してもよい。例えば、外部装置は、クラウドサーバである。なお、外部装置の図は、省略されている。

ここで、対象物の撮影方法の例を説明する。
図３は、対象物の撮影方法の例（その１）を示す図である。図３は、ロボットアーム１０を示している。ロボットアーム１０の先には、カメラ１１が付いている。
例えば、ロボットアーム１０の設置位置は、原点として扱われる。カメラ１１が生成する画像は、当該原点のワールド座標系を用いて、処理される。

図４は、対象物の撮影方法の例（その２）を示す図である。図４は、対象物２０を示している。対象物２０は、ロボットアーム１０が設置されている平面に設置される。図４は、対象物設置点２１を示している。対象物設置点２１は、当該平面に接している点であり、かつ対象物２０の重心又は中心である。そのため、対象物設置点２１のＺ座標は、０である。なお、対象物設置点２１は、撮影前に決定されてもよい。また、対象物設置点２１は、カメラ１１の中心点と対象物２０の中心点が一致するように調整されることで、設定されてもよい。
例えば、カメラ１１の内部パラメータは、カメラキャリブレーションによって得られてもよい。

次に、具体的に２つの撮影方法を説明する。まず、１つの目の撮影方法を示す。
図５は、対象物の撮影方法の例（その３）を示す図である。ロボットアーム１０は、動作しながら、対象物２０を様々な角度から撮影する。また、撮影タイミング、撮影範囲などは、適宜変更してもよい。

次に、２つ目の撮影方法を説明する。２つ目の撮影方法では、次のような方法を利用して撮影が行われる。
図６は、物体が一定方向に移動する場合の例を示す。図６は、ベルトコンベア３０を示している。ベルトコンベア３０の上には、物体３１が置かれている。物体３１は、一定方向に移動する。カメラ３２は、平行移動する物体３１を撮影する。このような撮影方法を利用して、対象物２０が撮影される。具体的には、図７を用いて説明する。

図７は、対象物の撮影方法の例（その４）を示す図である。ロボットアーム１０は、平行移動しながら、対象物２０を撮影する。
このように、対象物２０が撮影されることにより、情報処理装置１００は、対象物２０を含む画像を取得することができる。なお、対象物２０の撮影方法は、上記の方法以外の方法でもよい。

また、取得部１２０は、ワールド座標系に基づくカメラ位置姿勢を取得する。カメラ位置姿勢は、外部パラメータ行列（（Ｒ｜Ｔ））で表される。例えば、カメラ位置姿勢は、カメラキャリブレーションを用いて算出されてもよい。
さらに、取得部１２０は、カメラ１１を通過する直線と対象物設置点２１を通過する直線との間の角度θを取得する。角度θを示す。

図８は、角度θの例を示す図である。図８は、角度θを示している。取得部１２０は、角度θを取得する。角度θは、次のように表現されてもよい。角度θは、画像が生成されたときの対象物２０が設置された平面と、対象物２０を撮影する方向である撮影方向を示す直線との間の角度である。

取得部１２０は、画像、カメラ位置姿勢、対象物設置点、対象物設置平面、及び角度θを計測テーブルに登録する。計測テーブルを示す。

図９は、計測テーブルの例を示す図である。計測テーブル１１１は、記憶部１１０に格納される。計測テーブル１１１は、対象物ＩＤ（Ｉｄｅｎｔｉｆｉｅｒ）、計測ＩＤ，フレーム番号、画像、カメラ位置姿勢、対象物設置点、対象物設置平面、角度、及び前景画像の項目を有する。

対象物ＩＤの項目には、対象物の識別子が登録される。計測ＩＤの項目には、計測の識別子が登録される。フレーム番号の項目は、取得された画像に対応する番号が登録される。画像の項目には、取得された画像が登録される。カメラ位置姿勢の項目には、取得されたカメラ位置姿勢が登録される。対象物設置点の項目には、取得された対象物設置点が登録される。なお、取得された対象物設置点は、ワールド座標系における３次元座標で表される。対象物設置平面の項目には、取得された対象物設置平面が登録される。なお、取得された対象物設置平面は、式（１）により表すことができる。

このように、取得された対象物設置平面は、式（１）により表すことができる。そのため、対象物設置平面の項目には、ａ、ｂ、ｃ、及びｄの値が登録される。例えば、（ａ、ｂ、ｃ、ｄ）は、（０、０、１、０）で表される。
角度の項目には、取得された角度θが登録される。前景画像の項目には、後述する前景画像が登録される。
また、計測テーブル１１１は、照明状況及びカメラの機種ＩＤの項目を有してもよい。

次に、前景画像生成部１３０を説明する。
前景画像生成部１３０は、画像に基づいて、前景画像を生成する。言い換えれば、前景画像生成部１３０は、画像に含まれている対象物２０の領域を抽出し、抽出された領域を前景画像として生成する。前景画像生成部１３０は、従来技術を用いて、前景画像を生成してもよい。また、前景画像生成部１３０は、次の方法を用いて、前景画像を生成してもよい。

図１０は、前景画像生成部の機能を示すブロック図である。前景画像生成部１３０は、領域算出部１３１、マスク画像生成部１３２、及び前景画像生成部１３３を有する。

領域算出部１３１は、画像内の対象物２０の座標ｓを算出する。詳細には、領域算出部１３１は、式（２）を用いて、座標ｓを算出する。なお、ｆは、フレーム番号である。ｕ_ｆは、横方向のピクセル数である。ｖ_ｆは、縦方向のピクセル数である。Ｋは、カメラの内部パラメータである。Ｋは、３×３の行列で表現される。（Ｒ｜Ｔ）は、外部パラメータ行列である。（Ｒ｜Ｔ）は、３×４の行列で表現される。ｑ_ｆは、ｆの画像における対象物設置点２１のワールド座標(Ｘ_ｆ，Ｙ_ｆ，Ｚ_ｆ)の末尾に１を追加した４次元のベクトル(Ｘ_ｆ，Ｙ_ｆ，Ｚ_ｆ，１)である。

領域算出部１３１は、対象物２０が含まれる矩形領域を算出する。例えば、領域算出部１３１は、対象物２０の大きさと、対象物設置点２１のワールド座標とを利用して、対象物２０の座標ｓを囲む複数の点を算出することで、当該矩形領域を算出する。

以下、取得部１２０に取得された画像を例示する。また、当該矩形領域の例も示す。
図１１は、画像の例（その１）を示す図である。図１１は、画像４０を示している。
画像４０は、取得部１２０に取得された画像である。画像４０は、対象物２０を含む。

図１２（Ａ），（Ｂ）は、画像の例（その２）を示す図である。図１２（Ａ）は、対象物設置点２１を示している。図１２（Ｂ）は、矩形領域４１を示している。

マスク画像生成部１３２は、当該矩形領域を用いて、マスク画像を生成する。例えば、マスク画像生成部１３２は、ＧｒａｐｈＣｕｔなどのアルゴリズムを用いて、対象物２０を示す領域をピクセル単位で算出し、対象物２０を示す領域が除かれた画像を、マスク画像として生成する。マスク画像を例示する。

図１３（Ａ），（Ｂ）は、画像の例（その３）を示す図である。図１３（Ａ）は、マスク画像４２を示している。マスク画像４２は、２値化画像で表すことができる。例えば、対象物２０を示す領域は、１で表される。対象物２０以外の領域を示す領域は、０で表される。

前景画像生成部１３３は、マスク画像を用いて、前景画像を生成する。例えば、前景画像生成部１３３は、画像４０の各ピクセルの値に、マスク画像４２の各ピクセルの値を掛けることで、前景画像を生成する。例えば、図１３（Ｂ）は、前景画像４３を示している。
前景画像生成部１３３は、計測テーブル１１１に前景画像を登録する。

次に、前景画像生成部１３０が実行する処理を、フローチャートを用いて説明する。
図１４は、前景画像生成部が実行する処理の例を示すフローチャートである。
（ステップＳ１１）領域算出部１３１は、画像内の対象物２０の座標ｓを算出する。
（ステップＳ１２）領域算出部１３１は、矩形領域を算出する。
（ステップＳ１３）マスク画像生成部１３２は、当該矩形領域を用いて、マスク画像を生成する。
（ステップＳ１４）前景画像生成部１３３は、マスク画像を用いて、前景画像を生成する。前景画像は、対象物２０を示す。
（ステップＳ１５）前景画像生成部１３３は、計測テーブル１１１に前景画像を登録する。

計測テーブル１１１が示すように、前景画像には、角度が対応付けられる。当該角度は、前景画像角度とも言う。例えば、当該角度は、角度θである。当該角度は、前景画像の元画像が生成されたときの対象物２０が設置された平面と、対象物２０を撮影する方向である撮影方向を示す直線との間の角度である。
なお、図１４の処理は、取得部１２０が取得した全ての画像に対して行われてもよい。

次に、データ生成部１４０を説明する。
データ生成部１４０は、前景画像を背景画像に重畳する。背景画像は、取得部１２０により取得される。例えば、取得部１２０は、背景画像を記憶部１１０から取得する。また、例えば、取得部１２０は、背景画像を外部装置から取得する。

背景画像には、背景画像の各ピクセルに対応する３次元座標を示す点群データが対応付けられている。よって、背景画像が取得された場合、当該点群データが取得されたと表現できる。また、取得部１２０は、背景画像の取得タイミングと異なるタイミングで、当該点群データを取得してもよい。３次元座標は、カメラ座標系で表される。カメラ座標系を説明する。

図１５は、カメラ座標系の例を示す図である。カメラ座標系では、カメラ位置が原点とされる。カメラの撮影方向が、Ｚ軸の正方向になる。
背景画像には、背景画像が生成されたときのカメラ位置が対応付けられている。よって、背景画像が取得された場合、当該カメラ位置が取得されたと表現できる。また、取得部１２０は、背景画像の取得タイミングと異なるタイミングで、当該カメラ位置を取得してもよい。当該カメラ位置は、カメラ座標系の原点なので、（０，０，０）で表される。
また、背景画像には、前景画像が背景画像に重畳される重畳位置情報が対応付けられてもよい。

次に、データ生成部１４０の機能を詳細に説明する。
図１６は、データ生成部の機能を示す図である。データ生成部１４０は、重畳位置決定部１４１、算出部１４２、検索部１４３、選択部１４４、変換部１４５、及び重畳部１４６を有する。

重畳位置決定部１４１及び算出部１４２が実行する処理を、フローチャートを用いて、説明する。
図１７は、重畳位置決定部及び算出部が実行する処理の例（その１）を示すフローチャートである。
（ステップＳ２１）重畳位置決定部１４１は、背景画像の中から、重畳位置ｐ_Ｂを決定する。重畳位置ｐ_Ｂは、対象物設置点２１に相当する位置である。重畳位置ｐ_Ｂは、３次元座標で表される。重畳位置決定部１４１は、ランダムに重畳位置ｐ_Ｂを決定してもよい。また、重畳位置決定部１４１は、重畳位置情報に基づいて、重畳位置ｐ_Ｂに決定してもよい。

（ステップＳ２２）算出部１４２は、点群データを用いて、重畳位置ｐ_Ｂを含む領域（すなわち、平面Ｐ_Ｂ）の算出を試みる。例えば、算出部１４２は、点群データとＲＡＮＳＡＣアルゴリズムとを用いて、平面Ｐ_Ｂの算出を試みる。なお、平面Ｐ_Ｂは、式（１）で表すことができる。
平面Ｐ_Ｂが算出された場合、処理は、ステップＳ２３に進む。平面Ｐ_Ｂが算出されない場合、処理は、ステップＳ２１に進む。当該ステップＳ２１では、重畳位置決定部１４１は、新たな重畳位置を決定する。

（ステップＳ２３）算出部１４２は、カメラ位置と重畳位置ｐ_Ｂとを結ぶ直線と、平面Ｐ_Ｂとの間の角度θ_Ｂを算出する。角度θ_Ｂは、背景画像角度とも言う。

また、背景画像の中で重畳範囲が予め定められている場合、次の処理が実行されてもよい。
図１８は、重畳位置決定部及び算出部が実行する処理の例（その２）を示すフローチャートである。
（ステップＳ３１）取得部１２０は、重畳範囲を示す情報を取得する。例えば、取得部１２０は、重畳範囲を示す情報を記憶部１１０から取得する。
（ステップＳ３２）重畳位置決定部１４１は、重畳範囲の中から、重畳位置ｐ_Ｂを決定する。例えば、重畳位置決定部１４１は、重畳範囲の中から、ランダムに重畳位置ｐ_Ｂを決定する。

（ステップＳ３３）算出部１４２は、点群データを用いて、重畳位置を含む領域（すなわち、平面Ｐ_Ｂ）の算出を試みる。例えば、算出部１４２は、点群データとＲＡＮＳＡＣアルゴリズムとを用いて、平面Ｐ_Ｂの算出を試みる。
平面Ｐ_Ｂが算出された場合、処理は、ステップＳ３４に進む。平面Ｐ_Ｂが算出されない場合、処理は、ステップＳ３２に進む。当該ステップＳ３２では、重畳位置決定部１４１は、新たな重畳位置を決定する。
（ステップＳ３４）算出部１４２は、背景画像に対応付けられているカメラ位置と重畳位置ｐ_Ｂとを結ぶ直線と平面Ｐ_Ｂとの間の角度θ_Ｂを算出する。

次に、検索部１４３、選択部１４４、変換部１４５、及び重畳部１４６が実行する処理を、フローチャートを用いて説明する。
図１９は、重畳処理の例を示すフローチャート（その１）である。図２０は、重畳処理の例を示すフローチャート（その２）である。
（ステップＳ４１）検索部１４３は、角度θ_Ｂに基づいて、計測テーブル１１１の中から前景画像の候補を、前景画像候補として検索する。詳細には、検索部１４３は、角度θ_Ｂに基づいて、計測テーブル１１１の角度の項目に対して検索を行うことで、前景画像候補を検索する。また、例えば、検索部１４３は、“角度θ_Ｂ±１°”の条件に合致する角度θに対応する前景画像を、前景画像候補として検索してもよい。これにより、角度θ_Ｂと同じ又は類似する角度が対応付けられている、１以上の前景画像候補が検索される。

取得部１２０は、検索部１４３の検索によって、１以上の前景画像候補（すなわち、前景画像）を取得する。また、取得部１２０は、１以上の前景画像候補を外部装置から取得してもよい。

（ステップＳ４２）選択部１４４は、１以上の前景画像候補の中から、１つの前景画像候補を選択する。

ここで、角度が同じ又は類似している場合でも撮影方向が異なる場合、見え方が異なる。具体的に、見え方が異なる場合を示す。
図２１（Ａ），（Ｂ）は、見え方が異なる場合の例を示す図である。図２１（Ａ）は、対象物２０を含む画像５０を示している。図２１（Ｂ）は、対象物２０を含む画像５１を示している。
画像５０に対応する角度θと画像５１に対応する角度θとは、同じ又は類似である。しかし、図２１（Ａ）と図２１（Ｂ）とは、対象物２０の撮影方向が異なる場合を示している。図２１（Ａ）と図２１（Ｂ）とが示すように、角度が同じ又は類似している場合でも撮影方向が異なる場合、見え方が異なる。そこで、変換部１４５は、変換処理を行う。

まず、選択された前景画像候補は、画像Ａと呼ぶ。ここで、カメラ位置姿勢は、外部パラメータ行列（（Ｒ｜Ｔ））で表される。画像Ａに対応するカメラ姿勢は、カメラ姿勢Ｒ_Ａとする。すなわち、カメラ姿勢Ｒ_Ａは、画像Ａに対応するカメラ位置姿勢“（Ｒ｜Ｔ）”の“Ｒ”に相当する。画像Ａに対応する対象物設置点は、対象物設置点ｐ_Ａとする。画像Ａに対応する対象物設置平面は、対象物設置平面Ｐ_Ａとする。また、背景画像に対応する重畳位置ｐ_Ｂと平面Ｐ_Ｂは、既に得られている。背景画像に対応するカメラ姿勢Ｒ_Ｂは、未知の値である。

（ステップＳ４３）変換部１４５は、画像Ａにおける物体設置位置座標系Ｃの基本ベクトルを算出する。ここで、物体設置位置座標系Ｃを例示する。

図２２は、物体設置位置座標系の例を示す図である。物体設置位置座標系Ｃでは、カメラと対象物設置点とを結ぶベクトルが、Ｚ軸とされる。変換部１４５は、物体設置位置座標系Ｃにおけるカメラ姿勢Ｒ_Ａが、物体設置位置座標系Ｃにおけるカメラ姿勢Ｒ_Ｂと等しくなるように、射影変換を行う。
画像Ａにおける物体設置位置座標系Ｃの基本ベクトルの算出を詳細に説明する。ここで、カメラ位置のワールド座標は、Ｏ_Ａとする。対象物設置点ｐ_Ａのワールド座標は、Ｘ_Ａとする。Ｏ_Ａを通過する法線ベクトルと対象物設置平面Ｐ_Ａとの交点のワールド座標は、Ｙ_Ａとする。

物体設置位置座標系Ｃの基本ベクトルのＸ軸方向は、式（３）で表される。

物体設置位置座標系Ｃの基本ベクトルのＹ軸方向は、式（４）で表される。

物体設置位置座標系Ｃの基本ベクトルのＺ軸方向は、式（５）で表される。

（ステップＳ４４）変換部１４５は、背景画像における物体設置位置座標系Ｃの基本ベクトルを算出する。ここで、カメラ座標系におけるカメラ位置は、Ｏ_Ｂとする。重畳位置ｐ_Ｂのワールド座標は、Ｘ_Ｂとする。Ｏ_Ｂを通過する法線ベクトルと平面Ｐ_Ｂとの交点のワールド座標は、Ｙ_Ｂとする。
物体設置位置座標系Ｃの基本ベクトルのＸ軸方向は、式（６）で表される。

物体設置位置座標系Ｃの基本ベクトルのＹ軸方向は、式（７）で表される。

物体設置位置座標系Ｃの基本ベクトルのＺ軸方向は、式（８）で表される。

画像Ａにおける基本ベクトルを縦に連結することで得られる行列は、Ｔ_Ａとする。Ｔ_Ａは、式（９）で表される。

背景画像における基本ベクトルを縦に連結することで得られる行列は、Ｔ_Ｂとする。Ｔ_Ｂは、式（１０）で表される。

物体設置位置座標系Ｃにおける画像Ａのカメラ姿勢Ｒ_Ａ１は、式（１１）で表される。

物体設置位置座標系Ｃにおける背景画像のカメラ姿勢Ｒ_Ｂ１は、式（１２）で表される。

ワールド座標系における背景画像のカメラ姿勢Ｒ_Ｂは、式（１３）で表される。また、カメラ姿勢Ｒ_Ｂは、回転行列である。

カメラ姿勢の変換行列Ｔ_ＡＢは、式（１４）で表される。

（ステップＳ４５）変換部１４５は、式（１５）を用いて、ホモグラフィ行列Ｈ_ＡＢを算出する。なお、Ｋは、カメラの内部パラメータ行列である。

（ステップＳ４６）変換部１４５は、式（１６）を用いて、画像Ａを射影変換する。なお、式（１６）における射影変換は、ホモグラフィ変換とも言う。また、ｘ、ｙは、画像Ａのピクセル座標である。ｘ_ｎｅｗ、ｙ_ｎｅｗは、射影変換後の画像Ａのピクセル座標である。

このように、変換部１４５は、背景画像における撮影方向に、画像Ａを射影変換する。言い換えれば、変換部１４５は、背景画像を生成したカメラの撮影方向に、画像Ａを射影変換する。
また、背景画像における撮影方向と画像Ａにおける撮影方向とが同じである場合、ステップＳ４３～４６が行われても、画像Ａは、射影変換されない。

図２３（Ａ），（Ｂ）は、射影変換を説明するための図（その１）である。図２３（Ａ）は、画像Ａである画像６０を示している。図２３（Ｂ）は、背景画像である画像６１を示している。
画像６０に対応する角度θと画像６１に対応する角度θ_Ｂは、同じである。しかし、画像６０に対応する撮影方向と画像６１に対応する撮影方向は、９０度異なる。そのため、見え方が異なる。そこで、変換部１４５は、画像Ａを射影変換する。

図２４は、射影変換を説明するための図（その２）である。図２４は、射影変換された画像Ａである画像６２を示している。このように、射影変換が行われることで、前景画像の見え方が、背景画像の見え方と同じになる。

ステップＳ４６の後、処理は、ステップＳ５１に進む。

（ステップＳ５１）変換部１４５は、カメラと対象物設置平面との間の距離が画像Ａと背景画像とで異なるか否かを判定する。ここで、例えば、画像Ａである前景画像の元画像は、ＲＧＢ－Ｄカメラによって生成された画像である。そのため、画像Ａ（すなわち、前景画像）の各ピクセルには、距離が対応付けられている。また、背景画像には、背景画像の各ピクセルに対応する点群データが対応付けられている。そのため、点群データが示すＺ座標によって、距離が特定される。
距離が画像Ａと背景画像とで異なる場合、画像Ａと背景画像とでスケールが異なることを意味する。距離が画像Ａと背景画像とで異なる場合、処理は、ステップＳ５２に進む。距離が画像Ａと背景画像とで同じ場合、処理は、ステップＳ５３に進む。

（ステップＳ５２）変換部１４５は、画像Ａに対してスケール変換を行う。
詳細に、スケール変換を説明する。まず、画像Ａにおける距離（すなわち、撮影方向を示すベクトルと対象物設置平面Ｐ_Ａとの交点と、カメラ位置との間の距離）は、ｄ_Ａとする。背景画像における距離（すなわち、撮影方向を示すベクトルと平面Ｐ_Ｂとの交点と、カメラ位置との間の距離）は、ｄ_Ｂとする。また、以下の説明では、画像Ａは、射影変換されたものとする。
変換部１４５は、アフィン変換を用いて、画像Ａに対してスケール変換を行う。具体的には、変換部１４５は、式（１７）を用いて、画像Ａに対してスケール変換を行う。

ここで、スケール変換された画像Ａを例示する。
図２５は、スケール変換された画像の例を示す図である。変換部１４５は、画像Ａである画像６２に対してスケール変換を行う。これにより、画像６２に含まれている対象物２０は、小さくなる。

上記では、画像Ａが射影変換される場合を説明した。画像Ａにおける撮影方向と背景画像における撮影方向とが同じ場合、変換部１４５は、画像Ａを射影変換しない。また、上記では、射影変換された画像Ａに対してスケール変換が行われる場合を説明した。変換部１４５は、射影変換されていない画像Ａに対して、スケール変換を行ってもよい。

（ステップＳ５３）選択部１４４は、全ての前景画像候補を選択したか否かを判定する。全ての前景画像候補を選択した場合、処理は、ステップＳ５４に進む。全ての前景画像候補を選択していない場合、処理は、ステップＳ４２に進む。

（ステップＳ５４）選択部１４４は、１以上の前景画像候補の中から、重畳させる前景画像として最適な前景画像候補を選択する。言い換えれば、選択部１４４は、１以上の前景画像候補の中から画像変換による視点の変化が最も小さい画像を選択する。

ここで、回転行列Ｐと回転行列Ｑとの類似度を示す指標ｄ（Ｐ，Ｑ）が、導入される。指標ｄ（Ｐ，Ｑ）の値が小さいほど、回転行列Ｐと回転行列Ｑとが類似していることを意味する。また、指標ｄ（Ｐ，Ｑ）の値が小さいことは、カメラ姿勢が変化しても視点の変化が小さいことを意味する。指標ｄ（Ｐ，Ｑ）は、式（１８）を用いて、表すことができる。

指標ｄ（Ｐ，Ｑ）は、単位球面上に点がランダムにサンプリングされ、それぞれの点について回転行列Ｐによる変換を施した座標と回転行列Ｑによる変換を施した座標との距離が算出されることで、擬似的に算出される。

最適な前景画像候補が選択される処理では、指標ｄ（Ｐ，Ｑ）の“Ｐ”が、カメラ姿勢Ｒ_Ａに置き換えられる。また、指標ｄ（Ｐ，Ｑ）の“Ｑ”が、カメラ姿勢Ｒ_Ｂに置き換えられる。
選択部１４４は、Ｎ枚の前景画像候補が存在する場合、式（１９）を用いて、最適な前景画像候補である画像ｉを選択する。

（ステップＳ５５）重畳部１４６は、選択された画像ｉ（すなわち、前景画像）を背景画像に重畳する。詳細には、重畳部１４６は、前景画像を背景画像の重畳位置ｐ_Ｂに重畳する。

ここで、上記では、理解し易いように、画像Ａに対して、射影変換及びスケール変換を行う場合を説明した。しかし、実際には、画像Ａに含まれている対象物２０を示す前景画像に対して、射影変換及びスケール変換が行われる。

射影変換から重畳までの流れを簡単に例示する。
図２６は、射影変換から重畳までの流れを示す図である。図２６は、前景画像７０を示している。データ生成部１４０は、前景画像７０に対して、射影変換を行う。データ生成部１４０は、前景画像７０に対して、スケール変換を行う。言い換えれば、データ生成部１４０は、背景画像７１のスケールに、前景画像７０をスケール変換する。データ生成部１４０は、前景画像７０を背景画像７１に重畳する。これにより、合成画像が生成される。合成画像は、学習データとして用いられる。また、合成画像には、計測テーブル１１１に登録されている情報が対応付けられてもよい。合成画像に当該情報が対応付けられることで、学習データの絞り込みが可能である。また、合成画像に当該情報が対応付けられることで、条件の不均衡が生じている場合、条件の不均衡を是正する学習データの抽出が可能である。また、合成画像には、正解情報が対応付けられてもよい。

情報処理装置１００は、背景画像に対応する角度θ_Ｂと同じ又は類似する角度θに対応する前景画像を、背景画像に重畳する。そのため、前景画像を背景画像に重畳することにより得られた合成画像は、現実的なデータになる。よって、情報処理装置１００は、現実的なデータを生成することができる。

また、情報処理装置１００は、前景画像における撮影方向と背景画像における撮影方向とが異なる場合、前景画像を射影変換する。これにより、前景画像の向きは、背景画像の撮影方向と同じになる。そして、情報処理装置１００は、射影変換された前景画像を背景画像に重畳する。そのため、前景画像を背景画像に重畳することにより得られた合成画像は、より現実的なデータになる。よって、情報処理装置１００は、より現実的なデータを生成することができる。

さらに、情報処理装置１００は、前景画像のスケールと背景画像のスケールが異なる場合、前景画像に対してスケール変換を行う。これにより、前景画像は、背景画像と同じスケールに変換される。そして、情報処理装置１００は、スケール変換された前景画像を背景画像に重畳する。そのため、前景画像を背景画像に重畳することにより得られた合成画像は、より現実的なデータになる。よって、情報処理装置１００は、より現実的なデータを生成することができる。

情報処理装置１００は、複数の前景画像候補の中から、重畳させる前景画像として最適な前景画像候補を選択する。そして、情報処理装置１００は、選択された前景画像候補である前景画像を背景画像に重畳する。そのため、前景画像を背景画像に重畳することにより得られた合成画像は、より最適なデータになる。よって、情報処理装置１００は、より最適なデータを生成することができる。

１０ロボットアーム、１１カメラ、２０対象物、２１対象物設置点、３０ベルトコンベア、３１物体、３２カメラ、４０画像、４１矩形領域、４２マスク画像、４３前景画像、５０画像、５１画像、６０画像、６１画像、６２画像、７０前景画像、７１背景画像、１００情報処理装置、１０１プロセッサ、１０２揮発性記憶装置、１０３不揮発性記憶装置、１０４入力装置、１０５表示装置、１１０記憶部、１１１計測テーブル、１２０取得部、１３０前景画像生成部、１３１領域算出部、１３２マスク画像生成部、１３３前景画像生成部、１４０データ生成部、１４１重畳位置決定部、１４２算出部、１４３検索部、１４４選択部、１４５変換部、１４６重畳部。

Claims

前景画像角度が対応付けられており、かつ対象物を示す前景画像、背景画像、前記背景画像の各ピクセルに対応する３次元座標を示す点群データ、及び前記背景画像が生成されたときのカメラ位置を取得する取得部と、
前記背景画像の中から、重畳位置を決定する重畳位置決定部と、
前記点群データを用いて、前記重畳位置を含む領域である平面を算出し、前記カメラ位置と前記重畳位置とを結ぶ直線と、算出された平面との間の角度である背景画像角度を算出する算出部と、
ワールド座標系における前記前景画像に対応する回転行列であるカメラ姿勢と、前記ワールド座標系における前記背景画像に対応する回転行列であるカメラ姿勢とが等しくなるように、前記背景画像における撮影方向に、前記前景画像を射影変換する変換部と、
前記前景画像を前記背景画像に重畳する重畳部と、
を有し、
前記前景画像角度は、前記前景画像の元画像が生成されたときの前記対象物が設置された平面と、前記対象物を撮影する方向である撮影方向を示す直線との間の角度であり、かつ前記背景画像角度と同じ又は類似する角度である、
情報処理装置。
前記変換部は、前記背景画像のスケールに、前記前景画像をスケール変換する、
請求項１に記載の情報処理装置。
選択部をさらに有し、
前記取得部は、前記背景画像角度と同じ又は類似する角度が対応付けられている複数の前景画像候補を取得し、
前記選択部は、前記複数の前景画像候補の中から、重畳させる前景画像として最適な前景画像候補を選択し、
前記背景画像に重畳される前記前景画像は、選択された前景画像候補である、
請求項１又は２に記載の情報処理装置。
情報処理装置が、
背景画像、前記背景画像の各ピクセルに対応する３次元座標を示す点群データ、及び前記背景画像が生成されたときのカメラ位置を取得し、
前記背景画像の中から、重畳位置を決定し、
前記点群データを用いて、前記重畳位置を含む領域である平面を算出し、
前記カメラ位置と前記重畳位置とを結ぶ直線と、算出された平面との間の角度である背景画像角度を算出し、
前記背景画像角度と同じ又は類似する角度である前景画像角度が対応付けられており、かつ対象物を示す前景画像を取得し、
ワールド座標系における前記前景画像に対応する回転行列であるカメラ姿勢と、前記ワールド座標系における前記背景画像に対応する回転行列であるカメラ姿勢とが等しくなるように、前記背景画像における撮影方向に、前記前景画像を射影変換し、
前記前景画像を前記背景画像に重畳し、
前記前景画像角度は、前記前景画像の元画像が生成されたときの前記対象物が設置された平面と、前記対象物を撮影する方向である撮影方向を示す直線との間の角度である、
生成方法。
情報処理装置に、
背景画像、前記背景画像の各ピクセルに対応する３次元座標を示す点群データ、及び前記背景画像が生成されたときのカメラ位置を取得し、
前記背景画像の中から、重畳位置を決定し、
前記点群データを用いて、前記重畳位置を含む領域である平面を算出し、
前記カメラ位置と前記重畳位置とを結ぶ直線と、算出された平面との間の角度である背景画像角度を算出し、
前記背景画像角度と同じ又は類似する角度である前景画像角度が対応付けられており、かつ対象物を示す前景画像を取得し、
ワールド座標系における前記前景画像に対応する回転行列であるカメラ姿勢と、前記ワールド座標系における前記背景画像に対応する回転行列であるカメラ姿勢とが等しくなるように、前記背景画像における撮影方向に、前記前景画像を射影変換し、
前記前景画像を前記背景画像に重畳する、
処理を実行させる生成プログラムであり、
前記前景画像角度は、前記前景画像の元画像が生成されたときの前記対象物が設置された平面と、前記対象物を撮影する方向である撮影方向を示す直線との間の角度である、
生成プログラム。