JP6719497B2

JP6719497B2 - 画像生成方法、画像生成装置及び画像生成システム

Info

Publication number: JP6719497B2
Application number: JP2018043822A
Authority: JP
Inventors: クリンキグト，マルティン; 小味　弘典; 弘典小味; 俊明垂井; 村上　智一; 智一村上
Original assignee: Hitachi Industry and Control Solutions Co Ltd
Current assignee: Hitachi Industry and Control Solutions Co Ltd
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2020-07-08
Anticipated expiration: 2038-03-12
Also published as: WO2019176235A1; JP2019159630A; CN111742342A

Description

本発明は、画像生成方法、画像生成装置及び画像生成システムに関するものである。

近年、画像処理技術において、機械学習手法（ディープラーニング等のニューラルネットワーク）を用いることで、撮影された画像から特定の物体を認識する検出精度が向上している。これらの機械学習手法を最適化する方法の一つとしては、多数の画像をトレーニング用のサンプルとしてシステムに入力し、機械学習を訓練させることがある。

例えば、認識対象及び認識対象を含まない画像パターンを、自動的に収集し、このようにして収集した画像パターンを機械学習に用いることにより、高精度の画像認識を行うシステムとして、特開２０１２−０８８７８７（特許文献１）に記載の技術がある。この公報には「物体追跡部は、動画像を構成する各フレームの画像から、認識対象が映っている領域を抽出する。画像変換部は、この領域内の画像に対して幾何変換を行った画像に基づいて認識対象サンプルを生成する。領域切出部は、動画像を構成するフレームの画像に対して領域を設定する。画像合成部３５は、設定したそれぞれの領域内の画像中の複数の領域を合成した画像に基づいて非認識対象サンプル画像を生成する。学習部は、認識対象サンプルと非認識対象サンプルとを用いて認識対象を学習する。」という記載がある。

特開２０１２−０８８７８７号公報

訓練用のサンプル画像が入手しやすい場合、機械学習の性能は向上しやすいが、訓練用のサンプル画像が入手困難・入手不可能な場合には、機械学習による画像物体検出の精度を向上することが難しい。このため、ユーザは、コストをかけて機械学習を訓練するサンプル画像を入手することとなる。しかし、特許文献１では、訓練用のサンプル画像が入手困難の場合にどの様に対応すべきかについては、深く検討されておらず、ユーザが訓練用のサンプル画像を入手するためのコスト負担については、依然として解決されていない。

そこで、本発明では、ベクトルモデルや３Ｄモデル等のデータから機械学習訓練用の画像をニューラルネットワークを用いて生成し、この生成された画像を機械学習の訓練に用いることで機械学習の訓練の効率や画像の検知精度を向上することを目的とする。

上記課題を解決するために、代表的な本発明の画像生成方法の一つは、画像選択部によって、背景画像を取得する背景画像取得工程と、前記画像選択部によって、メタデータを備えた検出対象画像をソース画像から特定する検出対象画像特定工程と、モデル作成部によって、前記検出対象画像に対応する検出対象画像モデルを生成するモデル生成工程と、
前記モデル作成部によって、前記背景画像と前記検出対象画像モデルとを結合させることにより、最終画像を確立する検出対象画像確立工程を含む画像生成方法である。

ベクトルモデルや３Ｄモデル等のデータから機械学習訓練用の画像をニューラルネットワークによって生成し、この生成された画像を機械学習に用いることで機械学習の訓練の効率や画像の検出の精度を向上することができる。

本発明の実施形態に係るハードウェアの全体システム構成を示す図である。本発明の第１実施形態に係る画像生成方法のフローチャートである。本発明の第１実施形態に係るカメラパラメータの計算手法を説明するための図である。本発明の第１実施形態に係る画像生成方法の変形例のフローチャートである。本発明の第１実施形態に係るベクトルモデル及び画像の一例を示す図である。本発明の第１実施形態に係るベクトルモデル・画像の対応付けの一例を示す図である。本発明の第１実施形態に係る検出対象画像を確立するための処理の一例を示す図である。本発明の実施形態に係る画像生成方法のフローチャートである。本発明の第２実施形態に係る検出対象画像を確立するための処理の一例を示す図である。本発明の第３実施形態に係る検出対象画像を確立するための処理の一例を示す図である。本発明の第４実施形態に係る機械学習画像を作成する能力を向上させる工程の一例を示す図である。本発明の第５実施形態に係る画像を生成する方法の一例を示す図である。本発明の第６実施形態に係る機械学習の検出精度を向上させる工程の一例を示す図である。本発明の実施形態に係るシステムアーキテクチャの一例を示す図である。本発明の実施形態の一例を説明する概念図である。

以下、図面を参照して、従来例及び本発明の第１実施形態について説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

まず、図１５を参照して、本発明の実施形態の概念の一例を説明する。

物体の検出を行う機械学習においては、機械学習のシステムを訓練するためには、検出させたい物体の画像を大量に必要としている。例えば、白い杖を持っている人（以下、「白杖者」ともいう）を機械学習を用いて検知しようとする場合、従来は白杖者の映像が大量にないと学習ができなかった。そこで、本発明では、検出対象（例えば、白杖者）の映像が少ない場合であっても、一般歩行者の映像（大量に入手可）と、白杖者の映像（少量）とを用いることにより、大量の白杖者の映像を生成し、機械学習を効率的に強化するものである。

［画像生成システムの構成」
図１は、本発明の実施形態に係るハードウェアの全体システム構成を示す図である。図１に示すように、本システムは、中央サーバ１００と、クライアント端末１３０と、クライアント端末１４０と、ネットワーク（インターネットＬＡＮ等）１５０から構成される。そして、中央サーバ１００と、クライアント端末１３０と、クライアント端末１４０とはネットワーク１５０を介してお互いに通信可能に接続されていてもよい。

中央サーバ１００は、ネットワーク１５０を介してクライアント端末１３０、１４０から要求された画像生成を行う装置である。具体的には、中央サーバ１００は画像生成の工程における画像選択、モデル作成、画像処理、機械学習等の機能を実施する機能部を含むことができる。また、中央サーバ１００は、後述する背景画像及び検出対象画像等の画像データや、ベクトルモデルと３Ｄモデル等のモデルデータを格納する手段（例えば記憶部１２０）を有していてもよい。

クライアント端末１３０及びクライアント端末１４０は、ネットワーク１５０を介して中央サーバ１００に画像生成の要求を送信するための装置である。具体的には、ユーザはクライアント端末１３０及びクライアント端末１４０に、画像生成の条件を入力することができる。例えば、ユーザは、クライアント端末１３０又はクライアント端末１４０を用いて、後述する検出対象物や画像生成に用いられる背景画像を指定してもよい。クライアント端末１３０及びクライアント端末１４０で入力された条件等の指示はネットワーク１５０を介して中央サーバ１００に送信される。

［中央サーバ１００の構成］
前述のように、中央サーバ１００は、ネットワーク１５０を介してクライアント端末１３０、１４０から要求された画像生成を行う装置である。図１に示すように、中央サーバ１００は、画像生成の各機能を実施する処理部１１０と、当該画像生成に用いられる情報を記憶する記憶部１２０とを含む。

処理部１１０は本発明の実施形態に係る各機能を実施するための機能部を含む。具体的には、処理部１１０は、背景画像を取得し、メタデータを備えた検出対象画像をソース画像から特定する画像選択部１１２と、検出対象画像に対応する検出対象画像モデルを生成し、背景画像と検出対象画像モデルとを結合させることにより、最終画像を確立するモデル作成部１１４と、モデルに対して画像処理を施す画像処理部１１６と、機械学習検出精度の向上処理及び機械学習画像作成能力の向上処理の各工程を実施する機械学習部１１８とから構成される。

処理部１１０は、装置内部のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の演算処理部がメモリに記憶された制御プログラムを実行することによって、上記記載の各機能部として機能する。

記憶部１２０は、画像データベース１２２と、画像・モデルデータベース１２４とを含む。画像データベース１２２は、画像生成に用いられる背景画像や、後述する検出対象画像のデータを格納するデータベース（装置又は論理的な記憶領域）である。画像データベース１２２には、例えば、図７に示されるような駅のホームの様子を示す画像データと、当該画像が備えるメタデータが格納されていてもよい。ある実施形態では、記憶部１２０は、ユーザが指定した画像（ソース画像、背景画像、所望の検出対象画像）をクライアント端末１３０又はクライアント端末１４０から受信し、受信した画像データを画像生成に使われ得る形式で画像データベース１２２に保存してもよい。また、画像・モデルデータベース１２４は、特定の画像と、当該画像に対応付けられたモデルをお互いに対応付けた形態で格納するデータベース（装置又は論理的な記憶領域）である。例えば、後述する図５〜図６等に示されるように、画像生成に用いられるモデル（ベクトルモデルや点群等）と、そのモデルに対応付けられた現実的な画像が画像・モデルデータベース１２４に保存されてもよい。なお、記憶部１２０の画像データベース１２２と画像・モデルデータベース１２４は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリ（ＦｌａｓｈＭｅｍｏｒｙ）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶部によって実現されてもよい。

［クライアント端末１３０の構成］
前述のように、クライアント端末１３０は、ネットワーク１５０を介して中央サーバ１００に画像生成要求を送信するための装置である。クライアント端末１３０は、端末内の他の機能部から送られる命令を実行する処理部１３２と、ユーザからの指示（画像生成条件等）を受け付ける指示受付部１３４と、画像（ソース画像、背景画像、検出対象画像）を選択する画像選択部１３６と、中央サーバ１００や他のネットワーク端末（例えばクライアント端末１４０）とのやり取りを管理する通信部１３８と、情報（画像データやユーザからのコマンド等）を格納する記憶部１３９とを含む。上記の通り、ある実施形態では、ユーザはクライアント端末１３０を利用し、画像生成の条件を入力したり、画像生成に用いられるソース画像、背景画像、又は検出対象画像を指定したりすることができる。クライアント端末１３０はユーザから入力された条件や指示を中央サーバ１００に送信してもよい。

［クライアント端末１４０の構成］
クライアント端末１３０と同様に、クライアント端末１４０はネットワーク１５０を介して中央サーバ１００に画像生成要求を送信するための装置である。また、クライアント端末１４０は、クライアント端末１３０と同様に、端末内の他の機能部から送られる命令を実行する処理部１４２と、ユーザからの指示（画像生成条件等）を受け付ける指示受付部１４４と、中央サーバ１００や他のネットワーク端末（例えばクライアント端末１３０）とのやり取りを管理する通信部１４６と、情報（画像データやユーザからのコマンド等）を格納する記憶部１４８とを含む。クライアント端末１４０は、画像選択部１３６のような画像選択部を有しない点において、クライアント端末１３０と異なる。従って、画像生成要求が画像選択部を有しないクライアント端末１４０のような端末から送られる場合は、画像生成に用いられる画像の選択はユーザの指示によって中央サーバ１００の画像選択部１１２を用いて選択されてもよく、又は、中央サーバ１００の画像選択部１１２に自動的（例えば、ランダム）に選択させてもよい。

次に、図２を参照して、第１実施形態における背景画像取得、検出対象特定、検出対象画像モデルの作成、及び検出対象画像の確立について説明する。図２は、本発明の第１実施形態に係る画像生成方法の流れを示すフローチャートである。

まず、ステップＳ２００では、背景画像が取得される。本明細書では、取得するという表現は、入手したり、受信したり、確保したり、調達したり、選択したり、指定したりすることを含む。背景画像とは、後述する検出対象画像が配置されることで最終画像となる画像である。背景画像は例えば、駅のホーム、空港の搭乗ゲート、コンサートやスポーツ試合の会場、ショッピングモール等の様々な環境の様子を写す画像であってもよい。この背景画像はユーザに指定されてもよく（例えば、クライアント端末１３０の画像選択部１３６）、ユーザが入力した指示（例えばクライアント端末１４０を介して）に応じて記憶部１２０の画像データベース１２２に保存されている画像の中から中央サーバ１００の画像選択部１１２に選択されてもよい。

次に、ステップＳ２２０では、検出対象画像が特定される。本明細書では、特定するという表現は、選定したり、選択したり、設定したり、指定したり、又は識別したり、検知したりすることを含む。検出対象画像とは、ユーザが背景画像に配置したい物体が写る画像である。例えば、検出対象画像は、画像内から検出できるように機械学習部を訓練する対象の物体を示す画像であってもよい。検出対象画像は、例えば、白杖を持っている人、特定の服装をした人、所定の大きさを超えた荷物、ある種類の動物等を含んでもよい。また、この検出対象画像はメタデータを備えていてもよい。ここでのメタデータとは、２次元の座標等の検出対象画像の位置を表す情報、検出対象画像の形状（矩形、丸い）や大きさ（ピクセルで見た長さ・高さ等）を示す情報、及び検出対象画像の性質（人間、動物、荷物、自動車等のラベル）を表す情報を含んでもよい。このメタデータは、後述する機械学習訓練に用いられてもよい。

この検出対象画像は、ユーザが入力したソース画像から中央サーバ１００の画像選択部１１２によって特定されてもよく、又は直接にユーザの指示によって特定されてもよい。一例として、背景画像が工事現場の画像として指定された場合には、クライアント端末１３０の指示受付部１３４又はクライアント端末１４０の指示受付部１４４は、検出対象画像として、ソース画像に写っている「ヘルメット未着用の人」として指定し、その要求をユーザから受信したとする。この場合、この要求を受信した指示受付部１３４はユーザの指示を中央サーバ１００に送信し、中央サーバ１００の画像選択部１１２はユーザの要求に合わせてソース画像内から、ヘルメット未着用の人を検出対象画像として特定してもよい。

次に、ステップＳ２４０では、検出対象画像モデルが作成される。本明細書では、作成するという表現は、生成したり、創造したり、形成したり、用意したり、作り出したりすることを含む。検出対象画像モデルは、検出対象画像に示されている物体の形状や構造を具現化する模型である。検出対象画像モデルとしては、例えば、ベクトルモデル、点群、又は３Ｄモデル等が使われてもよい。検出対象画像モデルは、例えば、周知のモデル作成ツールによって自動的に行われてもよい。後述するように、ここで作成された検出対象画像モデルは、中央サーバ１００の画像処理部１１６及び後述する敵対的生成ネットワークにおいて加工されることにより、より現実の画像に近い画像として仕上げられてもよい。

次に、ステップＳ２６０では、最終画像が確立される。本明細書では、確立するという表現は、樹立したり、設定したり、設立したり、生成したり、構築したり、設けたり、創造したりすることを含む。最終画像とは、ステップＳ２００で取得した背景画像と、ステップＳ２４０で作成された検出対象画像モデルとを組み合わせることで生成された画像である。具体的には、最終画像は、中央サーバ１００のモデル作成部１１４が背景画像と検出対象画像モデルとを結合させることで生成されてもよい。背景画像と検出対象画像モデルを結合させ、最終画像を生成する工程の詳細は図７を参照して説明するため、ここでの説明を省略する。

このように、背景画像を取得し、メタデータを備えた検出対象画像をソース画像から特定し、検出対象画像に対応する検出対象画像モデルを生成し、背景画像と前記検出対象画像モデルとを結合させ、最終画像を確立することで、実際の検出対象画像が少なく、入手困難な場合にも、機械学習用の画像を生成することができる。

次に、図３を参照して、本発明の第１実施形態に係るカメラパラメータの計算手法について説明する。図３に示されるように、背景画像３２０と、改札口３２１と、水平線３２３と、検出対象画像モデル３２７とがカメラパラメータの計算に用いられる。

上記説明した検出対象画像を確立する工程において、検出対象画像モデル３２７を適切な大きさ等で背景画像３２０に配置するためには、背景画像３２０のカメラパラメータを計算する必要がある。ここで計算されたカメラパラメータを用いることで、モデル作成部１１４は検出対象画像モデル３２７を適切な位置、大きさ、及び姿勢で背景画像３２０に配置することができる。

カメラパラメータを計算するために、まず、基準の物体が背景画像３２０から識別される。ここでの基準の物体とは、背景画像３２０に配置される検出対象画像モデルのサイズの目安となる物体である。例えば、基準の物体は、大きさが一般的に知られている、又は推定・推測されやすいものであってもよい。一例として、ここでは、改札口３２１が基準の物体として識別されてもよい。次に、識別された基準の物体の寸法要素（高さ、長さ等）に基づいて、カメラパラメータが計算される。具体的には、基準の物体として識別された改札口３２１の背景画像３２０における位置に合わせた水平線３２３等の基準を設定し、改札口３２１のピクセル数で見た長さ・高さが測定される。そして、改札口３２１の実際の長さ・高さを、背景画像３２０におけるピクセル数で見た長さ・高さで割ることにより得た割合を用いることで、検出対象画像モデルのあるべき大きさを容易に計算することができる。したがって、ここで計算されたカメラパラメータに基づいて、検出対象画像モデル３２７を背景画像３２０に結合させることにより、最終画像を生成することができる。

このように、基準の物体の寸法要素に基づいて、カメラパラメータを計算し、計算された前記カメラパラメータに基づいて、検出対象画像モデルを背景画像に結合させることで、検出対象画像モデルを適切な大きさ・位置・向きで配置することができる。

次に、図４を参照して、本発明の第１実施形態に係る画像生成方法の変形例の流れについて説明する。

まず、ステップＳ４００では、背景画像が取得される。ここでの背景画像取得は、図３におけるＳ２００の背景画像取得と実質的に同様であるため、ここでの説明を省略する。

次に、ステップＳ４２０では、検出対象画像を表すベクトルモデルがステップＳ４００で取得した背景画像に配置される。ベクトルモデルとは、検出対象画像に写っている物体の形状や構造を空間ベクトルで表現したモデルである。例えば、ベクトルモデルの一例は図５で示されている。図５は、本発明の第１実施形態に係るベクトルモデル及び画像の一例を示す図である。図５に示されているベクトルモデル５３１は人間の身体のベクトルモデルである。このベクトルモデル５３１は例えば、図３を用いて説明したカメラパラメータに基づいて、適切な位置、大きさ、及び向きで背景画像に配置されてもよい。

次に、ステップＳ４４０では、ベクトルモデルが調整される。ベクトルモデルの調整は中央サーバ１００の画像処理部１１６によって行われてもよい。ここで、ベクトルモデル調整とは、一般的に知られている画像処理技術を使用することによりステップＳ４２０で配置したベクトルモデルをより現実の画像に近い画像（以下「現実的な画像」とも言う）へと変換することを意味する。具体的には、ここでのベクトルモデルの調整は、例えば敵対的生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ、又はＧＡＮと呼ぶこともある）によって行われてもよい。一例として画像処理部１１６は、背景画像に配置されたベクトルモデルを中央サーバ１００の記憶部１２０の画像・モデルデータベースに格納されているモデルと比較し、その中から当該ベクトルモデルと類似性が一番高い画像を選択してもよい。例えば、図５が示すように、ベクトルモデル５３１は、白杖を持っている人物のような現実的な画像５３２へと変換されてもよい。ここで選択された画像は、ベクトルモデルと重ね合わせられることで最終画像が生成されてもよい。

次に、ステップＳ４６０では、ステップＳ４４０で生成された最終画像を用いて、機械学習の訓練が行われる。ここでの機械学習は、中央サーバ１００の機械学習部１１８によって行われてもよい。上記の通り、背景画像と検出対象画像を結合させた最終画像は、敵対的生成ネットワークのようなニューラルネットワークを訓練させる手法を用いて行ってもよい。機械学習の訓練工程の詳細は後述するため、ここでの説明を省略する。

次に、ステップＳ４８０では、Ｓ４６０で訓練された機械学習のシステムが実際に適用される。例えば、本実施形態の手法によって生成された画像で訓練された機械学習のシステムは、例えば、全自動運転の車の事故検知、構造物のひび割れ検出、自然災害のシムレーション等の、実際の訓練画像データが入手困難な場合に有用であると考えられる。

このように、ベクトルモデルを配置し、調整することで、機械学習用の良質な画像が得られる。

次に、図６を参照して、本発明の第１実施形態に係るベクトルモデル・画像の対応付けの一例について説明する。

上記の通り、本発明に係る画像生成には、ベクトルモデル及びベクトルモデルに対応する現実的な画像が用いられることがある。ここでは、現実的な画像とベクトルモデルの対応付けについて説明する。まず、検出対象画像６４１の元となる検出対象は実験室環境において撮影されることで得ることができる。次に、Ｏｐｅｎｐｏｓｅ等のような一般的に知られている周知のエッジ・向き検出アルゴリズムを検出対象画像６４１に対して適用することで、検出対象画像６４１に重ね合わせられたベクトルモデルが生成される。次に、このベクトルモデル６４３と検出対象画像６４１とをお互いに対応付けられたモデル・画像ペア６４５として記憶部１２０の画像・モデルデータベース１２４に保存することで、中央サーバ１００の処理部１１０の各機能部にアクセス可能にすることができる。

このように、ベクトルモデルと現実的な画像をお互いに対応付けた形で格納することで、敵対的生成ネットワークを容易に訓練できるというメリットがある。

次に、図７を参照して、本発明の第１実施形態に係る検出対象画像を確立するための処理の一例について説明する。

図７に示されるように、駅のホームの様子を示す画像が背景画像３０１として取得されている。図３を参照して説明したように、背景画像３０１のカメラパラメータは線路３０２や改札口３０３のような基準の物体に基づいて計算される。次に、モデル作成部１１４は、上記計算したカメラパラメータに指定される位置・大きさ・向きに応じて、ユーザから要求された検出対象画像に対応するベクトルモデル３０４を背景画像３０１に配置する。次に、画像処理部１１６はベクトルモデル３０４に対応する現実的な画像３０５を生成し、ベクトルモデル３０４と同じ位置・大きさ・向きで背景画像３０１に挿入する。なお、この段階で、この現実的な画像を背景画像３０１に溶け込ませるための光調整・エッジ調和等の画像処理が施されてもよい。このように、検出対象画像に対応する現実的な画像３０５と背景画像３０１とを結合させることで、最終画像３０９が得られる。また、上記の通り、この最終画像３０９はニューラルネットワークやサポートベクターマシン等の機械学習手法を訓練させるために使用されてもよい。このように、検出対象が少なく、入手困難な場合にも、本実施形態の発明を用いれば、機械学習用の画像を生成することができる。

なお、本実施形態では１つの検出対象画像を背景画像に結合させる例を説明したが、本発明はそれに限定されず、上記の工程を繰り返すことで複数の検出対象画像を１つの背景画像に配置することも可能である。

次に、図８を参照して、本発明の実施形態に係る画像生成方法の流れについて説明する。

まず、ステップＳ４００では、背景画像が取得される。ステップＳ４２０では、ベクトルモデルが背景画像に配置される。Ｓ４４０では、ベクトルモデルが調整される。これらの工程は、図４を参照して説明した画像生成方法と実質的に同様であるため、ここでの説明を省略する。

上記では、生成された最終画像を機械学習訓練に用いる例を説明したが、本発明はそれに限定されず、最終画像を別の目的のために使用されてもよい。従って、ステップＳ８００では、ステップＳ４４０でベクトルモデルを調整した後、生成された最終画像が提供される。この最終画像は例えば、画像の生成を要求した相手に提供されてもよく、第三者に送信されてもよい。機械学習訓練の他にも、最終画像は広告、顔認識、物体検出、画像処理等に適用されてもよい。このように、本発明に係る画像生成方法は機械学習を訓練させるためだけでなく、様々な分野に応用されてもよい。

次に、図９を参照して、本発明の第２実施形態に係る検出対象画像を確立するための処理の一例について説明する。

画像生成要求の条件によっては、検出対象画像を表すモデル（ベクトルモデル等）を生成することが難しいあるいは、不要な場合がある。例えば、一例として、検出対象画像の細かな要素（例えば、色、形状、構造等）を描写する必要がない場合には、最終画像のファイルサイズを抑えるために、ベクトルモデルや現実的な画像より粗末な画像で代用してもよいケースがある。そのため、本発明の第２実施形態に係る検出対象画像を確立するための処理は、ベクトルモデルや現実的な画像ではなく、部分的な画像を単に検出対象画像として背景画像に挿入することで、上記の課題を解決する。

図９は、駅のホームの様子を示す画像が背景画像３０１として取得されている。そして、図９では、図７と同じように、背景画像３０１には線路３０２や改札口３０３等の基準の物体を含んでいる。次に、第2の実施形態においては線路３０２や改札口３０３等の基準の物体に基づいて計算されたカメラパラメータ（あるいはユーザに入力された画像生成条件）に指定される位置・大きさ等に応じて、部分的画像３１４が検出対象画像として定義される。この部分的画像は例えば、任意の大きさや形状で作られており、背景画像内の一定領域となる画像である。なお、図９に示される部分的画像３１４は矩形の領域として示されているが、本発明に係る部分的画像３１４の領域の形状は矩形だけに限定されず、任意の形状であってもよい。このように、部分的画像３１４が挿入された背景画像３０１を最終画像３１５とすることで、第１実施形態で説明した画像生成方法による最終画像に比べてファイルサイズが低い最終画像が得られる。また、図９に示されるように、部分的画像３１４のサイズに合わせた画像（例えば画像データベース１２２に格納されている画像又はユーザに選択された画像）は部分画像３１４の領域内に挿入されてもよい。

このように、第２実施形態によれば、画像のファイルサイズを抑制できる効果が得られる。

次に、図１０を参照して、本発明の第３実施形態に係る検出対象画像確立処理の一例について説明する。

選択された背景画像によっては、検出対象画像とする物体が不鮮明又は不完全なため、検出対象画像を表すモデル（ベクトルモデル等）を生成することが難しい場合がある。例えば、一例として、検出対象画像とする物体の一部がぼやけたり、切れたりし、又は複数写っていることがあると、正確なベクトルモデルを作成することが困難であり、機械学習訓練に用いられる画像が生成できない。そのため、本発明の第３実施形態に係る検出対象画像を確立するための処理は、鮮明な部分的画像を検出対象画像として背景画像に挿入又は置換することで、上記の課題を解決する。

図１０に示されるように、検出対象画像とする候補の物体（例えば、人物）３２４が写っている駅のホームの様子を示す画像が背景画像３０１として取得されている。しかし、この候補の物体３２４は、例えば不鮮明であったり、一部が欠落しているため、この候補の物体３２４を正確に表すモデルを生成することが困難な場合が存在する。このような場合には、本実施形態の検出対象画像を確立するための処理において、部分的画像３２５を候補の物体３２４の全体あるいは一部を取り囲むように描くこととする。そして、この部分的画像３２５は、例えばユーザによってＧＵＩ等を介して指定されてもよく、または機械学習部１１８によって自動的に生成されてもよい。次に、中央サーバ１００の画像処理部１１６によって、部分的画像３２５が指定されている領域に対して画像処理を施すことで、候補の物体３２４を検出対象画像３２６として仕上げ、検出対象画像３２６が写っている背景画像３０１を最終画像３２９とすることで、機械学習に用いることができる最終画像が得られる。なお、ここでの部分的画像３２５は第３実施形態において説明した部分的画像３１４と実質的に同様である。

このように、第３の実施形態によれば、検出対象画像が不鮮明・不完全な場合においても、良質な画像を生成することができ、画像のファイルサイズを押させる効果が得られる。

次に、図１１を参照して、本発明の第４実施形態に係る機械学習画像作成能力向上工程の一例について説明する。

上記の通り、本発明の態様は、上記の画像生成方法で生成された画像を機械学習の訓練に用いることに関する。以下、機械学習の画像作成能力を向上する例を敵対的生成ネットワークについて説明するが、本発明はそれに限定されず、サポートベクターマシン等、任意の機械学習手法に適用されてもよい。

敵対的生成ネットワークとは、生成ネットワーク（ｇｅｎｅｒａｔｏｒ）と識別ネットワーク（ｄｉｓｃｒｉｍｉｎａｔｏｒ）の２つのネットワークから構成され、２つのデータセットを競合させることで学習していくネットワークである。具体的には、基礎となる基本画像と、ネットワークに生成して欲しい目的画像のペアが入力されると、生成側が結果として作成画像を生成し、出力する。この作成画像は、目的画像に類似していれば類似しているほどよい。識別側がこの作成画像と目的画像を比較することで、作成画像の精度を判定する。このように、生成側は識別側を欺こうと学習し、識別側はより正確に識別しようと学習する

本実施形態では、まず、ステップ１１１０では、検出対象画像の元となる検出対象を実験室環境において撮影して、検出対象画像を取得する。例えば、図１１に示されるように、白状を持っている人物を撮影することで、白状を持っている人物が検出対象画像として得られる。次に、ステップ１１２０では、ステップ１１１０で入手した検出対象画像に対してＯｐｅｎｐｏｓｅ等のような一般的に知られている周知のエッジ・向き検出アルゴリズムを適用することで、検出対象画像に対応するベクトルモデルが生成される。例えば、検出対象画像が人物の場合、図１１に示されるように、人物の頭、肩、腕、胴体、脚等の部分を表すベクトルモデルが生成されてもよい。なお、検出対象がスーツケースや自動車等のようなエッジを有するものの場合には、エッジ抽出技術が適用されてもよい。これらのエッジはスプライン等で表現されてもよい。

次に、ステップ１１３０では、ステップ１１１０で撮影された検出対象画像と、ステップ１１２０で生成されたベクトルモデルとが、お互いに対応付けられたモデル・画像ペアとして記憶部１２０の画像・モデルデータベース１２４に保存されてもよい。次に、ステップ１１４０では、このベクトルモデルが配置された背景画像が基本画像として敵対的生成ネットワーク（第２ニューラルネットワークと呼ばれることもある）に入力される。そして、ステップ１１５０では、敵対的生成ネットワークの生成ネットワークはステップ１１３０で対応付けられたモデル・画像ペアに基づいて、ベクトルモデルを現実的な画像へと変換することで、ベクトルモデルに対応する現実的な画像が背景画像に写っている画像を作成画像として作成する。

次に、敵対的生成ネットワークは、ステップ１１１０で撮影した検出対象（目的画像）とステップ１１５０で作成した作成画像を比較する。具体的には、敵対的生成ネットワークの識別ネットワークが、目的画像と作成画像のそれぞれのメタデータ（画像に写っている物体の位置、形状、大きさ、性質等を定義する情報）を比較してもよい。さらに、識別ネットワークは目的画像及び作成画像を所定の類似度基準を用いて比較してもよい。この類似度基準とは、例えば、２つ以上の画像がお互いに類似している度合の閾値であってもよい。目的画像及び作成画像が所定の類似度基準を達成する場合（つまり、目的画像と作成画像がお互いに十分に類似していると判定された場合）には、敵対的生成ネットワークのパラメータが調整される。このパラメータ調整とは、例えば、この作成画像を作成するために使用された条件を、他の画像生成にも適用されるように設定することを含む。

このように、基本画像を敵対的生成ネットワークに入力し、基本画像に基づいて作成画像を作成し、作成画像と目的画像とを比較し、作成画像と目的画像とが所定の類似度基準を達成する場合には、敵対的生成ネットワークのパラメータを調整することで、良質な最終画像を生成することができる敵対的生成ネットワークが得られる。

次に、図１２を参照して、本発明の第５実施形態に係る画像生成方法の一例について説明する。

本発明の画像生成方法によれば、１つの検出対象に対して１つのモデルを生成することだけでなく、１つの検出対象に対して複数の検出対象モデルを生成することもできる。図１２（ａ）に示されるように、１つの検出対象１２０３は複数のカメラ１２０７、１２０８、１２０９によって撮像されてもよい。このように、それぞれのカメラ１２０７、１２０８、１２０９に撮像された検出対象画像と、それぞれのカメラ１２０７、１２０８、１２０９に撮像された背景画像とを上記説明した画像生成方法に用いることで、同じ検出対象１２０３を異なる観点から示す最終画像を生成することができる。

また、検出対象が移動する場合には、検出対象の動きを表現するためには、検証対象モデルを画像系列として表す必要がある。例えば、図１２（ｂ）に示されるように、検出対象１２１３が矢印１２１５に示される方向に進むとする。検出対象１２１３の移動はカメラ１２１７によって撮像される。従って、カメラ１２１７で撮像された映像を上記説明した画像生成方法に用いることで、検出対象１２１３の移動の各フレームに対して検出対象モデル（ベクトルモデル等）を生成することができる。これらの検出対象モデルのそれぞれに対してニューラルネットワークによる画像処理を行うことで、検出対象１２１３の動きをスムーズに表す画像系列が得られる。なお、検出対象が移動する場合だけでなく、同じ検出対象を異なる照明環境（例えば朝と夜、または自然光と人工光）で示す画像を生成することもできる。

なお、ここでは、単一の検出対象を異なる観点で見た検出対象画像を生成する例を説明したが、本発明はそれに限定されず、複数の異なる物体を表す検出対象画像モデルを同じ背景画像に結合させることも可能である。具体的には、モデル作成部１１４は第１検出対象画像に対応する第１検出対象モデルと、第２検出対象画像に対応する第２検出対象画像モデルを生成してもよい。次に、上記説明したように、モデル作成部１１４は第１背景画像を取得する。最後に、モデル作成部１１４は、第１検出対象画像モデル及び第２検出対象画像モデルを第１背景画像に挿入してもよい。

このように、１つの検出対象に対して複数の検出対象モデルを生成し、又は画像系列を検証対象モデルとして生成することで、訓練効果が高い画像を得ることができる。

次に、図１３を参照して、本発明の第６実施形態に係る機械学習検出精度向上工程の一例について説明する。

上記の通り、本発明の態様は、上記の画像生成方法で生成された画像を機械学習訓練に用いることに関する。以下、機械学習の物体検出精度を向上する例をＦａｓｔｅｒ−ＲＣＮＮやＳＶＭ等のニューラルネットワークについて説明するが、本発明はそれに限定されず、任意の物体検出アルゴリズムや機械学習手法に適用されてもよい。

まず、第１ニューラルネットワーク（物体検出ニューラルネットワークとも呼ばれる）を最適化するために、検出対象画像モデルに関連付けられたメタデータが物体検出ニューラルネットワークに提供される。このメタデータは、上記説明した通り、画像４０１における検出対象モデル４０２の位置、形状、大きさ、性質等の特性を定義する情報であってもよい。画像４０１は、上記説明したいずれかの画像生成方法によって生成された最終画像であってもよい（例えば、図３の最終画像３０９、図９の最終画像３１５、図１０の最終画像３２９等）。又は、検出対象モデル４０２のメタデータだけでなく、検出対象モデルを含む画像４０１が丸ごと物体検出ニューラルネットワークに提供されてもよい。

次に、対象画像４０４が物体検出ネットワークに提供される。この対象画像４０４は、例えば、画像４０１に写っている検出対象モデル４０２と同じあるいは類似している対象物体４０５を含む画像であり、物体検出の対象とする画像である。次に、物体検出ネットワークは対象画像４０４に対して物体検出最適化４０３を行い、検出対象モデル４０２のメタデータに基づいて、対象画像４０４の中から対象物体４０５を特定しようとする。具体的には、物体検出ネットワークは検出対象モデル４０２のメタデータを対象画像４０４に写っている物体と比較し、このメタデータと合致性が一番高い物体を特定する。図１０に示されるように、物体検出ネットワークは特定した対象物体４０５を取り囲む四角い領域４０６等で示してもよい。

次に、物体検出の結果に基づいて、物体検出ネットワークの特定精度が算出される。この特定精度とは、物体検出ネットワークが特定した物体が検出対象モデル４０２とどのぐらい一致したか、すべての対象物体が特定されたか、対象物体以外の物体が間違って特定されたか等のファクターを評価し、その結果を定量的な形で表現する処理である。この特定度は例えば、７５％や９１％等のパーセントで表されてもよい。一例として、１０個の対象物体のうち、９個が正しく特定された場合には、算出される特定精度を９０％としてもよい。次に、算出された特定精度は所定の特定精度基準（予め定められた精度の閾値）と比較されてもよい。算出された特定精度が所定の特定精度基準を達成しない場合には、上記説明した物体検出最適化を繰り返して行われることが決定されてもよい（つまり、物体検出を繰り返すことでよりよい特定精度を求める）。

このように、検出対象画像モデルに関連付けられたメタデータを物体検出ネットワークに提供し、メタデータに基づいて、対象とする画像の中から検出対象画像を物体検出ネットワークに特定させ、当該特定の結果により、特定精度を算出し、物体検出最適化を行うことにより、物体検出ネットワークの検出精度を向上させる効果が得られる。

次に、図１４を参照して、本発明の実施形態に係るシステムアーキテクチャの一例について説明する。

上記説明したように、本発明はクライアント・サーバアーキテクチャとして構成されてもよい。具体的には、図１４に示されるように、ユーザ１４０１は、コンピュータ、タブレットＰＣ，スマートフォン等のような端末１４０２を介して、希望の背景画像及び希望の検出対象を指定してもよい。次に、クラウド１４０３上のサーバは、ユーザ１４０１が指定した検出対象１４０９と背景画像１４０８及び／又は記憶部１４０４に格納されているデータを用いて、最終画像を生成してもよい。

別のシステムアーキテクチャとしては、端末１４０２を含まない構成も可能である。この場合には、カメラ１４０５は直接にクラウド１４０３に接続されてもよく、カメラ１４０５によって撮影された画像や映像はユーザの端末を介さずに画像生成サービス提供者に送信されてもよい。この場合、ユーザは電子メール、電話、スマートフォン等の別の手段を用いて希望の検出対象を連絡してもよい。

１００中央サーバ
１１０処理部
１１２画像選択部
１１４モデル作成部
１１６画像処理部
１１８機械学習部
１２０記憶部
１２２画像データベース
１２４画像・モデルデータベース
１３０クライアント端末
１４０クライアント端末

Claims

画像生成方法であって、
画像選択部によって、背景画像を取得する背景画像取得工程と、
前記画像選択部によって、メタデータを備えた検出対象画像をソース画像から特定する検出対象画像特定工程と、
モデル作成部によって、前記検出対象画像に対応する検出対象画像モデルを生成するモデル生成工程と、
前記モデル作成部によって、前記背景画像と前記検出対象画像モデルとを結合させることにより、最終画像を確立する検出対象画像確立工程と
を含む画像生成方法。
前記メタデータは、前記検出対象画像の位置を表す情報、前記検出対象画像の形状及び大きさを示す情報、及び前記検出対象画像の性質を表す情報を含むものである請求項１に記載の画像生成方法。
前記検出対象画像モデルは、ベクトルモデル、３Ｄモデル、及び点群モデルから選ばれるものである請求項１に記載の画像生成方法。
前記モデル生成工程は、
前記モデル作成部によって前記検出対象画像に対応する前記ベクトルモデルを生成するベクトルモデル生成工程と、
モデルと画像とが対応付けられている画像・モデルデータベースに基づいて、敵対的生成ネットワークを用いて前記ベクトルモデルを現実的な画像に変換する変換工程とを更に含む
請求項３に記載の画像生成方法。
前記検出対象画像確立工程は、
前記背景画像から、基準の物体を識別する物体識別工程と、
前記基準の物体の寸法要素に基づいて、カメラパラメータを計算するカメラパラメータ計算工程と、
計算された前記カメラパラメータに基づいて、前記検出対象画像モデルを前記背景画像に結合させる結合工程ことにより、最終画像を確立するものである請求項１に記載の画像生成方法。
機械学習検出精度向上工程を含む画像生成方法であって、
前記機械学習検出精度向上工程は、
第１ニューラルネットワークを最適化するために、前記検出対象画像モデルに関連付けられたメタデータを前記第１ニューラルネットワークに提供し、前記メタデータに基づいて、対象とする画像の中から前記検出対象画像を前記第１ニューラルネットワークに特定させる検出対象画像特定訓練工程と、
検出対象画像特定訓練工程の結果により、特定精度を算出する特定精度算出工程と、
前記特定精度を所定の特定精度基準と比較することにより、前記特定精度が前記所定の特定精度基準を達成しない場合、前記検出対象画像特定訓練工程を繰り返すことを決定する特定精度判定工程と
を含む請求項１に記載の画像生成方法。
機械学習画像作成能力向上工程を含む画像作成方法であって、
前記機械学習画像作成能力向上工程は
基本画像を第２ニューラルネットワークに入力し、前記基本画像に基づいて作成画像を作成する作成画像作成工程と、
前記作成画像と目的画像とを比較する比較工程と、
前記作成画像と前記目的画像とが所定の類似度基準を達成する場合には、前記第２ニューラルネットワークのパラメータを調整するパラメータ調整工程と、
を含む請求項１に記載の画像生成方法。
前記第２ニューラルネットワークは敵対的生成ネットワークである請求項７に記載の画像生成方法。
前記検出対象画像確立工程は、
前記モデル作成部によって、第１検出対象画像に対応する第１検出対象画像モデルを生成する第１対象モデル生成工程と、
前記モデル作成部によって、第２検出対象画像に対応する第２検出対象画像モデルを生成する第２対象モデル生成工程と、
前記モデル作成部によって、第１背景画像を取得する第１背景画像取得工程と、
前記第１背景画像に対して、前記第１検出対象画像及び第２検出対象画像を挿入する工程と、
を含む請求項１に記載の画像生成方法。
前記検出対象画像モデルは、前記検出対象画像に対応する画像系列であることを含む請求項１に記載の画像生成方法。
前記検出対象画像確立工程は、
前記モデル作成部によって、
前記ソース画像の一部に不鮮明な個所が存在している場合には、
当該個所を他の鮮明な画像で置換又は挿入することにより最終画像を生成するものである
請求項１に記載の画像生成方法。
画像生成装置であって、
背景画像を取得し、メタデータを備えた検出対象画像をソース画像から特定する画像選択部と、
前記検出対象画像に対応する検出対象画像モデルを生成するモデル生成し、前記背景画像と前記検出対象画像モデルとを結合させることにより、最終画像を確立するモデル作成
部と、
を有する画像生成装置。
前記検出対象画像モデルは、ベクトルモデル、３Ｄモデル、及び点群モデルから選ばれるものである請求項１２に記載の画像生成装置。
前記モデル作成部は、
前記検出対象画像に対応する前記ベクトルモデルを生成し、
前記画像生成装置は、
前記ベクトルモデルに対して画像処理を施し、前記検出対象画像モデルを生成する機械学習部を更に有する
請求項１３に記載の画像生成装置。
中央サーバとクライアント端末とがネットワークを介して接続された画像生成システムであって、
クライアント端末は画像選択部を有し、
中央サーバはモデル作成部を有し、
前記画像選択部は、
ユーザの入力により、背景画像を取得し、
メタデータを備えた検出対象画像をソース画像から特定し、
前記背景画像及び前記検出対象画像を中央サーバに送信し、
前記中央サーバは、
前記背景画像及び前記検出対象画像をクライアント端末から受信し、
前記モデル作成部は、
前記検出対象画像に対応する検出対象画像モデルを生成するモデル生成し、
前記背景画像と前記検出対象画像モデルとを結合させることにより、最終画像を確立する、
ことを特徴とする画像生成システム。