JP7164008B2

JP7164008B2 - データ生成方法、データ生成装置及びプログラム

Info

Publication number: JP7164008B2
Application number: JP2021504714A
Authority: JP
Inventors: 君朴; 壮馬白石; 康敬馬場崎; 秀昭佐藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2022-11-01
Anticipated expiration: 2039-03-13
Also published as: US20220130135A1; WO2020183656A1; JPWO2020183656A1

Description

本発明は、機械学習に必要な正解データの生成に関するデータ生成方法、データ生成装置及びプログラムの技術分野に関する。

学習に用いるための正解を示す正解データの修正に関する情報の提示方法の一例が特許文献１に開示されている。特許文献１には、対象となる区画に紐付けられている画像特徴教師データとその周辺に位置する区画に紐付けられている画像特徴教師データとの対比結果に基づいて、この区画に紐付けられている画像特徴教師データの変換元の教師データに対する、削除又はラベルの修正を指示する画面を表示する点が開示されている。

特開２０１５－１８５１４９号公報

正解付け作業において、正確に正解付けを行うことを作業者に要求する場合には、正解付け作業に要する時間と労力が必要となる。例えば、対象物が小さい場合には、画像の拡大操作等が必要となり、効率的な正解付けが困難となる。特許文献１には、不足パターンに属する新たな教師画像を生成する点については記載されているものの、正解付け作業の負担低減に関する点については、何ら開示されていない。

本発明の目的は、上述した課題を鑑み、正解データを効率よく生成することが可能なデータ生成方法、データ生成装置及びプログラムを提供することを主な課題とする。

データ生成方法の一の態様は、データ生成方法であって、正解付けがなされる対象となる対象画像を取得し、前記対象画像に表示された対象物に対し、当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置を示した第１正解データを取得し、対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第１正解データから、前記対象物の推定位置を示した第２正解データを生成する。

データ生成装置の一の態様は、データ生成装置であって、正解付けがなされる対象となる対象画像を取得する対象画像取得手段と、前記対象画像に表示された対象物に対し、当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置を示した第１正解データを取得する第１正解データ取得手段と、対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第１正解データから、前記対象物の推定位置を示した第２正解データを生成する第２正解データ生成手段と、を有する。

プログラムの一の態様は、コンピュータが実行するプログラムであって、正解付けがなされる対象となる対象画像を取得する対象画像取得手段と、前記対象画像に表示された対象物に対し、当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置を示した第１正解データを取得する第１正解データ取得手段と、対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第１正解データから、前記対象物の推定位置を示した第２正解データを生成する第２正解データ生成手段として前記コンピュータを機能させる。

本発明によれば、大まかな対象物の位置を示す第１正解データから、対象物の推定位置を示した第２正解データを好適に生成することが可能となる。これにより、第１正解データの生成に関する負担が好適に低減される。

学習データ生成システムの概略構成を示す。正解データ生成処理に関連する機能ブロック図である。学習処理に関連する機能ブロック図である。（Ａ）対象物が人の頭部である場合に第１正解データが示す対象物位置を対象画像上に明示した図である。（Ｂ）第２正解データが示す対象物位置を対象画像上に明示した図である。（Ｃ）第１正解データ又は第４正解データが示す対象物位置の他の例を示す。（Ａ）対象物が顔の複数の特徴点である場合に第１正解データが示す対象物位置を対象画像上に明示した図である。（Ｂ）第２正解データが示す対象物位置を対象画像上に明示した図である。（Ａ）対象画像の表示例を示す。（Ｂ）第１正解データに含まれる２値画像である。（Ｃ）第２正解データに含まれる２値画像である。正解データ生成処理に関する処理手順を示すフローチャートである。学習処理に関する処理手順を示すフローチャートである。変形例３に係るデータ生成装置の機能ブロック図である。

以下、図面を参照しながら、データ生成方法、データ生成装置、及びプログラムの実施形態について説明する。以後において、画像中における物体の「位置」とは、物体の代表的な点（座標）に相当する画素又はサブピクセルを示す場合に限らず、物体の全体領域に相当する画素群を指す場合も含むものとする。

［全体構成］
図１は、実施形態における学習データ生成システム１００の概略構成を示す。学習データ生成システム１００は、大まかな正解付け作業により正解付けがなされた正解データから、より正確度又は精度が高い正解データを生成する。学習データ生成システム１００は、データ生成装置１０と、記憶装置２０とを有する。

データ生成装置１０は、後述する第１正解データ記憶部２２に記憶された第１正解データから第２正解データ記憶部２３に記憶する第２正解データを生成する処理を行う。第１正解データ及び第２正解データの詳細は後述する。

記憶装置２０は、対象画像記憶部２１と、第１正解データ記憶部２２と、第２正解データ記憶部２３と、推定器情報記憶部２４と、教師データ記憶部２５とを有する。なお、記憶装置２０は、データ生成装置１０に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記憶媒体であってもよく、データ生成装置１０とデータ通信を行うサーバ装置などであってもよい。また、記憶装置２０は、データ生成装置１０とデータ通信可能な複数の記憶装置から構成されてもよい。

対象画像記憶部２１は、正解付けの対象となる画像（単に「対象画像」とも呼ぶ。）を記憶する。各対象画像は、正解付けする対象（「対象物」とも呼ぶ。）を含んでいる。対象物は、特定の物体又は当該物体内の特定の部位であり、例えば、人や魚などの動物、植物、移動体、地物、器具、又はその一部である。対象画像は、第２正解データ記憶部２３に記憶される第２正解データと共に、画像から対象物の位置を推定する推定器の学習等に好適に用いられる。

第１正解データ記憶部２２は、対象画像記憶部２１に記憶される対象画像に対応する第１正解データを記憶する。第１正解データは、対応する対象画像の識別情報と、対応する対象画像内に表示された対象物の分類（種別）を示す分類情報と、当該対象物に関する位置（「対象物位置」とも呼ぶ。）を示す情報と、を含んでいる。なお、対象物位置は、画像内の座標（即ち点）を示すものであってもよく、領域を示すものであってもよい。ここで、第１正解データが示す対象物位置は、大まかな正解付け作業により指定された対象物位置であり、具体的には、正解付け作業を行う作業員が使用する端末装置への作業員による入力により対象画像内において指定された位置を示す。

ここで、第１正解データが示す対象物位置は、後述の第２正解データが示す対象物位置よりも正確度又は精度が低い。具体的には、第１正解データが示す対象物位置は、対象物を含む位置、対象物の一部を示す位置、又は、対象物の候補位置（即ち対象物の位置の候補）のいずれかの位置を示すように、正解付け作業において指定された位置である。第１正解データが示す対象位置の具体例については、図４～図６を参照して後述する。

なお、第１正解データが示す対象物位置が領域である場合、第１正解データには、当該領域を特定するために正解付け作業において指定された複数の座標の情報が含まれてもよい。例えば、第１正解データの対象物位置が矩形領域である場合には、正解付け作業において指定された矩形領域の対角の頂点位置を示す座標の情報が少なくとも第１正解データに含まれる。他の例では、第１正解データには、座標の情報に代えて、対象物位置を指し示す２値画像（所謂マスク画像）が含まれてもよい。後述する第２～第４正解データも同様に、対象物位置を示すための座標の情報又は２値画像が含まれてもよい。

第２正解データ記憶部２３は、対象画像記憶部２１に記憶される対象画像に対応する第２正解データを記憶する。第２正解データは、第１正解データと同様、対応する対象画像の識別情報と、対応する対象画像内に表示された対象物の分類（種別）を示す分類情報と、当該対象物の位置である対象物位置を示す情報と、を含んでいる。ここで、第２正解データが示す対象物位置は、同一対象物の対象物位置を示す第１正解データを後述の推定器に入力することで推定された対象物の推定位置であり、第１正解データが示す対象物位置よりも正確又は高精度な対象物の位置を示している。なお、対象物が１種類しか存在しない場合等には、第１正解データ及び第２正解データには、分類情報は含まれていなくともよい。

推定器情報記憶部２４は、推定器を機能させるために必要な種々の情報を記憶する。ここで、推定器は、対象物が表示された画像及び当該画像内における対象物位置が入力された場合に、当該画像内における対象物位置に関する推定結果を出力するように学習された学習モデルである。この場合、推定器は、推定器に入力される対象物位置よりも正確度又は精度が高い対象物位置を出力するように学習される。具体的には、推定器は、対象物を含む位置、対象物の一部を示す位置、又は、対象物の候補位置が入力された場合に、当該対象物の正確かつ高精度な位置を出力するように学習される。この場合、推定器の学習に用いられる学習モデルは、ニューラルネットワークに基づく学習モデルであってもよく、サポートベクターマシーンなどの他の種類の学習モデルであってもよい。例えば、学習モデルが畳み込みニューラルネットワークなどのニューラルネットワークである場合、推定器情報記憶部２４には、例えば、層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの推定器を構成するのに必要な種々の情報が含まれる。

教師データ記憶部２５は、推定器情報記憶部２４に記憶した推定器情報が示す推定器を生成する学習に用いられる教師データを記憶する。ここで、教師データ記憶部２５が記憶する教師データは、対象物を表示した画像群と、当該画像群に対応する正解データ（「第３正解データ」とも呼ぶ。）と、を含む。第３正解データは、上述の画像群の各画像に表示された対象物の正解となる位置と、対象物の分類と、対応する画像の識別情報とを含むデータである。後述するように、第３正解データは、上述の推定器の教師データとして用いられる他、第３正解データが示す対象物位置よりも正確度又は精度が低い対象物位置を示す正解データ（「第４正解データ」とも呼ぶ。）の生成に用いられる。

次に、引き続き図１を参照してデータ生成装置１０のハードウェア構成について説明する。データ生成装置１０は、ハードウェアとして、プロセッサ１１と、メモリ１２と、インターフェース１３と、表示部１４と、入力部１５とを含む。プロセッサ１１、メモリ１２、インターフェース１３、表示部１４及び入力部１５は、データバス１９を介して接続されている。

プロセッサ１１は、メモリ１２に記憶されているプログラムを実行することにより、所定の処理を実行する。プロセッサ１１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサである。

メモリ１２は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリなどの各種のメモリにより構成される。また、メモリ１２には、データ生成装置１０が実行する学習に関する処理を実行するためのプログラムが記憶される。また、メモリ１２は、作業メモリとして使用され、記憶装置２０から取得した情報等を一時的に記憶する。なお、メモリ１２は、記憶装置２０として機能してもよい。この場合、メモリ１２は、対象画像記憶部２１と、第１正解データ記憶部２２と、第２正解データ記憶部２３と、推定器情報記憶部２４と、教師データ記憶部２５とを記憶する。同様に、記憶装置２０は、データ生成装置１０のメモリ１２として機能してもよい。

インターフェース１３は、プロセッサ１１の制御に基づき記憶装置２０とデータの送受信を有線又は無線により行うための通信インターフェースであり、ネットワークアダプタなどが該当する。なお、データ生成装置１０と記憶装置２０とはケーブル等により接続されてもよい。この場合、インターフェース１３は、記憶装置２０とデータ通信を行う通信インターフェースの他、記憶装置２０とデータの授受を行うためのＵＳＢ、ＳＡＴＡ（ＳｅｒｉａｌＡＴＡｔｔａｃｈｍｅｎｔ）などに準拠したインターフェースである。

表示部１４は、ディスプレイ等であり、プロセッサ１１の制御に基づく表示を行う。入力部１５は、マウス、キーボード、タッチパネル、音声入力装置等であり、検知した入力を示す入力データをプロセッサ１１に供給する。

なお、データ生成装置１０のハードウェア構成は、図１に示す構成に限定されない。例えば、データ生成装置１０は、スピーカなどの音出力部などをさらに備えてもよい。また、データ生成装置１０は、表示部１４又は入力部１５の少なくとも一方を備えなくともよい。

また、データ生成装置１０は、複数の装置により構成されてもよい。この場合、これらの各装置は、各装置が予め定め割り当てられた処理を実行するために必要な情報の授受を他の装置と行う。

［機能ブロック］
次に、データ生成装置１０の機能ブロックについて説明する。以後では、正解データ生成処理について説明した後、学習処理について説明する。ここで、正解データ生成処理は、推定器情報が既に推定器情報記憶部２４に記憶されている場合に第１正解データから第２正解データを生成する処理である。また、学習処理は、推定器情報記憶部２４に記憶する推定器情報を学習により生成する処理である。

図２は、正解データ生成処理に関連するデータ生成装置１０の機能ブロック図である。図２に示すように、データ生成装置１０のプロセッサ１１は、正解データ生成処理に関し、対象画像取得部３１と、第１正解データ取得部３２と、第２正解データ生成部３３と、適格性判定部３４と、出力部３５と、を有する。

対象画像取得部３１は、対象画像記憶部２１から、正解付けの対象となる対象画像を取得する。なお、対象画像取得部３１は、対象画像記憶部２１から複数の対象画像をまとめて取得してもよく、対象画像記憶部２１から１つの対象画像を取得してもよい。前者の場合、データ生成装置１０は、取得した複数の対象画像に対して以後の処理を並行して、又は取得したそれぞれの対象画像について以後の処理を順に実行する。そして、対象画像取得部３１は、取得した対象画像を第２正解データ生成部３３へ供給する。

第１正解データ取得部３２は、対象画像取得部３１が取得した対象画像に対応する第１正解データを第１正解データ記憶部２２から取得する。そして、第１正解データ取得部３２は、取得した第１正解データを第２正解データ生成部３３へ供給する。

第２正解データ生成部３３は、推定器情報記憶部２４に記憶された推定器情報に基づき構成した推定器に、対象画像取得部３１が取得した対象画像と第１正解データ取得部３２が取得した第１正解データとを入力することで、第２正解データを生成する。この場合、推定器は、推定器に入力される対象物位置よりも正確度又は精度が高い対象物位置を出力するように学習された演算モデル（学習モデル）となっている。言い換えると、推定器は、対象物を含む位置、対象物の一部を示す位置、又は、対象物の候補位置のいずれかが入力された場合に、対象物の正解位置を示す推定結果を出力するように学習された演算モデルとなっている。よって、第２正解データ生成部３３は、このような推定器を用いることで、第１正解データが示す対象物位置よりも正確度又は精度が高い対象物位置を示す第２正解データを好適に生成することができる。そして、第２正解データ生成部３３は、生成した第２正解データ及び対象画像を適格性判定部３４へ供給する。

適格性判定部３４は、第２正解データ生成部３３が生成した第２正解データについて、対象物の正解位置を示すデータとしての適格性の有無を判定する。そして、適格性判定部３４は、対象物の正解位置を示すデータとして適格性がないと判定した第２正解データを第２正解データ記憶部２３に保存する対象から除外する。適格性判定の具体例については後述する。適格性判定部３４は、上述の適格性があると判定した第２正解データを出力部３５へ供給する。

出力部３５は、適格性判定部３４から供給された第２正解データを出力する。本実施形態では、出力部３５は、一例として、適格性判定部３４から供給された第２正解データを、第２正解データ記憶部２３に記憶する。

ここで、適格性判定部３４による適格性判定の具体例について説明する。

まず、対象物位置が矩形領域などの領域を示す場合について検討する。この場合、適格性判定部３４は、第１の例として、第１正解データが示す領域よりも第２正解データが示す領域が大きくなった場合、当該第２正解データは適格性がないと判定する。「領域が大きくなった場合」とは、面積が大きくなった場合であってもよく、縦幅又は横幅の少なくとも一方が大きくなった場合であってもよい。また、対象物位置が領域を示す場合の第２の例として、適格性判定部３４は、第１正解データが示す領域と第２正解データが示す領域との重なり割合が所定割合以下である場合、当該第２正解データは適格性がないと判定する。この場合、適格性判定部３４は、上述の重なり割合として、例えば、ＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）を算出する。上述の所定割合は、０（即ち全く重なりがない）であってもよく、０より大きい所定値であってもよい。また、適格性判定部３４は、対象物位置が領域を示す場合の第３の例として、第１正解データが示す領域と、第２正解データが示す領域とを明示した対象画像を表示部１４に表示し、第２正解データが示す領域の適格性の有無を指定する入力を入力部１５により受け付ける。この場合、適格性判定部３４は、第２正解データが示す領域は適格性を有しない旨の入力を入力部１５により検知した場合、当該第２正解データは適格性がないと判定する。

次に、対象物位置が座標（点）を示す場合について検討する。この場合、適格性判定部３４は、第１の例として、第１正解データが示す座標と第２正解データが示す座標との誤差が所定度合以上である場合、当該第２正解データは適格性がないと判定する。この場合の誤差は、２乗誤差であってもよく、絶対誤差であってもよく、最大誤差であってもよく、ＯＫＳ（ＯｂｊｅｃｔＫｅｙｐｏｉｎｔＳｉｍｉｌａｒｉｔｙ）に基づく誤差であってもよい。適格性判定部３４は、第２の例として、第１正解データが示す座標と、第２正解データが示す座標とを明示した対象画像を表示部１４に表示し、第２正解データが示す座標の適格性の有無を指定する入力を入力部１５により受け付ける。この場合、適格性判定部３４は、第２正解データが示す座標は適格性を有しない旨の入力を入力部１５により検知した場合、当該第２正解データは適格性がないと判定する。

図３は、推定器の生成を行う学習処理に関連するデータ生成装置１０の機能ブロック図である。

図３に示すように、データ生成装置１０のプロセッサ１１は、学習処理に関し、画像取得部３６と、第３正解データ取得部３７と、第４正解データ生成部３８と、学習部３９と、を有する。

画像取得部３６は、推定器の学習に用いる教師データの画像群を教師データ記憶部２５から取得する。そして、画像取得部３６は、取得した画像群を学習部３９へ供給する。

第３正解データ取得部３７は、画像取得部３６が取得した画像群に表示された対象物の対象物位置を示す第３正解データを教師データ記憶部２５から取得する。そして、第３正解データ取得部３７は、取得した第３正解データを、第４正解データ生成部３８と学習部３９に供給する。

第４正解データ生成部３８は、第３正解データ取得部３７から供給された第３正解データから第４正解データを生成する。ここで、第４正解データ生成部３８は、第３正解データが示す対象物位置に基づき、第３正解データが示す対象物位置よりも正確度又は精度が低い対象物位置を決定し、決定した対象物位置を示す第４正解データを生成する。

具体的には、第４正解データ生成部３８は、第３正解データが示す対象物位置から、対象物を含む位置、対象物の一部を示す位置、又は、対象物の候補位置のいずれかに該当する位置を選定し、選定した位置を対象物位置として示した第４正解データを生成する。より具体的には、第４正解データ生成部３８は、第３正解データが示す対象物位置から、対象物を含む位置として無作為に選定した位置、対象物の一部を示す位置として無作為に選定した位置、又は、対象物の候補位置として無作為に選定した位置のいずれかに該当する位置を選定する。例えば、第３正解データが示す対象物位置から、対象物を含む位置を示す第４正解データを生成する場合、第３正解データが示す対象物位置を拡大又は移動させた対象物位置を示す第４正解データを生成する。この場合の拡大率、移動方向、移動距離は無作為に決定される。そして、第４正解データ生成部３８は、生成した第４正解データを学習部３９へ供給する。

学習部３９は、画像取得部３６から供給された画像群と、第３正解データ取得部３７から供給される第３正解データと、第４正解データ生成部３８が供給する第４正解データとに基づき、学習モデルの学習を行うことで、推定器を生成する。具体的には、推定器は、上述の画像群の各画像と、第４正解データが示す対象物位置とを入力とした場合に、第３正解データが示す対象物位置を出力するように学習された学習モデルである。よって、学習部３９は、画像取得部３６から供給された画像群とこれに対応する第４正解データが示す対象物位置との組を入力のサンプルとし、第３正解データが示す対象物位置を正解データのサンプルとして、上述の学習モデルの学習を行う。そして、学習部３９は、学習された学習モデルに相当する推定器に関する推定器情報を推定器情報記憶部２４に記憶する。

［正解データの具体例］
次に、第１～第４正解データが示す対象物位置の具体例について説明する。以下に説明するように、第１正解データ及び第４正解データが示す対象物位置は、対象物を含む位置、対象物の一部を示す位置、又は、対象物の候補位置となるように決定される。また、第２正解データ及び第３正解データが示す対象物位置は、対象物の正解の位置を示すように決定される。

まず、第１正解データ及び第４正解データが対象物を含む位置を示す場合について、図４（Ａ）及び図４（Ｂ）を参照して説明する。

図４（Ａ）は、対象物が人の頭部である場合に第１正解データが示す対象物位置５１と対象物位置５２を対象画像９１上に明示した図である。図４（Ｂ）は、第２正解データが示す対象物位置６１と対象物位置６２とを対象画像９１上に明示した図である。

図４（Ａ）の例では、第１正解データが示す対象物位置５１、５２は、それぞれ、対象物の表示領域の全体を少なくとも含むように、大まかに（即ち低精度により）指定された領域となっている。一方、第２正解データが示す対象物位置６１、６２は、図４（Ｂ）に示すように、第１正解データが示す対象物位置５１、５２よりも高い精度により対象物である頭部の領域を示している。このように、第２正解データ生成部３３は、第１正解データよりも高精度な対象物位置を示す第２正解データを生成する。

また、図４（Ｂ）に示す対象物位置６１、６２を第３正解データが示す対象物位置の例とみなし、図４（Ａ）に示す対象物位置５１、５２を第４正解データが示す対象物位置の例とみなすこともできる。この場合、第４正解データ生成部３８は、第３正解データが示す対象物位置６１、６２を所定倍率だけ拡大させ、かつ、所定距離だけ所定方向に移動させた対象物位置５１、５２を示す第４正解データを生成する。上述の所定倍率及び所定距離は、例えば、所定の値域から無作為に定められ、所定方向は、全方向から無作為に定められる。

次に、第１正解データ及び第４正解データが示す対象物位置が、対象物の一部を示す位置である場合について、図４（Ｂ）及び図４（Ｃ）を参照して説明する。

図４（Ｃ）は、第１正解データ又は第４正解データが示す対象物位置の例を示す。図４（Ｃ）に示す対象物位置７１、７２は、対象画像に表示された対象物（人の頭部）の表示領域内における一部の領域又は座標を示している。この場合、例えば、第２正解データ生成部３３は、第１正解データが図４（Ｃ）の対象物位置７１、７２を示す場合、頭部の一部を表す対象物位置７１、７２から、頭部全体の位置を示す対象物位置６１、６２を示す第２正解データを生成する。また、第４正解データ生成部３８は、第３正解データが図４（Ｂ）の対象物位置６１、６２を示す場合、対象物位置６１、６２が示す頭部全体の表示領域から、その一部に相当する対象物位置７１、７２を無作為に選定する。そして、第４正解データ生成部３８は、選定した対象物位置７１、７２を示す第４正解データを生成する。

次に、第１正解データ又は第４正解データが示す対象物位置が対象物の候補位置を示す場合について、図５（Ａ）及び図５（Ｂ）を参照して説明する。

図５（Ａ）は、対象物が顔の複数の特徴点（両目の両端、鼻、口の両端）である場合に第１正解データが示す対象物位置５３～５９を対象画像９２上に明示した図である。図５（Ｂ）は、第２正解データが示す対象物位置６３～６９を対象画像９２上に明示した図である。

図５（Ａ）の例では、第１正解データが示す対象物位置５３～５９は、それぞれ、対象物となる特徴点の候補位置となるように大まかに（低い正確度により）指定されている。そして、対象物位置５３～５９は、対象画像９２に表示された対象物（ここでは顔の特徴点）の表示領域の近傍となる領域又は座標を示している。

一方、第２正解データが示す対象物位置６３～６９は、図５（Ｂ）に示すように、第１正解データが示す対象物位置５３～５９よりも高い正確度により各特徴点の位置を示している。このように、第２正解データ生成部３３は、第１正解データよりも高い正確度の対象物位置を示す第２正解データを生成する。

また、図５（Ｂ）に示す対象物位置６３～６９を第３正解データが示す対象物位置の例とみなし、図５（Ａ）に示す対象物位置５３～５９を第４正解データが示す対象物位置の例とみなすこともできる。この場合、第４正解データ生成部３８は、第３正解データが示す対象物位置６３～６９を、所定方向に所定距離だけそれぞれ移動させた対象物位置５３～５９を示す第４正解データを生成する。上述の所定距離は、例えば、所定の値域から無作為に定められ、所定方向は、全方向から無作為に定められる。

次に、第１～第４正解データが対象物位置を示す２値画像を有する場合について図６（Ａ）～（Ｃ）を参照して説明する。

図６（Ａ）は、対象画像９３の表示例を示す。図６（Ｂ）は、第１正解データに含まれる２値画像９４である。図６（Ｃ）は、第２正解データに含まれる２値画像９５である。２値画像９４、９５は、それぞれ対象物である荷物の位置を指し示すマスク画像となっている。ここでは、一例として、２値画像９４、９５は、対象物の位置を示す画素を黒色により表示している。

この場合、第１正解データの２値画像９４は、対象物である荷物の表示領域全体を少なくとも含む領域を、大まかに（即ち低精度により）指し示している。一方、第２正解データの２値画像９５は、図６（Ｃ）に示すように、第１正解データの２値画像９４が示す対象物位置よりも高い精度により、対象物である荷物の領域を指し示している。このように、第２正解データ生成部３３は、第１正解データの２値画像９４よりも高精度な対象物位置を示した２値画像９５を含む第２正解データを生成する。

また、図６（Ｃ）に示す２値画像９５を第３正解データに含まれる対象物位置の情報の例とみなし、図６（Ｂ）に示す２値画像９４を第４正解データに含まれる対象物位置の情報の例とみなすこともできる。この場合、第４正解データ生成部３８は、例えば、第３正解データに含まれる２値画像９５が示す対象物位置を含む最小の矩形領域を拡大（及び移動）させ、拡大（及び移動）後の矩形領域を示す２値画像９４を含む第４正解データを生成する。この場合の拡大率、移動方向、移動距離については無作為に選定される。

［処理フロー］
次に、正解データ生成処理及び学習処理の各処理フローについて説明する。

図７は、正解データ生成処理に関する処理手順を示すフローチャートである。データ生成装置１０は、図７に示すフローチャートの処理を、例えば、対象画像記憶部２１に記憶された対象画像毎に繰り返し実行する。

まず、対象画像取得部３１は、正解付けの対象となる対象画像を対象画像記憶部２１から取得する（ステップＳ１０）。そして、第１正解データ取得部３２は、ステップＳ１０で取得された対象画像に対する対象物位置を示す第１正解データを取得する（ステップＳ１１）。

そして、第２正解データ生成部３３は、推定器情報記憶部２４に含まれる推定器情報から構成した推定器に対象画像及び第１正解データを入力し、第１正解データより正確又は精度が高い対象物位置を示す第２正解データを生成する（ステップＳ１２）。

次に、適格性判定部３４は、ステップＳ１２で生成された第２正解データが対象物の正解位置を示すデータとして適格性を有しているか否か判定する（ステップＳ１３）。そして、対象の第２正解データが上述の適格性を有している場合（ステップＳ１３；Ｙｅｓ）、出力部３５は、対象の第２正解データを出力する（ステップＳ１４）。具体的には、出力部３５は、対象の第２正解データを第２正解データ記憶部２３に記憶する。これにより、データ生成装置１０は、第１正解データよりも精度又は正確度が高い対象物位置を示す第２正解データを好適に生成することができる。この第２正解データは、対応する対象画像と共に、学習モデルの学習に好適に用いられる。

一方、対象の第２正解データが適格性を有していない場合（ステップＳ１３；Ｎｏ）、出力部３５は、対象の第２正解データを出力することなく、フローチャートの処理を終了する。これにより、データ生成装置１０は、不正な正解データである可能性が高い第２正解データを、第２正解データ記憶部２３に保存する対象から好適に除外することができる。これにより、不正な正解データを学習データとして利用することを好適に抑制することができる。

図８は、推定器に関する学習処理の手順を示すフローチャートである。

まず、画像取得部３６は教師データ記憶部２５から画像群を取得する（ステップＳ２０）。また、第３正解データ取得部３７は、ステップＳ２０で取得された画像群の各画像に表示された対象物の位置を正確かつ高精度に示した第３正解データを教師データ記憶部２５から取得する（ステップＳ２１）。

次に、第４正解データ生成部３８は、ステップＳ２１で取得された第３正解データから、精度又は正確度を下げた対象物位置を示す第４正解データを生成する（ステップＳ２２）。具体的には、第４正解データ生成部３８は、第３正解データが示す対象物位置から、対象物を含む位置、対象物の一部を示す位置、又は、対象物の候補位置のいずれかに該当する位置を選定し、選定した位置を対象物位置として示した第４正解データを生成する。

そして、学習部３９は、ステップＳ２０で取得された画像群と、ステップＳ２１で取得された第３正解データと、ステップＳ２２で取得された第４正解データとを用いた学習により、図７のステップＳ１２で用いるための推定器を生成する（ステップＳ２３）。具体的には、学習部３９は、画像群とこれに対応する第４正解データが示す対象物位置との組を入力のサンプルとし、第３正解データが示す対象物位置を正解データのサンプルとして、学習モデルの学習を行う。そして、学習部３９は、生成した推定器の推定器情報を、推定器情報記憶部２４に記憶する（ステップＳ２４）。

ここで、本実施形態による効果について補足説明する。

一般に、正解付け作業において、正確に正解付けを行うことを作業者に要求する場合には、正解付け作業に要する時間と労力が必要となる。例えば、対象物が小さい場合には、画像の拡大操作等が必要となり、効率的な正解付けが困難となる。また、人によって正解付けの基準が異なるため、複数作業者により正解付けが行われた場合には、各作業者が時間をかけて正解付けを行った場合であっても、得られる正解データの質が均一にならない。

以上を勘案し、本実施形態におけるデータ生成装置１０は、正解付け作業において大まかに行われた正解付けに基づく第１正解データから、均一な質を有する第２正解データを好適に生成する。これにより、正解付け作業の時間と労力を好適に削減し、かつ、複数作業者により正解付けが行われた場合であっても、均一な質の第２正解データを好適に生成することができる。

［変形例］
次に、上述の実施形態に好適な変形例について説明する。以下に説明する変形例は、任意に組み合わせて上述の実施形態に適用してもよい。

（変形例１）
データ生成装置１０は、上述した第２正解データ生成処理及び学習処理のうち第２正解データ生成処理のみを行ってもよい。

この場合、推定器情報記憶部２４には、データ生成装置１０以外の装置等が予め生成した推定器情報が記憶され、データ生成装置１０は、当該推定器情報記憶部２４を参照して第２正解データ生成処理を実行する。これによっても、正解付け作業において大まかに行われた正解付けに基づく第１正解データから、均一な質を有する第２正解データを好適に生成することができる。

（変形例２）
データ生成装置１０は、対象画像及び第１正解データを記憶装置２０から取得する代わりに、正解付け作業を行う端末装置から受信してもよい。

この場合、データ生成装置１０は、正解付け作業によるユーザ入力を受け付けて第１正解データを生成する１又は複数の端末装置と、ネットワーク等を介してデータ通信を行う。そして、データ生成装置１０は、上述の端末装置から対象画像及び第１正解データの組み合わせを受信した場合に、図７に示す正解データ生成処理のステップＳ１２及びそれ以降の処理を実行する。これによっても、正解付け作業において大まかに行われた正解付けに基づく第１正解データから、均一な質を有する第２正解データを好適に生成することができる。

（変形例３）
データ生成装置１０は、図２に示す適格性判定部３４及び出力部３５に相当する機能を有しなくともよい。

図９は、変形例３に係るデータ生成装置１０Ａの機能ブロック図である。図９に示すように、データ生成装置１０Ａのプロセッサ１１は、対象画像取得部３１Ａと、第１正解データ取得部３２Ａと、第２正解データ生成部３３Ａとを有する。

この場合、対象画像取得部３１Ａは、正解付けがなされる対象となる対象画像を取得する。第１正解データ取得部３２Ａは、対象画像に表示された対象物に対し、当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置を示した第１正解データを取得する。第２正解データ生成部３３Ａは、推定器に基づき、第１正解データから、対象物の推定位置を示した第２正解データを生成する。ここで、推定器は、対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習されている。これにより、データ生成装置１０Ａは、正解付け作業において大まかに行われた正解付けに基づく第１正解データから、均一な質を有する第２正解データを好適に生成することができる。

その他、上記の各実施形態（変形例を含む、以下同じ）の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。

［付記１］
正解付けがなされる対象となる対象画像を取得し、
前記対象画像に表示された対象物に対し、
当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、
当該対象物の候補位置
を示した第１正解データを取得し、
対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第１正解データから、前記対象物の推定位置を示した第２正解データを生成する、
データ生成方法。

［付記２］
前記第１正解データは、前記対象画像内において指定された位置を示す、付記１に記載のデータ生成方法。

［付記３］
前記対象物を含む位置は、前記対象画像に表示された前記対象物の表示領域の全体を少なくとも含むように指定された領域である、付記１または２に記載のデータ生成方法。

［付記４］
前記対象物の一部を示す位置は、前記対象画像に表示された前記対象物の表示領域内において指定された一部の領域又は座標を示す、付記１～３のいずれか一項に記載のデータ生成方法。

［付記５］
前記候補位置は、前記対象画像に表示された前記対象物の表示領域の近傍となる領域又は座標を示す、付記１～４のいずれか一項に記載のデータ生成方法。

［付記６］
前記第２正解データが示す前記推定位置が前記対象物の正解位置としての適格性を有するか否かを判定する、付記１～５のいずれか一項に記載のデータ生成方法。

［付記７］
前記適格性を有すると判定された前記第２正解データを、学習に用いる学習データとして記憶部に記憶する、付記６に記載のデータ生成方法。

［付記８］
画像群を取得し、
当該画像群の各々の画像に表示された対象物の位置を示す第３正解データを取得し、
前記第３正解データから、当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置を示す第４正解データを生成し、
前記画像群と、前記第３正解データと、前記第４正解データとに基づき、前記推定器の学習を行う、付記１～７のいずれか一項に記載のデータ生成方法。

［付記９］
前記対象物を含む位置として無作為に選定した位置、当該対象物の一部を示す位置として無作為に選定した位置、又は、当該対象物の候補位置として無作為に選定した位置のいずれかの位置を示す前記第４正解データを生成する、付記８に記載のデータ生成方法。

［付記１０］
正解付けがなされる対象となる対象画像を取得する対象画像取得部と、
前記対象画像に表示された対象物に対し、
当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、
当該対象物の候補位置
を示した第１正解データを取得する第１正解データ取得部と、
対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第１正解データから、前記対象物の推定位置を示した第２正解データを生成する第２正解データ生成部と、を有するデータ生成装置。

［付記１１］
コンピュータが実行するプログラムであって、
正解付けがなされる対象となる対象画像を取得する対象画像取得部と、
前記対象画像に表示された対象物に対し、
当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、
当該対象物の候補位置
を示した第１正解データを取得する第１正解データ取得部と、
対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第１正解データから、前記対象物の推定位置を示した第２正解データを生成する第２正解データ生成部
として前記コンピュータを機能させる、プログラム。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。

１０、１０Ａデータ生成装置
１１プロセッサ
１２メモリ
１３インターフェース
１４表示部
１５入力部
２０記憶装置
２１対象画像記憶部
２２第１正解データ記憶部
２３第２正解データ記憶部
２４推定器情報記憶部
２５教師データ記憶部
１００学習データ生成システム

Claims

正解付けがなされる対象となる対象画像を取得し、
前記対象画像に表示された対象物に対し、
当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、
当該対象物の候補位置
を示した第１正解データを取得し、
対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第１正解データから、前記対象物の推定位置を示した第２正解データを生成する、
データ生成方法。
前記第１正解データは、前記対象画像内において指定された位置を示す、請求項１に記載のデータ生成方法。
前記対象物を含む位置は、前記対象画像に表示された前記対象物の表示領域の全体を少なくとも含むように指定された領域である、請求項１または２に記載のデータ生成方法。
前記対象物の一部を示す位置は、前記対象画像に表示された前記対象物の表示領域内において指定された一部の領域又は座標を示す、請求項１～３のいずれか一項に記載のデータ生成方法。
前記候補位置は、前記対象画像に表示された前記対象物の表示領域の近傍となる領域又は座標を示す、請求項１～４のいずれか一項に記載のデータ生成方法。
前記第２正解データが示す前記推定位置が前記対象物の正解位置としての適格性を有するか否かを判定する、請求項１～５のいずれか一項に記載のデータ生成方法。
前記適格性を有すると判定された前記第２正解データを、学習に用いる学習データとして記憶部に記憶する、請求項６に記載のデータ生成方法。
画像群を取得し、
当該画像群の各々の画像に表示された対象物の位置を示す第３正解データを取得し、
前記第３正解データから、当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置を示す第４正解データを生成し、
前記画像群と、前記第３正解データと、前記第４正解データとに基づき、前記推定器の学習を行う、請求項１～７のいずれか一項に記載のデータ生成方法。
正解付けがなされる対象となる対象画像を取得する対象画像取得手段と、
前記対象画像に表示された対象物に対し、
当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、
当該対象物の候補位置
を示した第１正解データを取得する第１正解データ取得手段と、
対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第１正解データから、前記対象物の推定位置を示した第２正解データを生成する第２正解データ生成手段と、を有するデータ生成装置。
コンピュータが実行するプログラムであって、
正解付けがなされる対象となる対象画像を取得する対象画像取得手段と、
前記対象画像に表示された対象物に対し、
当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、
当該対象物の候補位置
を示した第１正解データを取得する第１正解データ取得手段と、
対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第１正解データから、前記対象物の推定位置を示した第２正解データを生成する第２正解データ生成手段
として前記コンピュータを機能させる、プログラム。