JP2022091270A

JP2022091270A - 方法、システム、および、コンピュータプログラム

Info

Publication number: JP2022091270A
Application number: JP2020203996A
Authority: JP
Inventors: 真樹近藤; Maki Kondo
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2022-06-21
Also published as: WO2022124380A1; US20220180122A1

Abstract

【課題】トレーニング用の複数の学習画像データを生成する。
【解決手段】
対象物画像の色の分布範囲を分割して得られるＴ個（Ｔは２以上の整数）の部分色範囲にそれぞれ対応するＴ種類の部分領域に対象物画像を分割する。１種類以上の部分領域のそれぞれの色を変更する処理を実行することによって、複数の色変更対象物画像の複数の色変更対象物画像データを生成する。複数の色変更対象物画像は、互いに異なる色の同じ種類の部分領域を有する。１以上の背景画像データと、複数の色変更対象物画像データと、を用いることによって、複数の学習画像の複数の学習画像データを生成する。学習画像は、背景画像と、背景画像上に配置された１以上の色変更対象物画像とを含む。複数の学習画像は、複数の色変更対象物画像のうちの互いに異なる色変更対象物画像を含む。
【選択図】図４

Description

本明細書は、複数の学習画像データを生成する技術に関する。

従来から、画像を処理する機械学習モデルが、用いられている。機械学習モデルをトレーニングするために、学習データが用いられる。特許文献１には、以下の技術が提案されている。自動車に、対象物認識装置が搭載される。対象物認識装置は、学習データを用いて学習された認識モデルを用いて、撮影画像に含まれる対象物を検出する。学習データを生成するために、３次元のコンピュータグラフィックデータが用いられる。３次元のコンピュータグラフィックデータからカメラモデルに写し出される光景に含まれる物体モデルの変化を示すアニメーション情報を含むシーンデータが生成される。ここで、特定物体モデル以外のモデルがシーンデータから削除され、特定色にされた特定物体モデルのみを含む学習データ生成用シーンデータが生成される。シーンデータから、カメラモデルに写し出される光景の画像が生成される。この画像上において、対象モデルの領域に外接する矩形等の多角形のアノテーション枠が設定される。

特開２０１９－２３８５８号公報

対象物を検出するように機械学習モデルをトレーニングするためには、対象物を示す種々の画像データが用いられる。ところが、多数の画像データを生成することは、容易ではなく、工夫の余地があった。

本明細書は、トレーニング用の複数の学習画像データを生成できる技術を開示する。

本明細書に開示された技術は、以下の適用例として実現することが可能である。

［適用例１］画像中の対象物を検出するための機械学習モデルのトレーニングに用いられる複数の学習画像データを生成する方法であって、対象物の画像である対象物画像の対象物画像データを取得する取得工程と、前記対象物画像の色の分布範囲を分割して得られるＴ個（Ｔは２以上の整数）の部分色範囲にそれぞれ対応するＴ種類の部分領域に前記対象物画像を分割する分割工程と、１種類以上の部分領域のそれぞれの色を元の色とは異なる色に変更する処理を含む調整処理を実行することによって、前記対象物の複数の色変更対象物画像の複数の色変更対象物画像データを生成する色変更画像生成工程であって、前記複数の色変更対象物画像は、互いに異なる色の同じ種類の部分領域を有する、前記色変更画像生成工程と、１以上の背景画像データと、前記複数の色変更対象物画像データと、を用いることによって、複数の学習画像の複数の学習画像データを生成する学習画像生成工程であって、前記学習画像は、前記１以上の背景画像データのいずれかによって示される背景画像と、前記背景画像上に配置された１以上の色変更対象物画像とを含み、前記複数の学習画像は、前記複数の色変更対象物画像のうちの互いに異なる色変更対象物画像を含む、前記学習画像生成工程と、を備える生成方法。

この構成によれば、種々の色で表現される対象物の画像を示す複数の学習画像データを生成できる。

なお、本明細書に開示の技術は、種々の態様で実現することが可能であり、例えば、画像データに関連付けるべき情報を特定する方法および特定装置、画像データに情報を関連付ける関連付け方法および関連付け装置、学習画像データの生成方法および生成装置、それらの方法または装置の機能を実現するためのコンピュータプログラム、そのコンピュータプログラムを記録した記録媒体（例えば、一時的ではない記録媒体）、等の形態で実現することができる。

一実施例としての情報処理装置を示す説明図である。（Ａ）、（Ｂ）は、撮影画像の例を示す概略図である。（Ａ）は、ロゴ検出モデルＮＮ１の構成の例を示す概略図である。（Ｂ）は、ロゴ検出モデルＮＮ１の動作の概要を示す概略図である。第１種データセットＤＳ１の生成処理の例を示すフローチャートである。（Ａ）は、ロゴ画像の例を示す説明図である。（Ｂ）は、色値の分布範囲の例を示すヒストグラムである。（Ｃ）は、分割された部分領域を示す説明図である。（Ｄ）は、追加調整処理によって生成される色変更ロゴ画像の例を示す説明図である。（Ａ）－（Ｈ）は、候補画像の例を示す概略図である。ロゴ検出モデルＮＮ１のトレーニング処理の例を示すフローチャートである。（Ａ）は、シート検出モデルＮＮ２の構成の例を示す概略図である。（Ｂ）は、シート検出モデルＮＮ２の動作の概要を示す説明図である。第２種データセットＤＳ２の生成処理の例を示すフローチャートである。（Ａ）は、対象画像の例を示す説明図である。（Ｂ）は、ロゴ領域の例を示す説明図である。（Ｃ）は、複数のブロックの例を示す説明図である。（Ｄ）は、均一ブロックの例を示す説明図である。（Ｅ）は、拡張領域の候補の例を示す説明図である。拡張領域の候補を決定する処理の例を示すフローチャートである。（Ａ）は、ＵＩ画面の例を示す説明図である。（Ｂ）は、変更された輪郭ＬＡｅｏの例を示す説明図である。（Ｃ）は、ＵＩ画面の例を示す説明図である。シート検出モデルＮＮ２のトレーニング処理の例を示すフローチャートである。

Ａ．第１実施例：
Ａ１．装置構成：
図１は、一実施例としての情報処理装置を示す説明図である。本実施例では、情報処理装置２００は、例えば、パーソナルコンピュータである。情報処理装置２００は、対象物（例えば、プリンタなどの製品）の検査に用いられる機械学習モデルをトレーニングするための種々の処理を実行する。情報処理装置２００は、プロセッサ２１０と、記憶装置２１５と、表示部２４０と、操作部２５０と、通信インタフェース２７０と、を備えている。これらの要素は、バスを介して互いに接続されている。記憶装置２１５は、揮発性記憶装置２２０と、不揮発性記憶装置２３０と、を含んでいる

プロセッサ２１０は、データ処理を行うように構成された装置であり、例えば、ＣＰＵである。揮発性記憶装置２２０は、例えば、ＤＲＡＭであり、不揮発性記憶装置２３０は、例えば、フラッシュメモリである。不揮発性記憶装置２３０は、プログラム２３１、２３２、２３３、２３４と、ロゴ検出モデルＮＮ１と、ロゴ検出モデルＮＮ１のトレーニングのための第１種データセットＤＳ１と、シート検出モデルＮＮ２と、シート検出モデルＮＮ２のトレーニングのための第２種データセットＤＳ２と、を格納している。モデルＮＮ１、ＮＮ２は、いわゆる機械学習モデルであり、本実施例では、プログラムモジュールである。プログラム２３１－２３４と、モデルＮＮ１、ＮＮ２と、データセットＤＳ１、ＤＳ２と、の詳細については、後述する。

表示部２４０は、液晶ディスプレイ、有機ＥＬディスプレイなどの、画像を表示するように構成された装置である。操作部２５０は、ボタン、レバー、表示部２４０上に重ねて配置されたタッチパネルなどの、ユーザによる操作を受け取るように構成された装置である。ユーザは、操作部２５０を操作することによって、種々の要求と指示を情報処理装置２００に入力可能である。通信インタフェース２７０は、他の装置と通信するためのインタフェースである（例えば、ＵＳＢインタフェース、有線ＬＡＮインタフェース、IEEE802.11の無線インタフェース）。通信インタフェース２７０には、デジタルカメラ１００が接続されている。デジタルカメラ１００は、検査の対象物ＤＶを撮影することによって、撮影画像の画像データを生成する。以下、対象物ＤＶがプリンタであることとする（対象物ＤＶを、プリンタＤＶとも呼ぶ）。

Ａ２．撮影画像：
図２（Ａ）、図２（Ｂ）は、撮影画像の例を示す概略図である。図２（Ａ）の第１撮影画像７００ｘは、不具合の無い第１プリンタＤＶｘを示している。第１プリンタＤＶｘには、ラベルシート９１０Ｌ（単に、シート９１０Ｌとも呼ぶ）が貼られている。第１撮影画像７００ｘは、シート９１０Ｌの画像を含んでいる。図２（Ｂ）の第２撮影画像７００ｙは、不具合を有する第２プリンタＤＶｙを示している。第２プリンタＤＶｙには、シート９１０Ｌが貼られておらず、第２撮影画像７００ｙは、シート９１０Ｌの画像を含んでいない。以下、適切なラベルシートがプリンタに貼られているか否かが、検査されることとする。

本実施例では、シート９１０Ｌは、ロゴ画像９１０を含んでいる。ロゴ画像９１０は、文字列「SAMPLE」を示している。また、シート９１０Ｌは、ロゴ画像９１０の領域に加えて、他の領域（例えば、他の文字列の画像を示す領域）を含んでいる。なお、ロゴは、文字列に限らず、図形、マーク、シンボルなど、種々の画像であってよい。また、シート９１０Ｌは、文字列に限らず、種々の種類の要素（例えば、図形、模様、写真など）を用いて構成されてよい。

シート検出モデルＮＮ２（図１）は、撮影画像を示す画像データである撮影画像データを用いてプリンタの撮影画像からラベルシート（例えば、シート９１０Ｌ）の画像を検出する機械学習モデルである。ラベルシートの画像が検出される場合、プリンタの検査結果は合格である。ラベルシートの画像が検出されない場合、プリンタの検査結果は不合格である。

シート検出モデルＮＮ２のトレーニングには、シートの画像を含む種々の画像の画像データが用いられる。トレーニングに用いられるデータ（ここでは、画像データ）には、種々の情報が関連付けられる。データに情報を関連付ける処理は、アノテーション、または、ラベリングとも呼ばれる。以下、アノテーションによって関連付けられる情報を、アノテーション情報とも呼ぶ。本実施例では、アノテーション情報は、検出すべきシートを示す領域を特定する領域情報を含んでいる。例えば、図２（Ａ）の第１撮影画像７００ｘの画像データがトレーニングに用いられる場合、アノテーション情報は、シート９１０Ｌを囲む枠Ｆｘを示す領域情報を含んでいる。

アノテーション情報は、通常は、作業者によって決定される。例えば、作業者は、第１撮影画像７００ｘを観察することによって、シート９１０Ｌを囲む枠Ｆｘを決定する。また、トレーニングには、種々の画像データが用いられる。例えば、複数の画像データの間で、シートの位置やシートの色やシートの大きさなど、シートの表示態様が異なり得る。種々の画像データのそれぞれの適切なアノテーション情報を決定することは、作業者にとって容易ではない。例えば、作業者は、シート９１０Ｌの一部分のみを囲む不適切な枠を決定し得る。そこで、本実施例では、情報処理装置２００（図１）は、ロゴ検出モデルＮＮ１を用いて、トレーニング用の画像からロゴ画像（例えば、ロゴ画像９１０）を検出する。そして、情報処理装置２００は、ロゴ画像を示す領域であるロゴ領域と、ロゴ領域の外側の部分と、を含む拡張領域を決定する。拡張領域は、シート（例えば、シート９１０Ｌ）を適切に示し得る。そして、情報処理装置２００は、拡張領域を示す領域情報を含むアノテーション情報を、画像データに関連付ける。以下、ロゴ検出モデルＮＮ１、シート検出モデルＮＮ２の順に、説明を行う。

Ａ３．ロゴ検出モデルＮＮ１の構成：
図３（Ａ）は、ロゴ検出モデルＮＮ１の構成の例を示す概略図である。本実施例では、ロゴ検出モデルＮＮ１は、ＹＯＬＯ（You only look once）と呼ばれるオブジェクト検出モデルである。ＹＯＬＯは、例えば、論文「Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, "You Only Look Once: Unified, Real-Time Object Detection", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 779-788」に開示されている。ＹＯＬＯモデルは、畳込ニューラルネットワークを用いて、バウンディングボックスと呼ばれるオブジェクトを含む枠と、ボックスがオブジェクトを含むことの確信度と、ボックスがオブジェクトを含む場合のオブジェクトの種類毎の確率（クラス確率とも呼ぶ）と、を予測する。

図３（Ａ）に示すように、ロゴ検出モデルＮＮ１は、ｍ個（ｍは１以上の整数）の畳込層ＣＶ１１－ＣＶ１ｍと、畳込層ＣＶ１１－ＣＶ１ｍに続くｎ個（ｎは１以上の整数）の全結合層ＣＮ１１－ＣＮ１ｎと、を有している（ｍは、例えば、２４。ｎは、例えば、２）。ｍ個の畳込層ＣＶ１１－ＣＶ１ｍのうちの１以上の畳込層の直後には、プーリング層が設けられる。

畳込層ＣＶ１１－ＣＶ１ｍは、入力されるデータに対して、畳込処理とバイアスの加算処理とを含む処理を実行する。畳込処理は、入力されたデータに対して、（ｐ×ｑ×ｒ）次元のｓ個のフィルタを順次に適用し、入力されたデータとフィルタとの相関を示す相関値を算出する処理である（ｐ、ｑ、ｒ、ｓは、１以上の整数）。各フィルタを適用する処理では、フィルタをスライドさせながら複数個の相関値が順次に算出される。１個のフィルタは、（ｐ×ｑ×ｒ）個の重みを含んでいる。バイアスの加算処理は、算出された相関値に、バイアスを加算する処理である。バイアスは、１個のフィルタに対して１個ずつ準備されている。フィルタの次元（ｐ×ｑ×ｒ）とフィルタの数ｓとは、通常は、ｍ個の畳込層ＣＶ１１－ＣＶ１ｍの間で異なっている。畳込層ＣＶ１１－ＣＶ１ｍは、複数のフィルタの複数の重みと複数のバイアスとを含むパラメータセットを、それぞれ有している。

プーリング層は、直前の畳込層から入力されたデータに対して、データの次元数を削減する処理を実行する。プーリングの処理としては、平均プーリング、最大プーリングなど、種々の処理を利用可能である。本実施例では、プーリング層は、最大プーリングを行う。最大プーリングは、所定サイズ（例えば、２×２）のウィンドウを所定のストライド（例えば、２）でスライドさせつつ、ウィンドウ内の最大値を選択することによって次元数を削減する。

全結合層ＣＮ１１－ＣＮ１ｎは、直前の層から入力されたｆ次元のデータ（すなわち、ｆ個の値。ｆは２以上の整数）を用いて、ｇ次元のデータ（すなわち、ｇ個の値。ｇは２以上の整数）を出力する。出力されるｇ個の値のそれぞれは、入力されるｆ個の値で構成されるベクトルとｆ個の重みで構成されるベクトルとの内積に、バイアスを加えた値（内積＋バイアス）である。畳込層ＣＶ１１－ＣＶ１ｍは、（ｆ×ｇ）個の重みとｇ個のバイアスとを用いて、ｇ次元のデータを出力する。なお、入力データの次元数ｆと出力データの次元数ｇとは、通常は、ｎ個の全結合層ＣＮ１１－ＣＮ１ｎの間で異なっている。全結合層ＣＮ１１－ＣＮ１ｎは、複数の重みと複数のバイアスとを含むパラメータセットを、それぞれ有している。

なお、畳込層ＣＶ１１－ＣＶ１ｍと全結合層ＣＮ１１－ＣＮ１ｎとのそれぞれによって生成されるデータは、活性化関数に入力されて変換される。活性化関数としては、種々の関数を利用可能である。本実施例では、最後の層（ここでは、全結合層ＣＮ１ｎ）には、線形活性化関数（linear activation function）が用いられ、他の層には、漏洩正規化線形ユニット（Leaky Rectified Linear Unit：LReLU）が用いられる。

図３（Ｂ）は、ロゴ検出モデルＮＮ１の動作の概要を示す概略図である。画像８００は、ロゴ検出モデルＮＮ１に入力される入力画像の例である。入力画像８００は、第１方向Ｄｘと、第１方向Ｄｘに垂直な第２方向Ｄｙと、に沿ってマトリクス状に並ぶ複数の画素のそれぞれの色値によって、表されている。本実施例では、色値は、Ｒ（赤）、Ｇ（緑）、Ｂ（青）の３個の成分値で表されている。図３（Ｂ）の例では、入力画像８００は、２種類のロゴ画像９１０、９２０を示している。本実施例では、第１ロゴ画像９１０は、「SAMPLE」の文字列の画像である。第２ロゴ画像９２０は、第１ロゴ画像９１０とは異なる別のロゴ画像であり、「SAMPLE2」の文字列の画像である。

ロゴ検出モデルＮＮ１は、入力画像８００を、Ｓ×Ｓのグリッドセル８０１（単にセル８０１とも呼ぶ）に分割する（Ｓは２以上の整数。Ｓは、例えば、５）。ロゴ画像９１０、９２０のそれぞれの中心は、いずれかのセル８０１に含まれる。ロゴ画像９１０、９２０（より一般的には、オブジェクト）の検出結果は、オブジェクト領域の中心を含むセル８０１に対応付けられた予測値によって、示される（詳細は、後述）。

各セル８０１には、Ｂｎ個の矩形のバウンディングボックスが対応付けられる（Ｂｎは１以上の整数。Ｂｎは、例えば、２）。図３（Ｂ）の中段の右部は、バウンディングボックスの例として、第１ロゴ画像９１０に関連する複数の第１種バウンディングボックスＢＢ１ｃと、第２ロゴ画像９２０に関連する複数の第２種バウンディングボックスＢＢ２ｃと、を示している。各バウンディングボックスには、以下の５個の予測値が対応付けられる。すなわち、セル８０１に対する第１方向Ｄｘの中心位置ｘ、セル８０１に対する第２方向Ｄｙの中心位置ｙ、第１方向Ｄｘの幅ｗ、第２方向Ｄｙの高さｈ、確信度。セル８０１にオブジェクト領域の中心が含まれない場合には、そのセル８０１に対応付けられたバウンディングボックスの確信度は、ゼロであることが期待される。セル８０１にオブジェクト領域の中心が含まれる場合、そのセル８０１に対応付けられたバウンディングボックスの確信度が高いことが期待される。具体的には、確信度は、バウンディングボックスの領域とオブジェクト領域との間のＩＯＵ（Intersection over Union）と同じであることが期待される。ここで、ＩＯＵは、２個の領域の共通部分の面積を、２個の領域の和集合の領域の面積で除算して得られる比率である。このような確信度は、バウンディングボックスとオブジェクト領域との間の一致の程度を示している。なお、確信度は、オブジェクトの種類とは独立に算出される。

ここで、ロゴ検出モデルＮＮ１は、Ｃ種類のロゴ画像を検出することとする（Ｃは１以上の整数。Ｃは、例えば、３）。ロゴ画像の種類を、クラス、または、ロゴクラスとも呼ぶ。各セル８０１には、さらに、Ｃ個のクラス確率が対応付けられる。Ｃ個のクラス確率は、オブジェクト（ここでは、ロゴ画像）のＣ個の種類にそれぞれ対応している。クラス確率は、セル８０１にオブジェクト領域の中心が含まれるという条件下での確率であり、オブジェクトの種類毎の確率を示している。１個のセル８０１に対応付けられるバウンディングボックスの総数Ｂｎに拘らず、１個のセル８０１にはＣ個のクラス確率が対応付けられる。図３（Ｂ）の中段の左部は、クラス確率マップを示している。クラス確率マップは、セル８０１毎に特定されるクラス識別子であって、最高クラス確率に対応するクラス識別子を示している。図示するように、第１ロゴ画像９１０に近いセル８０１では、第１ロゴ画像９１０の種類である「１」のクラス識別子の確率が高い。第２ロゴ画像９２０に近いセル８０１では、第２ロゴ画像９２０の種類である「２」のクラス識別子の確率が高い。図中の右部の複数の第１種バウンディングボックスＢＢ１ｃは、クラス確率マップ上で「１」のクラス識別子を示すセル８０１に対応付けられたバウンディングボックスである。複数の第２種バウンディングボックスＢＢ２ｃは、クラス確率マップ上で「２」のクラス識別子を示すセル８０１に対応付けられたバウンディングボックスである。

ロゴ検出モデルＮＮ１（図３（Ａ））は、Ｓ×Ｓ×（Ｂｎ×５＋Ｃ）個の予測値を示す出力データ８３０を出力する。Ｓ×Ｓ×Ｂｎ個のバウンディングボックスのうち、閾値以上の確信度を有するバウンディングボックスが、検出されたオブジェクト（ここでは、ロゴ画像）を示すボックス（オブジェクトボックスと呼ぶ）として採用される。また、オブジェクトボックスに対応するＣ個のクラス確率のうちの最高クラス確率に対応するクラス識別子が、オブジェクトボックスに対応付けられたクラス識別子として採用される。なお、図３（Ｂ）の中段の右部に示されるように、１個のロゴ画像に重なる複数のバウンディングボックスが、オブジェクトボックスの候補であり得る。互いに重なる複数のバウンディングボックスから１個のバウンディングボックスを選択するために、「Non-maximal suppression」と呼ばれる処理が行われてよい。この処理は、２個のボックスの間のＩＯＵが基準以上である場合に、１個のボックス（例えば、より低い確信度を有するボックス）を削除する処理である。この処理を繰り返すことにより、１個のロゴ画像に対応する１個のオブジェクトボックスが検出される。例えば、図３（Ｂ）の下段に示すように、第１ロゴ画像９１０を示す第１オブジェクトボックスＢＢ１（クラス識別子ＣＬ１＝１）と、第２ロゴ画像９２０を示す第２オブジェクトボックスＢＢ２（クラス識別子ＣＬ２＝２）と、が検出される。

Ａ４．第１種データセットＤＳ１の生成処理：
図４は、ロゴ検出モデルＮＮ１のトレーニング用の第１種データセットＤＳ１の生成処理の例を示すフローチャートである。プロセッサ２１０（図１）は、第１プログラム２３１に従って、図４の処理を実行する。

Ｓ１１０では、プロセッサ２１０は、ロゴ画像の画像データであるロゴ画像データを取得する。本実施例では、ロゴ画像データは、ＲＧＢのビットマップデータであり、不揮発性記憶装置２３０に予め格納されている（図示省略）。図５（Ａ）は、ロゴ画像の例を示す説明図である。図中には、第１ロゴ画像９１０が示されている。第１ロゴ画像９１０は、文字領域９１１と、背景領域９１２と、を含んでいる。文字領域９１１の複数の画素は、おおよそ同じ色を有し、背景領域９１２の複数の画素は、おおよそ同じ色を有している。なお、ロゴ画像データは、画像編集アプリケーションプログラムを用いて生成されたデータであってよい。これに代えて、ロゴ画像データは、ロゴの見本をスキャナ（図示せず）によって読み取ることによって生成されたデータであってよい。なお、本実施例では、プロセッサ２１０は、第１ロゴ画像９１０のデータと、第２ロゴ画像９２０（図３（Ｂ））のデータと、図示しない第３ロゴ画像のデータと、を含む複数のロゴ画像のデータを取得する。図示を省略するが、第２ロゴ画像９２０と第３ロゴ画像とも、第１ロゴ画像９１０と同様に、複数の文字を示す文字領域と、背景領域と、を含んでいる。

Ｓ１１５（図４）では、プロセッサ２１０は、ロゴ画像の複数の画素の色値をクラスタリングする。これにより、ロゴ画像の色値の分布範囲は、Ｔ個（Ｔは２以上の整数）の部分色範囲に区分される。

図５（Ｂ）は、色値の分布範囲の例を示すヒストグラムである。横軸は、輝度値Ｂｖを示している。輝度値Ｂｖの範囲は、複数の区間に区分されている。縦軸は各区間の画素数を示している。このヒストグラムは、第１ロゴ画像９１０（図５（Ａ））の輝度値Ｂｖの分布を示している。明るい第１部分色範囲Ｒ１は、文字領域９１１における輝度値Ｂｖの分布範囲を示し、暗い第２部分色範囲Ｒ２は、背景領域９１２における輝度値Ｂｖの分布範囲を示している。プロセッサ２１０は、複数の画素のそれぞれのＲＧＢの色値から輝度値Ｂｖを算出し、輝度値Ｂｖのヒストグラムを生成する。そして、プロセッサ２１０は、１以上の画素数を有する複数の区間が連続する場合に、連続する複数の区間によって示される範囲を１個のクラスタ（すなわち、部分色範囲）として特定する。図５（Ｂ）の例では、２個の部分色範囲Ｒ１、Ｒ２が特定される。

Ｓ１２０（図４）では、プロセッサ２１０は、ロゴ画像を、Ｔ個の部分色範囲に対応するＴ種類の部分領域に分割する。図５（Ｃ）は、分割された部分領域を示す説明図である。図５（Ｃ）の左部に示されるように、ロゴ画像９１０は、第１種領域Ａ１と第２種領域Ａ２に分割される。第１種領域Ａ１は、第１部分色範囲Ｒ１、すなわち、文字領域９１１に対応し、第２種領域Ａ２は、第２部分色範囲Ｒ２、すなわち、背景領域９１２に対応している。なお、１個の部分色範囲に対応する１種類の部分領域は、第１種領域Ａ１のように、互いに離れた複数の領域を含んでよい。図示を省略するが、他のロゴ画像も、同様に、Ｓ１１５、Ｓ１２０によって、複数の領域に分割される。

Ｓ１１５、Ｓ１２０により、ロゴ画像は、似た色を有するＴ種類の部分領域に分割される。色値の分布範囲をＴ個の部分色範囲に区分する方法は、似た色を有する複数の画素を１つの部分色範囲に対応付ける種々の方法であってよい。例えば、ヒストグラムの谷に対応する輝度値Ｂｖで、輝度値Ｂｖの範囲が分割されてよい。また、輝度値Ｂｖに限らず、種々の色成分（例えば、色相、彩度など）を用いて、色値の分布範囲がＴ個の部分色範囲に区分されてよい。また、ｋ平均法など、種々のクラスタリングのアルゴリズムが用いられてよい。なお、部分色範囲の総数Ｔ（すなわち、部分領域の種類数Ｔ）は、ロゴ画像毎に決定される。これに代えて、Ｔは、予め決められてもよい。

Ｓ１２５では、プロセッサ２１０は、１種類以上の部分領域の色をランダムに変更する調整処理を行うことによって、Ｋ個（Ｋは、１以上の整数）の色変更ロゴ画像データを生成する。図５（Ｃ）の右部には、第１ロゴ画像９１０から生成される色変更ロゴ画像の例として、３個の色変更ロゴ画像９１０ａ、９１０ｂ、９１０ｃが示されている。色変更ロゴ画像９１０ａ、９１０ｂ、９１０ｃと元のロゴ画像９１０との間では、第１種領域Ａ１と第２種領域Ａ２とのうちのいずれか１つの色、または、両方の色が、異なっている。図示を省略するが、プロセッサ２１０は、他のロゴ画像からも、色変更ロゴ画像を生成する。

なお、本実施例では、プロセッサ２１０は、１種類の部分領域の全体の色を、ランダムに決定された同じ色に変更する。例えば、第１種領域Ａ１の色が変更される場合、第１種領域Ａ１に含まれる複数の文字の全ての色が、同じ色に変更される。

変更後の色は、変更前の色に近い色であってよい。例えば、ＲＧＢのそれぞれの色値が、ゼロ以上、２５５以下の範囲の値で表される場合に、色変更の処理は、各色成分の色値に、－１００以上、＋１００以下の範囲の乱数値を加算する処理であってよい。

また、プロセッサ２１０は、生成すべき色変更ロゴ画像データの総数を、ロゴ画像毎にランダムに決定する。これに代えて、生成すべき色変更ロゴ画像データの総数は、ロゴ画像毎に予め決められてよい。

Ｓ１３０では、プロセッサ２１０は、色変更ロゴ画像データの追加調整処理を実行する。追加調整処理は、サイズ変更処理と、縦横比変更処理と、のうちのいずれか１つ、または、両方を含んでいる。サイズ変更処理は、拡大処理と縮小処理とのいずれかであってよい。図５（Ｄ）は、追加調整処理によって生成される色変更ロゴ画像の例を示す説明図である。図中には、色変更ロゴ画像９１０ａから生成された２個の色変更ロゴ画像９１０ａ１、９１０ａ２が示されている。第１色変更ロゴ画像９１０ａ１は、サイズ変更処理（ここでは、縮小処理）によって生成された画像である。第２色変更ロゴ画像９１０ａ２は、縦横比変更処理によって生成された画像である。なお、プロセッサ２１０は、他のロゴ画像から生成された色変更ロゴ画像にも、追加調整処理を行う。なお、プロセッサ２１０は、追加調整処理を実行するか否かと、追加調整処理の対象の色変更ロゴ画像と、追加調整処理の内容とを、ランダムに決定する。

Ｓ１３５では、プロセッサ２１０は、背景画像データを取得する。背景画像データは、ロゴ画像を配置すべき背景画像を示す画像データである。本実施例では、プロセッサ２１０は、予め準備された複数の背景画像データ（図示省略）から、ランダムに、処理対象の背景画像データを取得する。複数の背景画像データは、記憶装置２１５（例えば、不揮発性記憶装置２３０）に予め格納されている（図示省略）。複数の背景画像データは、単色のベタ画像を示す背景画像のデータと、写真の背景画像のデータと、を含んでいる。単色のベタ画像は、同じ色を有する複数の画素で構成される画像である。本実施例では、いずれの背景画像も、第１方向Ｄｘに平行な２辺と第２方向Ｄｙに平行な２辺とで囲まれる矩形状の画像である。

Ｓ１４０では、プロセッサ２１０は、背景画像上にＬ個（Ｌは１以上の整数）のロゴ画像を配置することによって、候補画像データを生成する。プロセッサ２１０は、Ｓ１１０で取得されたロゴ画像と、Ｓ１２５で生成された色変更ロゴ画像と、Ｓ１３０で生成された色変更ロゴ画像と、を含む複数のロゴ画像から、Ｌ個のロゴ画像を選択する。プロセッサ２１０は、各ロゴ画像の背景画像上の位置を、ランダムに決定する。これに代えて、プロセッサ２１０は、背景画像上の予め決められた位置にロゴ画像を配置してよい。いずれの場合も、プロセッサ２１０は、複数のロゴ画像が互いに重ならないように、各ロゴ画像の位置を決定する。ロゴ画像の総数Ｌは、１以上、背景画像上に配置可能なロゴ画像の最大数以下、の範囲内の値に決定される。例えば、プロセッサ２１０は、ランダムにＬを決定し、ランダムにＬ個のロゴ画像を選択する。

図６（Ａ）－図６（Ｈ）は、候補画像の例を示す概略図である。図６（Ａ）－図６（Ｃ）の３個の候補画像８００ａ－８００ｃは、背景画像８００ａｚ、８００ｂｚ、８００ｃｚと、背景画像８００ａｚ、８００ｂｚ、８００ｃｚ上に配置された４個のロゴ画像と、を含んでいる。これらの候補画像８００ａ－８００ｃの主な特徴は、以下の通りである。
（Ｉ１）候補画像８００ａ：背景画像８００ａｚが、単色のベタ画像である。
（Ｉ２）候補画像８００ｂ：背景画像８００ｂｚが、写真の画像である。
（Ｉ３）候補画像８００ｃ：第１ロゴ画像９１０から得られるロゴ画像９１０、９１０ｃと、第２ロゴ画像９２０から得られるロゴ画像９２０ａ、９２０ｂと、を含んでいる。
なお、図６（Ｃ）のロゴ画像９２０ａ、９２０ｂが示すように、第２ロゴ画像９２０は、第１種領域Ａ２１と第２種領域Ａ２２とに分割されている。ロゴ画像９２０ａは、第２ロゴ画像９２０の色変更によって生成された画像である。ロゴ画像９２０ｂは、第２ロゴ画像９２０の色変更と縮小処理とによって生成された画像である。

Ｓ１４５（図４）では、プロセッサ２１０は、候補画像データの画像処理を行うことによって、新たな候補画像データを生成する。この画像処理は、以下の７個の処理Ｐ１－Ｐ７からなる群から選択される１以上の処理を含んでいる。
（Ｐ１）候補画像の上下を反転させる上下反転処理
（Ｐ２）候補画像の左右を反転させる左右反転処理
（Ｐ３）候補画像を回転させる回転処理
（Ｐ４）候補画像内の色変更対象物画像を示す領域を変更せずに、色変更対象物画像のうちの領域内に示される部分を平行移動させるシフト処理
（Ｐ５）候補画像をぼかすぼかし処理
（Ｐ６）候補画像にノイズを付加するノイズ付加処理
（Ｐ７）候補画像の色を調整する色調整処理

図６（Ｄ）－図６（Ｈ）の５個の候補画像８００ｄ－８００ｈは、Ｓ１４５の画像処理によって生成される候補画像の例である。図６（Ｆ）の候補画像８００ｆは、背景画像８００ｆｚと、背景画像８００ｆｚ上に配置された２個のロゴ画像９１０、９１０ｂと、を含んでいる。他の候補画像８００ｄ、８００ｅ、８００ｇ、８００ｈは、背景画像８００ｄｚ、８００ｅｚ、８００ｇｚ、８００ｈｚと、背景画像上に配置された４個のロゴ画像と、を含んでいる。これらの候補画像８００ｄ－８００ｈの主な特徴は、以下の通りである。
（Ｉ４）候補画像８００ｄ：背景画像８００ｄｚが単色のベタ画像であり、左右反転処理が行われており、ロゴ画像９１０ｓはシフト処理によって生成されている。
（Ｉ５）候補画像８００ｅ：背景画像８００ｅｚが写真の画像であり、上下反転処理が行われている。
（Ｉ６）候補画像８００ｆ：回転処理と、ノイズＮＺを付加するノイズ付加処理と、が行われている。
（Ｉ７）候補画像８００ｇ：ぼかし処理が行われている。
（Ｉ８）候補画像８００ｈ：色調整処理が行われている。

本実施例では、第１方向Ｄｘ（図６（Ｄ））が右方向を示している。従って、左右反転処理は、第１方向Ｄｘの位置を反転させる。また、第２方向Ｄｙ（図６（Ｅ））が下方向を示している。従って、上下反転処理は、第２方向Ｄｙの位置を反転させる。

シフト処理（図６（Ｄ））は、ロゴ画像９１０ｓの元の領域内で、元のロゴ画像を左に平行移動させている。移動後のロゴ画像のうちロゴ画像９１０ｓの元の領域の外にはみ出た部分は、削除されている。例えば、第１種領域Ａ１の左側の一部は、削除されている。また、ロゴ画像９１０ｓの元の領域のうち、元のロゴ画像の平行移動により生じる空白部分９１０ｖの色は、背景領域を示す第２種領域Ａ２の色と同じ色に設定されている。なお、プロセッサ２１０は、シフト処理による移動方向と移動量とを、ランダムに決定する。

回転処理（図６（Ｆ））は、候補画像８００ｆの元の領域内で、元の候補画像を反時計回りに回転させている。回転後の候補画像のうち候補画像８００ｆの元の領域の外にはみ出た部分は、削除されている。また、候補画像８００ｆの元の領域のうち、元の候補画像の回転により生じる空白部分８００ｆｖには、背景画像８００ｆｚの一部のコピーが割り当てられている。なお、プロセッサ２１０は、回転の中心と回転方向と回転角度とを、ランダムに決定する。

ノイズ付加処理（図６（Ｆ））は、候補画像８００ｆの複数の画素からランダムに複数の対象画素を選択し、複数の対象画素のそれぞれの色値に乱数値を加算する。なお、ノイズ付加処理は、他の種々の処理であってよい。例えば、候補画像の全ての画素に、乱数値が加算されてよい。また、予め準備されたノイズ画像が、候補画像に重ねられてよい。

ぼかし処理（図６（Ｇ））は、平滑化処理とも呼ばれる。本実施例では、ぼかし処理は、平均値フィルタを用いる処理であり、候補画像８００ｇの全体が、処理される。なお、ぼかし処理は、色値を平滑化する種々の処理であってよい（例えば、中央値フィルタ、ガウシアンフィルタなどの他の平滑化フィルタが用いられてよい）。

色調整処理（図６（Ｈ））は、本実施例では、輝度値を低下させるガンマ補正処理であり、候補画像８００ｈの全体が、処理される。なお、色調整処理は、候補画像の色を調整する任意の処理であってよい（例えば、輝度値を高めるガンマ補正処理、コントラスト強調処理、彩度調整処理、ホワイトバランス調整処理、など）。

なお、プロセッサ２１０は、Ｓ１４５の画像処理を実行するか否かと、画像処理の対象の候補画像と、画像処理の内容とを、ランダムに決定する。例えば、実行すべき処理は、７個の処理Ｐ１－Ｐ７からランダムに選択される。

Ｓ１５０（図４）では、プロセッサ２１０は、Ｓ１４０で生成された候補画像データと、Ｓ１４５で生成された候補画像データと、を含む複数の候補画像データから、第１種データセットＤＳ１（図１）に含まれるべきＺ個（Ｚは、１以上の整数）の第１種学習画像データＤ１１をランダムに選択する（数Ｚもランダムに決定される）。そして、プロセッサ２１０は、Ｚ個の第１種学習画像データＤ１１に対応するＺ個のラベルデータＤ１２を生成する。本実施例では、ラベルデータＤ１２は、ロゴ検出モデルＮＮ１（図３（Ａ））の出力データ８３０の目標値（すなわち、正解）を定めるデータである。このようなラベルデータＤ１２は、教師データとも呼ばれる。具体的には、ラベルデータＤ１２は、候補画像中のロゴ画像の領域を示す領域情報Ｄ１２１と、ロゴ画像の種類を示すロゴクラスＤ１２２と、を示している。領域情報Ｄ１２１は、候補画像内の領域の中心位置（具体的には、第１方向Ｄｘの位置と第２方向Ｄｙの位置）と、第１方向Ｄｘの幅と、第２方向Ｄｙの高さと、を示している。また、本実施例では、ロゴ画像は、Ｃ個のクラスに分類される。ロゴクラスＤ１２２は、Ｃ個のクラスのうちのいずれか１つを示している。

プロセッサ２１０は、Ｓ１２５－Ｓ１４５の処理の内容に基づいて、候補画像内のＬ個のロゴ画像のそれぞれの領域情報Ｄ１２１とロゴクラスＤ１２２との組み合わせを特定する。領域情報Ｄ１２１は、ロゴ画像の全体を含む最小矩形を示すように、決定される。そして、プロセッサ２１０は、候補画像がＬ個のロゴ画像を含む場合に、領域情報Ｄ１２１とロゴクラスＤ１２２とのＬ個の組み合わせを示すラベルデータＤ１２を生成する。

Ｓ１５５では、プロセッサ２１０は、第１種学習画像データＤ１１（図１）とラベルデータＤ１２とを関連付けて、記憶装置２１５（例えば、不揮発性記憶装置２３０）に格納する。以下、互いに関連付けられた第１種学習画像データＤ１１とラベルデータＤ１２との全体を、第１種ラベル付データＬＤ１とも呼ぶ。第１種データセットＤＳ１は、複数の第１種ラベル付データＬＤ１を含んでいる。なお、プロセッサ２１０は、ラベル付データＬＤ１を、情報処理装置２００に接続された外部記憶装置（図示せず）に格納してもよい。

Ｓ１６０では、プロセッサ２１０は、予め決められた数の第１種学習画像データＤ１１（すなわち、第１種ラベル付データＬＤ１）を生成したか否かを判断する。ロゴ検出モデルＮＮ１の適切なトレーニングのためには、第１種データセットＤＳ１に含まれるＣ個のラベル画像のそれぞれの総数が、大きい基準値（例えば、１０００）以上に設定される。Ｃ個のラベル画像のいずれかの総数が基準値未満である場合（Ｓ１６０：Ｎｏ）、プロセッサ２１０は、Ｓ１２５へ移行し、新たなラベル付データＬＤ１を生成する。Ｃ個のラベル画像のそれぞれの総数が基準値以上である場合（Ｓ１６０：Ｙｅｓ）、プロセッサ２１０は、図４の処理を終了する。生成された複数のラベル付データＬＤ１は、図６（Ａ）－図６（Ｈ）で説明したような種々の画像を示している。第１種データセットＤＳ１は、このような複数の第１種ラベル付データＬＤ１を含んでいる。なお、情報処理装置２００は、複数の第１種学習画像データＤ１１を生成するシステムの例である。

Ａ５．ロゴ検出モデルＮＮ１のトレーニング処理：
図７は、ロゴ検出モデルＮＮ１（図３（Ａ））のトレーニング処理の例を示すフローチャートである。ロゴ検出モデルＮＮ１は、出力データ８３０が入力画像８００中のロゴ画像の適切な領域情報と適切なロゴクラスとを示すように、トレーニングされる。トレーニングによって、ロゴ検出モデルＮＮ１の演算に用いられる複数の演算パラメータ（複数の層ＣＶ１１－ＣＶ１ｍ、ＣＮ１１－ＣＮ１ｎのそれぞれの演算に用いられる複数の演算パラメータを含む）が、調整される。なお、プロセッサ２１０は、第２プログラム２３２に従って、図７の処理を行う。

Ｓ２１０では、プロセッサ２１０は、不揮発性記憶装置２３０から第１種データセットＤＳ１を取得する。Ｓ２２０では、プロセッサ２１０は、第１種データセットＤＳ１の複数のラベル付データＬＤ１を、学習用データセットと確認用データセットとに分割する。例えば、プロセッサ２１０は、ランダムに選択した７０％のラベル付データＬＤ１を、学習用データセットとして採用し、残りの３０％のラベル付データＬＤ１を、確認用データセットとして採用する。以下、学習用データセットのラベル付データＬＤ１の総数がＮｔ個であり、確認用データセットのラベル付データＬＤ１の総数がＮｖ個であることとする（Ｎｔ、Ｎｖは、いずれも、２以上の整数）。

Ｓ２３０では、プロセッサ２１０は、ロゴ検出モデルＮＮ１の複数の演算パラメータを初期化する。例えば、各演算パラメータは、乱数値に設定される。

Ｓ２４０では、プロセッサ２１０は、学習用データセットを用いて、学習ロスを算出する。具体的には、プロセッサ２１０は、Ｎｔ個の第１種学習画像データＤ１１をロゴ検出モデルＮＮ１に入力し、Ｎｔ個の出力データ８３０を生成する。そして、プロセッサ２１０は、Ｎｔ個の出力データ８３０と、Ｎｔ個の第１種学習画像データＤ１１に対応付けられたＮｔ個のラベルデータＤ１２と、を用いて、学習ロスを算出する。

学習ロスの算出には、損失関数が用いられる。損失関数は、出力データ８３０とラベルデータＤ１２との間の差の評価値を算出する種々の関数であってよい。本実施例では、ＹＯＬＯの上記の論文に開示されている損失関数が用いられる。この損失関数は、以下の５個の成分を含んでいる。すなわち、損失関数は、領域情報Ｄ１２１の領域を示すべきバウンディングボックスに関して、中心位置の差と、大きさ（すなわち、幅と高さ）の差と、確信度の差と、のそれぞれに対応する３個の成分を含んでいる。領域情報Ｄ１２１の領域を示すべきバウンディングボックスは、領域情報Ｄ１２１の中心位置を含むセル８０１（図３（Ｂ））に対応付けられたＢｎ個のバウンディングボックスのうち、領域情報Ｄ１２１の領域とバウンディングボックスの領域との間の最も高いＩＯＵを有するバウンディングボックスである。また、この損失関数は、領域情報Ｄ１２１の領域に対応すべきでないバウンディングボックスに関して、バウンディングボックスの確信度と、理想の確信度（具体的には、ゼロ）と、の間の差に対応する成分を含んでいる。また、この損失関数は、領域情報Ｄ１２１の中心位置を含むセルに関して、Ｃ個のクラス確率とＣ個の正解のクラス確率との間の差に対応する成分を含んでいる。プロセッサ２１０は、損失関数を用いて算出されるＮｔ個の損失の合計値を、学習ロスとして算出する。なお、学習ロスは、Ｎｔ個の損失の平均値や中央値など、Ｎｔ個の損失と相関を有する種々の値であってよい。

Ｓ２５０では、プロセッサ２１０は、学習ロスを用いて、ロゴ検出モデルＮＮ１の複数の演算パラメータを更新する。具体的には、プロセッサ２１０は、学習ロスが小さくなるように、所定のアルゴリズムに従って演算パラメータを調整する。所定のアルゴリズムとしては、例えば、誤差逆伝播法と勾配降下法とを用いたアルゴリズムが用いられる。

Ｓ２６０では、プロセッサ２１０は、確認用データセットを用いて、確認ロスを算出する。確認ロスの算出方法は、学習用データセットの代わりに確認用データセットを用いる点を除いて、Ｓ２４０で説明した学習ロスの算出方法と同じである。具体的には、プロセッサ２１０は、確認用データセットのＮｖ個の第１種学習画像データＤ１１を、Ｓ２５０で更新された演算パラメータを有するロゴ検出モデルＮＮ１に入力し、Ｎｖ個の出力データ８３０を生成する。そして、プロセッサ２１０は、Ｎｖ個の出力データ８３０と、Ｎｖ個の第１種学習画像データＤ１１に対応付けられたＮｖ個のラベルデータＤ１２と、を用いて、確認ロスを算出する。

Ｓ２７０では、プロセッサ２１０は、トレーニングが完了したか否かを判断する。トレーニング完了の条件は、種々の条件であってよい。本実施例では、トレーニング完了の条件は、学習ロスと確認ロスとの両方が、所定の基準値以下であることである。なお、トレーニング完了の条件は、学習ロスと確認ロスとの両方が小さいことを示す種々の条件であってよい。例えば、学習ロスの基準値は、確認ロスの基準と異なっていてよい。

トレーニングが完了していない場合（Ｓ２７０：Ｎｏ）、プロセッサ２１０は、Ｓ２４０へ移行して、トレーニングを継続する。トレーニングが完了した場合（Ｓ２７０：Ｙｅｓ）、Ｓ２８０で、プロセッサ２１０は、調整済の演算パラメータを含むロゴ検出モデルＮＮ１を、トレーニング済モデルとして、記憶装置２１５（ここでは、不揮発性記憶装置２３０）に格納する。そして、プロセッサ２１０は、図７の処理を終了する。なお、プロセッサ２１０は、ロゴ検出モデルＮＮ１を、情報処理装置２００に接続された外部記憶装置（図示せず）に格納してもよい。

トレーニングされたロゴ検出モデルＮＮ１からの出力データ８３０は、以下の特徴を有している。ロゴ画像の中心を含むセルは、ロゴ画像の領域を適切に示すとともに高い確信度と適切なクラス確率とを有するバウンディングボックスを示すことができる。また、出力データ８３０によって示される複数のバウンディングボックスは、ロゴ画像の領域を示していない不適切なバウンディングボックスを含み得る。不適切なバウンディングボックスには、低い確信度が対応付けられる。従って、高い確信度を有するバウンディングボックスを用いることによって、適切に、ロゴ画像を特定できる。

以上のように、図４の生成処理では、プロセッサ２１０は、対象物の例であるロゴを検出するためのロゴ検出モデルＮＮ１のトレーニングに用いられる複数の第１種学習画像データＤ１１を生成する。具体的には、Ｓ１１０では、プロセッサ２１０は、ロゴの画像であるロゴ画像のロゴ画像データを取得する。Ｓ１１５、Ｓ１２０では、プロセッサ２１０は、ロゴ画像の色の分布範囲を分割して得られるＴ個（Ｔは２以上の整数）の部分色範囲にそれぞれ対応するＴ種類の部分領域にロゴ画像を分割する。プロセッサ２１０は、１種類以上の部分領域のそれぞれの色を元の色とは異なる色に変更する処理（Ｓ１２５）を含む調整処理を実行する。これにより、プロセッサ２１０は、複数の色変更ロゴ画像の複数の色変更ロゴ画像データを生成する。ここで、複数の色変更ロゴ画像は、それぞれ、ロゴの画像である。また、複数の色変更ロゴ画像は、互いに異なる色の同じ種類の部分領域を有する。例えば、図５（Ｃ）の色変更ロゴ画像９１０ａ、９１０ｂは、互いに異なる色の同じ第１種領域Ａ１を有する。そして、プロセッサ２１０は、Ｓ１３５、Ｓ１４０で、候補画像の候補画像データを生成する。ここで、候補画像データは、学習画像データＤ１１に対応しており、候補画像は、学習画像データＤ１１の学習画像に対応している。また、プロセッサ２１０は、Ｓ１２５－Ｓ１４０の処理を複数回に亘って実行する。具体的には、プロセッサ２１０は、複数の色変更ロゴ画像データを生成する。そして、プロセッサ２１０は、１以上の背景画像データと、複数の色変更ロゴ画像データと、を用いることによって、複数の候補画像の複数の候補画像データを生成する。ここで、候補画像は、１以上の背景画像データのいずれかによって示される背景画像と、背景画像上に配置された１以上の色変更ロゴ画像とを含んでいる（図６（Ａ）－図６（Ｈ））。複数の候補画像は、生成された複数の色変更ロゴ画像のうちの互いに異なる色変更ロゴ画像を含んでいる。例えば、候補画像８００ｃ（図６（Ｃ））は、候補画像８００ｆ（図６（Ｆ））には含まれない色変更ロゴ画像９１０ｃを含んでいる。一方、候補画像８００ｆは、候補画像８００ｃには含まれない色変更ロゴ画像９１０ｂを含んでいる。このように、プロセッサ２１０は、種々の色で表現されるロゴの画像を示す複数の学習画像データＤ１１を生成できる。このような複数の学習画像データＤ１１は、ロゴの画像を処理する機械学習モデル（例えば、ロゴ検出モデルＮＮ１）を、適切にトレーニングできる。

Ｓ１３５（図４）、図６（Ｂ）等で説明したように、１以上の背景画像データは、写真の背景画像８００ｂｚの背景画像データを含んでいる。従って、プロセッサ２１０は、写真の背景画像上のロゴの画像を示す複数の学習画像データＤ１１を生成できる。このような複数の学習画像データＤ１１は、写真の背景画像上のロゴの画像を適切に処理するように、機械学習モデル（例えば、ロゴ検出モデルＮＮ１）をトレーニングできる。利用可能な複数の背景画像データは、互いに異なる写真を示す複数の背景画像データを含んでよい。複数の背景画像は、風景、人物、家具、文房具など、種々の写真を含んでよい。このような複数の学習画像データＤ１１は、背景画像の内容に拘らずにロゴの画像を適切に処理するように、機械学習モデル（例えば、ロゴ検出モデルＮＮ１）をトレーニングできる。

Ｓ１３５（図４）、図６（Ａ）等で説明したように、１以上の背景画像データは、単色のベタ画像を示す背景画像８００ａｚの背景画像データを含んでいる。従って、プロセッサ２１０は、単色のベタ画像を示す背景画像上のロゴの画像を示す複数の学習画像データを生成できる。このような複数の学習画像データＤ１１は、単色のベタ画像を示す背景画像上のロゴの画像を適切に処理するように、機械学習モデル（例えば、ロゴ検出モデルＮＮ１）をトレーニングできる。利用可能な複数の背景画像データは、互いに異なる色のベタ画像を示す複数の背景画像データを含んでよい。このような複数の学習画像データＤ１１は、背景画像の色に拘らずにロゴの画像を適切に処理するように、機械学習モデル（例えば、ロゴ検出モデルＮＮ１）をトレーニングできる。

なお、写真の背景画像と単色のベタ画像を示す背景画像とのように、互いに異なる内容を示す複数種類の背景画像を有する複数種類の学習画像データＤ１１が生成されることが好ましい。このような複数種類の学習画像データＤ１１は、種々の背景画像上のロゴの画像を適切に処理するように、機械学習モデル（例えば、ロゴ検出モデルＮＮ１）をトレーニングできる。

また、プロセッサ２１０は、複数の色変更ロゴ画像データを生成するために、Ｓ１２５
（図４）を含む画像の調整処理を実行する。図４の実施例では、調整処理は、さらに、Ｓ１３０を含んでいる。Ｓ１３０は、色変更対象物画像のサイズを変更する処理と、色変更対象物画像の縦横比を変更する処理と、のうちのいずれか１つ、または、両方を含んでいる。従って、プロセッサ２１０は、サイズと縦横比のうちのいずれか１つ、または、両方が変更されたロゴの画像を示す学習画像データＤ１１を生成できる。このような学習画像データＤ１１は、サイズと縦横比のうちのいずれか１つ、または、両方が変更されたロゴの画像を適切に処理するように、機械学習モデル（例えば、ロゴ検出モデルＮＮ１）をトレーニングできる。

また、Ｓ１４０（図４）、図６（Ａ）－図６（Ｈ）で説明したように、学習画像データＤ１１を生成する処理は、背景画像８００ａｚと、背景画像８００ａｚ上に配置された複数の色変更ロゴ画像９１０ｂ、９１０ａ２、９１０ｃと、を含む学習画像８００ａの学習画像データＤ１１を生成する処理を含んでいる。１個の学習画像データＤ１１が複数の色変更ロゴ画像を示す場合、１個の学習画像データＤ１１が１個の色変更ロゴ画像を示す場合と比べて、ロゴ画像を検出する機械学習モデル（例えば、ロゴ検出モデルＮＮ１）を、効率的にトレーニングできる。

また、Ｓ１４０（図４）、図６（Ｃ）等で説明したように、学習画像データＤ１１を生成する処理は、背景画像８００ｃｚと、背景画像８００ｃｚ上に配置された１以上の色変更ロゴ画像９１０ｃと、背景画像８００ｃｚ上に配置された他のロゴの画像９２０ａ、９２０ｂと、を含む画像８００ｃの学習画像データＤ１１を生成する処理を含んでいる。１個の学習画像データＤ１１がロゴの画像と他のロゴの画像とを示す場合、１個の学習画像データＤ１１が同じロゴの画像のみを示す場合と比べて、ロゴ画像を検出する機械学習モデル（例えば、ロゴ検出モデルＮＮ１）を、効率的にトレーニングできる。

また、Ｓ１４０（図４）、図６（Ａ）－図６（Ｈ）で説明したように、プロセッサ２１０は、１個の学習画像上では、複数のロゴ画像を、互いに重ならないように配置する。従って、学習画像データＤ１１は、ロゴ画像を検出する機械学習モデル（例えば、ロゴ検出モデルＮＮ１）を、適切にトレーニングできる。

また、Ｓ１４５（図４）で説明したように、学習画像データＤ１１を生成する処理は、背景画像と背景画像上に配置された１以上の色変更ロゴ画像とを含む候補画像の候補画像データに画像処理を行うことによって学習画像データＤ１１を生成する処理を含んでいる。ここで、画像処理は、上記の７個の処理Ｐ１－Ｐ７からなる群から選択される１以上の処理を含んでいる。従って、プロセッサ２１０は、種々の形式で表現されるロゴを示す学習画像データＤ１１を生成できる。このような学習画像データＤ１１は、種々の形式で表現されるロゴの画像を適切に処理するように、機械学習モデル（例えば、ロゴ検出モデルＮＮ１）をトレーニングできる。

Ａ６．シート検出モデルＮＮ２の構成：
図８（Ａ）は、シート検出モデルＮＮ２の構成の例を示す概略図である。本実施例では、シート検出モデルＮＮ２は、ＹＯＬＯモデルであり、その構成は、ロゴ検出モデルＮＮ１（図３（Ａ））の構成と同じである。シート検出モデルＮＮ２は、ｐ個（ｐは１以上の整数）の畳込層ＣＶ２１－ＣＶ２ｐと、畳込層ＣＶ２１－ＣＶ２ｐに続くｑ個（ｑは１以上の整数）の全結合層ＣＮ２１－ＣＮ２ｑと、を有している（ｐは、例えば、２４。ｑは、例えば、２）。ｐ個の畳込層ＣＶ２１－ＣＶ２ｐのうちの１以上の畳込層の直後には、プーリング層（例えば、マックスプーリングを行う層）が設けられる。なお、ｐは、図３（Ａ）のｍと異なってよい。また、ｑは、図３（Ａ）のｎと異なってよい。

図８（Ｂ）は、シート検出モデルＮＮ２の動作の概要を示す説明図である。画像７００は、シート検出モデルＮＮ２に入力される入力画像の例である。入力画像７００は、図２（Ａ）、図２（Ｂ）の撮影画像７００ｘ、７００ｙと同様に、撮影されたプリンタＤＶの画像である。入力画像７００は、第１方向Ｄｘと、第１方向Ｄｘに垂直な第２方向Ｄｙと、に沿ってマトリクス状に並ぶ複数の画素のそれぞれの色値によって、表されている。本実施例では、色値は、Ｒ（赤）、Ｇ（緑）、Ｂ（青）の３個の成分値で表されている。図８（Ｂ）の例では、入力画像７００は、第１ロゴ画像９１０を含むシート９１０Ｌの画像を含んでいる。

シート検出モデルＮＮ２は、図３（Ａ）、図３（Ｂ）のロゴ検出モデルＮＮ１と同様に、オブジェクトの画像の領域を検出する。ロゴ検出モデルＮＮ１との差異は、ロゴ画像に代えて、ラベルシートの画像を検出するようにシート検出モデルＮＮ２がトレーニングされる点である。また、本実施例では、Ｃ種類のロゴ画像に対応するＣ種類のラベルシートが利用可能である。ラベルシートの種類とロゴ画像の種類とは、一対一に対応付けられている。そして、シート検出モデルＮＮ２は、Ｃ種類のラベルシートの画像を検出する。以下、ラベルシートの種類を、シートクラスとも呼ぶ。

図示を省略するが、シート検出モデルＮＮ２は、図３（Ｂ）のロゴ検出モデルＮＮ１のアルゴリズムと同じアルゴリズムに従って、ラベルシートの画像を示すバウンディングボックスを検出する。図８（Ｂ）の例では、シート９１０Ｌを示すバウンディングボックスＢＢＬが検出されている。バウンディングボックスＢＢＬには、クラス識別子ＣＬＬが対応付けられている。クラス識別子ＣＬＬは、Ｃ個のクラス確率のうちの最高クラス確率に対応するクラス識別子である。「１」のクラス識別子は、第１シート９１０Ｌを示している。

シート検出モデルＮＮ２は、Ｓ×Ｓ×（Ｂｎ×５＋Ｃ）個の予測値を示す出力データ７３０を出力する。図３（Ａ）の出力データ８３０と同様に、出力データ７３０は、閾値以上の確信度を有するバウンディングボックスによって、オブジェクト（ここでは、ラベルシート）の画像の領域を示している。また、バウンディングボックスに対応するＣ個のクラス確率のうちの最高クラス確率に対応するクラス識別子が、バウンディングボックスに対応付けられたクラス識別子として採用される。

Ａ７．アノテーション処理（第２種データセットＤＳ２の生成処理）：
図９は、シート検出モデルＮＮ２のトレーニングのための第２種データセットＤＳ２（図１）の生成処理の例を示すフローチャートである。第２種データセットＤＳ２は、複数の第２種ラベル付データＬＤ２を含んでいる。第２種ラベル付データＬＤ２は、ラベルシートの画像を含む第２種学習画像データＤ２１と、第２種学習画像データＤ２１に関連付けられたラベルデータＤ２２と、を含んでいる。ラベルデータＤ２２は、図４のＳ１５０、Ｓ１５５で説明したラベルデータＤ１２と同様に、画像中のシート画像の領域を示す領域情報Ｄ２２１と、シート画像の種類を示すシートクラス情報Ｄ２２２と、を示している。後述するように、図９の処理では、プロセッサ２１０は、領域情報Ｄ２２１とラベルデータＤ２２とを示すラベルデータＤ２２を第２種学習画像データＤ２１に関連付ける処理を実行する（この処理は、アノテーション処理の例である）。プロセッサ２１０は、第３プログラム２３３に従って、図９の処理を実行する。

Ｓ３１０では、プロセッサ２１０は、処理対象の画像データである対象画像データを取得する。本実施例では、プロセッサ２１０は、予め準備された複数のシート画像データから、未処理のシート画像データを対象画像データとして取得する。複数のシート画像データは、予め記憶装置２１５（例えば、不揮発性記憶装置２３０）に格納されている（図示省略）。複数のシート画像データのそれぞれは、ラベルシートを含む画像を示している。上述したように、本実施例では、Ｃ種類のロゴ画像に対応するＣ種類のラベルシートが利用可能である。複数のシート画像データは、Ｃ種類のラベルシートを示すＣ種類のシート画像データを含んでいる。図１０（Ａ）は、対象画像の例を示す説明図である。対象画像７００ａは、第１シート９１０Ｌの画像の領域と、背景領域７００ａｚと、を含んでいる。第１シート９１０Ｌの画像は、第１ロゴ画像９１０を含んでいる。

本実施例では、シート画像データは、背景画像データによって示される単色のベタ画像を示す背景画像上にシートの画像を配置することによって生成されている。プリンタの実際の撮影画像上では、背景領域は、プリンタの外面を示している。本実施例では、プリンタの外面の色は、位置によらず同じである。従って、実際の撮影画像上においても、背景領域の画像は、おおよそ単色のベタ画像である。なお、背景画像は、単色のベタ画像に限らず、プリンタの外面の撮影画像など、種々の画像であってよい。また、複数のシート画像データは、ラベルシートを有するプリンタをデジタルカメラで撮影することによって、生成されてよい。

Ｓ３１５（図９）では、プロセッサ２１０は、ロゴ検出モデルＮＮ１（図３（Ａ））を用いて対象画像データを分析することにより、ロゴ領域を特定する。具体的には、プロセッサ２１０は、ロゴ検出モデルＮＮ１に対象画像データを入力することによって、出力データ８３０を生成する。そして、プロセッサ２１０は、出力データ８３０によって示されるバウンディングボックス（具体的には、予め決められた閾値以上の確信度を有するバウンディングボックス）に囲まれる矩形領域を、ロゴ領域として採用する。図１０（Ｂ）は、ロゴ領域の例を示す説明図である。バウンディングボックスＢＢｔは、対象画像７００ａ上の第１ロゴ画像９１０を示している。プロセッサ２１０は、バウンディングボックスＢＢｔによって囲まれる領域を、ロゴ領域ＬＡとして特定する。また、プロセッサ２１０は、バウンディングボックスＢＢｔに対応付けられたＣ個のクラス確率のうちの最高のクラス確率に対応付けられたクラス識別子を、ロゴ領域ＬＡの種類を示すロゴクラスＣＬｔとして特定する（図１０（Ｂ）の例では、ＣＬｔ＝１）。

Ｓ３２０（図９）では、プロセッサ２１０は、ロゴ領域が検出されたか否かを判断する。ロゴ領域が検出された場合（Ｓ３２０：Ｙｅｓ）、Ｓ３２５で、プロセッサ２１０は、ロゴ領域を含む拡張領域を決定する。

図１１は、拡張領域の候補を決定する処理の例を示すフローチャートである。Ｓ４１０では、プロセッサ２１０は、対象画像を複数のブロックに分割する。図１０（Ｃ）は、複数のブロックの例を示す説明図である。対象画像７００ａは、予め決められた形状の複数のブロックＢＬに分割されている。対象画像７００ａ内の複数のブロックＢＬの配置は、予め決められている。

Ｓ４２０（図１１）では、プロセッサ２１０は、複数のブロックＢＬのそれぞれのエッジ強度値を算出する。エッジ強度値は、対象画像上の位置の変化に対する色の変化の割合の評価値である。本実施例では、プロセッサ２１０は、いわゆるラプラシアンフィルタを用いて各画素のエッジ量（例えば、フィルタによる計算結果の絶対値）を算出する。エッジ量の算出には、予め決められた色成分（例えば、輝度値）が用いられる。そして、プロセッサ２１０は、ブロックＢＬ内の複数の画素のエッジ量の平均値を、ブロックＢＬのエッジ強度値として算出する。なお、エッジ強度値の算出方法は、他の種々の方法であってよい。例えば、フィルタは、ラプラシアンフィルタに代えて、エッジ量を算出するための任意のフィルタであってよい（ソーベルフィルタ、プレウィットフィルタなど）。また、ブロックＢＬのエッジ強度値は、複数の画素のエッジ量の平均値に代えて、中央値、最頻値、など、複数の画素のエッジ量と相関を有する種々の値であってよい。

Ｓ４３０では、プロセッサ２１０は、予め決められた基準以下のエッジ強度値を有するブロックＢＬを、均一ブロックとして特定する。以下、複数のブロックＢＬのうち、均一ブロックとは異なるブロックＢＬを、非均一ブロックとも呼ぶ。

図１０（Ｄ）は、均一ブロックの例を示す説明図である。対象画像７００ａ中の複数のブロックＢＬのうち、ハッチングが付されたブロックＢＬ１が、均一ブロックＢＬ１であり、ハッチングの無いブロックＢＬ２が、非均一ブロックＢＬ２である。図示するように、第１シート９１０Ｌの外側の背景領域７００ａｚの複数のブロックＢＬは、均一ブロックＢＬ１である。第１シート９１０Ｌを示す複数のブロックＢＬのうち多数のブロックＢＬは、非均一ブロックＢＬ２である。なお、第１シート９１０Ｌを示す複数のブロックＢＬのうちの一部の複数のブロックＢＬは、均一ブロックＢＬ１である。一般的に、ラベルシートは、ロゴ画像に加えて、文字、図形、マーク、シンボルなど、他の要素を含み得る。従って、ラベルシート９１０Ｌを示す複数のブロックＢＬのうち均一ブロックＢＬ１の割合は、小さい。また、ラベルシート９１０Ｌの輪郭９１０Ｌｏを示す画素は、大きなエッジ量を有している。従って、ラベルシート９１０Ｌの輪郭９１０Ｌｏを示すブロックＢＬは、非均一ブロックＢＬ２である可能性が高い。

Ｓ４４０（図１１）では、プロセッサ２１０は、ロゴ領域と同じ領域を拡張領域の初期領域として採用する。そして、プロセッサ２１０は、拡張領域の輪郭をロゴ領域の外側に向かって移動させることによって、ロゴ領域を含む拡張領域の候補を決定する。プロセッサ２１０は、輪郭の全体が均一ブロックＢＬ１に含まれるように、輪郭を移動させる。図１０（Ｅ）は、拡張領域の候補の例を示す説明図である。対象画像７００ａ上の候補拡張領域ＬＡｅは、ロゴ領域ＬＡと、ロゴ領域ＬＡの外側の部分と、を含んでいる。候補拡張領域ＬＡｅの輪郭ＬＡｅｏの全体は、均一ブロックＢＬ１に含まれている。上述したように、ラベルシート９１０Ｌの輪郭９１０Ｌｏを示すブロックＢＬは、非均一ブロックＢＬ２である可能性が高い。従って、プロセッサ２１０は、ラベルシート９１０Ｌの輪郭９１０Ｌｏを外側から囲む輪郭ＬＡｅｏを有する候補拡張領域ＬＡｅを、決定できる。このような候補拡張領域ＬＡｅは、ラベルシート９１０Ｌの全体を含んでいる。

輪郭を移動させる処理は、種々の処理であってよい。本実施例では、ロゴ領域ＬＡの輪郭ＬＡｏは、矩形を形成する４本の辺（すなわち、上辺、下辺、左辺、右辺）で構成されている。プロセッサ２１０は、４本の辺を所定量ずつ順番に外側に移動させる処理を、４本の辺の全体が均一ブロックＢＬ１に含まれるまで、繰り返す。これにより、プロセッサ２１０は、ラベルシート９１０Ｌの全体を含むとともに、対象画像７００ａよりも小さい候補拡張領域ＬＡｅを決定できる。

プロセッサ２１０は、Ｓ４４０の完了に応じて、図１１の処理、すなわち、図９のＳ３２５を終了する。

Ｓ３３０では、プロセッサ２１０は、Ｓ３１５で特定されたロゴクラスに基づいて、Ｃ個のシートクラス情報からシートクラス情報の候補である候補シートクラス情報を選択する。本実施例では、Ｓ３１５で特定されたロゴクラスが２個のロゴ画像９１０、９２０のいずれかに対応する場合、プロセッサ２１０は、２個のロゴ画像９１０、９２０に対応する２個のシートクラス情報を、候補として採用する。また、本実施例では、利用可能なＣ種類のロゴ画像は、図示しない第３ロゴ画像を含むこととする。そして、Ｓ３１５で特定されたロゴクラスが第３ロゴ画像に対応する場合、プロセッサ２１０は、第３ロゴ画像に対応する１個のシートクラス情報を、候補として採用する。Ｓ３１５で特定されたロゴクラスと、候補シートクラス情報と、の対応関係は、予め決められている。候補シートクラス情報としては、Ｓ３１５で特定されたロゴクラスに照らして適切であり得るシートクラス情報が、採用される。プロセッサ２１０は、ロゴクラスに対応付けられた候補を選択する。

Ｓ３３５では、プロセッサ２１０は、ユーザインタフェース画面（ＵＩ画面とも呼ぶ）を表示部２４０（図１）に表示する。図１２（Ａ）は、ＵＩ画面の例を示す説明図である。このＵＩ画面６００は、第１ユーザインタフェース画像６１０と、第２ユーザインタフェース画像６２０と、を含んでいる。このＵＩ画面６００は、Ｓ３３０（図９）で選択された候補シートクラス情報の数が２以上である場合の例を示している。

第１ユーザインタフェース画像６１０は、候補拡張領域ＬＡｅの輪郭ＬＡｅｏの位置をユーザに変更させるためのユーザインタフェース画像である。第１ユーザインタフェース画像６１０は、第１シート９１０Ｌを含む対象画像７００ａと、候補拡張領域ＬＡｅの輪郭ＬＡｅｏと、を示している。ユーザは、操作部２５０（図１）を操作することによって、輪郭ＬＡｅｏを移動させることができる。

第２ユーザインタフェース画像６２０は、候補拡張領域ＬＡｅの分類（すなわち、ラベルシートの分類）を示すシートクラス情報をユーザに特定させるためのユーザインタフェース画像である。第２ユーザインタフェース画像６２０は、ユーザによって選択可能なシートクラス情報の１以上の候補を示す候補領域６２１と、１以上の候補から選択された１つの候補を示すチェックボックス６２２と、を示している。実線のチェックボックス６２２は、選択可能な候補を示し、破線のチェックボックス６２２は、選択不可能な候補を示している。選択可能な候補は、Ｓ３３０で選択された候補である。

図１２（Ａ）の例では、第２ユーザインタフェース画像６２０は、４個のシートクラス情報ＣＣ１、ＣＣ２、ＣＣ３、ＣＣ４を示している。第１シートクラス情報ＣＣ１は、第１ロゴ画像９１０（図３（Ｂ））に対応し、第２シートクラス情報ＣＣ２は、第２ロゴ画像９２０に対応し、第３シートクラス情報ＣＣ３は、図示しない第３ロゴ画像に対応し、第４シートクラス情報ＣＣ４は、バーコードを示している。そして、２個のシートクラス情報ＣＣ１、ＣＣ２が選択可能であり、他のシートクラス情報ＣＣ３、ＣＣ４は、選択不可能である。ユーザは、操作部２５０（図１）を操作することによって、選択可能な１以上の候補のうちの１つをチェック（すなわち、選択）できる。なお、Ｓ３３５（図９）では、プロセッサ２１０は、Ｓ３１５で特定されたロゴクラスに対応するシートクラス情報を、デフォルトのシートクラス情報として採用する。そして、プロセッサ２１０は、デフォルトのシートクラス情報が選択された状態の第２ユーザインタフェース画像６２０を表示する。

図１２（Ｃ）は、Ｓ３３０（図９）で選択された候補シートクラス情報の数が１である場合のＵＩ画面の例を示している。第１ユーザインタフェース画像６１０は、ラベルシート９３０Ｌの画像を含む対象画像７００ｃを示している。ラベルシート９３０Ｌは、第３ロゴ画像９３０を含んでいる。第２ユーザインタフェース画像６２０は、第３シートクラス情報ＣＣ３が選択可能であり、他のシートクラス情報ＣＣ１、ＣＣ２、ＣＣ４は選択不可能であることを示している。

なお、第２ユーザインタフェース画像６２０において、選択不可能な候補の表示は、省略されてよい。

Ｓ３４０（図９）では、プロセッサ２１０は、ユーザによる輪郭ＬＡｅｏの位置の変更を受け付ける。図１２（Ｂ）は、変更された輪郭ＬＡｅｏの例を示す説明図である。図１２（Ｂ）の例では、ユーザは、輪郭ＬＡｅｏの４個の辺のそれぞれを、ラベルシート９１０Ｌの輪郭９１０Ｌｏに近づけている。これにより、候補拡張領域ＬＡｅは、ラベルシート９１０Ｌの領域を適切に示すことができる。輪郭ＬＡｅｏの位置がユーザによって変更された場合、プロセッサ２１０は、変更済の位置の輪郭を有する領域を、最終的な拡張領域として決定する。なお、ユーザは、輪郭ＬＡｅｏの位置を変更せずに受け入れる指示を、操作部２５０を操作することによって入力できる。この場合、プロセッサ２１０は、Ｓ３２５で決定された候補拡張領域ＬＡｅを、最終的な拡張領域として決定する。

Ｓ３４５（図９）では、プロセッサ２１０は、シートクラス情報の選択可能な候補の総数が１であるか否かを判断する。選択可能な候補の数が１よりも大きい場合（Ｓ３４５：Ｎｏ）、Ｓ３５５で、プロセッサ２１０は、ユーザによるシートクラス情報の指定を受け付ける。図１２（Ａ）、図１２（Ｂ）の例では、ユーザは、操作部２５０（図１）を操作することにより、２個のシートクラス情報ＣＣ１、ＣＣ２から１つを選択できる。例えば、Ｓ３１５（図９）で特定されたロゴクラスは、誤りであり得る。すなわち、Ｓ３３５で採用されたデフォルトのシートクラス情報は、誤りであり得る。ユーザは、第１ユーザインタフェース画像６１０に表示されたラベルシートを観察することによって、適切なシートクラス情報を確認できる。そして、ユーザは、操作部２５０を操作することによって、適切なシートクラス情報を指定できる。また、デフォルトのシートクラス情報が正しい場合、ユーザは、デフォルトのシートクラス情報を受け入れる指示を、操作部２５０を操作することによって入力できる。Ｓ３５５の後、プロセッサ２１０は、Ｓ３６０へ移行する。

シートクラス情報の選択可能な候補の総数が１である場合（Ｓ３４５：Ｙｅｓ）、Ｓ３５０で、プロセッサ２１０は、シートクラス情報を、Ｓ３３０で特定された候補シートクラスに決定する。そして、プロセッサ２１０は、Ｓ３６０へ移行する。

Ｓ３６０では、プロセッサ２１０は、候補拡張領域ＬＡｅを示す領域情報と、Ｓ３５０またはＳ３５５で決定されたシートクラス情報と、を含むアノテーション情報を示すアノテーションデータを生成する。Ｓ３６５では、プロセッサ２１０は、対象画像データとアノテーションデータとを関連付けて、記憶装置２１５（例えば、不揮発性記憶装置２３０）に格納する。互いに関連付けられた対象画像データとアノテーションデータとの全体は、第２種ラベル付データＬＤ２（図１）を形成する。対象画像データは、第２種学習画像データＤ２１に対応し、アノテーションデータは、ラベルデータＤ２２に対応する。なお、プロセッサ２１０は、ラベル付データＬＤ２を、情報処理装置２００に接続された外部記憶装置（図示せず）に格納してもよい。

Ｓ３６５の後、プロセッサ２１０は、Ｓ３７０へ移行する。Ｓ３１５でロゴ領域が検出されない場合（Ｓ３２０：Ｎｏ）、プロセッサ２１０は、Ｓ３２５－Ｓ３６５をスキップして、Ｓ３７０へ移行する。Ｓ３７０では、プロセッサ２１０は、全てのシート画像データの処理が完了したか否かを判断する。未処理のシート画像データが残っている場合（Ｓ３７０：Ｎｏ）、プロセッサ２１０は、Ｓ３１０へ移行して、新たな対象画像データの処理を行う。全てのシート画像データの処理が完了した場合（Ｓ３７０：Ｙｅｓ）、プロセッサ２１０は、図９の処理を終了する。これにより、第２種データセットＤＳ２が生成される。なお、情報処理装置２００は、第２種学習画像データＤ２１にラベルデータＤ２２を関連付けるシステムの例である。

Ａ８．シート検出モデルＮＮ２のトレーニング処理：
図１３は、シート検出モデルＮＮ２（図８（Ａ））のトレーニング処理の例を示すフローチャートである。シート検出モデルＮＮ２は、出力データ７３０が入力画像７００中のラベルシートの画像の適切な領域情報と適切なシートクラス情報とを示すように、トレーニングされる。トレーニングによって、シート検出モデルＮＮ２の演算に用いられる複数の演算パラメータ（複数の層ＣＶ２１－ＣＶ２ｐ、ＣＮ２１－ＣＮ２ｑのそれぞれの演算に用いられる複数の演算パラメータを含む）が、調整される。なお、プロセッサ２１０は、第４プログラム２３４に従って、図１３の処理を行う。

図１３のトレーニング処理は、トレーニングの対象のモデルがシート検出モデルＮＮ２である点と、トレーニングに用いられるデータセットが第２種データセットＤＳ２である点と、を除いて、図７のトレーニング処理と同じである。図１３のＳ５１０－Ｓ５８０は、図７のＳ２１０－Ｓ２８０と、それぞれ同じである（詳細な説明を省略する）。トレーニングされたシート検出モデルＮＮ２からの出力データ７３０は、ラベルシートの画像の領域を適切に示すとともに高い確信度と適切なクラス確率とを有するバウンディングボックスを示すことができる。なお、プロセッサ２１０は、Ｓ５８０で、シート検出モデルＮＮ２を、記憶装置２１５に格納してよく、これに代えて、情報処理装置２００に接続された外部記憶装置（図示せず）に格納してもよい。

トレーニングされたシート検出モデルＮＮ２（図８（Ａ））は、プリンタの検査に利用できる。プロセッサ２１０は、シート検出モデルＮＮ２にプリンタの撮影画像データ（例えば、図２（Ａ）、図２（Ｂ）で説明した撮影画像）を入力する。シート検出モデルＮＮ２から出力される出力データ７３０は、撮影画像から検出されたラベルシートの領域を示している。ラベルシートが検出された場合、プリンタの検査結果は合格である。ラベルシートが検出されない場合、プリンタの検査結果は不合格である。

以上のように、図９の処理では、プロセッサ２１０は、機械学習モデルの例であるシート検出モデルＮＮ２のトレーニングに用いられる第２種学習画像データＤ２１に情報を関連付ける処理を実行する。具体的には、Ｓ３１０では、プロセッサ２１０は、処理対象の画像である対象画像（例えば、対象画像７００ａ（図１０（Ａ）））の対象画像データ（すなわち、第２種学習画像データＤ２１）を取得する。Ｓ３１５では、プロセッサ２１０は、対象画像データを分析することによって、対象画像内から、注目対象物の例であるロゴの画像を示すロゴ領域（例えば、ロゴ領域ＬＡ）を検出する。Ｓ３２５、Ｓ３４０では、プロセッサ２１０は、ロゴ領域とロゴ領域の外側の部分とを含む候補拡張領域ＬＡｅを決定する。Ｓ３６０、Ｓ３６５では、プロセッサ２１０は、拡張領域ＬＡｅを示す領域情報を含むアノテーション情報を示すアノテーションデータ（すなわち、ラベルデータＤ２２）を対象画像データに関連付けて記憶装置２１５に格納する。このように、プロセッサ２１０は、ロゴを示す領域ＬＡに加えて他の領域を含む候補拡張領域ＬＡｅを示す領域情報を、第２種学習画像データＤ２１に関連付けることができる。例えば、図１２（Ａ）、図１２（Ｂ）で説明したように、プロセッサ２１０は、ロゴ画像９１０と他の画像とを含むラベルシート９１０Ｌの領域を示す領域情報Ｄ２２１を、第２種学習画像データＤ２１に対応付けることができる。このような領域情報Ｄ２２１は、ロゴを示す領域に加えて他の領域を含む領域（例えば、ラベルシートの領域）を処理する機械学習モデル（例えば、シート検出モデルＮＮ２）のトレーニングに、適している。

また、Ｓ３１０（図９）、図１０（Ａ）等で説明したように、注目対象物の画像は、ロゴ画像である。従って、プロセッサ２１０は、ロゴ画像を示す領域に加えて他の領域を含む拡張領域を示す領域情報Ｄ２２１を、第２種学習画像データＤ２１に関連付けることができる。

また、図１０（Ｂ）等に示すように、Ｓ３１５（図９）で検出される領域は、矩形状の領域である。注目対象物の画像（例えば、ロゴ画像）を示す矩形状の領域の検出には、YOLOに限らず、種々のオブジェクト検出モデルを利用できる（例えば、SSD(Single Shot MultiBox Detector)、R-CNN（Region Based Convolutional Neural Networks）など）。従って、プロセッサ２１０は、領域を適切に検出できる。

また、拡張領域を決定する処理は、Ｓ３２５（図９）を含んでいる。Ｓ３２５、すなわち、図１１の処理は、図１０（Ｅ）等で説明したように、対象画像データを分析することによって、ロゴ領域ＬＡと同じ領域から拡張領域をロゴ領域ＬＡの外側に向かって拡張する処理を含む。本実施例では、この処理は、プロセッサ２１０によって行われる。また、この処理によって、拡張領域ＬＡｅの候補が決定される。このように、プロセッサ２１０（すなわち、情報処理装置２００）が拡張領域ＬＡｅを拡張するので、情報処理装置２００は、ユーザの負担を軽減できる。

また、Ｓ３２５、すなわち、図１１の処理は、Ｓ４１０－Ｓ４３０の処理と、Ｓ４４０の処理と、を含んでいる。図１０（Ｄ）等で説明したように、Ｓ４１０－Ｓ４３０の処理では、プロセッサ２１０は、対象画像データを分析することによって、基準以下のエッジ強度値を有するブロックＢＬを、均一ブロックＢＬ１として特定する。エッジ強度値は、対象画像上の位置の変化に対する色の変化の割合の評価値である。ブロックＢＬを均一ブロックＢＬ１として選択するための条件（均一条件とも呼ぶ）は、エッジ強度値が基準以下であること示している。また、図１０（Ｅ）等で説明したように、Ｓ４４０では、プロセッサ２１０は、拡張領域ＬＡｅの輪郭ＬＡｅｏの全体が均一ブロックＢＬ１に含まれるように、拡張領域をロゴ領域ＬＡの外側に向かって拡張する。このように、プロセッサ２１０は、均一ブロックＢＬ１を用いて、適切に拡張領域ＬＡｅを拡張できる。例えば、注目対象物（ここでは、ロゴ画像９１０）と他の要素とを含む大きなオブジェクト（例えば、ラベルシート９１０Ｌ）の領域と、背景領域と、の境界まで、拡張領域ＬＡｅを拡張できる。このように拡張された領域ＬＡｅは、ロゴを示す領域に加えて他の領域を含む大きなオブジェクトの領域を処理する機械学習モデル（例えば、シート検出モデルＮＮ２）のトレーニングに、適している。

また、拡張領域ＬＡｅを決定する処理は、Ｓ３３５、Ｓ３４０（図９）を含んでいる。Ｓ３３５では、図１２（Ａ）、図１２（Ｂ）等で説明したように、プロセッサ２１０は、候補拡張領域ＬＡｅの輪郭ＬＡｅｏの位置をユーザに変更させるための第１ユーザインタフェース画像６１０を表示部２４０に表示する。Ｓ３４０では、プロセッサ２１０は、ユーザによる変更済の位置の輪郭を有する領域を、拡張領域として決定する。従って、プロセッサ２１０は、ユーザによって変更された輪郭を用いて、適切な拡張領域を決定できる。

また、Ｓ３５５（図９）が実行される場合には、Ｓ３３５で、図１２（Ａ）等で説明したように、プロセッサ２１０は、拡張領域ＬＡｅの分類（すなわちラベルシートの分類）を示すシートクラス情報をユーザに特定させるための第２ユーザインタフェース画像６２０を表示部２４０に表示する。Ｓ３６０、Ｓ３６５では、プロセッサ２１０は、ユーザによって特定されたシートクラス情報を含むアノテーション情報を示すアノテーションデータを対象画像データに関連付けて記憶装置２１５に格納する。従って、プロセッサ２１０は、適切なシートクラス情報を対象画像データに関連付けることができる。

また、図１２（Ａ）、図１２（Ｃ）等で説明したように、第２ユーザインタフェース画像６２０は、ユーザによって選択可能なシートクラス情報の１以上の候補を示す候補領域６２１を含んでいる。そして、Ｓ３３０で説明したように、候補領域６２１は、予め決められたＣ個のシートクラス情報のうち、Ｓ３１５で検出されたロゴ領域に含まれるロゴに予め対応付けられた１以上のシートクラス情報を、１以上の候補として示している。例えば、第１ロゴ画像９１０（図１２（Ａ））が検出された場合には、第１ロゴ画像９１０に対応付けられたシートクラス情報ＣＣ１、ＣＣ２が候補である。従って、ユーザは、適切なシートクラス情報を、容易に選択できる。

また、Ｓ３５０（図９）が実行される場合には、Ｓ３５０で、プロセッサ２１０は、予め決められたＣ個のシートクラス情報のうち、Ｓ３１５で検出されたロゴ領域に含まれるロゴに予め対応付けられた候補シートクラス情報を、アノテーション情報に含めるべきシートクラス情報として決定する。例えば、第３ロゴ画像９３０（図１２（Ｃ））が検出された場合には、Ｓ３３０で、プロセッサ２１０は、第３ロゴ画像９３０に対応付けられた第３シートクラス情報ＣＣ３を、候補として選択する。Ｓ３５０では、プロセッサ２１０は、アノテーション情報に含めるべきシートクラス情報を、第３シートクラス情報ＣＣ３に決定する。そして、Ｓ３６０、Ｓ３６５では、プロセッサ２１０は、決定したシートクラス情報を含むアノテーション情報を示すアノテーションデータを対象画像データに関連付けて記憶装置２１５に格納する。従って、プロセッサ２１０は、適切なシートクラス情報を対象画像データに関連付けることができる。

Ｂ．変形例：
（１）オブジェクト検出モデルのトレーニングのための学習画像データを生成する処理は、図４の処理に代えて、他の種々の処理であってよい。例えば、ロゴ画像をＴ種類の部分領域に分割する処理（Ｓ１１５－Ｓ１２０）は、ロゴ画像データの色分布を分析せずに、予め決められた領域パターン（例えば、第１種領域Ａ１と第２種領域Ａ２とを示す領域パターン）に従ってロゴ画像を分割する処理であってよい。

Ｓ１２５では、変更後の色は、種々の色であってよい。例えば、変更後の色は、元の色とは異なる予め決められた色であってよい。また、ロゴ画像の色が、網点を用いて表現されている場合に、変更後の色は、元の網点とは異なる網点（例えば、元の線数とは異なる線数）で表現された色であってよい。

Ｓ１３５－Ｓ１４０で利用可能な背景画像は、単色のベタ画像と、写真と、に限らず、図形、模様など、種々の画像であってよい。また、利用可能な背景画像からは、写真と、単色のベタ画像と、のうちのいずれか１つ、または、両方が、省略されてよい。

Ｓ１３０では、サイズ変更処理と、縦横比変更処理と、のうちのいずれか１つが省略されてよい。また、Ｓ１３０が省略されてよい。

Ｓ１２５、Ｓ１３０、Ｓ１３５、Ｓ１４０、Ｓ１４５のうちの１以上の処理のそれぞれにおいて、プロセッサ２１０は、処理内容をランダムに決定するのではなく、予め決められた計画に従って、処理内容を決定してよい。

ロゴ画像の種類の数Ｃ（すなわち、分類（クラス）の数Ｃ）は、３に限らず、１、２、４など、１以上の種々の数であってよい。

Ｓ１４０では、複数のロゴ画像が互いに一部分が重なるように配置されてもよい。また、ロゴ画像の一部が削除されてもよい。

Ｓ１４５では、上記の７個の処理Ｐ１－Ｐ７から任意に選択された１以上の処理が、利用可能な処理から省略されてよい。また、Ｓ１４５が省略されてよい。

ロゴ画像を検出する機械学習モデルは、図３（Ａ）で説明したＹＯＬＯモデルに限らず、「ＹＯＬＯｖ３」などの改良されたＹＯＬＯモデルであってよい。また、SSD、R-CNN、Fast R-CNN, Faster R-CNN、Mask R-CNNなどの、他のモデルが用いられてよい。

オブジェクト検出モデルによって検出されるべき対象物は、ロゴの画像に限らず、任意の対象物（例えば、プリンタに装着される部品、バーコードなど）であってよい。そして、図４の処理（または、その変形例の処理）で生成される第１種データセットＤＳ１は、種々のオブジェクト検出モデルのトレーニングに用いられてよい。

（２）機械学習モデルのトレーニングに用いられる画像データに情報を関連付ける処理は、図９の処理に代えて、他の種々の処理であってよい。例えば、ロゴ領域を検出する処理（Ｓ３１５）は、ロゴ検出モデルＮＮ１を用いる処理に代えて、他の種々の処理であってよい。例えば、プロセッサ２１０は、基準のロゴ画像を示す基準ロゴ画像データを用いるパターンマッチングによって、ロゴ領域を検出してもよい。

拡張領域を決定する処理は、Ｓ３２５、Ｓ３４０の処理に代えて、他の種々の処理であってよい。例えば、プロセッサ２１０は、ロゴ領域と、ロゴ領域に対応付けられた拡張領域と、を示す１枚のテンプレート画像を用いて、拡張領域を決定してよい。具体的には、プロセッサ２１０は、対象画像中のロゴ領域と、テンプレート画像のロゴ領域と、が一致するように、対象画像に対するテンプレート画像の位置を決定する。そして、プロセッサ２１０は、決定された位置のテンプレート画像によって示される拡張領域を、対象画像に適用すべき拡張領域として決定する。

拡張領域の決定に用いられる注目対象物は、ロゴ画像に限らず、バーコードなど、任意の対象物であってよい。また、注目対象物の画像を示す対象物領域（例えば、ロゴ領域）の形状は、矩形状に代えて、他の任意の形状であってよい。例えば、対象物領域の形状は、三角形、五角形、六角形などの多角形でもよく、円、楕円などの曲線部分を含む輪郭によって定められる形状であってよい。また、対象物領域の形状は、対象物の輪郭によって定められる形状であってよい。

対象画像上の均一領域を特定する処理は、図１１のＳ４１０－Ｓ４３０の処理に代えて、他の種々の処理であってよい。ここで、均一領域は、均一条件を満たす領域である。均一条件は、対象画像上の位置の変化に対する色の変化の割合が基準以下であることを示す条件である。例えば、ブロックＢＬのエッジ強度値は、位置の変化に対する色の変化の割合を示す種々の値であってよい。エッジ強度値は、例えば、ブロックＢＬ内の最高輝度値と最低輝度値との間の差分であってよい。また、プロセッサ２１０は、対象画像の複数の画素の色値（例えば、輝度値）のヒストグラムを用いて、均一領域を特定してよい。具体的には、プロセッサ２１０は、ヒストグラムの１つの区間に含まれる複数の画素によって形成される連続な１つの領域を、１つの均一領域として特定してよい。この場合、色値が１つの区間に含まれることが、均一条件である。

図１２（Ａ）－図１２（Ｃ）の実施例では、１個のＵＩ画面６００が、第１ユーザインタフェース画像６１０と第２ユーザインタフェース画像６２０とを示している。すなわち、ＵＩ画面６００を表示部２４０に表示する処理は、第１ユーザインタフェース画像６１０を表示する処理と、第２ユーザインタフェース画像６２０を表示する処理と、を含んでいる。これに代えて、プロセッサ２１０は、第１ユーザインタフェース画像６１０を、第２ユーザインタフェース画像６２０を示す画面とは異なる画面で表示してよい。

図９のＳ３４０は、省略されてよい。この場合、プロセッサ２１０は、Ｓ３２５で決定された候補拡張領域を、そのまま、最終的な拡張領域として決定してよい。また、ＵＩ画面（図１２（Ａ）－図１２（Ｃ））からは、第１ユーザインタフェース画像６１０は省略されてよい。

図９のＳ３５０は省略されてよい。例えば、プロセッサ２１０は、Ｓ３１５で特定されたロゴクラスに拘わらずに、Ｓ３３０で複数の候補シートクラス情報を選択し、Ｓ３５５で、ユーザによるシートクラス情報の指定を受け付けてよい。また、Ｓ３５５は省略されてよい。例えば、プロセッサ２１０は、Ｓ３１５で特定されたロゴクラスに拘わらずに、Ｓ３３０でロゴクラスに対応付けられた１個の候補シートクラス情報を選択し、Ｓ３５０で、シートクラス情報を、Ｓ３３０で特定された候補シートクラスに決定してよい。なお、シートクラス情報は、アノテーション情報から省略されてよい。例えば、ラベルシートの種類の数Ｃが１である場合、シートクラス情報が省略されても、第２種データセットＤＳ２を用いる適切なトレーニングが可能である。

ラベルシートの画像を検出する機械学習モデルは、図８（Ａ）で説明したＹＯＬＯモデルに限らず、YOLO v3、SSD、R-CNN、Fast R-CNN, Faster R-CNN、Mask R-CNNなどの、他のモデルであってよい。

（３）機械学習モデルを用いる検査対象は、プリンタに限らず、スキャナ、複合機、デジタルカメラ、カッティングマシン、携帯端末、などの任意の製品であってよい。また、製品を収容するケースが検査対象であってよい。また、機械学習モデルは、ラベルシートに限らず、他の種々の対象物を検出するようにトレーニングされてよい。例えば、機械学習モデルは、プリンタの撮影画像から、プリンタに装着すべき部品を検出してよい。いずれの場合も、検出対象物（例えば、ラベルシート）の画像が、小さい特徴部分（例えば、ロゴ）の画像を含む場合、特徴部分を含む拡張領域は、検出対象物を示す領域として利用可能である。このような拡張領域を示す領域情報を含むアノテーション情報が、トレーニング用の画像データに関連付けられてよい。このような画像データとアノテーション情報とは、オブジェクト検出モデルに限らず、分類モデルなどの種々の機械学習モデルのトレーニングに、利用されてよい。

（４）機械学習モデルに入力される入力画像データの色空間は、ＲＧＢに代えて、ＣＭＹＫ色空間などの他の色空間であってよい。また、入力画像データは、輝度値によって画像を表現してよい。また、入力画像データは、解像度変換処理、トリミング処理などの種々の画像処理を実行することによって、生成されてよい。

（５）画像データとラベルデータと関連付ける方法は、任意の方法であってよい。例えば、ラベルデータは、ラベルデータに関連付けられた画像データを識別する識別データを含んでよい。また、プロセッサ２１０は、画像データとラベルデータとの対応関係を示すテーブルデータを生成してよい。また、プロセッサ２１０は、互いに関連付けられた画像データとラベルデータとを、１個のデータファイルに格納してよい。

（６）機械学習モデルのトレーニング処理は、図７、図１３の処理に代えて、機械学習モデルに適する種々の方法であってよい。例えば、図７、図１３の実施例において、ロスの算出に用いられる損失関数は、交差エントロピー誤差など、出力データ７３０、８３０とラベルデータとの間の差の評価値を算出する種々の関数であってよい。例えば、オブジェクト検出モデルが用いられる場合には、損失関数は、オブジェクトを示す領域の誤差と、オブジェクトの種類毎の確率の誤差と、に相関を有する損失を算出する種々の関数であってよい。

また、機械学習モデルに含まれる演算パラメータを調整する方法は、誤差逆伝播法に代えて、目標値を伝播させる方法（Target Propagationとも呼ばれる）など、他の種々の方法であってよい。また、トレーニング完了の条件は、機械学習モデルから出力されるデータと、ラベルデータと、の間の差が小さいことを示す種々の条件であってよい。例えば、確認ロスは、トレーニング完了の条件から省略されてよい。この場合、図７、図１３の処理において、全てのラベル付データが、学習用データセットとして用いられてよい。また、プロセッサ２１０は、作業者から完了指示が入力された場合にトレーニングが完了したと判断し、トレーニングの継続指示が入力された場合にトレーニングが完了していないと判断してもよい。作業者は、例えば、確認用データセットを用いて出力される出力データを参照して、トレーニングを終了するか否かを判断してよい。これに代えて、トレーニング完了の条件は、学習ロスの算出と演算パラメータの更新（例えば、Ｓ２４０－Ｓ２５０（図７）、Ｓ５４０－Ｓ５５０（図１３））が、所定回数、繰り返されたことであってよい。

（７）図４のデータセットの生成処理と、図７のトレーニング処理と、図９のアノテーション処理（データセットの生成処理）と、図１３のトレーニング処理と、図示しない検査処理とは、それぞれ、互いに異なる情報処理装置によって実行されてよい。これらの処理から任意に選択された処理が、ネットワークを介して互いに通信可能な複数の装置（例えば、コンピュータなどの情報処理装置）によって分担されてよい。

上記各実施例において、ハードウェアによって実現されていた構成の一部をソフトウェアに置き換えるようにしてもよく、逆に、ソフトウェアによって実現されていた構成の一部あるいは全部をハードウェアに置き換えるようにしてもよい。例えば、図１のモデルＮＮ１、ＮＮ２のそれぞれの機能を、専用のハードウェア回路によって実現してもよい。

また、本発明の機能の一部または全部がコンピュータプログラムで実現される場合には、そのプログラムは、コンピュータ読み取り可能な記録媒体（例えば、一時的ではない記録媒体）に格納された形で提供することができる。プログラムは、提供時と同一または異なる記録媒体（コンピュータ読み取り可能な記録媒体）に格納された状態で、使用され得る。「コンピュータ読み取り可能な記録媒体」は、メモリーカードやＣＤ－ＲＯＭのような携帯型の記録媒体に限らず、各種ＲＯＭ等のコンピュータ内の内部記憶装置や、ハードディスクドライブ等のコンピュータに接続されている外部記憶装置も含み得る。

以上、実施例、変形例に基づき本発明について説明してきたが、上記した発明の実施の形態は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれる。

１００…デジタルカメラ、２００…情報処理装置、２１０…プロセッサ、２１５…記憶装置、２２０…揮発性記憶装置、２３０…不揮発性記憶装置、２３１…第１プログラム、２３２…第２プログラム、２３３…第３プログラム、２３４…第４プログラム、２４０…表示部、２５０…操作部、２７０…通信インタフェース、６１０…第１ユーザインタフェース画像、６２０…第２ユーザインタフェース画像、６２１…候補領域、６２２…チェックボックス、ＤＶ…対象物（プリンタ）、ＤＶｘ…第１プリンタ、ＤＶｙ…第２プリンタ、Ｄｘ…第１方向、Ｄｙ…第２方向

Claims

画像中の対象物を検出するための機械学習モデルのトレーニングに用いられる複数の学習画像データを生成する方法であって、
対象物の画像である対象物画像の対象物画像データを取得する取得工程と、
前記対象物画像の色の分布範囲を分割して得られるＴ個（Ｔは２以上の整数）の部分色範囲にそれぞれ対応するＴ種類の部分領域に前記対象物画像を分割する分割工程と、
１種類以上の部分領域のそれぞれの色を元の色とは異なる色に変更する処理を含む調整処理を実行することによって、前記対象物の複数の色変更対象物画像の複数の色変更対象物画像データを生成する色変更画像生成工程であって、前記複数の色変更対象物画像は、互いに異なる色の同じ種類の部分領域を有する、前記色変更画像生成工程と、
１以上の背景画像データと、前記複数の色変更対象物画像データと、を用いることによって、複数の学習画像の複数の学習画像データを生成する学習画像生成工程であって、前記学習画像は、前記１以上の背景画像データのいずれかによって示される背景画像と、前記背景画像上に配置された１以上の色変更対象物画像とを含み、前記複数の学習画像は、前記複数の色変更対象物画像のうちの互いに異なる色変更対象物画像を含む、前記学習画像生成工程と、
を備える生成方法。
請求項１に記載の生成方法であって、
前記１以上の背景画像データは、写真の背景画像の背景画像データを含む、
生成方法。
請求項１または２に記載の生成方法であって、
前記１以上の背景画像データは、単色のベタ画像の背景画像データを含む、
生成方法。
請求項１から３のいずれかに記載の生成方法であって、
前記調整処理は、
前記色変更対象物画像のサイズを変更する処理と、
前記色変更対象物画像の縦横比を変更する処理と、
のうちのいずれか１つ、または、両方を含む、
生成方法。
請求項１から４のいずれかに記載の生成方法であって、
前記学習画像生成工程は、前記背景画像と、前記背景画像上に配置された複数の色変更対象物画像と、を含む学習画像の学習画像データを生成する工程を含む、
生成方法。
請求項１から５のいずれかに記載の生成方法であって、
前記学習画像生成工程は、前記背景画像と、前記背景画像上に配置された１以上の色変更対象物画像と、前記対象物とは異なる他の対象物の画像であって前記背景画像上に配置された前記他の対象物の前記画像と、を含む学習画像の学習画像データを生成する工程を含む、
生成方法。
請求項５または請求項６に記載の生成方法であって、
１個の学習画像上では、それぞれが対象物を示す複数の画像は、互いに重ならないように配置されている、
生成方法。
請求項１から７のいずれかに記載の生成方法であって、さらに、
前記学習画像生成工程は、前記背景画像と前記背景画像上に配置された前記１以上の色変更対象物画像とを含む候補画像の候補画像データに画像処理を行うことによって前記学習画像データを生成する工程を含み、
前記画像処理は、
前記候補画像の上下を反転させる処理と、
前記候補画像の左右を反転させる処理と、
前記候補画像を回転させる処理と、
前記候補画像内の前記色変更対象物画像を示す領域を変更せずに、前記色変更対象物画像のうちの前記領域内に示される部分を平行移動させるシフト処理と、
前記候補画像をぼかす処理と、
前記候補画像にノイズを付加する処理と、および、
前記候補画像の色を調整する処理と、
からなる群から選択される１以上の処理を含む、
生成方法。
画像中の対象物を検出するための機械学習モデルのトレーニングに用いられる複数の学習画像データを生成するシステムであって、
対象物の画像である対象物画像の対象物画像データを取得する取得部と、
前記対象物画像の色の分布範囲を分割して得られるＴ個（Ｔは２以上の整数）の部分色範囲にそれぞれ対応するＴ種類の部分領域に前記対象物画像を分割する分割部と、
１種類以上の部分領域のそれぞれの色を元の色とは異なる色に変更する処理を含む調整処理を実行することによって、前記対象物の複数の色変更対象物画像の複数の色変更対象物画像データを生成する色変更画像生成部であって、前記複数の色変更対象物画像は、互いに異なる色の同じ種類の部分領域を有する、前記色変更画像生成部と、
１以上の背景画像データと、前記複数の色変更対象物画像データと、を用いることによって、複数の学習画像の複数の学習画像データを生成する学習画像生成部であって、前記学習画像は、前記１以上の背景画像データのいずれかによって示される背景画像と、前記背景画像上に配置された１以上の色変更対象物画像とを含み、前記複数の学習画像は、前記複数の色変更対象物画像のうちの互いに異なる色変更対象物画像を含む、前記学習画像生成部と、
を備えるシステム。
画像中の対象物を検出するための機械学習モデルのトレーニングに用いられる複数の学習画像データを生成するコンピュータのためのコンピュータプログラムであって、
対象物の画像である対象物画像の対象物画像データを取得する取得機能と、
前記対象物画像の色の分布範囲を分割して得られるＴ個（Ｔは２以上の整数）の部分色範囲にそれぞれ対応するＴ種類の部分領域に前記対象物画像を分割する分割機能と、
１種類以上の部分領域のそれぞれの色を元の色とは異なる色に変更する処理を含む調整処理を実行することによって、前記対象物の複数の色変更対象物画像の複数の色変更対象物画像データを生成する色変更画像生成機能であって、前記複数の色変更対象物画像は、互いに異なる色の同じ種類の部分領域を有する、前記色変更画像生成機能と、
１以上の背景画像データと、前記複数の色変更対象物画像データと、を用いることによって、複数の学習画像の複数の学習画像データを生成する学習画像生成機能であって、前記学習画像は、前記１以上の背景画像データのいずれかによって示される背景画像と、前記背景画像上に配置された１以上の色変更対象物画像とを含み、前記複数の学習画像は、前記複数の色変更対象物画像のうちの互いに異なる色変更対象物画像を含む、前記学習画像生成機能と、
をコンピュータに実現させる、コンピュータプログラム。