JP2023064439A

JP2023064439A - 学習プログラム、学習方法および情報処理装置

Info

Publication number: JP2023064439A
Application number: JP2021174725A
Authority: JP
Inventors: 琢麿山本; Takuma Yamamoto
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2023-05-11
Also published as: US20230130674A1; KR20230059711A; EP4174788A1

Abstract

【課題】背景画像に存在しないで対象画像に存在する物体を検出可能な学習プログラム、学習方法及び情報処理装置を提供する。【解決手段】情報処理装置は、物体が配置すべきエリアが撮影された背景画像と、物体とエリアとが撮影された対象画像とを入力データとし、背景画像には存在しないが対象画像には存在する物体に関連する情報を正解データとする学習データを取得する取得部と、学習データを基にして、対象画像と対象画像とを機械学習モデルに入力した際に機械学習モデルから出力される結果と、正解データとに基づいて、機械学習モデルに対する機械学習を実行する学習処理部と、を有する。【選択図】図６

Description

本発明は、学習プログラム等に関する。

スーパーマーケットやコンビニエンスストア等の店舗において、セルフレジが普及している。セルフレジは、商品を購入するユーザ自身が、商品のバーコードの読み取りから精算までを行うＰＯＳ（Point Of Sale）レジシステムである。たとえば、セルフレジを導入することで、人件費の抑制、店員による精算ミスを防止することができる。

一方、セルフレジでは、バーコードの読み取りを行わない等のユーザの不正を検出することが求められる。

図２１は、従来技術を説明するための図である。図２１に示す例では、ユーザ１は、仮置台６に置かれた商品２を手に取り、セルフレジ５に対して商品２のバーコードをスキャンする操作を行い、包装するものとする。従来技術では、カメラ１０の画像データを解析して、仮置台６に置かれた商品の物体検出を行い、商品点数を特定する。特定した商品点数と、実際にスキャンされた点数とが一致するか否かをチェックすることで、不正を検知することができる。従来技術では、図２１で説明したような物体検出を行う際、Deep Learning（以下、ＤＬ）等の技術を用いる。

ＤＬを用いた物体検出を行う場合、人手によって大量のラベルデータを準備し、このラベルデータを用いて、物体検出を行うための物体検出モデルに対して機械学習を実行する。ここで、物体検出モデルは、予め学習した物体のみ検出するため、上記の店舗のように商品の種類が膨大で、日々商品が入れ替わる条件下において、ラベルデータを準備し、物体検出モデルを再度機械学習することを繰り返すことは、現実的ではない。

なお、事前に学習していない未知の物体でも、かかる物体の領域を特定することができる従来技術がある。図２２は、未知の物体の領域を特定する従来技術を説明するための図である。図２２で説明する従来技術では、背景画像１５ａと、対象画像１５ｂとから、背景とは異なる領域を示すマスク画像１６を出力するＤＮＮ（Deep Neural Network）２０を、様々な大量の画像を用いて機械学習することにより獲得する。

背景画像１５ａの撮影エリアと、対象画像１５ｂの撮影エリアとは同じ撮影エリアであるが、背景画像１５ａには、対象画像１５ｂに存在する物体３ａ，３ｂ，３ｃが含まれていない。マスク画像１６には、物体３ａ，３ｂ，３ｃに対応する領域４ａ，４ｂ，４ｃが示される。たとえば、マスク画像１６の領域４ａ，４ｂ，４ｃのピクセルには「１」が設定され、その他の領域のピクセルには「０」が設定される。

図２２の従来技術では、背景と異なる領域を特定しているため、未知の物体であってもその領域を特定できる。このため、図２２の従来技術を、図２１の従来技術に適用することで、未知の商品の領域を特定し、商品点数を特定することが考えられる。

特開２０１９－１５３０５７号公報

しかしながら、上述した従来技術では、背景画像に存在しないで対象画像に存在する物体を検出することができないという問題がある。

図２２で説明した従来技術では、背景とは異なる領域の全体を特定する技術であり、個々の物体の位置や大きさ等を特定するものではない。このため、複数の物体が近接している場合には、一つの塊になってしまう。

図２３は、従来技術の問題を説明するための図である。図２３に示す例では、機械学習済みのＤＮＮ２０に、背景画像１７ａと、対象画像１７ｂとを入力すると、マスク画像１８が出力される。対象画像１７ｂには、商品７ａ，７ｂ，７ｃが含まれる。対象画像１７ｂの商品７ａ～７ｃが近接しているため、マスク画像１８には、一つの塊の領域８が示される。マスク画像１８の領域８を基にして、商品７ａ，７ｂ，７ｃに相当する領域を特定し、商品点数「３」を特定することは難しい。

１つの側面では、本発明は、背景画像に存在しないで対象画像に存在する物体を検出することができるモデルを提供可能な学習プログラム、学習方法および情報処理装置を提供することを目的とする。

第１の案では、コンピュータに次の処理を実行させる。コンピュータは、物体が配置すべきエリアが撮影された背景画像と、物体とエリアとが撮影された対象画像とを入力データとし、背景画像には存在しないが対象画像には存在する物体に関連する情報を正解データとする学習データを取得する。コンピュータは、学習データを基にして、対象画像と対象画像とを機械学習モデルに入力した際に機械学習モデルから出力される結果と、正解データとに基づいて、機械学習モデルに対する機械学習を実行する。

背景画像に存在しないで対象画像に存在する物体を検出可能なモデルを提供できる。

図１は、本実施例１に係るシステムを示す図である。図２は、本実施例１に係る情報処理装置の基本部分の処理を説明する図である。図３は、特徴的な処理１を説明するための図である。図４は、特徴的な処理１を補足説明するための図である。図５は、特徴的な処理２を補足説明するための図である。図６は、本実施例１に係る情報処理装置の構成を示す機能ブロック図である。図７は、本実施例１に係る学習データのデータ構造の一例を示す図である。図８は、本実施例１に係る学習処理部の処理を説明するための図である。図９は、本実施例１に係る推論処理部の処理を説明するための図である。図１０は、本実施例１に係る学習処理の処理手順を示すフローチャート（１）である。図１１は、本実施例１に係る学習処理の処理手順を示すフローチャート（２）である。図１２は、本実施例１に係る推論処理の処理手順を示すフローチャートである。図１３は、本実施例２に係る情報処理装置の構成を示す機能ブロック図である。図１４は、本実施例２に係る学習データのデータ構造の一例を示す図である。図１５は、本実施例２に係る学習処理部の処理を説明するための図である。図１６は、本実施例２に係る推論処理部の処理を説明するための図である。図１７は、本実施例２に係る学習処理の処理手順を示すフローチャートである。図１８は、本実施例２に係る推論処理の処理手順を示すフローチャートである。図１９は、本実施例３に係るシステムを示す図である。図２０は、情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図２１は、従来技術を説明するための図である。図２２は、未知の物体の領域を特定する従来技術を説明するための図である。図２３は、従来技術の問題を説明するための図である。

以下に、本願の開示する学習プログラム、学習方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

本実施例１に係るシステムの一例について説明する。図１は、本実施例１に係るシステムを示す図である。図１に示すように、このシステムは、カメラ１０と、情報処理装置１００とを有する。カメラ１０と、情報処理装置１００とは、ネットワーク１１を介して相互に接続される。カメラ１０と、情報処理装置１００とは、有線または無線によって直接接続されていてもよい。

カメラ１０は、店舗内や店舗外の様子を撮影するカメラであってもよいし、図２１に示した商品の置かれる仮置台６を撮影するカメラであってもよい。カメラ１０は、撮像範囲の画像データを、情報処理装置１００に送信する。

以下の説明では、カメラ１０が撮影した画像データであって、検出対象となる物体を含まない画像データを「背景画像データ」と表記する。たとえば、背景画像データは、図２２で説明した背景画像１５ａに対応する。カメラ１０が撮影した画像データであって、検出対象となる物体を含む画像データを「対象画像データ」と表記する。たとえば、対象画像データは、図２２で説明した対象画像１５ｂに対応する。対象画像１５ｂには、物体３ａ～３ｃが含まれている。背景画像１５ａの撮影エリアは、対象画像１５ｂの撮影エリアと同一であるが、背景画像１５ａには、物体３ａ～３ｃが含まれていない。

情報処理装置１００は、背景画像データと、対象画像データとを基にして、対象画像データに含まれる個々の物体の領域を推論する装置である。情報処理装置１００は、推論を開始する前に、予め、カメラ１０から背景画像データを受信しておき、推論を開始する際に、カメラ１０から対象画像データを順次受信する。

以下では、情報処理装置１００の基本部分の処理と、かかる基本部分の処理に追加される特徴的な処理１，２とを順に説明する。

図２は、本実施例１に係る情報処理装置の基本部分の処理を説明する図である。図２に示すように、基本部分の処理を実行する情報処理装置１００は、特徴抽出部５０ａ，５０ｂと、合成部５１ａと、推定部５２とを有する。

特徴抽出部５０ａ，５０ｂは、一般的な畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）に対応する。特徴抽出部５０ａは、背景画像データ２５ａが入力されると、機械学習によって訓練されたパラメータに基づいて、画像特徴量を合成部５１ａに出力する。特徴抽出部５０ｂは、対象画像データ２５ｂが入力されると、機械学習によって訓練されたパラメータに基づく、画像特徴量を合成部５１ａに出力する。

特徴抽出部５０ａ，５０ｂから出力される画像特徴量は、ソフトマックス関数等に基づく確率値に変換される前の値とする。以下の説明では、背景画像データ２５ａの画像特徴量を「背景画像特徴量」と表記する。対象画像データ２５ｂの画像特徴量を「対象画像特徴量」と表記する。背景画像特徴量および対象画像特徴量は、中間特徴量に対応する。

特徴抽出部５０ａ，５０ｂには、同一のパラメータが設定される。図２では、説明の便宜的に、特徴抽出部５０ａ，５０ｂに分けて図示しているが、特徴抽出部５０ａ，５０ｂを、同一のＣＮＮとする。

合成部５１ａは、背景画像特徴量と、対象画像特徴とを合成し、合成した特徴量を推定部５２に出力する。

推定部５２は、一般的な畳み込みニューラルネットワーク（ＣＮＮ）に対応する。推定部５２は、背景画像特徴量と対象画像特徴量とを合成した特徴量が入力されると、機械学習によって訓練されたパラメータに基づいて、各物体のＢＢＯＸを特定する。たとえば、ＢＢＯＸ（Bounding Box）は、物体を囲む領域情報であり、位置およびサイズの情報を有する。図２に示す例では、３つのＢＢＯＸ３０ａ，３０ｂ，３０ｃが特定されている。

続いて、図２に示した情報処理装置１００の基本部分の処理に追加される「特徴的な処理１」について説明する。図３は、特徴的な処理１を説明するための図である。図３では、図２で説明した特徴抽出部５０ａ，５０ｂ、合成部５１ａ、推定部５２に加えて、位置座標特徴量出力部５３と、合成部５１ｂとを有する。

特徴抽出部５０ａ，５０ｂに関する説明は、図２で説明した特徴抽出部５０ａ，５０ｂに関する説明と同様である。

合成部５１ａは、背景画像特徴量と、対象画像特徴量とを合成し、合成した特徴量を合成部５１ｂに出力する。

位置座標特徴量出力部５３は、座標値を画像平面状に配置した複数の座標特徴量を出力する。たとえば、図３に示すように、位置座標特徴量出力部５３は、ｘ座標特徴量５３ａと、ｙ座標特徴量５３ｂと、距離特徴量５３ｃとを、合成部５１ｂに出力する。

ｘ座標特徴量５３ａの各ピクセルには、左から右への行方向に「－１」～「＋１」までの座標値が、昇順で設定される。列方向の各ピクセルには、同一の座標値が設定される。たとえば、ｘ座標特徴量５３ａの左端の列の各ピクセルには「－１」が設定される。

ｙ座標特徴量５３ｂの各ピクセルには上から下への列方向に、「－１」～「＋１」までの座標値が、昇順で設定される。行方向の各ピクセルには、同一の座標値が設定される。たとえば、ｙ座標特徴量５３ｂの上端の行の各ピクセルには「－１」が設定される。

距離特徴量５３ｃは、中心のピクセルから外側の方向に、「０」～「＋１」までの座標値が、昇順で設定される。たとえば、距離特徴量５３ｃの中心のピクセルには「０」が設定される。

合成部５１ｂは、背景画像特徴量と、対象画像特徴量と、ｘ座標特徴量５３ａと、ｙ座標特徴量５３ｂと、距離特徴量５３ｃとを合成した情報を、推定部５２に出力する。

推定部５２は、背景画像特徴量と、対象画像特徴量と、ｘ座標特徴量５３ａと、ｙ座標特徴量５３ｂと、距離特徴量５３ｃとを合成した情報が入力されると、機械学習によって訓練されたパラメータに基づいて、各物体のＢＢＯＸを特定する。

図４は、特徴的な処理１を補足説明するための図である。たとえば、図４に示す画像２１に対して、ニューラルネットワークによる畳み込みを行う場合を想定する。通常の畳み込み処理では、位置不変のため、同じ外観の物体を別々のものとして弁別することが難しい。たとえば、画像２１に含まれる物体２２、２３は同じ外観である。このため、領域２２ａに対して畳み込み処理を行った結果２２ｂと、領域２３ａに対して畳み込み処理を行った結果２３ｂとが同一になってしまう。

これに対して、図３で説明した特徴的な処理１では、画像特徴量に、ｘ座標特徴量５３ａと、ｙ座標特徴量５３ｂと、距離特徴量５３ｃとを合成した情報に対して、畳み込みを実行することとなる。たとえば、領域２２ａに対して畳み込みを実行する場合に、領域５３ａ－１，領域５３ｂ－１，領域５３ｃ－１も合わせて畳み込みが行われる。同様に、領域２３ａに対して畳み込みを実行する場合に、領域５３ａ－２，領域５３ｂ－２，領域５３ｃ－２も合わせて畳み込みが行われる。これによって、領域２２ａに対して畳み込み処理を行った結果２２ｂと、領域２３ａに対して畳み込み処理を行った結果２３ｂとが同一とはならず、物体２２，２３を弁別することが可能となる。

続いて、図２に示した情報処理装置１００の基本部分の処理に追加される「特徴的な処理２」について説明する。図５は、特徴的な処理２を説明するための図である。図５では、図３で説明した特徴抽出部５０ａ，５０ｂ、合成部５１ａ，５１ｂ、推定部５２、位置座標特徴量出力部５３に加えて、マスク生成部５４を有する。

特徴抽出部５０ａ，５０ｂ、位置座標特徴量出力部５３に関する説明は、図２、図３で行った説明と同様である。

合成部５１ａは、背景画像特徴量と、対象画像特徴量とを合成し、合成した特徴量を合成部５１ｂと、マスク生成部５４に出力する。

マスク生成部５４は、一般的な畳み込みニューラルネットワーク（ＣＮＮ）に対応する。マスク生成部５４は、背景画像特徴量と対象画像特徴量とを合成した特徴量が入力されると、機械学習によって訓練されたパラメータに基づいて、マスク画像４０を生成する。マスク画像４０は、背景画像データ２５ａに存在せず、対象画像データ２５ｂに存在する物体の領域を示す情報である。たとえば、マスク画像４０は、ビットマップであり、物体の領域に対応するピクセルには「１」が設定され、他の領域に対応するピクセルには「０」が設定される。

合成部５１ｂは、背景画像特徴量と、対象画像特徴と、ｘ座標特徴量５３ａと、ｙ座標特徴量５３ｂと、距離特徴量５３ｃと、マスク画像４０とを合成した合成情報４５を、推定部５２に出力する。

推定部５２は、合成情報４５が入力されると、機械学習によって訓練されたパラメータに基づいて、各物体のＢＢＯＸを特定する。たとえば、合成情報４５は、背景画像特徴量と、対象画像特徴と、ｘ座標特徴量５３ａと、ｙ座標特徴量５３ｂと、距離特徴量５３ｃと、マスク画像４０とが重なった情報である。推定部５２は、各情報が重なった合成情報４５に、パラメータの設定されたカーネル（kernel）を配置し、カーネルの位置を移動させながら、畳み込みを行う。

ここで、特徴的な処理２に関する補足説明を行う。たとえば、マスク生成部５４を用いない場合の機械学習を想定すると、学習用の背景画像データ、学習用の対象画像データを入力データとし、学習用の対象画像データに含まれる物体のＢＢＯＸを正解データ（ＧＴ：Ground Truth）とする学習データを用いて、機械学習を行うことになる。

このような機械学習を行うと、対象画像データに含まれる個々の物体の特徴を覚えて、背景画像データを使わずに、対象画像データのみから物体のＢＢＯＸを推定する場合がある。すなわち、学習用の対象画像データに含まれる物体をそのまま覚えてしまい、未知の物体に対応できず、オーバーフィット（過学習）といえる。

上記のオーバーフィットを抑止するために、背景画像データも使わないと解けないタスクを補助タスクとして機械学習させることで、ＮＮが背景画像を活用するようにする。たとえば、図５に示すマスク生成部５４を機械学習する処理が、補助タスクとなる。たとえば、上述したＢＢＯＸの推定がメインのタスクであり、マスク画像を生成するタスクが補助タスクとなる。

また、マスク生成部５４が生成したマスク画像４０を更に、推定部５２に入力して、物体のＢＢＯＸを推定するような機械学習を実行する。これによって、検出する物体をマスク画像の物体の領域に限定する効果を期待することができる。

図５において、情報処理装置１００は、特徴抽出部５０ａ，５０ｂに入力データを入力し、推定部５２が出力されるＢＢＯＸと正解データ（ＢＢＯＸの正解値）との誤差と、マスク生成部５４から出力されるマスク画像と正解データ（マスク画像の正解値）との誤差が小さくなるように、特徴抽出部５０ａ，５０ｂ、推定部５２、マスク生成部５４のパラメータを訓練する。

次に、図２～図４で説明した処理を実行する情報処理装置１００の構成の一例について説明する。図６は、本実施例１に係る情報処理装置の構成を示す機能ブロック図である。図６に示すように、この情報処理装置１００は、通信部１１０と、入力部１２０と、表示部１３０と、記憶部１４０と、制御部１５０とを有する。

通信部１１０は、カメラ１０や、外部装置（図示略）との間で、データ通信を実行する。たとえば、通信部１１０は、カメラ１０から画像データ（背景画像データ、対象画像データ）を受信する。通信部１１０は、外部装置から、機械学習に用いる学習データ１４１等を受信する。

入力部１２０は、各種の情報を情報処理装置１００に入力するための入力装置に対応する。

表示部１３０は、制御部１５０からの出力結果を表示する。

記憶部１４０は、学習データ１４１と、画像テーブル１４２と、特徴抽出モデル１４３と、生成モデル１４４と、推定モデル１４５を有する。記憶部１４０は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

学習データ１４１は、機械学習を実行する場合に用いられるデータである。図７は、本実施例１に係る学習データのデータ構造の一例を示す図である。図７に示すように、学習データ１４１は、項番と、入力データと、正解データ（ＧＴ）とを対応付けて保持する。入力データには、学習用の背景画像データと、学習用の対象画像データが含まれる。正解データには、マスク画像のＧＴと、ＢＢＯＸのＧＴ（物体の領域の座標）が含まれる。

画像テーブル１４２は、推論時に利用する背景画像データ、対象画像データを保持するテーブルである。

特徴抽出モデル１４３は、特徴抽出部５０ａ，５０ｂで実行される機械学習モデル（ＣＮＮ）である。特徴抽出モデル１４３に、画像データを入力すると、画像特徴量が出力される。

生成モデル１４４は、マスク生成部５４で実行される機械学習モデル（ＣＮＮ）である。生成モデル１４４に、背景画像特徴量と対象画像特徴とを合成した情報を入力すると、マスク画像が出力される。

推定モデル１４５は、推定部５２で実行される機械学習モデル（ＣＮＮ）である。推定モデル１４５に、合成情報４５を入力すると、ＢＢＯＸが出力される。

制御部１５０は、取得部１５１、学習処理部１５２、推論処理部１５３を有する。制御部１５０は、ＣＰＵ（Central Processing Unit）等に対応する。

取得部１５１は、外部装置等から、学習データ１４１を取得した場合に、取得した学習データ１４１を、記憶部１４０に登録する。

取得部１５１は、カメラ１０から、背景画像データを事前に取得し、画像テーブル１４２に登録する。取得部１５１は、カメラ１０から、対象画像データを取得し、画像テーブル１４２に登録する。

学習処理部１５２は、学習データ１４１を基にして、特徴抽出部５０ａ，５０ｂ（特徴抽出モデル１４３）、マスク生成部５４（生成モデル１４４）、推定部５２（推定モデル１４５）の機械学習を実行する。

図８は、本実施例１に係る学習処理部の処理を説明するための図である。たとえば、学習処理部１５２は、特徴抽出部５０ａ，５０ｂ、合成部５１ａ，５２ｂ、推定部５２、マスク生成部５４、位置座標特徴量出力部５３を有する。また、学習処理部１５２は、誤差算出部６０ａ，６０ｂと、合成部６１と、重み更新値算出部６２とを有する。以下の説明では、適宜、特徴抽出部５０ａ，５０ｂ、推定部５２、位置座標特徴量出力部５３、マスク生成部５４をまとめて、「ニューラルネットワーク」と表記する。

特徴抽出部５０ａ，５０ｂの処理は、図５で行った説明と同様である。たとえば、特徴抽出部５０ａ，５０ｂは、特徴抽出モデル１４３を読み出して実行する。特徴抽出部５０ａ，５０ｂは、特徴抽出モデル１４３に、画像データを入力し、特徴抽出モデル１４３のパラメータに基づいて、画像特徴量を算出する。

合成部５１ａ，５１ｂの説明は、図５で行った説明と同様である。

位置座標特徴量出力部５３の処理は、図３で行った説明と同様である。

マスク生成部５４の処理は、図５で行った説明と同様である。たとえば、マスク生成部５４は、生成モデル１４４を読み出して実行する。マスク生成部５４は、生成モデル１４４に、背景画像特徴量と、対象画像特徴量とを合成した特徴量を入力し、生成モデル１４４のパラメータに基づいて、マスク画像を生成する。マスク生成部５４は、マスク画像を、合成部５１ｂと、誤差算出部６０ａに出力する。

推定部５２の処理は、図５で説明した説明と同様である。たとえば、推定部５２は、推定モデル１４５を読み出して実行する。推定部５２は、推定モデル１４５を読み出して実行する。推定部５２は、推定モデル１４５に、合成情報を入力し、推定モデル１４５のパラメータに基づいて、各物体のＢＢＯＸを特定する。推定モデル１４５は、ＢＢＯＸを誤差算出部６０ｂに出力する。

学習処理部１５２は、学習データ１４１から、学習用の背景画像データ２６ａを取得し、特徴抽出部５０ａに入力する。学習処理部１５２は、学習データ１４１から、学習用の対象画像データ２６ｂを取得し、特徴抽出部５０ｂに入力する。また、学習処理部１５２は、学習データ１４１から、マスク画像のＧＴを取得し、誤差算出部６０ａに入力する。学習処理部１５２は、学習データ１４１から、ＢＢＯＸのＧＴを取得し、誤差算出部６０ｂに入力する。

誤差算出部６０ａは、マスク生成部５４から出力されるマスク画像４１と、学習データ１４１のマスク画像のＧＴとの誤差を算出する。以下の説明では、マスク画像４１と、マスク画像のＧＴとの誤差を「第１誤差」と表記する。誤差算出部６０ａは、第１誤差を合成部６１に出力する。

誤差算出部６０ｂは、推定部５２から出力されるＢＢＯＸと、学習データ１４１のＢＢＯＸのＧＴとの誤差を算出する。以下の説明では、推定部５２から出力されるＢＢＯＸと、学習データ１４１のＢＢＯＸのＧＴとの誤差を「第２誤差」と表記する。誤差算出部６０ｂは、第２誤差を合成部６１に出力する。

合成部６１は、第１誤差と第２誤差との和を算出する。以下の説明では、第１誤差と第２誤差との和を「合計誤差」と表記する。合成部６１は、重み更新値算出部６２に出力する。

重み更新値算出部６２は、合計誤差が小さくなるように、ニューラルネットワークのパラメータ（重み）を更新する。たとえば、重み更新値算出部６２は、誤差逆伝播法等を用いて、特徴抽出部５０ａ，５０ｂ（特徴抽出モデル１４３）、マスク生成部５４（生成モデル１４４）、推定部５２（推定モデル１４５）のパラメータを更新する。

学習処理部１５２は、学習データ１４１に格納された各入力データ、正解データを用いて、上記処理を繰り返し実行する。学習処理部１５２は、機械学習済みの特徴抽出モデル１４３、生成モデル１４４、推定モデル１４５を、記憶部１４０に登録する。

図６の説明に戻る。推論処理部１５３は、機械学習済みの特徴抽出部５０ａ，５０ｂ（特徴抽出モデル１４３）、マスク生成部５４（生成モデル１４４）、推定部５２（推定モデル１４５）を用いて、背景画像データには存在しないで、対象画像データに存在する物体の領域を特定する。

図９は、本実施例１に係る推論処理部の処理を説明するための図である。たとえば、推論処理部１５３は、特徴抽出部５０ａ，５０ｂ、合成部５１ａ，５２ｂ、推定部５２、マスク生成部５４、位置座標特徴量出力部５３を有する。

特徴抽出部５０ａ，５０ｂの処理は、図５で行った説明と同様である。たとえば、特徴抽出部５０ａ，５０ｂは、機械学習済みの特徴抽出モデル１４３を読み出して実行する。特徴抽出部５０ａ，５０ｂは、特徴抽出モデル１４３に、画像データを入力し、特徴抽出モデル１４３のパラメータに基づいて、画像特徴量を算出する。

マスク生成部５４の処理は、図５で行った説明と同様である。たとえば、マスク生成部５４は、機械学習済みの生成モデル１４４を読み出して実行する。マスク生成部５４は、生成モデル１４４に、背景画像特徴量と、対象画像特徴量とを合成した特徴量を入力し、生成モデル１４４のパラメータに基づいて、マスク画像を生成する。マスク生成部５４は、マスク画像を、合成部５１ｂに出力する。

推定部５２の処理は、図５で説明した説明と同様である。たとえば、推定部５２は、学習済みの推定モデル１４５を読み出して実行する。推定部５２は、推定モデル１４５を読み出して実行する。推定部５２は、推定モデル１４５に、合成情報４５を入力し、推定モデル１４５のパラメータに基づいて、各物体のＢＢＯＸを特定する。

推論処理部１５３は、画像テーブル１４２から、背景画像データ２５ａを取得し、特徴抽出部５０ａに入力する。推論処理部１５３は、画像テーブル１４２から、対象画像データ２５ｂを取得し、特徴抽出部５０ｂに入力する。推論処理部１５３は、推定部５２によって特定されるＢＢＯＸの情報を、表示部１３０に出力してもよいし、外部装置に出力してもよい。

次に、本実施例１に係る情報処理装置１００の処理手順の一例について説明する。以下では、情報処理装置１００が実行する学習処理の処理手順と、推論処理の処理手順について順に説明を行う。

学習処理の処理手順について説明する。図１０および図１１は、本実施例１に係る学習処理の処理手順を示すフローチャートである。図１０に示すように、情報処理装置１００の学習処理部１５２は、学習データ１４１から背景画像データを取得する（ステップＳ１０１）。学習処理部１５２の特徴抽出部５０ａは、背景画像データを基にして、背景画像特徴量を抽出する（ステップＳ１０２）。

学習処理部１５２は、学習データ１４１から対象画像データを取得する（ステップＳ１０３）。学習処理部１５２の特徴抽出部５０ｂは、対象画像データを基にして、対象画像特徴量を抽出する（ステップＳ１０４）。

学習処理部１５２の合成部５１ａは、背景画像特徴量と、対象画像特徴量とを合成する（ステップＳ１０５）。学習処理部１５２のマスク生成部５４は、合成された特徴量を基にして、マスク画像を生成する（ステップＳ１０６）。

学習処理部１５２の位置座標特徴量出力部５３は、位置座標特徴量を生成する（ステップＳ１０７）。学習処理部１５２の合成部５１ｂは、各特徴量を合成した合成情報を生成する（ステップＳ１０８）。

学習処理部１５２の推定部５２は、合成情報を基にして、ＢＢＯＸを推定する（ステップＳ１０９）。学習処理部１５２は、図１１のステップＳ１１０に移行する。

図１１の説明に移行する。学習処理部１５２は、学習データ１４１からマスク画像のＧＴを取得する（ステップＳ１１０）。学習処理部１５２の誤差算出部６０ａは、マスク画像と、マスク画像のＧＴとを基にして、第１誤差を算出する（ステップＳ１１１）。

学習処理部１５２は、学習データ１４１からＢＢＯＸのＧＴを取得する（ステップＳ１１２）。誤差算出部６０ｂは、ＢＢＯＸと、ＢＢＯＸのＧＴとを基にして、第２誤差を算出する（ステップＳ１１３）。

学習処理部１５２の合成部６１は、第１誤差と第２誤差との合計誤差を算出する（ステップＳ１１４）。学習処理部１５２の重み更新値算出部６２は、ニューラルネットワークのパラメータの更新値を算出する（ステップＳ１１５）。学習処理部１５２は、ニューラルネットワークのパラメータを更新する（ステップＳ１１６）。

学習処理部１５２は、機械学習を継続する場合には（ステップＳ１１７，Ｙｅｓ）、図１０のステップＳ１０１に移行する。機械学習を継続しない場合には（ステップＳ１１７，Ｎｏ）、ニューラルネットワークの機械学習を終了する。

続いて、推論処理の処理手順について説明する。図１２は、本実施例１に係る推論処理の処理手順を示すフローチャートである。図１２に示すように、情報処理装置１００の推論処理部１５３は、画像テーブル１４２から背景画像データを取得する（ステップＳ２０１）。推論処理部１５３の特徴抽出部５０ａは、背景画像データを基にして、背景画像特徴量を抽出する（ステップＳ２０２）。

推論処理部１５３は、画像テーブル１４２から対象画像データを取得する（ステップＳ２０３）。推論処理部１５３の特徴抽出部５０ｂは、対象画像データを基にして、対象画像特徴量を抽出する（ステップＳ２０４）。

推論処理部１５３の合成部５１ａは、背景画像特徴量と、対象画像特徴量とを合成する（ステップＳ２０５）。推論処理部１５３のマスク生成部５４は、合成された特徴量を基にして、マスク画像を生成する（ステップＳ２０６）。

推論処理部１５３の位置座標特徴量出力部５３は、位置座標特徴量を生成する（ステップＳ２０７）。推論処理部１５３の合成部５１ｂは、各特徴量を合成した合成情報を生成する（ステップＳ２０８）。

推論処理部１５３の推定部５２は、合成情報を基にして、ＢＢＯＸを推定する（ステップＳ２０９）。

次に、本実施例１に係る情報処理装置１００の効果について説明する。情報処理装置１００は、背景画像データを特徴抽出部５０ａに入力し、対象画像データを特徴抽出部５０ｂに入力することで、背景画像特徴量、対象画像特徴量を抽出する。情報処理装置１００は、背景画像特徴量、対象画像特徴量を合成した特徴量をマスク生成部５４に入力し、マスク画像を生成する。情報処理装置１００は、マスク画像と、各特徴量を合成した情報を、推定部５２に入力することで、物体の領域を特定する。これによって、対象画像データに含まれる物体が事前に学習していない未知の物体でも、各物体を弁別して検出することができる。

情報処理装置１００は、背景画像特徴量、対象画像特徴量、マスク画像、座標特徴量を合成した情報を、推定部５２に入力し、物体の領域を特定する。これによって、対象画像データに同じ外観の物体が含まれている場合でも、それぞれの物体を区別可能に畳み込み処理を実行することができる。

情報処理装置１００は、学習データ１４１を基にして、特徴抽出部５０ａ，５０ｂ、マスク生成部５４、推定部５２の機械学習を実行する。これによって、対象画像データに含まれる物体が事前に学習していない未知の物体でも、各物体を弁別して検出可能なニューラルネットワークを機械学習することができる。

情報処理装置１００は、各特徴量に加えて、座標特徴量を更に合成した情報を、推定部５２に入力して、機械学習を実行する。これによって、対象画像データに同じ外観の物体が含まれている場合でも、それぞれの物体を区別して、ニューラルネットワークを機械学習することができる。

情報処理装置１００は、各特徴量に加えて、マスク画像を更に合成した情報を、推定部５２に入力して、機械学習を実行する。これによって、検出する物体をマスク画像の物体の領域に限定する効果を期待することができる。

実施例２に係るシステムの構成は、実施例１で説明したシステムと同様である。本実施例２に係る情報処理装置は、実施例１と同様にして、ネットワーク１１を介して、カメラ１０に接続されているものとする。

本実施例２に係る情報処理装置は、図２で説明した基本部分となる特徴抽出部５０ａ，５０ｂと、推定部５２とについて機械学習を行う。情報処理装置は、機械学習を行った特徴抽出部５０ａ，５０ｂと、推定部５２とを用いて、各物体を特定する。

図１３は、本実施例２に係る情報処理装置の構成を示す機能ブロック図である。図１３に示すように、この情報処理装置２００は、通信部２１０と、入力部２２０と、表示部２３０と、記憶部２４０と、制御部２５０とを有する。

通信部２１０、入力部２２０、表示部２３０に関する説明は、実施例１で説明した通信部１１０、入力部１２０、表示部１３０に関する説明と同様である。

記憶部２４０は、学習データ２４１と、画像テーブル２４２と、特徴抽出モデル２４３と、推定モデル２４４とを有する。記憶部２４０は、ＲＡＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

学習データ２４１は、機械学習を実行する場合に用いられるデータである。図１４は、本実施例２に係る学習データのデータ構造の一例を示す図である。図１４に示すように、学習データ２４１は、項番と、入力データと、正解データ（ＧＴ）とを対応付けて保持する。入力データには、学習用の背景画像データと、学習用の対象画像データが含まれる。正解データには、ＢＢＯＸのＧＴ（物体の領域の座標）が含まれる。

画像テーブル２４２は、推論時に利用する背景画像データ、対象画像データを保持するテーブルである。

特徴抽出モデル２４３は、特徴抽出部５０ａ，５０ｂで実行される機械学習モデル（ＣＮＮ）である。特徴抽出モデル２４３に、画像データを入力すると、画像特徴量が出力される。

推定モデル２４４は、推定部５２で実行される機械学習モデル（ＣＮＮ）である。推定モデル２４４に、背景画像特徴量と、対象画像特徴量とを入力すると、ＢＢＯＸが出力される。

制御部２５０は、取得部２５１、学習処理部２５２、推論処理部２５３を有する。制御部２５０は、ＣＰＵ等に対応する。

取得部２５１は、外部装置等から、学習データ２４１を取得した場合に、取得した学習データ２４１を、記憶部２４０に登録する。

取得部２５１は、カメラ１０から、背景画像データを事前に取得し、画像テーブル２４２に登録する。取得部２５１は、カメラ１０から、対象画像データを取得し、画像テーブル２４２に登録する。

学習処理部２５２は、学習データ２４１を基にして、特徴抽出部５０ａ，５０ｂ（特徴抽出モデル２４３）、推定部５２（推定モデル２４４）の機械学習を実行する。

図１５は、本実施例２に係る学習処理部の処理を説明するための図である。たとえば、学習処理部２５２は、特徴抽出部５０ａ，５０ｂ、合成部５１ａ、推定部５２を有する。また、学習処理部２５２は、誤差算出部８０と、重み更新値算出部８１とを有する。以下の説明では、適宜、特徴抽出部５０ａ，５０ｂ、推定部５２をまとめて、「ニューラルネットワーク」と表記する。

特徴抽出部５０ａ，５０ｂの処理は、図２で行った説明と同様である。たとえば、特徴抽出部５０ａ，５０ｂは、特徴抽出モデル１４３を読み出して実行する。特徴抽出部５０ａ，５０ｂは、特徴抽出モデル２４３に、画像データを入力し、特徴抽出モデル２４３のパラメータに基づいて、画像特徴量を算出する。

合成部５１ａは、背景画像特徴量と、対象画像特徴量とを合成し、合成した特徴量を推定部５２に出力する。

推定部５２は、推定モデル２４４を読み出して実行する。推定部５２は、推定モデル２４４を読み出して実行する。推定部５２は、推定モデル２４４に、合成した特徴量を入力し、推定モデル２４４のパラメータに基づいて、各物体のＢＢＯＸを特定する。推定モデル２４４は、ＢＢＯＸを誤差算出部８０に出力する。

学習処理部２５２は、学習データ２４１から、学習用の背景画像データ２６ａを取得し、特徴抽出部５０ａに入力する。学習処理部２５２は、学習データ２４１から、学習用の対象画像データ２６ｂを取得し、特徴抽出部５０ｂに入力する。学習処理部２５２は、学習データ２４１から、ＢＢＯＸのＧＴを取得し、誤差算出部８０に入力する。

誤差算出部８０は、推定部５２から出力されるＢＢＯＸと、学習データ２４１のＢＢＯＸのＧＴとの誤差を算出する。誤差算出部８０は、算出した誤差を、重み更新値算出部８１に出力する。

重み更新値算出部８１は、誤差が小さくなるように、ニューラルネットワークのパラメータ（重み）を更新する。たとえば、重み更新値算出部８１は、誤差逆伝播法等を用いて、特徴抽出部５０ａ，５０ｂ（特徴抽出モデル２４３）、推定部５２（推定モデル２４４）のパラメータを更新する。

学習処理部２５２は、学習データ２４１に格納された各入力データ、正解データを用いて、上記処理を繰り返し実行する。学習処理部２５２は、機械学習済みの特徴抽出モデル２４３、推定モデル２４４を、記憶部２４０に登録する。

図１３の説明に戻る。推論処理部２５３は、機械学習済みの特徴抽出部５０ａ，５０ｂ（特徴抽出モデル２４３）、推定部５２（推定モデル２４４）を用いて、背景画像データには存在しないで、対象画像データに存在する物体の領域を特定する。

図１６は、本実施例２に係る推論処理部の処理を説明するための図である。たとえば、推論処理部２５３は、特徴抽出部５０ａ，５０ｂ、合成部５１ａ、推定部５２を有する。

特徴抽出部５０ａ，５０ｂの処理は、図２で行った説明と同様である。たとえば、特徴抽出部５０ａ，５０ｂは、機械学習済みの特徴抽出モデル２４３を読み出して実行する。特徴抽出部５０ａ，５０ｂは、特徴抽出モデル２４３に、画像データを入力し、特徴抽出モデル２４３のパラメータに基づいて、画像特徴量を算出する。

推定部５２の処理は、図２で説明した説明と同様である。たとえば、推定部５２は、学習済みの推定モデル２４４を読み出して実行する。推定部５２は、推定モデル２４４を読み出して実行する。推定部５２は、推定モデル２４４に、背景画像特徴量と、対象画像特徴量とを合成した情報を入力し、推定モデル２４４のパラメータに基づいて、各物体のＢＢＯＸを特定する。

推論処理部２５３は、画像テーブル２４２から、背景画像データ２５ａを取得し、特徴抽出部５０ａに入力する。推論処理部２５３は、画像テーブル２４２から、対象画像データ２５ｂを取得し、特徴抽出部５０ｂに入力する。推論処理部２５３は、推定部５２によって特定されるＢＢＯＸの情報を、表示部２３０に出力してもよいし、外部装置に出力してもよい。

次に、本実施例２に係る情報処理装置２００の処理手順の一例について説明する。以下では、情報処理装置２００が実行する学習処理の処理手順と、推論処理の処理手順について順に説明を行う。

学習処理の処理手順について説明する。図１７は、本実施例２に係る学習処理の処理手順を示すフローチャートである。図１７に示すように、情報処理装置２００の学習処理部２５２は、学習データ２４１から背景画像データを取得する（ステップＳ３０１）。学習処理部２５２の特徴抽出部５０ａは、背景画像データを基にして、背景画像特徴量を抽出する（ステップＳ３０２）。

学習処理部２５２は、学習データ２４１から対象画像データを取得する（ステップＳ３０３）。学習処理部２５２の特徴抽出部５０ｂは、対象画像データを基にして、対象画像特徴量を抽出する（ステップＳ３０４）。

学習処理部２５２の合成部５１ａは、背景画像特徴量と、対象画像特徴量とを合成する（ステップＳ３０５）。学習処理部２５２の推定部５２は、合成した特徴量を基にして、ＢＢＯＸを推定する（ステップＳ３０６）。

学習処理部２５２は、学習データ２４１からＢＢＯＸのＧＴを取得する（ステップＳ３０７）。誤差算出部８０は、ＢＢＯＸと、ＢＢＯＸのＧＴとを基にして、誤差を算出する（ステップＳ３０８）。

学習処理部２５２の重み更新値算出部８１は、ニューラルネットワークのパラメータの更新値を算出する（ステップＳ３０９）。学習処理部２５２は、ニューラルネットワークのパラメータを更新する（ステップＳ３１０）。

学習処理部２５２は、機械学習を継続する場合には（ステップＳ３１１，Ｙｅｓ）、ステップＳ３０１に移行する。機械学習を継続しない場合には（ステップＳ３１１，Ｎｏ）、ニューラルネットワークの機械学習を終了する。

続いて、推論処理の処理手順について説明する。図１８は、本実施例２に係る推論処理の処理手順を示すフローチャートである。図１８に示すように、情報処理装置２００の推論処理部２５３は、画像テーブル２４２から背景画像データを取得する（ステップＳ４０１）。推論処理部２５３の特徴抽出部５０ａは、背景画像データを基にして、背景画像特徴量を抽出する（ステップＳ４０２）。

推論処理部２５３は、画像テーブル２４２から対象画像データを取得する（ステップＳ４０３）。推論処理部２５３の特徴抽出部５０ｂは、対象画像データを基にして、対象画像特徴量を抽出する（ステップＳ４０４）。

推論処理部２５３の合成部５１ａは、背景画像特徴量と、対象画像特徴量とを合成する（ステップＳ４０５）。

推論処理部２５３の推定部５２は、合成された特徴量を基にして、ＢＢＯＸを推定する（ステップＳ４０６）。

次に、本実施例２に係る情報処理装置２００の効果について説明する。情報処理装置２００は、背景画像データを特徴抽出部５０ａに入力し、対象画像データを特徴抽出部５０ｂに入力することで、背景画像特徴量、対象画像特徴量を抽出する。情報処理装置１００は、背景画像特徴量、対象画像特徴量を合成した特徴量を、推定部５２に入力することで、物体の領域を特定する。これによって、対象画像データに含まれる物体が事前に学習していない未知の物体でも、各物体を弁別して検出することができる。

次に、本実施例３に係るシステムの一例について説明する。図１９は、本実施例３に係るシステムを示す図である。図１９に示すように、このシステムは、セルフレジ５と、カメラ１０と、情報処理装置３００とを有する。セルフレジ５、カメラ１０、情報処理装置３００は、有線または無線によって接続されている。

ユーザ１は、仮置台６に置かれた商品２を手に取り、セルフレジ５に対して、商品２のバーコードをスキャンする操作を行い、包装するものとする。

セルフレジ５は、商品を購入するユーザ１が、商品のバーコードの読み取りから精算までを行うＰＯＳ（Point of sale）レジシステムである。たとえば、ユーザ１が、購入対象の商品を、セルフレジ５のスキャン領域に移動させると、セルフレジ５は、商品のバーコードをスキャンする。セルフレジ５は、ユーザ１によるスキャンが完了した際に、スキャンした商品の点数の情報を、情報処理装置３００に通知する。以下の説明では、スキャンされた商品の点数の情報を、「スキャン情報」と表記する。

カメラ１０は、セルフレジ５の仮置台６を撮影するカメラである。カメラ１０は、撮影範囲の画像データを、情報処理装置３００に送信する。カメラ１０は、予め、商品が置かれていない仮置台６の画像データ（背景画像データ）を、情報処理装置３００に送信しておくものとする。カメラ１０は、仮置台６に購入対象となる商品が置かれた場合に、仮置台６の画像データ（対象画像データ）を、情報処理装置３００に送信する。

情報処理装置３００は、実施例１で説明した情報処理装置１００と同様にして、ニューラルネットワークの機械学習を行っておく。ニューラルネットワークには、特徴抽出部５０ａ，５０ｂ、合成部５１ａ，５１ｂ、推定部５２、位置座標特徴量出力部５３、マスク生成部５４が含まれる。

情報処理装置３００は、背景画像データと、対象画像データとを機械学習済みのニューラルネットワークに入力することで、対象画像データに含まれる各物体を特定する。情報処理装置３００は、特定した物体をカウントして、商品点数を特定する。情報処理装置３００は、特定した商品点数と、スキャン情報に含まれる商品点数とが一致しない場合に、スキャン漏れを検出する。

たとえば、情報処理装置３００は、背景画像データと、対象画像データとをニューラルネットワークに入力した結果を出力結果７０とする。出力結果７０には、ＢＢＯＸ７０ａ，７０ｂ，７０ｃの３つのＢＢＯＸが含まれているため、情報処理装置３００は、商品点数を「３」として特定する。情報処理装置３００は、スキャン情報に含まれる商品点数が「３」未満の場合には、スキャン漏れを検知する。情報処理装置３００は、スキャン漏れを、図示しない管理サーバ等に通知してもよい。

上記のように、実施例１，２で説明した情報処理装置１００（２００）を、図１９に示すシステムに適用することで、バーコードの読み取りを行わない等のユーザの不正を検出することができる。

次に、上記実施例に示した情報処理装置１００（２００，３００）と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図２０は、情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図２０に示すように、コンピュータ４００は、各種演算処理を実行するＣＰＵ４０１と、ユーザからのデータの入力を受け付ける入力装置４０２と、ディスプレイ４０３とを有する。また、コンピュータ４００は、カメラ１０から距離画像のデータを受信する通信装置４０４と、各種の装置と接続するインタフェース装置４０５とを有する。コンピュータ４００は、各種情報を一時記憶するＲＡＭ４０６と、ハードディスク装置４０７とを有する。そして、各装置４０１～４０７は、バス４０８に接続される。

ハードディスク装置４０７は、取得プログラム４０７ａ、学習処理プログラム４０７ｂ、推論処理プログラム４０７ｃを有する。ＣＰＵ４０１は、取得プログラム４０７ａ、学習処理プログラム４０７ｂ、推論処理プログラム４０７ｃを読み出してＲＡＭ４０６に展開する。

取得プログラム４０７ａは、取得プロセス４０６ａとして機能する。学習処理プログラム４０７ｂは、学習処理プロセス４０６ｂとして機能する。推論処理プログラム４０７ｃは、推論処理プロセス４０６ｃとして機能する。

取得プロセス４０６ａの処理は、取得部１５１，２５１の処理に対応する。学習処理プロセス４０６ｂの処理は、学習処理部１５２，２５２の処理に対応する。推論処理プロセス４０６ｃの処理は、推論処理部１５３，２５３の処理に対応する。

なお、各プログラム４０７ａ～４０７ｃについては、必ずしも最初からハードディスク装置４０７に記憶させておかなくてもよい。例えば、コンピュータ４００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ４００が各プログラム４０７ａ～４０７ｃを読み出して実行するようにしてもよい。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）物体が配置すべきエリアが撮影された背景画像と、物体とエリアとが撮影された対象画像とを入力データとし、前記背景画像には存在しないが前記対象画像には存在する物体に関連する情報を正解データとする学習データを取得し、
前記学習データを基にして、前記対象画像と前記対象画像とを機械学習モデルに入力した際に前記機械学習モデルから出力される結果と、前記正解データとに基づいて、前記機械学習モデルに対する機械学習を実行する
処理をコンピュータに実行させることを特徴とする学習プログラム。

（付記２）前記機械学習モデルは、前記背景画像と、前記対象画像とが入力された場合に、中間特徴量を出力する特徴抽出モデルと、前記中間特徴量が入力された場合に、前記背景画像には存在しないが、前記対象画像には存在する物体の領域を出力する推定モデルを有し、
前記機械学習を実行する処理は、前記正解データに基づいて、前記特徴抽出モデルと、前記推定モデルに対する機械学習を実行することを特徴とする付記１に記載の学習プログラム。

（付記３）前記機械学習モデルは、前記中間特徴量が入力された場合に、前記背景画像には存在しないが前記対象画像には存在する物体の領域を示すマスク画像を出力する生成モデルを更に含み、前記正解データは、前記マスク画像に関する正解データを更に含み、
前記推定モデルは、前記中間特徴量および前記マスク画像が入力された場合に、物体の領域を出力し、
前記機械学習を実行する処理は、前記正解データに基づいて、前記生成モデルに対する機械学習を更に実行することを特徴とする付記２に記載の学習プログラム。

（付記４）前記推定モデルは、前記中間特徴量と、前記マスク画像と、座標値を画像平面状に配置した座標特徴量とが入力された場合に、物体の領域を出力し、
前記機械学習を実行する処理は、前記正解データに基づいて、前記推定モデルに対する機械学習を実行することを特徴とする付記３に記載の学習プログラム。

（付記５）物体が配置すべきエリアが撮影された背景画像と、物体とエリアとが撮影された対象画像とを入力データとし、前記背景画像には存在しないが前記対象画像には存在する物体に関連する情報を正解データとする学習データを取得し、
前記学習データを基にして、前記対象画像と前記対象画像とを機械学習モデルに入力した際に前記機械学習モデルから出力される結果と、前記正解データとに基づいて、前記機械学習モデルに対する機械学習を実行する
処理をコンピュータが実行することを特徴とする学習方法。

（付記６）前記機械学習モデルは、前記背景画像と、前記対象画像とが入力された場合に、中間特徴量を出力する特徴抽出モデルと、前記中間特徴量が入力された場合に、前記背景画像には存在しないが、前記対象画像には存在する物体の領域を出力する推定モデルを有し、
前記機械学習を実行する処理は、前記正解データに基づいて、前記特徴抽出モデルと、前記推定モデルに対する機械学習を実行することを特徴とする付記５に記載の学習方法。

（付記７）前記機械学習モデルは、前記中間特徴量が入力された場合に、前記背景画像には存在しないが前記対象画像には存在する物体の領域を示すマスク画像を出力する生成モデルを更に含み、前記正解データは、前記マスク画像に関する正解データを更に含み、
前記推定モデルは、前記中間特徴量および前記マスク画像が入力された場合に、物体の領域を出力し、
前記機械学習を実行する処理は、前記正解データに基づいて、前記生成モデルに対する機械学習を更に実行することを特徴とする付記６に記載の学習方法。

（付記８）前記推定モデルは、前記中間特徴量と、前記マスク画像と、座標値を画像平面状に配置した座標特徴量とが入力された場合に、物体の領域を出力し、
前記機械学習を実行する処理は、前記正解データに基づいて、前記推定モデルに対する機械学習を実行することを特徴とする付記７に記載の学習方法。

（付記９）物体が配置すべきエリアが撮影された背景画像と、物体とエリアとが撮影された対象画像とを入力データとし、前記背景画像には存在しないが前記対象画像には存在する物体に関連する情報を正解データとする学習データを取得する取得部と、
前記学習データを基にして、前記対象画像と前記対象画像とを機械学習モデルに入力した際に前記機械学習モデルから出力される結果と、前記正解データとに基づいて、前記機械学習モデルに対する機械学習を実行する学習処理部と
を有することを特徴とする情報処理装置。

（付記１０）前記機械学習モデルは、前記背景画像と、前記対象画像とが入力された場合に、中間特徴量を出力する特徴抽出モデルと、前記中間特徴量が入力された場合に、前記背景画像には存在しないが、前記対象画像には存在する物体の領域を出力する推定モデルを有し、
前記学習処理部は、前記正解データに基づいて、前記特徴抽出モデルと、前記推定モデルに対する機械学習を実行することを特徴とする付記９に記載の情報処理装置。

（付記１１）前記機械学習モデルは、前記中間特徴量が入力された場合に、前記背景画像には存在しないが前記対象画像には存在する物体の領域を示すマスク画像を出力する生成モデルを更に含み、前記正解データは、前記マスク画像に関する正解データを更に含み、
前記推定モデルは、前記中間特徴量および前記マスク画像が入力された場合に、物体の領域を出力し、
前記学習処理部は、前記正解データに基づいて、前記生成モデルに対する機械学習を更に実行することを特徴とする付記１０に記載の情報処理装置。

（付記１２）前記推定モデルは、前記中間特徴量と、前記マスク画像と、座標値を画像平面状に配置した座標特徴量とが入力された場合に、物体の領域を出力し、
前記学習処理部は、前記正解データに基づいて、前記推定モデルに対する機械学習を実行することを特徴とする付記１１に記載の情報処理装置。

５０ａ，５０ｂ特徴抽出部
５１ａ，５１ｂ，６１合成部
５２推定部
５３位置座標特徴量出力部
５４マスク生成部
６０ａ，６０ｂ誤差算出部
６２重み更新値算出部
１００，２００，３００情報処理装置
１１０，２１０通信部
１２０，２２０入力部
１３０，２３０表示部
１４０，２４０記憶部
１４１学習データ
１４２画像テーブル
１４３特徴抽出モデル
１４４生成モデル
１４５推定モデル
１５０，２５０制御部
１５１，２５１取得部
１５２，２５２学習処理部
１５３，２５３推論処理部

Claims

物体が配置すべきエリアが撮影された背景画像と、物体とエリアとが撮影された対象画像とを入力データとし、前記背景画像には存在しないが前記対象画像には存在する物体に関連する情報を正解データとする学習データを取得し、
前記学習データを基にして、前記対象画像と前記対象画像とを機械学習モデルに入力した際に前記機械学習モデルから出力される結果と、前記正解データとに基づいて、前記機械学習モデルに対する機械学習を実行する
処理をコンピュータに実行させることを特徴とする学習プログラム。
前記機械学習モデルは、前記背景画像と、前記対象画像とが入力された場合に、中間特徴量を出力する特徴抽出モデルと、前記中間特徴量が入力された場合に、前記背景画像には存在しないが、前記対象画像には存在する物体の領域を出力する推定モデルを有し、
前記機械学習を実行する処理は、前記正解データに基づいて、前記特徴抽出モデルと、前記推定モデルに対する機械学習を実行することを特徴とする請求項１に記載の学習プログラム。
前記機械学習モデルは、前記中間特徴量が入力された場合に、前記背景画像には存在しないが前記対象画像には存在する物体の領域を示すマスク画像を出力する生成モデルを更に含み、前記正解データは、前記マスク画像に関する正解データを更に含み、
前記推定モデルは、前記中間特徴量および前記マスク画像が入力された場合に、物体の領域を出力し、
前記機械学習を実行する処理は、前記正解データに基づいて、前記生成モデルに対する機械学習を更に実行することを特徴とする請求項２に記載の学習プログラム。
前記推定モデルは、前記中間特徴量と、前記マスク画像と、座標値を画像平面状に配置した座標特徴量とが入力された場合に、物体の領域を出力し、
前記機械学習を実行する処理は、前記正解データに基づいて、前記推定モデルに対する機械学習を実行することを特徴とする請求項３に記載の学習プログラム。
物体が配置すべきエリアが撮影された背景画像と、物体とエリアとが撮影された対象画像とを入力データとし、前記背景画像には存在しないが前記対象画像には存在する物体に関連する情報を正解データとする学習データを取得し、
前記学習データを基にして、前記対象画像と前記対象画像とを機械学習モデルに入力した際に前記機械学習モデルから出力される結果と、前記正解データとに基づいて、前記機械学習モデルに対する機械学習を実行する
処理をコンピュータが実行することを特徴とする学習方法。
物体が配置すべきエリアが撮影された背景画像と、物体とエリアとが撮影された対象画像とを入力データとし、前記背景画像には存在しないが前記対象画像には存在する物体に関連する情報を正解データとする学習データを取得する取得部と、
前記学習データを基にして、前記対象画像と前記対象画像とを機械学習モデルに入力した際に前記機械学習モデルから出力される結果と、前記正解データとに基づいて、前記機械学習モデルに対する機械学習を実行する学習処理部と
を有することを特徴とする情報処理装置。