JP7267483B2

JP7267483B2 - 物体認識システム、位置情報取得方法、及びプログラム

Info

Publication number: JP7267483B2
Application number: JP2022062530A
Authority: JP
Inventors: 美廷金; 永男蔡
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2020-01-29
Filing date: 2022-04-04
Publication date: 2023-05-01
Anticipated expiration: 2040-01-29
Also published as: JP2022079775A

Description

本開示は、物体認識システム、位置情報取得方法、及びプログラムに関する。

従来、画像に含まれる物体を認識する技術が知られている。例えば、特許文献１には、動画における最初のフレームでユーザが指定した範囲をテンプレート画像としてテンプレートマッチングを実行し、それ以降のフレームで当該範囲内の物体を認識して追跡する技術が記載されている。また例えば、特許文献２には、追跡対象となる範囲を正例とし、追跡対象ではない範囲を負例とする教師データにより学習された学習モデルに基づいて、物体を認識して追跡する技術が記載されている。

特開２０１１－４０９９３号公報特開２０１７－３３１７５号公報

しかしながら、従来の技術では、認識の対象となる範囲をユーザが指定する必要があるので、ユーザに負担がかかっていた。例えば、複数の種類の物体を認識しようとすると、その種類の数だけユーザが範囲を指定する必要があるので、特に負担がかかる。

本開示の目的の１つは、物体認識におけるユーザの負担を軽減することである。

本開示に係る物体認識システムは、物体を認識する学習モデルに、入力画像を入力する入力手段と、前記入力画像が入力された前記学習モデルによる認識の根拠となった位置に関する第１情報を取得する第１取得手段と、前記入力画像に含まれる動体又は前景の位置に関する第２情報を取得する第２取得手段と、前記第１情報と前記第２情報とに基づいて、前記入力画像に含まれる前記物体の位置に関する位置情報を取得する位置情報取得手段と、を含む。

本開示に係る位置情報取得方法は、物体を認識する学習モデルに、入力画像を入力する入力ステップと、前記入力画像が入力された前記学習モデルによる認識の根拠となった位置に関する第１情報を取得する第１取得ステップと、前記入力画像に含まれる動体又は前景の位置に関する第２情報を取得する第２取得ステップと、前記第１情報と前記第２情報とに基づいて、前記入力画像に含まれる前記物体の位置に関する位置情報を取得する位置情報取得ステップと、を含む。

本開示に係るプログラムは、物体を認識する学習モデルに、入力画像を入力する入力手段、前記入力画像が入力された前記学習モデルによる認識の根拠となった位置に関する第１情報を取得する第１取得手段、前記入力画像に含まれる動体又は前景の位置に関する第２情報を取得する第２取得手段、前記第１情報と前記第２情報とに基づいて、前記入力画像に含まれる前記物体の位置に関する位置情報を取得する位置情報取得手段、としてコンピュータを機能させる。

本開示の一態様によれば、前記第１情報は、前記学習モデルによる認識の根拠としての強さを示す値を前記入力画像の画素ごとに特定可能な情報であり、前記第２情報は、前記動体又は前記前景としての強さを示す値を前記入力画像の画素ごとに特定可能な情報である。

本開示の一態様によれば、前記位置情報取得手段は、前記第１情報から特定される前記入力画像における各画素に対応する値と、前記第２情報から特定される前記入力画像における各画素に対応する値と、を所定の数式で足し合わせた結果に基づいて、前記位置情報を取得する。

本開示の一態様によれば、前記物体認識システムは、前記入力画像に含まれる前記物体を把持する他の物体の位置に関する第３情報を取得する第３取得手段を更に含み、前記位置情報取得手段は、前記第３情報に更に基づいて、前記位置情報を取得する。

本開示の一態様によれば、前記第１情報は、前記学習モデルによる認識の根拠としての強さを示す値を前記入力画像の画素ごとに特定可能な情報であり、前記第２情報は、前記動体又は前記前景としての強さを示す値を前記入力画像の画素ごとに特定可能な情報であり、前記第３情報は、前記他の物体の位置としての強さを示す値を前記入力画像の画素ごとに特定可能な情報である。

本開示の一態様によれば、前記位置情報取得手段は、前記第１情報から特定される前記入力画像における各画素に対応する値と、前記第２情報から特定される前記入力画像における各画素に対応する値と、を所定の数式で足し合わせ、前記第３情報から特定される前記入力画像における各画素に対応する値を所定の数式で差し引いた結果に基づいて、前記位置情報を取得する。

本開示の一態様によれば、前記位置情報取得手段は、前記第１情報に応じた重み付けに更に基づいて、前記位置情報を取得する。

本開示の一態様によれば、前記位置情報は、前記物体を含む領域を示し、前記位置情報取得手段は、前記領域の候補を複数取得し、複数の当該候補のうち最もサイズが大きい候補に基づいて、前記位置情報を取得する。

本開示の一態様によれば、前記入力画像には、複数の種類の前記物体が含まれており、前記位置情報取得手段は、前記入力画像に含まれる前記物体の種類ごとに、前記位置情報を取得する。

本開示の一態様によれば、前記物体認識システムは、前記入力画像と前記位置情報とに基づいて生成された教師データに基づいて、前記物体の位置を認識する他の学習モデルの学習処理を実行する学習手段、を更に含む。

本開示の一態様によれば、前記入力画像は、動画におけるフレームであり、前記位置情報取得手段は、前記フレームごとに前記位置情報を取得し、前記学習手段は、前記動画から生成された複数の前記教師データを含む教師データセットに基づいて、前記学習処理を実行する。

本開示の一態様によれば、前記入力画像は、動画におけるフレームであり、前記物体認識システムは、前記位置情報に基づいて、前記動画に含まれる前記物体を追跡する追跡手段を更に含む。

本開示の一態様によれば、前記学習モデルは、前記物体の種類を分類する分類器、又は、前記物体の有無を判定する判定器である。

本開示の一態様によれば、前記位置情報は、前記物体を含むバウンディングボックスに関する情報である。

本開示によれば、物体認識におけるユーザの負担を軽減できる。

物体認識システムの全体構成を示す図である。自動販売機の一例を示す図である。学習装置が実行する処理の流れを示す図である。物体認識システムで実現される機能の一例を示す機能ブロック図である。教師データセットのデータ格納例を示す図である。買い物かごデータのデータ格納例を示す図である。利用者データベースのデータ格納例を示す図である。学習処理の一例を示すフロー図である。販売処理の一例を示すフロー図である。変形例（２）における機能ブロック図である。

［１．物体認識システムの全体構成］
以下、物体認識システムの実施形態の例を説明する。図１は、物体認識システムの全体構成を示す図である。図１に示すように、物体認識システムＳは、学習装置１０、自動販売機２０、及びサーバ３０を含み、これらは、インターネットなどのネットワークＮに接続可能である。なお、図１では、学習装置１０、自動販売機２０、及びサーバ３０の各々を１台ずつ示しているが、これらは複数台あってもよい。

学習装置１０は、管理者が操作するコンピュータである。例えば、学習装置１０は、パーソナルコンピュータ、携帯情報端末（タブレット型コンピュータを含む）、又は携帯電話機（スマートフォンを含む）等である。学習装置１０は、制御部１１、記憶部１２、通信部１３、操作部１４、表示部１５、及び撮影部１６を含む。

制御部１１は、少なくとも１つのプロセッサを含む。制御部１１は、記憶部１２に記憶されたプログラム及びデータに従って処理を実行する。記憶部１２は、主記憶部及び補助記憶部を含む。主記憶部は、ＲＡＭなどの揮発性メモリである。補助記憶部は、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、又はハードディスクなどの不揮発性メモリである。通信部１３は、有線通信又は無線通信用の通信インタフェースである。通信部１３は、ネットワークＮを介してデータ通信を行う。

操作部１４は、入力デバイスである。例えば、操作部１４は、タッチパネルやマウス等のポインティングデバイス、キーボード、又はボタンである。操作部１４は、利用者による操作内容を制御部１１に伝達する。表示部１５は、液晶表示部又は有機ＥＬ表示部等である。表示部１５は、制御部１１の指示に従って画像を表示する。

撮影部１６は、少なくとも１つのカメラを含む。例えば、撮影部１６は、センサＣＣＤ又はＳＭＯＳセンサの検出信号に基づいて、画像を生成する。撮影部１６は、静止画を生成してもよいし、所定のフレームレートに基づいて動画を生成してもよい。撮影部１６は、深度カメラ又は赤外線カメラを含んでもよい。

自動販売機２０は、無人で商品を販売する装置である。自動販売機２０は、屋内に配置されてもよいし、屋外に配置されてもよい。自動販売機２０は、所定の位置に固定されていてもよいし、人手で又は自律的に移動可能であってもよい。例えば、自動販売機２０は、制御部２１、記憶部２２、通信部２３、操作部２４、表示部２５、及び撮影部２６を含む。制御部２１、記憶部２２、通信部２３、操作部２４、表示部２５、及び撮影部２６の物理的構成は、それぞれ制御部１１、記憶部１２、通信部１３、操作部１４、表示部１５、及び撮影部１６と同様であってよい。

サーバ３０は、サーバコンピュータである。例えば、サーバ３０は、制御部３１、記憶部３２、及び通信部３３を含む。制御部３１、記憶部３２、及び通信部３３の物理的構成は、それぞれ制御部１１、記憶部１２、及び通信部１３と同様であってよい。

なお、記憶部１２，２２，３２に記憶されるものとして説明するプログラム及びデータは、ネットワークＮを介して供給されてもよい。また、学習装置１０、自動販売機２０、及びサーバ３０の各々のハードウェア構成は、上記の例に限られず、種々のハードウェアを適用可能である。例えば、コンピュータ読み取り可能な情報記憶媒体を読み取る読取部（例えば、光ディスクドライブやメモリカードスロット）や外部機器とデータの入出力をするための入出力部（例えば、ＵＳＢポート）が含まれていてもよい。例えば、情報記憶媒体に記憶されたプログラムやデータが、読取部や入出力部を介して供給されてもよい。

［２．物体認識システムの概要］
本実施形態では、自動販売機２０が商品を販売する場面を例に挙げて、物体認識システムＳが実行する処理を説明する。自動販売機２０は、任意の商品を販売可能であり、例えば、食料品、飲料、文房具、日用品、又は雑貨を販売する。自動販売機２０は、少なくとも１つの種類の商品を販売する。商品は、その種類に応じた外観を有する。外観とは、商品の見た目であり、例えば、形状、サイズ、色、及び模様の少なくとも１つである。商品には、その種類に応じた価格が設定される。

図２は、自動販売機２０の一例を示す図である。図２に示すように、本実施形態では、複数の種類の商品が自動販売機２０の中に陳列されている。例えば、自動販売機２０は、扉を有しており、利用者は外から商品を視認できる。自動販売機２０の扉は、公知のロック機構によりロックされている。自動販売機２０の前に移動した利用者が認証されると、扉のロックが解除される。

利用者は、事前に利用登録を済ませており、認証に必要な情報は、サーバ３０に予め登録されている。本実施形態では、顔認証を例に挙げて説明するが、任意の種類の認証を適用可能である。例えば、指紋認証などの他の生体認証、利用者の端末を利用した認証、ＩＣカードを利用した認証、パスコード認証、又はパスワード認証が適用されてもよい。また例えば、複数の認証を組み合わせた多段階認証であってもよい。

図２に示すように、撮影部２６は、扉の正面を向くように配置される。図２の例では、撮影部２６が扉の上に配置されているが、撮影部２６は、利用者が商品を手に取る様子を撮影可能な位置であれば、他の位置に配置可能である。本実施形態では、撮影部２６が固定されており、撮影部２６の位置及び向きが変化しない。このため、撮影部２６により生成される撮影画像が示す背景は、原則として変わらない。なお、撮影部２６は、位置及び向きの少なくとも一方が変化してもよい。また、自動販売機２０は、互いに異なる場所を撮影可能な複数の撮影部２６を含んでもよい。

例えば、表示部２５には、商品を購入するための操作手順が表示される。利用者は、表示部２５に表示された操作手順を確認し、操作部２４を操作してボタンを選択する。撮影部２６は、所定のフレームレートに基づいて連続的に撮影し、撮影画像を生成する。以降、連続的に撮影された個々の撮影画像をフレームと記載する。動画に含まれる個々の静止画（コマ）もフレームである。利用者は、撮影部２６の前に移動して自身の顔を撮影させる。自動販売機２０は、サーバ３０に対し、連続的にフレームを送信する。

サーバ３０は、フレームを受信すると、公知の顔認証アルゴリズムに基づいて、利用者の顔認証を実行する。サーバ３０は、自動販売機２０に対し、顔認証が成功したか否かを示す認証結果を送信する。自動販売機２０は、認証結果を受信し、認証結果が失敗を示す場合には、扉のロックを解除せず、所定のエラーメッセージを表示部２５に表示させる。この場合、再び顔認証が実行されてもよいし、指紋認証又はパスワード認証などの他の認証が実行されてもよい。

自動販売機２０は、認証結果が成功を示す場合には、扉のロックを解除し、顔認証が成功したことを示すメッセージを表示部２５に表示させる。扉のロックが解除されると、利用者は、扉を開けて商品を取り出すことができる。利用者は、扉を開けてから閉じるまでの間、自動販売機２０の庫内から任意の商品を取り出すことができる。利用者は、一度取り出した商品を庫内に戻すこともできる。

例えば、利用者が扉を閉じた場合に、予め登録されたクレジットカード情報に基づいて、取り出された商品の決済が実行される。このため、自動販売機２０は、利用者が扉を閉めた時点で取り出されている商品を特定する必要がある。例えば、利用者が取り出した商品だったとしても、その後に自動販売機２０の庫内に戻した商品については、決済の対象とはならない。

本実施形態では、自動販売機２０は、記憶部２２に記憶された学習モデルを利用して撮影部２６のフレームを解析し、利用者が取り出した商品を特定する。自動販売機２０は、利用者が扉を開けてから閉めるまでの間、学習モデルを利用してフレームに対する画像解析を行う。

学習モデルは、教師あり機械学習におけるモデルである。学習モデルという言葉自体は、学習済みのモデルを意味してもよいし、学習前のモデルを意味してもよい。例えば、後述する学習モデルＭ１は、学習済みモデルを意味する。後述する学習モデルＭ２は、後述する学習部１０７による学習処理が実行される前であれば学習前のモデルを意味し、学習処理が実行された後であれば学習済みのモデルを意味する。学習モデルは、プログラム及びパラメータを含み、教師データに基づく学習処理によってパラメータの調整が行われる。教師データの詳細は、後述する。機械学習自体は、画像認識で利用される手法であればよく、例えば、ＣＮＮ（Convolutional Neural Network）、ＲｅｓＮｅｔ（Residual Network）、又はＲＮＮ（Recurrent Neural Network）であってよい。

本実施形態の学習モデルは、画像に含まれる物体を認識する認識器である。例えば、学習モデルは、物体の種類を分類する分類器、又は、物体の有無を判定する判定器である。

分類器は、複数の種類の中で物体を分類するモデルである。分類は、ラベルということもでき、物体を分類することは、ラベリングということもできる。分類器は、自動販売機２０が取り扱う商品の種類を最低限分類できればよく、それ以上の種類を分類可能であってもよい。例えば、商品の種類は、商品の名前、型番、又はコード情報（例えば、ＪＡＮコード又はＥＡＮコード）によって識別される。

判定器は、所定種類の物体があるか否かを判定するモデルである。判定器は、１種類の物体の有無だけを判定してもよいし、複数の種類の物体の何れかの有無を判定してもよい。ただし、複数の種類の物体を判定可能な判定器については、どの種類に分類されるかまでは判定せず、何れかの種類の物体があるか否かだけが判定される。この点で、判定器と分類器は異なる。

本実施形態では、自動販売機２０が利用する学習モデルが分類器である場合を説明する。ただし、自動販売機２０が利用する学習モデルは、判定器であってもよい。この場合、自動販売機２０が取り扱う商品の種類ごとに判定器を用意すればよい。また、自動販売機２０が１種類の商品しか販売しない場合には、学習モデルは判定器となる。

学習モデルは、入力画像に含まれる物体を認識する。入力画像は、学習モデルに入力される画像である。別の言い方をすれば、入力画像は、学習モデルの処理対象（認識対象）となる画像である。自動販売機２０に記憶された学習モデルであれば、撮影部２６により生成された個々のフレームが入力画像に相当する。学習モデルは、入力画像の特徴量を計算し、特徴量に基づいて、入力画像に含まれる物体を認識する。

物体とは、入力画像に写された被写体である。入力画像には、物体の全部又は一部が写される。本実施形態では、商品が物体に相当する。このため、本実施形態で商品と記載した箇所は、物体と読み替えることができる。物体は、学習モデルにより認識可能なものであればよく、商品に限られない。この点は、後述する変形例で説明する。

認識とは、入力画像の分析、解析、理解、分類、又は識別を含む概念である。入力画像に含まれる物体を検出したり、入力画像における物体の位置を特定したりすることは、認識の一例である。物体の位置とは、入力画像のうち、物体が表れた少なくとも１つの画素の位置である。物体の位置は、１つの画素（１つの座標）だけで示されてもよいし、複数の画素からなる領域（複数の座標群）で示されてもよい。詳細は後述するが、本実施形態では、物体を囲うバウンディングボックスによって、物体の位置が示される。

例えば、自動販売機２０の学習モデルは、商品の種類と位置を認識する。商品の種類だけでなく位置を認識するのは、利用者が庫内に商品を戻す可能性があるからである。例えば、学習モデルがフレーム内の商品を認識した後に、当該商品がフレームの下方向に移動して認識できなくなった場合には、当該商品が戻されたと判定される。また例えば、学習モデルがフレーム内の商品を認識した後に、当該商品がフレームの左方向・上方向・右方向に移動して認識できなくなった場合には、当該商品が戻されておらず、利用者が商品を持っている（商品が単に視界から外れただけ）と判定される。

この点、商品のテンプレート画像を用意しておき、テンプレートマッチングを利用して商品を追跡することも考えられるが、利用者の手によって商品の一部が隠れることが多く、商品を追跡できないことがある。また、商品を手で隠したテンプレート画像を用意しようとすると、非常に手間がかかる。フレームから抽出した商品の特徴点を追跡しようとしても、商品の移動速度によっては特徴点を抽出できず、商品を追跡できないことがある。

そこで、本実施形態の自動販売機２０は、学習モデルに個々のフレームを入力して商品を認識する。即ち、自動販売機２０は、学習モデルによる認識を毎フレーム実行する。

なお、学習モデルによる認識は、毎フレームではなく、所定数のフレームごとに（例えば、３フレームごとに）実行されてもよい。また、自動販売機２０は、あるフレームで認識された商品の部分をテンプレート画像として利用し、以降のフレームでテンプレートマッチングを実行して商品を追跡してもよい。この場合、商品の向きが変わる可能性があるので、テンプレート画像は、随時更新されるものとする。テンプレート画像は、最新のフレームを学習モデルに入力して更新されるようにすればよい。

利用者が商品を取り出した後は、撮影部２６に対する商品の位置及び向きが一定になるとは限らないので、学習モデルには、種々の位置及び向きで撮影された商品を学習させる必要がある。この点、管理者が自動販売機２０の前で商品を動かす様子を撮影した動画を利用して、教師データを生成することが考えられる。

しかしながら、個々のフレームにおける商品の範囲を手動で指定しようとすると（全てのフレームに対して手動でアノテーションしようとすると）、管理者の負担が非常に大きくなる。そこで、本実施形態では、学習装置１０が、管理者が用意した動画における個々のフレームにおける商品の範囲を自動的に特定することによって、管理者の負担を軽減するようにしている。

図３は、学習装置１０が実行する処理の流れを示す図である。図３に示すように、学習装置１０は、動画における任意のフレームＦを学習モデルＭ１に入力する。本実施形態の動画は、自動販売機２０の前で撮影されているので、フレームＦに示された背景は、利用者が商品を購入する場合の背景と同じである。なお、動画は、他の場所で撮影されてもよい。

学習モデルＭ１は、自動販売機２０の学習モデル（以降、学習モデルＭ２と記載する）と同じであってもよいが、本実施形態では、自動販売機２０の学習モデルＭ２とは異なるモデルであるものとする。学習モデルＭ１は、学習モデルＭ２と同様、分類器であってもよいし、判定器であってもよい。学習モデルＭ１による「認識」や「物体」などの意味は、先述した通りである。

例えば、学習モデルＭ１は、ＣＮＮであり、物体を認識できるが、その位置までは認識できない。ＣＮＮを用意する場合には、認識対象の部分を正例とし、それ以外の部分を負例として学習させればよいので、学習モデルＭ１は比較的簡単に準備できる。学習モデルＭ１には、自動販売機２０が取り扱う商品の外観の特徴が学習されている。

図３に示すように、学習装置１０は、学習モデルＭ１の認識結果をもとに、Ｇｒａｄ－ＣＡＭのアルゴリズムＡを利用して、学習モデルＭ１の認識の根拠となる部分を可視化したヒートマップＨを生成する。なお、本実施形態では、物体を認識する手段（学習モデルＭ１）と、ヒートマップＨを生成する手段（Ｇｒａｄ－ＣＡＭのアルゴリズムＡ）と、が別々である場合を説明するが、これらは一体化されていてもよい。

図３に示すように、ヒートマップＨでは、学習モデルＭ１による認識の根拠となった位置が色によって表現される。例えば、ヒートマップＨは、入力画像であるフレームＦと同じサイズの画像であり、認識の根拠が強いほど（特徴的な部分ほど）色が濃くなる。ヒートマップＨでは、色を模式的に網点で示しており、網点の密度が高いほど色が濃く、網点の密度が低いほど色が薄いものとする。

なお、ヒートマップＨは、あくまで認識の根拠となった位置を示すので、色がついた部分がそのまま商品の位置になるとは限らない。例えば、商品のうち認識の根拠が強い部分に色が付き、認識の根拠として弱い部分には色が付かないので、ヒートマップＨでは、商品の一部分に色が付かないことがある。このため、ヒートマップＨで色がついた部分をそのままバウンディングボックスにしても精度が高くならないことが多い。例えば、外観の特徴が局所的に集まっている商品（商品中央のロゴ部分など）については、ヒートマップＨだけでは、商品全体の位置を正確に推定することはできない。

学習装置１０は、フレームＦに対し、動き検出処理を実行して動き画像Ｉ１を取得する。動き検出処理は、画像における動体を検出する処理である。動き検出処理自体は、公知のアルゴリズムを利用可能であり、例えば、フレーム間差分法又は背景差分法を利用してもよい。

本実施形態では、管理者が商品を手で持って動かす様子が動画に示されているので、動き検出処理により、管理者の手、腕、及び商品などの動体を示す動き画像が出力される。フレームＦにおける背景は、原則として動かないので、動き検出処理によって検出される部分は、前景ということもできる。

図３に示すように、動き画像Ｉ１では、フレームＦにおける動体の位置が色によって表現される。例えば、動き画像Ｉ１は、フレームＦと同じサイズの画像であり、動きが大きいほど明るい色になる。動き画像Ｉ１では、色の明るさを模式的に網点で示しており、網点の密度が高いほど暗く、網点の密度が低いほど明るいものとする。

学習装置１０は、ヒートマップＨと動き画像Ｉ１とを足し合わせた画像Ｉ２を取得する。画像Ｉ２は、ヒートマップＨと動き画像Ｉ１とが合成された画像であり、画素値の単純な加算であってもよいし、所定の重み付けがなされた加算であってもよい。例えば、画像Ｉ２は、ヒートマップＨと動き画像Ｉ１が総合的に考慮された画像であり、学習モデルＭ１による認識の根拠となり、動きがある画素の色が残る。このため、図３に示すように、画像Ｉ２では、管理者が手で持った商品周辺の領域が残る。

画像Ｉ２における色が濃い部分をそのまま商品の位置とみなしてもよいが、本実施形態では、管理者の手及び腕の部分を特定して除去するようにしている。学習装置１０は、フレームＦに対し、肌検出処理を実行して肌画像Ｉ３を取得する。肌検出処理は、画像における肌色の部分を検出する処理である。肌検出処理自体は、公知の処理を利用可能であり、例えば、肌の色を定義した色情報を利用する手法であってもよいし、近赤外肌検出法と呼ばれる手法を利用してもよい。

本実施形態の動画では、管理者が半袖の服を着ており、少なくとも手と腕が露出されているものとする。予め半袖の服を着ることを定めておけば、肌を検出することによって、ノイズになりうる部分を除去できるからである。半袖ではなく、所定の色の服を着るなどのようなルールを定めておいてもよい。図３に示すように、肌検出処理により、管理者の手及び腕を示す肌画像が出力される。例えば、肌画像Ｉ３は、フレームＦと同じサイズの画像であり、フレームＦのうち肌色の部分だけが残った画像である。

学習装置１０は、画像Ｉ２から肌画像Ｉ３を差し引いたうえで、ヒートマップＨに応じた重み付けマッピングを実行し、閾値化処理を実行する。重み付けマッピングでは、ヒートマップＨにおける色の濃さに応じた重み付けが設定される。このため、学習モデルＭ１による認識の根拠になった部分は、比較的信頼度が高いので、閾値化処理が実行された後に残りやすくなる。閾値化処理では、重み付けマッピング後の画像に対する二値化が行われる。二値化により色が残った部分は、商品である蓋然性が高い部分となる。

学習装置１０は、閾値化処理を実行した後に色が残った領域が１つだけであれば、その領域を囲うバウンディングボックスＢを取得する。学習装置１０は、閾値化処理を実行した後に色が残った領域が複数存在すれば、ＣＣＬ（Connected Component Labeling）により、最も大きな領域を囲うバウンディングボックスＢを取得する。例えば、バウンディングボックスＢは、商品である蓋然性の高い領域の外接矩形である。図３の例では、最終的に出力されるフレームＦの上にバウンディングボックスＢを描いている。

学習装置１０は、バウンディングボックスＢを取得したフレームＦを入力とし、認識された商品の種類及びバウンディングボックスＢを出力とする教師データを取得する。商品の種類は、学習モデルＭ１によって認識されてもよいし、管理者が予め指定してもよい。管理者が予め商品の種類を指定する場合には、学習モデルＭ１は、その種類の商品の有無を判定する判定器であってもよい。

例えば、学習装置１０は、動画中の全てのフレームＦに対し、図３に示した処理を実行してバウンディングボックスＢを取得する。学習装置１０は、バウンディングボックスＢを取得できたフレームＦについては、当該フレームＦを入力とし、認識された商品の種類及びバウンディングボックスＢを出力とする教師データを取得する。バウンディングボックスＢが認識されなかったフレームＦについては、教師データは取得されない。

学習装置１０は、動画から作成した全ての教師データを含む教師データセットを取得する。学習装置１０は、教師データセットに基づいて、学習前の学習モデルＭ２（物体の認識だけでなく、その位置まで認識できる学習モデル）の学習処理を実行する。学習済みの学習モデルＭ２は、自動販売機２０に送信される。教師データセットには、種々の位置及び向きで商品が撮影されたフレームが含まれているので、学習済みの学習モデルＭ２は、撮影部２６のフレームから商品の種類と位置を認識できる。

以上のように、本実施形態の物体認識システムＳは、ヒートマップＨ、動き画像Ｉ１、及び肌画像Ｉ３に基づいて、フレームＦ内のバウンディングボックスＢを取得する。このため、管理者が手動でバウンディングボックスＢを指定しなくてすむので、教師データを生成する際の管理者の負担を軽減できる。以降、物体認識システムＳの詳細を説明する。

［３．物体認識システムで実現される機能］
図４は、物体認識システムＳで実現される機能の一例を示す機能ブロック図である。本実施形態では、学習装置１０、自動販売機２０、及びサーバ３０の各々で実現される機能を説明する。

［３－１．学習装置で実現される機能］
図４に示すように、学習装置１０では、データ記憶部１００、入力部１０１、第１取得部１０２、第２取得部１０３、第３取得部１０４、位置情報取得部１０５、生成部１０６、及び学習部１０７が実現される。

[データ記憶部]
データ記憶部１００は、記憶部１２を主として実現される。データ記憶部１００は、本実施形態で説明する処理を実行するために必要なデータを記憶する。ここでは、データ記憶部１００が記憶するデータの一例として、教師データセットＤＳと、学習モデルＭ１，Ｍ２と、について説明する。

図５は、教師データセットＤＳのデータ格納例を示す図である。図５に示すように、教師データセットＤＳには、管理者が用意した動画における個々のフレームＦと、当該フレームＦに含まれる商品の分類情報及び位置情報と、を含む教師データが複数個格納されている。

教師データは、機械学習における学習で利用されるデータである。教師データは、訓練データ又は学習データと呼ばれることもある。例えば、教師データは、入力画像と同じ形式の画像と、正解となる分類情報及び位置情報と、がペアになったデータである。教師データは、入力（設問）と出力（回答）のペアである。判定器であれば、分類情報は省略してよい。機械学習では、多数の教師データを利用して学習処理が実行される。

本実施形態では、複数の教師データの集まりを教師データセットＤＳと記載し、教師データセットＤＳに含まれる１つ１つのデータを教師データと記載する。このため、本実施形態で教師データと記載した箇所は、上記説明したペアを意味し、教師データセットは、ペアの集まりを意味する。図５のデータ格納例では、個々のフレームＦが入力に相当し、分類情報及び位置情報が出力に相当する。教師データセットＤＳをテーブル形式で示しており、個々のレコードが教師データに相当する。

分類情報は、フレームＦに含まれる商品の種類に関する情報である。図５では、分類情報を「菓子ＸＸＸ」といった商品名で示しているが、商品を識別するための記号又は数値によって示されるようにしてもよい。例えば、分類情報は、商品を識別するコード情報であってもよい。

位置情報は、フレームＦにおける商品の位置に関する情報である。本実施形態では、バウンディングボックスＢによって商品の位置が示されるので、位置情報は、フレームＦにおけるバウンディングボックスＢを識別する情報となる。例えば、位置情報は、バウンディングボックスＢの位置、形状、及びサイズを示す。

本実施形態では、バウンディングボックスＢが四角形なので、位置情報には、この四角形を識別可能な情報が含まれる。例えば、位置情報には、バウンディングボックスＢが示す四角形の四隅の座標が含まれる。なお、バウンディングボックスＢは、他の情報によって識別されるようにしてもよく、例えば、頂点又は中心点の座標、縦幅、及び横幅によって識別されてもよい。また、バウンディングボックスＢの形状及びサイズが固定なのであれば、位置情報は、頂点又は中心点の座標だけを示してもよい。

なお、教師データセットＤＳは、商品の種類ごとに別々のデータセットとして生成されてもよいし、複数の種類の商品をまとめた１つのデータセットとして生成されてもよい。

また、データ記憶部１００は、学習モデルＭ１，Ｍ２のプログラム（アルゴリズム）やパラメータなどを記憶する。例えば、一般的な物体認識の教師データセットによって学習済みの学習モデルＭ１がデータ記憶部１００に記憶される。学習モデルＭ１の学習処理は、学習装置１０によって実行されてもよいし、他のコンピュータによって実行されてもよい。また例えば、教師データセットＤＳによって学習済み（パラメータの調整済み）の学習モデルＭ２がデータ記憶部１００に記憶される。学習前の学習モデルＭ２の学習処理は、後述する学習部１０７によって実行される。

なお、データ記憶部１００に記憶されるデータは、上記の例に限られない。例えば、データ記憶部１００は、管理者が商品を撮影した動画を記憶してもよい。自動販売機２０が複数の種類の商品を販売する場合、商品の種類ごとに、動画が用意される。複数の自動販売機２０が存在する場合、自動販売機２０ごとに、動画が用意される。また例えば、データ記憶部１００は、学習前（パラメータの調整前）の学習モデルＭ１，Ｍ２を記憶してもよい。また例えば、データ記憶部１００は、Ｇｒａｄ－ＣＡＭのプログラム、動き検出プログラム、及び肌検出プログラムを記憶してもよい。

［入力部］
入力部１０１は、制御部１１を主として実現される。入力部１０１は、物体を認識する学習モデルＭ１に、入力画像を入力する。本実施形態では、商品が動く様子が撮影された動画が用意されているので、入力画像は、動画におけるフレームＦである。このため、本実施形態で学習モデルＭ１に入力されるフレームＦを説明している箇所は、入力画像と読み替えることができる。

入力画像は、動画におけるフレームＦに限られず、静止画であってもよい。この場合、管理者は、商品を動画として撮影するのではなく、静止画として撮影する。例えば、管理者は、カメラの連続撮影モードを利用して、商品を動かしながら連続的に撮影し、複数の静止画を生成する。個々の静止画が、入力画像に相当する。

入力部１０１は、動画に含まれる全てのフレームＦを学習モデルＭ１に入力してもよいし、一部のフレームＦだけを学習モデルＭ１に入力してもよい。例えば、学習モデルＭ１が分類器の場合、フレームＦが入力されるとフレームＦの特徴量を計算し、当該計算された特徴量に応じた分類を示す分類情報を出力する。また例えば、学習モデルＭ１が判定器の場合、フレームＦが入力されるとフレームＦの特徴量を計算し、当該計算された特徴量に基づいて商品の有無の判定結果を出力する。

［第１取得部］
第１取得部１０２は、制御部１１を主として実現される。第１取得部１０２は、フレームＦが入力された学習モデルＭ１による認識の根拠となった位置に関するヒートマップＨを取得する。ヒートマップＨは、第１情報の一例である。このため、本実施形態でヒートマップＨと記載した箇所は、第１情報と読み替えることができる。

第１情報は、認識の根拠となった位置を特定可能な情報である。認識の根拠とは、学習モデルＭ１が認識の際に注目した場所、又は、入力画像における特徴的な部分ということもできる。第１情報は、ヒートマップＨに限られず、例えば、認識の根拠となった位置を示す座標情報、又は、認識の根拠となった位置を含む領域情報であってもよい。

例えば、第１情報は、学習モデルＭ１による認識の根拠としての強さを示す値を入力画像の画素ごとに特定可能な情報である。根拠としての強さとは、根拠の度合い、確度、又は蓋然性ということができる。例えば、根拠としての強さを示す値が大きいほど、根拠として強いことを意味する。本実施形態では、第１情報に、入力画像の画素と、根拠としての強さを示す値と、が１対１で対応付けられている場合を説明するが、これらは１対１で対応付けられていなくてもよい。入力画像の画素と、根拠としての強さを示す値と、はＮ対１（Ｎは自然数）であればよく、例えば、４つの画素ごとに根拠としての強さを示す値が対応付けられていてもよい。

本実施形態のように第１情報がヒートマップＨである場合には、第１情報は、学習モデルＭ１による認識の根拠となった位置が色によって表現された、フレームＦと同じサイズの第１画像となる。ヒートマップＨは、第１画像の一例であるが、第１画像は他の名称で呼ばれてもよい。また、第１画像は、入力画像であるフレームＦと多少はサイズが異なってもよい。

例えば、第１取得部１０２は、Ｇｒａｄ－ＣＡＭを利用して、ヒートマップＨを取得する。Ｇｒａｄ－ＣＡＭは、学習モデルＭ１により計算された特徴マップにおける任意の位置に勾配の変化を加え、その際に生じる出力の変化の大きさをもとに、学習モデルＭ１による認識における根拠となる重要な位置を特定する手法である。

Ｇｒａｄ－ＣＡＭでは、学習モデルＭ１による認識に与える影響が大きい位置は、勾配の変化も大きいことに着目している。例えば、第１取得部１０２は、学習モデルＭ１が最終的に出力する認識結果（分類器の場合は分類結果であり、判定器の場合は判定結果）を取得した後に、当該認識結果と、学習モデルＭ１の中間的な出力である特徴マップと、の両方に基づいて、ヒートマップＨを生成する。

なお、Ｇｒａｄ－ＣＡＭを利用したヒートマップＨの生成方法自体は、公知の技術を利用可能なため、ここでは、ヒートマップＨを生成する際に利用される数式等の詳細（https://arxiv.org/abs/1610.02391、「Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization」）を省略する。また、Ｇｒａｄ－ＣＡＭ以外にも、Ｇｒａｄ－ＣＡＭ＋＋、ＧｕｉｄｅｄＧｒａｄ－ＣＡＭ、又はＳｍｏｏｔｈＧｒａｄを利用してヒートマップＨが生成されてもよい。

本実施形態では、学習モデルＭ１は、少なくとも１つの畳み込み層を含むモデル（例えば、ＣＮＮ）なので、第１取得部１０２は、畳み込み層から出力される特徴マップに基づいて、第１情報を取得する。なお、学習モデルＭ１は、畳み込み層を含まないモデルであってもよく、この場合には、第１取得部１０２は、特徴マップを利用せずに、学習モデルＭ１から出力される認識結果に基づいて、第１情報を特定する。

また、本実施形態では、学習モデルＭ１の出力を可視化するためにヒートマップＨを例示したが、第１情報は、ヒートマップＨに相当する情報であればよく、例えば、第１情報は、画像以外の形式のデータであってもよく、例えば、テーブル形式やＣＳＶ形式のデータであってもよい。第１情報は、入力画像の各画素に対応した値（根拠の強さを示す値）を特定可能な情報であればよく、入力画像の各画素と対応した要素（値）を有していればよい。例えば、第１情報は、入力画像と同じ幅と高さを有する行列形式のデータであってもよいし、入力画像の幅と高さの数だけ要素を有するベクトル形式のデータであってもよい。このように、第１情報は、画像に限られない。

［第２取得部］
第２取得部１０３は、制御部１１を主として実現される。第２取得部１０３は、フレームＦに含まれる動体又は前景の位置に関する動き画像Ｉ１を取得する。動き画像Ｉ１は、第２情報の一例である。このため、本実施形態で動き画像Ｉ１と記載した箇所は、第２情報と読み替えることができる。

動体とは、移動する物体である。別の言い方をすれば、動体は、フレームＦにおいて色の変化がある部分である。例えば、直近のフレームＦからの色の変化が閾値以上の部分は、動体が写された部分である。管理者が用意した動画では、原則として背景と管理者の胴体は動かないので、管理者が持っている商品と、管理者の手及び腕と、の各々が動体に相当する。

前景とは、背景以外の部分である。別の言い方をすれば、前景は、背景よりもカメラに近い物体である。例えば、フレームＦに写された物体のうち、床・壁・天井を除いて最もカメラに近い物体が前景である。管理者が用意した動画では、管理者及び商品よりもカメラに近い物体はないので、管理者が持っている商品と、管理者の体全体と、の各々が前景に相当する。前景は、動体に限られず、静止している物体であってもよい。この場合、動き検出ではなく、公知の前景検出法によって、前景が検出されるようにすればよい。

第２情報は、動体又は前景の位置を特定可能な情報である。第２情報は、動き画像Ｉ１に限られず、例えば、動体若しくは前景の位置を示す座標情報、又は、動体若しくは前景の位置を含む領域情報であってもよい。

例えば、第２情報は、動体又は前景としての強さを示す値を入力画像の画素ごとに特定可能な情報である。動体又は前景としての強さを示す値とは、動体又は前景である度合い、確度、又は蓋然性ということができる。例えば、動体又は前景としての強さを示す値が大きいほど、動体又は前景として強い（動体又は前景である確率が高い）ことを意味する。第１情報と同様、第２情報は、入力画像の画素と、動体又は前景としての強さを示す値と、がＮ対１で対応付けられていればよい。

本実施形態のように第２情報が画像である場合には、第２情報は、動体又は前景の位置が色によって表現された、入力画像と同じサイズの第２画像である。動き画像Ｉ１は、第２画像の一例であるが、第２画像は他の名称で呼ばれてもよい。また、第２画像は、フレームＦと多少はサイズが異なってもよい。

例えば、第２取得部１０３は、先述したフレーム間差分法又は背景差分法などのアルゴリズムに基づいて、入力画像であるフレームＦから動き画像Ｉ１を生成する。動体又は前景は、他の方法によって特定されてもよく、例えば、第２取得部１０３は、深度カメラを利用して動体又は前景を検出してもよい。この場合、深度の変化が大きい部分を動体としたり、深度が閾値未満の部分を前景としたりすればよい。また、第２情報は、第１情報と同様、画像以外の形式のデータであってもよく、例えば、テーブル形式、ＣＳＶ形式、行列形式、又はベクトル形式のデータであってもよい。また例えば、第１情報と第２情報のデータとしての形式は、互いに同じであってもよいし、異なっていてもよい。

［第３取得部］
第３取得部１０４は、制御部１１を主として実現される。第３取得部１０４は、フレームＦに含まれる商品を把持する他の物体の位置に関する肌画像Ｉ３を取得する。肌画像Ｉ３は、第３情報の一例である。このため、本実施形態で肌画像Ｉ３と記載した箇所は、第３情報と読み替えることができる。

本実施形態では、管理者が商品を把持するので、管理者の体が他の物体に相当する。このため、本実施形態で商品を把持する管理者の体について説明している箇所は、他の物体と読み替えることができる。他の物体は、管理者の体に限られず、任意の物体であってよい。例えば、商品をロボットに把持させる場合には、ロボットが他の物体に相当する。また例えば、管理者が棒を利用して商品を把持する場合には、棒が他の物体に相当する。

第３情報は、他の物体の位置を特定可能な情報である。第３情報は、肌画像Ｉ３に限られず、例えば、他の物体の位置を示す座標情報、又は、他の物体の位置を含む領域情報であってもよい。

例えば、第３情報は、他の物体の位置としての強さを示す値を入力画像の画素ごとに特定可能な情報である。他の物体としての強さを示す値とは、他の物体である度合い、確度、又は蓋然性ということができる。例えば、他の物体としての強さを示す値が大きいほど、他の物体として強い（他の物体である確率が高い）ことを意味する。第１情報及び第２情報と同様、第３情報は、入力画像の画素と、他の物体の位置としての強さを示す値と、がＮ対１で対応付けられていればよい。

本実施形態のように第３情報が画像である場合には、第３情報は、他の物体の位置が色によって表現された、入力画像と同じサイズの第３画像である。肌画像Ｉ３は、第３画像の一例であるが、第３画像は他の名称で呼ばれてもよい。例えば、他の物体がロボットである場合には、第３画像には、商品を把持するロボットアームが示された画像となる。また例えば、他の物体が棒である場合には、第３画像には、商品を把持する棒が示された画像となる。また、第３画像は、フレームＦと多少はサイズが異なってもよい。

例えば、第３取得部１０４は、先述した肌検出方法に基づいて、入力画像であるフレームＦから肌画像Ｉ３を生成する。肌画像Ｉ３は、他の方法によって特定されてもよく、例えば、第３取得部１０４は、サーモグラフィを利用して管理者の肌を検出してもよい。この場合、一定の熱を帯びた部分を肌として検出すればよい。第３情報は、第１情報及び第２情報と同様、画像以外の形式のデータであってもよく、例えば、テーブル形式、ＣＳＶ形式、行列形式、又はベクトル形式のデータであってもよい。また例えば、第３情報は、第１情報及び第２情報と同じ形式のデータであってもよいし、異なる形式のデータであってもよい。

［位置情報取得部］
位置情報取得部１０５は、制御部１１を主として実現される。位置情報取得部１０５は、ヒートマップＨと動き画像Ｉ１とに基づいて、フレームＦに含まれる物体の位置に関する位置情報を取得する。本実施形態では、商品を含むバウンディングボックスＢに関する情報が位置情報に相当する場合を説明する。このため、本実施形態でバウンディングボックスＢの情報を説明している箇所は、位置情報と読み替えることができる。

位置情報は、物体の位置を特定可能な情報である。位置情報は、バウンディングボックスＢの情報に限られず、例えば、物体の位置を示す座標情報、又は、物体の位置を含む領域情報であってもよい。即ち、位置情報は、物体の位置をピンポイントで示す情報であってもよいし、物体を含む一定範囲の領域を示す情報であってもよい。領域情報は、バウンディングボックスＢのような四角形に限られず、任意の形状を示してよい。例えば、領域情報は、三角形、五角形以上の多角形、円形、又は楕円形であってもよいし、特にこれらに分類されない形状であってもよい。例えば、エッジ検出によって特定される輪郭線によって物体の位置が表現されてもよい。

本実施形態では、位置情報取得部１０５は、ヒートマップＨから特定されるフレームＦにおける各画素に対応する値と、動き画像Ｉ１から特定されるフレームＦにおける各画素に対応する値と、を所定の数式で足し合わせた結果に基づいて、位置情報を取得する。

本実施形態では、ヒートマップＨとフレームＦが同じサイズの画像なので、ヒートマップＨから特定されるフレームＦにおける各画素に対応する値は、フレームＦにおける各画素と同じ位置にある画素の画素値である。先述したように、ヒートマップＨとフレームＦは同じサイズの画像でなくてもよいし、ヒートマップＨに相当する第１情報は、画像以外の形式であってもよいので、入力画像であるフレームＦにおける各画素に対応付けられた値が特定されるようにすればよい。

同様に、本実施形態では、動き画像Ｉ１とフレームＦが同じサイズの画像なので、動き画像Ｉ１から特定されるフレームＦにおける各画素に対応する値は、フレームＦにおける各画素と同じ位置にある画素の画素値である。先述したように、動き画像Ｉ１とフレームＦは同じサイズの画像でなくてもよいし、動き画像Ｉ１に相当する第２情報は、画像以外の形式であってもよいので、入力画像であるフレームＦにおける各画素に対応付けられた値が特定されるようにすればよい。

上記数式は、任意の式であればよく、画素値の単純な合計であってもよいし、所定の重み付けがなされていてもよい。例えば、ヒートマップＨに対し、動き画像Ｉ１よりも高い重み付けとしてもよいし、これとは逆に、動き画像Ｉ１に対し、ヒートマップＨよりも高い重み付けとしてもよい。

例えば、位置情報取得部１０５は、フレームＦのうち、ヒートマップＨと動き画像Ｉ１を足し合わせた画素値が閾値以上の部分を残すことによって、画像Ｉ２を取得する。図３の例であれば、商品を含む周囲の領域の画素値が閾値以上となり、画像Ｉ２では当該領域が残っている。先述したように、商品の領域の中には、ヒートマップＨで色が付けられない部分もあるので、動き画像Ｉ１についても考慮することによって、ヒートマップＨには表れない商品部分も逃すことなく残すことができる。このため、位置情報取得部１０５は、動き画像Ｉ１を利用して、ヒートマップＨに示された物体性の高い部分を拡張するということもできる。

本実施形態では、管理者の肌部分が除去されるので、位置情報取得部１０５は、肌画像Ｉ３に更に基づいて、位置情報を取得する。即ち、位置情報取得部１０５は、ヒートマップＨ、動き画像Ｉ１、及び肌画像Ｉ３に基づいて、位置情報を取得する。

例えば、位置情報取得部１０５は、ヒートマップＨから特定されるフレームＦにおける各画素に対応する値と、動き画像Ｉ１から特定されるフレームＦにおける各画素に対応する値と、を所定の数式で足し合わせ、肌画像Ｉ３から特定されるフレームＦにおける各画素に対応する値を所定の数式で差し引いた結果に基づいて、位置情報を取得する。

本実施形態では、肌画像Ｉ３とフレームＦが同じサイズの画像なので、肌画像Ｉ３から特定されるフレームＦにおける各画素に対応する値は、フレームＦにおける各画素と同じ位置にある画素の画素値である。先述したように、肌画像Ｉ３とフレームＦは同じサイズの画像でなくてもよいし、肌画像Ｉ３に相当する第３情報は、画像以外の形式であってもよいので、入力画像であるフレームＦにおける各画素に対応付けられた値が特定されるようにすればよい。

上記数式は、任意の式であればよく、画素値の単純な差分であってよい。図３の例であれば、画像Ｉ２で色が残った領域から、肌画像Ｉ３で色がついた部分が引かれることによって、肌部分が除去される。位置情報取得部１０５は、肌画像Ｉ３に示された管理者の手及び腕が商品の一部分として取得されることを防止する。

また例えば、位置情報取得部１０５は、ヒートマップＨに応じた重み付けに更に基づいて、位置情報を取得してもよい。図３の例であれば、位置情報取得部１０５は、画像Ｉ２から肌画像Ｉ３を差し引いた結果に対し、ヒートマップＨにおける色の濃さに応じた重み付けのマッピングを行う。これにより、ヒートマップＨで色が付けられた部分が強調され、続く閾値化処理において、学習モデルＭ１の根拠となった部分が残りやすくなる。例えば、位置情報取得部１０５は、画像Ｉ２から肌画像Ｉ３を差し引いた差分の画像に対し、ヒートマップＨで色が付けられた部分の画素値を増加させる。ヒートマップＨにおける色が濃いほど、画素値の増加量が多くなる。

本実施形態では、位置情報取得部１０５は、領域の候補を複数取得した場合には、複数の当該候補のうち最もサイズが大きい候補に基づいて、位置情報を取得する。位置情報取得部１０５は、バウンディングボックスＢの複数の候補の各々のサイズを比較し、最も大きい候補をバウンディングボックスＢとして決定する。サイズは、面積を意味してもよいし、縦幅及び横幅の少なくとも一方を意味してもよい。なお、位置情報取得部１０５は、最も大きい候補だけでなく、サイズが大きい順に複数個の候補を取得し、これらの全てをバウンディングボックスＢとして取得してもよい。

本実施形態では、位置情報取得部１０５は、フレームＦごとに位置情報を取得する。位置情報取得部１０５は、動画に含まれる全てのフレームＦについて位置情報を取得してもよいし、一部のフレームＦについて位置情報を取得してもよい。バウンディングボックスＢが取得されたなったフレームＦについては、位置情報は取得されない。

［生成部］
生成部１０６は、制御部１１を主として実現される。生成部１０６は、フレームＦと位置情報とに基づいて、商品の位置を認識する学習モデルＭ２（学習前の学習モデルＭ２）の学習処理のための教師データを生成する。学習モデルＭ２は、他の学習モデルの一例である。このため、本実施形態で学習モデルＭ２と記載した箇所は、他の学習モデルと読み替えることができる。他の学習モデルは、教師データセットＤＳを生成するために利用される学習モデルＭ１とは異なるモデルである。

本実施形態では、動画に含まれるフレームＦごとに位置情報が生成されるので、生成部１０６は、フレームＦごとに教師データを生成する。生成部１０６は、バウンディングボックスＢが取得された複数のフレームＦの各々の教師データを生成する。生成部１０６は、これら複数の教師データをまとめた教師データセットＤＳを生成し、データ記憶部１００に記録する。管理者は商品の種類ごとに動画を用意するので、生成部１０６は、動画ごとに教師データを生成する。先述したように、商品の種類ごとに教師データセットＤＳを別々に分けてもよいし、全商品で１つの教師データセットＤＳにまとめてもよい。

［学習部］
学習部１０７は、制御部１１を主として実現される。学習部１０７は、フレームＦと位置情報とに基づいて生成された教師データに基づいて、物体の位置を認識する他の学習モデルＭ２（学習前の学習モデルＭ２）の学習処理を実行する。学習部１０７は、動画から生成された複数の教師データを含む教師データセットＤＳに基づいて、学習処理を実行する。学習部１０７は、教師データセットＤＳに含まれる教師データの入力と出力の関係が得られるように、学習前の学習モデルＭ２のパラメータを調整する。学習処理自体は、公知の種々の手法を利用可能であり、例えば、ニューラルネットワーク等で利用されている手法を利用すればよい。

［３－２．自動販売機で実現される機能］
図４に示すように、自動販売機２０では、データ記憶部２００と、販売処理部２０１と、が実現される。

［データ記憶部］
データ記憶部２００は、記憶部２２を主として実現される。データ記憶部２００は、商品の販売に必要なデータを記憶する。ここでは、データ記憶部２００が記憶するデータの一例として、買い物かごデータＤＴと、学習済みの学習モデルＭ２と、について説明する。データ記憶部２００に記憶された学習済みの学習モデルＭ２は、データ記憶部１００に記憶された学習済みの学習モデルＭ２と同じである。

図６は、買い物かごデータＤＴのデータ格納例を示す図である。図６に示すように、買い物かごデータＤＴは、利用者が取り出した商品を示すデータである。例えば、買い物かごデータＤＴには、顔認証が成功した利用者の利用者ＩＤ、利用者が取り出した商品の商品ＩＤ、商品名、数量、及び単価が格納される。買い物かごデータＤＴは、利用者の顔認証が成功した場合に生成され、利用者が商品取り出した商品の認識結果に基づいて更新される。

なお、データ記憶部２００に記憶されるデータは、上記の例に限られない。例えば、データ記憶部２００は、自動販売機２０が取り扱う商品に関する商品データベースを記憶してもよい。例えば、商品データベースには、商品ＩＤ、商品名、単価、及び在庫が格納される。

［販売処理部］
販売処理部２０１は、制御部２１を主として実現される。販売処理部２０１は、商品の販売に関する各種処理を実行する。例えば、販売処理部２０１は、自動販売機２０の操作手順や各種メッセージを表示部２５に表示させる。また例えば、販売処理部２０１は、顔認証の際に撮影部２６により生成されたフレームをサーバ３０に送信する。また例えば、販売処理部２０１は、サーバ３０から受信した認証結果に基づいて、扉のロック解除を行う。

また例えば、販売処理部２０１は、撮影部２６により生成されたフレームを、学習済みの学習モデルＭ２に入力し、学習済みの学習モデルＭ２から出力された分類情報と位置情報を取得する。販売処理部２０１は、分類情報と位置情報に基づいて、買い物かごデータＤＴを更新する。販売処理部２０１は、フレームが取得されるたびに、学習済みの学習モデルＭ２に入力して分類情報と位置情報を取得する。

例えば、販売処理部２０１は、学習済みの学習モデルＭ２から出力された分類情報に応じた商品ＩＤ、商品名、及び単価を買い物かごデータＤＴに格納する。利用者が同じ商品を複数個取り出した場合には、その数だけバウンディングボックスＢが取得されるので、販売処理部２０１は、位置情報の数に応じた数量を買い物かごデータＤＴに格納する。利用者が複数の種類の商品を取り出した場合には、その数だけ分類情報が出力されるので、販売処理部２０１は、分類情報ごとに、商品ＩＤ、商品名、数量、及び単価を買い物かごデータＤＴに格納する。

また例えば、販売処理部２０１は、それまでは出力されていた分類情報が出力されなくなった場合、それまでの位置情報の変化に基づいて、商品の移動方向を特定する。販売処理部２０１は、商品の移動方向がフレームの下方向（撮影部２６の手前方向）であれば、商品が戻されたと判定する。この場合、販売処理部２０１は、戻されたと判定された商品を買い物かごデータＤＴから削除する。

一方、販売処理部２０１は、商品の移動方向が他の方向であれば、商品が取り出されたままと判定し、買い物かごデータＤＴをそのままの内容とする。商品の移動方向と上記の処理内容の関係は、撮影部２６の設置位置に応じて定めておけばよい。例えば、撮影部２６の設置位置によっては、販売処理部２０１は、商品のバウンディングボックスＢが徐々に大きくなって消滅した場合に、商品が戻されたと判定してもよい。

また例えば、販売処理部２０１は、扉が閉められた場合に、サーバ３０に対し、買い物かごデータＤＴを送信する。なお、扉の開閉は、自動販売機２０に設けられたセンサによって検出されるようにすればよい。販売処理部２０１は、サーバ３０による決済処理の実行結果を表示部２５に表示させる。販売処理部２０１は、扉が閉められた場合に、扉をロックする。

［３－３．サーバで実現される機能］
図４に示すように、サーバ３０では、データ記憶部３００、認証部３０１、及び決済実行部３０２が実現される。

［データ記憶部］
データ記憶部３００は、記憶部３２を主として実現される。データ記憶部３００は、利用者に関するデータを記憶する。ここでは、データ記憶部３００が記憶するデータの一例として、利用者データベースＤＢについて説明する。

図７は、利用者データベースＤＢのデータ格納例を示す図である。図７に示すように、利用者データベースＤＢは、利用登録をした利用者に関する各種情報が格納されたデータベースである。例えば、利用者データベースＤＢには、利用者ＩＤ、氏名、パスワード、顔画像、顔の特徴量、及び決済情報が格納される。本実施形態では、クレジットカード情報が決済情報に相当する場合を説明するが、電子マネー、ポイント、又は仮想通貨のアカウントなどの任意の情報が利用されてよい。利用者が所定の利用登録を行うと、利用者データベースＤＢに新たなレコードが作成され、利用者が登録したこれらの情報が格納される。

［認証部］
認証部３０１は、制御部３１を主として実現される。認証部３０１は、利用者の認証を行う。例えば、認証部３０１は、自動販売機２０から受信したフレームから顔の特徴量を抽出し、利用者データベースＤＢの中に類似する特徴量が存在するか否かを判定する。認証部３０１は、類似する特徴量が存在する場合に、顔認証が成功したと判定する。例えば、顔の特徴量がベクトル情報で表現される場合、ベクトル空間内の距離が閾値未満の場合に、顔認証が成功する。顔認証以外の認証が利用される場合には、認証部３０１は、利用される認証方法に定められた手順に沿って認証を行えばよい。

［決済実行部］
決済実行部３０２は、制御部３１を主として実現される。決済実行部３０２は、商品の決済を実行する。例えば、決済実行部３０２は、自動販売機２０から受信した買い物かごデータＤＴに基づいて決済金額を計算する。決済実行部３０２は、利用者データベースＤＢを参照し、買い物かごデータＤＴに格納された利用者ＩＤに関連付けられた決済情報に基づいて、計算された決済金額に応じた決済処理を実行する。決済実行部３０２は、自動販売機２０に対し、決済処理の実行結果を送信する。

［４．物体認識システムで実行される処理］
次に、物体認識システムＳで実行される処理について説明する。本実施形態では、学習装置１０が教師データセットＤＳを生成して、学習前の学習モデルＭ２を学習させる学習処理と、自動販売機２０が学習済みの学習モデルＭ２を利用して商品を販売する販売処理と、について説明する。

［４－１．学習処理］
図８は、学習処理の一例を示すフロー図である。学習処理は、制御部１１が記憶部１２に記憶されたプログラムに従って動作することによって実行される。下記に説明する処理は、図４に示す機能ブロックにより実行される処理の一例である。なお、下記に説明する処理が実行されるにあたり、管理者が商品を持って動かす様子が撮影された動画が記憶部１２に予め記憶されているものとする。

図８に示すように、制御部１１は、管理者が用意した任意の動画における処理対象のフレームＦを取得する（Ｓ１００）。Ｓ１００においては、制御部１１は、動画の１フレーム目を処理対象のフレームＦとしてもよいし、ある程度時間が経過した時点のフレームＦを処理対象のフレームＦとしてもよい。例えば、フレーム間差分法を利用して動き画像Ｉ１を取得する場合には、ある程度時間が経過した時点のフレームＦが処理対象のフレームＦとされる。

制御部１１は、記憶部１２に記憶された学習モデルＭ１に、処理対象のフレームＦを入力画像として入力する（Ｓ１０１）。学習モデルＭ１は、入力された処理対象のフレームＦの特徴量を計算し、フレームＦに含まれる商品を認識する。先述したように、学習モデルＭ１は、商品を認識できるが、その位置までは認識できないので、Ｓ１０１の時点では、バウンディングボックスＢは出力されない。

制御部１１は、学習モデルＭ１の認識結果や特徴マップをＧｒａｄ－ＣＡＭに入力し、処理対象のフレームＦのヒートマップＨを取得する（Ｓ１０２）。このヒートマップＨには、処理対象のフレームＦに含まれる物体を学習モデルＭ１が認識する際の根拠が示される。

制御部１１は、処理対象のフレームＦに対し、動き検出処理を実行して動き画像Ｉ１を取得する（Ｓ１０３）。この動き画像には、処理対象のフレームＦにおける動体又は前景が示される。

制御部１１は、Ｓ１０２で取得したヒートマップＨと、Ｓ１０３で取得した動き画像Ｉ１と、を足し合わせて画像Ｉ２を取得する（Ｓ１０４）。Ｓ１０４においては、制御部１１は、ヒートマップＨにおける各画素の画素値と、動き画像Ｉ１における各画素の画素値と、を所定の計算式で足し合わせて画像Ｉ２を取得する。

制御部１１は、処理対象のフレームＦに対し、肌検出処理を実行して肌画像Ｉ３を取得する（Ｓ１０５）。この肌画像Ｉ３には、処理対象のフレームＦにおける管理者の手や腕の肌部分が示される。

制御部１１は、Ｓ１０４で取得した画像Ｉ２からＳ１０５で取得した肌画像Ｉ３を差し引く（Ｓ１０６）。Ｓ１０６においては、制御部１１は、Ｓ１０４で取得した画像Ｉ２における各画素の画素値から、肌画像における各画素の画素値を所定の計算式で差し引く。

制御部１１は、Ｓ１０６の処理結果に基づいて、処理対象のフレームＦにおける商品の位置情報を取得する（Ｓ１０７）。Ｓ１０７においては、制御部１１は、ヒートマップＨに応じた重み付けでマッピングを行い、閾値化処理を実行する。制御部１１は、閾値化処理が実行された２値化画像からバウンディングボックスＢの候補を取得する。制御部１１は、複数の候補が存在する場合には、最もサイズが大きい候補をバウンディングボックスＢとして決定して位置情報を取得する。

制御部１１は、動画を参照し、次のフレームＦがあるか否かを判定する（Ｓ１０８）。Ｓ１０８においては、制御部１１は、動画の再生時間の最後に到達したか否かを判定する。次のフレームＦがあると判定された場合（Ｓ１０８；Ｙ）、制御部１１は、次のフレームＦを処理対象のフレームＦとして取得し（Ｓ１０９）、Ｓ１０１の処理に戻る。この場合、当該次のフレームＦに対してＳ１０１～Ｓ１０７の処理が実行され、当該次のフレームＦの位置情報が取得される。

次のフレームＦがないと判定された場合（Ｓ１０８；Ｎ）、制御部１１は、処理対象のフレームＦと、分類情報及び位置情報と、のペアである教師データを格納した教師データセットＤＳを生成する（Ｓ１１０）。Ｓ１１０においては、制御部１１は、バウンディングボックスＢが取得されたフレームＦごとに、当該フレームＦを入力とし、バウンディングボックスＢを出力とする教師データを生成する。制御部１１は、バウンディングボックスＢが取得された複数のフレームＦの各々の教師データを教師データセットＤＳに格納する。

制御部１１は、記憶部１２を参照し、他の商品の動画が存在するか否かを判定する（Ｓ１１１）。Ｓ１１１においては、制御部１１は、まだ教師データを生成していない商品の動画があるか否かを判定する。他の商品の動画が存在すると判定された場合（Ｓ１１１；Ｙ）、Ｓ１００の処理に戻る。この場合、当該他の商品について、Ｓ１００～Ｓ１１０の処理が実行されて教師データが生成される。

他の商品の動画が存在しないと判定された場合（Ｓ１１１；Ｎ）、制御部１１は、教師データセットＤＳに基づいて、学習前の学習モデルＭ２の学習処理を実行する（Ｓ１１２）。Ｓ１１２においては、制御部１１は、教師データセットＤＳに格納された教師データの入力と出力の関係が得られるように、学習前の学習モデルＭ２のパラメータを調整する。学習済みの学習モデルＭ２は、入力画像に含まれる商品の種類情報と位置情報を出力可能となる。

制御部１１は、学習済みの学習モデルＭ２を自動販売機２０に送信し（Ｓ１１３）、本処理は終了する。Ｓ１１３で送信された学習済みの学習モデルＭ２は、自動販売機２０の記憶部２２に記録される。

［４－２．販売処理］
図９は、販売処理の一例を示すフロー図である。販売処理は、制御部２１が記憶部２２に記憶されたプログラムに従って動作し、制御部３１が記憶部３２に記憶されたプログラムに従って動作することによって実行される。なお、下記に説明する処理が実行されるにあたり、学習処理が実行されており、学習済みの学習モデルＭ２が記憶部２２に記憶されているものとする。

図９に示すように、自動販売機２０は、商品の購入手順を表示部２５に表示させる（Ｓ２００）。自動販売機２０は、操作部２４の検出信号に基づいて、顔認証を開始するためのボタンが利用者により選択されたか否かを判定する（Ｓ２０１）。ボタンが選択されたと判定された場合（Ｓ２０１；Ｙ）、自動販売機２０は、撮影部２６で連続的に撮影を行い、サーバ３０に対し、撮影部２６により連続的に生成されたフレームを送信する（Ｓ２０２）。

サーバ３０は、フレームを受信すると、利用者データベースＤＢに基づいて、顔認証を実行し、自動販売機２０に対し、認証結果を送信する（Ｓ２０３）。自動販売機２０は、認証結果を受信すると、顔認証が成功したか否かを判定する（Ｓ２０４）。顔認証が失敗した場合（Ｓ２０４；Ｎ）、自動販売機２０は、所定のエラーメッセージを表示部２５に表示させ（Ｓ２０５）、Ｓ２０２の処理に戻る。

顔認証が成功した場合（Ｓ２０５；Ｙ）、自動販売機２０は、扉のロックを解除する（Ｓ２０６）。自動販売機２０は、撮影部２６で連続的に撮影を行い、記憶部２２に記憶された学習済みの学習モデルＭ２にフレームを入力する（Ｓ２０７）。自動販売機２０は、学習済みの学習モデルＭ２から出力された分類情報と位置情報に基づいて、買い物かごデータＤＴを更新する（Ｓ２０８）。Ｓ２０８においては、自動販売機２０は、先述したように分類情報と位置情報を解析し、利用者が取り出した商品や元に戻した商品を特定し、買い物かごデータＤＴを更新する。

自動販売機２０は、扉が閉められたか否かを判定する（Ｓ２０９）。扉が閉められたと判定されない場合（Ｓ２０９；Ｎ）、Ｓ２０７の処理に戻る。この場合、撮影部２６によりフレームが生成されるたびに、学習済みの学習モデルＭ２による商品の認識が行われる。扉が閉められたと判定された場合（Ｓ２０９；Ｙ）、自動販売機２０は、サーバ３０に対し、買い物かごデータＤＴを送信する（Ｓ２１０）。

サーバ３０は、買い物かごデータＤＴを受信すると、利用者データベースＤＢに基づいて、決済処理を実行し、決済処理の実行結果を送信する（Ｓ２１１）。自動販売機２０は、決済処理の実行結果を受信すると、実行結果に応じたメッセージを表示部２５に表示させ（Ｓ２１２）、本処理は終了する。

以上説明した物体認識システムＳによれば、ヒートマップＨと動き画像Ｉ１とに基づいて、フレームＦに含まれる商品の位置に関する位置情報を取得することにより、管理者が手動で商品の位置を指定する必要がなくなり、物体認識における管理者の負担を軽減できる。また、管理者が手動で商品の位置を指定する場合には操作ミスが発生する可能性があるが、位置情報を取得する処理を学習装置１０に実行させることにより、位置情報を正確に特定することができる。また、屋内の自動販売機２０などのように照明の変化が少なかったり、背景の変動が小さかったりした場合には、より高精度の位置情報を取得できる。また、管理者が半袖の服を着るといったようなルールを定めておく場合にも、より高精度の位置情報を取得できる。このように、教師データを生成する場合の環境を予め定めておくことにより、より精度の高い教師データを生成できる。

また、物体認識システムＳは、学習モデルＭ１による認識の根拠としての強さを示す値をフレームＦの画素ごとに特定可能な第１情報と、動体又は前景としての強さを示す値をフレームＦの画素ごとに特定可能な第２情報と、に基づいて位置情報を取得することにより、フレームＦの画素ごとにこれらの値が対応付けられた情報を利用し、簡易な処理で位置情報を取得できる。このため、位置情報を取得する処理を高速化し、学習装置１０の処理負荷を軽減できる。

また、物体認識システムＳは、ヒートマップＨから特定されるフレームＦにおける各画素に対応する値と、動き画像Ｉ１から特定されるフレームＦにおける各画素に対応する値と、を所定の数式で足し合わせた結果に基づいて、位置情報を取得することにより、より簡易な計算によって位置情報を取得できる。このため、位置情報を取得する処理を高速化し、学習装置１０の処理負荷を軽減できる。

また、物体認識システムＳは、フレームＦに含まれる商品を把持する管理者の位置に関する肌画像に更に基づいて、位置情報を取得することにより、位置情報を取得するうえでノイズとなりうる管理者の手や腕を除去し、位置情報の精度を高めることができる。

また、物体認識システムＳは、学習モデルＭ１による認識の根拠としての強さを示す値をフレームＦの画素ごとに特定可能な第１情報と、動体又は前景としての強さを示す値をフレームＦの画素ごとに特定可能な第２情報と、他の物体の位置としての強さを示す値をフレームＦの画素ごとに特定可能な第３情報と、に基づいて位置情報を取得することにより、フレームＦの画素ごとにこれらの値が対応付けられた情報を利用し、簡易な処理で位置情報を取得できる。このため、位置情報を取得する処理を高速化し、学習装置１０の処理負荷を軽減できる。

また、物体認識システムＳは、ヒートマップＨから特定されるフレームＦにおける各画素に対応する値と、動き画像Ｉ１から特定されるフレームＦにおける各画素に対応する値と、を所定の数式で足し合わせ、肌画像Ｉ３から特定されるフレームＦにおける各画素に対応する値を所定の数式で差し引いて位置情報を取得することにより、より簡易な計算によって位置情報を取得できる。このため、位置情報を取得する処理を高速化し、学習装置１０の処理負荷を軽減できる。

また、物体認識システムＳは、ヒートマップＨに応じた重み付けに更に基づいて、位置情報を取得することにより、学習モデルＭ１による認識の根拠となった部分を確実に残し、位置情報の精度を高めることができる。

また、物体認識システムＳは、バウンディングボックスＢの候補を複数取得し、複数の当該候補のうち最もサイズが大きい候補に基づいて、位置情報を取得することにより、商品全体を含むバウンディングボックスＢの位置情報を取得し、位置情報の精度を高めることができる。

また、物体認識システムＳは、フレームＦと位置情報とに基づいて生成された教師データに基づいて、学習前の学習モデルＭ２の学習処理を実行することにより、物体の位置を認識する学習モデルＭ２を容易に生成することができる。また、教師データを生成する際の管理者の負担を軽減できる。

また、物体認識システムＳは、動画から生成された複数の教師データを含む教師データセットＤＳに基づいて、学習処理を実行することにより、より多くの教師データを学習前の学習モデルＭ２に学習させ、学習済みの学習モデルＭ２の精度を高めることができる。

また、物体認識システムＳは、商品の種類を分類する分類器、又は、商品の有無を判定する判定器である学習モデルＭ１を利用して位置情報を取得することにより、ユーザの負担を効果的に軽減できる。

また、物体認識システムＳは、商品を含むバウンディングボックスＢに関する情報を位置情報として取得することにより、ユーザがバウンディングボックスＢを指定する負担を軽減できる。

［５．変形例］
なお、本開示は、以上に説明した実施の形態に限定されるものではない。本開示の趣旨を逸脱しない範囲で、適宜変更可能である。

（１）例えば、管理者が作成する動画に商品が１つだけが写されている場合を説明したが、動画には、複数の種類の商品が同時に写されていてもよい。即ち、個々のフレームＦには、複数の種類の商品が含まれていてもよい。この場合、位置情報取得部１０５は、フレームＦに含まれる商品の種類ごとに、位置情報を取得してもよい。

位置情報取得部１０５は、実施形態で説明した手法と同様にしてバウンディングボックスＢの候補を取得し、互いに所定距離以上離れた位置に複数の候補がある場合には、これらの位置ごとに、バウンディングボックスＢを取得してもよい。例えば、管理者が右手と左手の両方に同じ商品を持って動かしている場合には、位置情報取得部１０５は、１つのフレームＦから同じ商品のバウンディングボックスＢを複数取得する。

また例えば、管理者が右手と左手に異なる種類の商品を持って動かしている場合には、位置情報取得部１０５は、１つのフレームＦから複数の種類の商品のバウンディングボックスＢを取得する。この場合、学習モデルＭ１は、複数の種類の商品を認識できるものとする。Ｇｒａｄ－ＣＡＭは、商品の種類ごとに用意すればよい。ヒートマップＨは、商品の種類ごとに出力されることになる。

変形例（１）によれば、フレームＦに含まれる商品の種類ごとに位置情報を取得することにより、複数の種類の商品がフレームＦに含まれていたとしても正確な位置情報を取得し、ユーザの負担を効果的に軽減できる。

（２）また例えば、バウンディングボックスＢは、その中にある商品の追跡に利用されてもよい。図１０は、変形例（２）における機能ブロック図である。図１０に示すように、変形例（２）では、追跡部１０８が実現される。追跡部１０８は、制御部１１を主として実現される。追跡部１０８は、位置情報に基づいて、動画に含まれる商品を追跡する。

追跡とは、バウンディングボックスＢ内の領域と似た領域を探すことである。例えば、追跡部１０８は、あるフレームＦのバウンディングボックスＢ内の領域をテンプレート画像とし、それ以降のフレームＦに対してテンプレートマッチングをすることにより、商品を追跡する。なお、商品の追跡方法自体は、公知の手法を利用可能であり、例えば、追跡部１０８は、バウンディングボックスＢ内の領域から抽出した特徴点を追跡してもよい。他にも例えば、ＣＳＲＴトラッカーと呼ばれる手法の基本となる領域として、バウンディングボックスＢが利用されてもよい。

実施形態では、動画中の毎フレームに対して図３で説明した処理が実行されて教師データが生成される場合を説明したが、追跡部１０８による追跡結果に基づいて、教師データが生成されてもよい。例えば、位置情報取得部１０５は、図３の手法によりバウンディングボックスＢが取得されたフレームＦの次のフレームＦについて、当該バウンディングボックスＢの商品の追跡結果に基づいて、当該次のフレームＦのバウンディングボックスＢの位置情報を取得してもよい。

変形例（２）によれば、位置情報に基づいて、動画に含まれる商品を追跡することにより、管理者が商品の位置を指定する必要がないので、管理者の負担を軽減できる。また、学習モデルＭ１に毎フレーム入力される場合に比べると、簡易な処理によって商品を追跡でき、学習装置１０の処理負荷を軽減できる。

（３）また例えば、自動販売機２０において、入力部１０１、第１取得部１０２、第２取得部１０３、第３取得部１０４、及び位置情報取得部１０５が実現されてもよい。この場合、これら各機能は、制御部２１を主として実現される。例えば、自動販売機２０のデータ記憶部２００は、データ記憶部１００に記憶されるものとして説明した各データを記憶する。自動販売機２０の入力部１０１は、利用者が扉を開けた後に撮影部２６により生成されたフレームＦを学習モデルＭ１に入力する。

自動販売機２０の第１取得部１０２、第２取得部１０３、及び第３取得部１０４の各々は、実施形態で説明した方法と同様にして、それぞれヒートマップＨ、動き画像Ｉ１、及び肌画像Ｉ３を取得する。自動販売機２０の位置情報取得部１０５は、実施形態で説明した方法と同様にして、撮影部２６により生成されたフレームＦ（利用者が商品を持つ様子が撮影されたフレーム）からバウンディングボックスＢの位置情報を取得する。自動販売機２０の販売処理部２０１は、学習モデルＭ１により認識された商品の分類情報と、位置情報取得部１０５により取得された位置情報と、に基づいて、利用者が把持する商品の種類と位置を特定すればよい。商品の種類と位置に応じて実行される処理については、実施形態で説明した通りである。

また例えば、本変形例と変形例（２）を組み合わせてもよい。例えば、自動販売機２０により追跡部１０８が実現されてもよい。この場合、追跡部１０８は、制御部２１を主として実現される。自動販売機２０の追跡部１０８は、あるフレームで取得したバウンディングボックスＢの位置情報に基づいて、それ以降のフレームにおける、当該バウンディングボックスＢ内の商品を追跡する。販売処理部２０１は、追跡されたバウンディングボックスＢの位置に基づいて、買い物かごデータＤＴを更新すればよい。この場合、入力部１０１、第１取得部１０２、第２取得部１０３、第３取得部１０４、及び位置情報取得部１０５の各々の処理が定期的に実行され、最新のフレームＦに応じた位置情報が位置情報取得部１０５によって取得されてもよい。

変形例（３）によれば、学習済みの学習モデルＭ２を用意しなくても、学習モデルＭ１を利用して、利用者が把持する商品の種類と位置を取得し、商品を追跡できる。

（４）また例えば、上記変形例を組み合わせてもよい。

また例えば、実施形態では、自動販売機２０が販売する商品を認識する場面を例に挙げたが、認識対象となる物体は、商品以外の物体であってもよい。例えば、人間の顔を認識する場面に物体認識システムＳを適用する場合には、人の顔が物体に相当してもよい。また例えば、車を認識する場面に物体認識システムＳを適用する場合には、車体やナンバープレートが物体に相当してもよい。認識対象となる物体は、物体認識システムＳに応じた物体であればよい。

また例えば、主な機能が学習装置１０で実現される場合を説明したが、各機能は、複数のコンピュータで分担されてもよい。例えば、学習装置１０、自動販売機２０、及びサーバ３０の各々で機能が分担されてもよい。例えば、サーバ３０によりバウンディングボックスＢが取得されてもよい。また例えば、物体認識システムＳが複数のサーバコンピュータを含む場合には、これら複数のサーバコンピュータで機能が分担されてもよい。また例えば、データ記憶部１００，２００，３００に記憶されるものとして説明したデータは、他のコンピュータによって記憶されてもよい。

Claims

物体を認識する学習モデルに、入力画像を入力する入力手段と、
前記入力画像が入力された前記学習モデルによる認識の根拠となった位置に関する第１情報を取得する第１取得手段と、
前記入力画像に含まれる動体又は前景の位置に関する第２情報を取得する第２取得手段と、
前記第１情報と前記第２情報とに基づいて、前記入力画像に含まれる前記物体の位置に関する位置情報を取得する位置情報取得手段と、
を含む物体認識システム。
前記第２取得手段は、前記学習モデルを利用せずに、前記動体又は前記前景を検出するためのアルゴリズムを利用して、前記第２情報を取得する、
請求項１に記載の物体認識システム。
前記アルゴリズムは、フレーム間差分法又は背景差分法である、
請求項２に記載の物体認識システム。
前記第２取得手段は、深度カメラを利用して、前記第２情報を取得する、
請求項１に記載の物体認識システム。
前記第１情報は、前記学習モデルによる認識の根拠としての強さを示す値を前記入力画像の画素ごとに特定可能な情報であり、
前記第２情報は、前記動体又は前記前景としての強さを示す値を前記入力画像の画素ごとに特定可能な情報であり、
前記位置情報取得手段は、前記第１情報から特定される前記入力画像における各画素に対応する値と、前記第２情報から特定される前記入力画像における各画素に対応する値と、を所定の数式で足し合わせた結果に基づいて、前記位置情報を取得する、
請求項１～４の何れかに記載の物体認識システム。
前記位置情報取得手段は、前記第１情報に応じた重み付けを有する前記数式に基づいて、前記位置情報を取得する、
請求項５に記載の物体認識システム。
前記位置情報は、前記物体を含む領域を示し、
前記位置情報取得手段は、前記領域の候補を複数取得し、複数の当該候補のうち最もサイズが大きい候補に基づいて、前記位置情報を取得する、
請求項１～６の何れかに記載の物体認識システム。
前記入力画像には、複数の種類の前記物体が含まれており、
前記位置情報取得手段は、前記入力画像に含まれる前記物体の種類ごとに、前記位置情報を取得する、
請求項１～７の何れかに記載の物体認識システム。
物体を認識する学習モデルに、入力画像を入力する入力ステップと、
前記入力画像が入力された前記学習モデルによる認識の根拠となった位置に関する第１情報を取得する第１取得ステップと、
前記入力画像に含まれる動体又は前景の位置に関する第２情報を取得する第２取得ステップと、
前記第１情報と前記第２情報とに基づいて、前記入力画像に含まれる前記物体の位置に関する位置情報を取得する位置情報取得ステップと、
を含む位置情報取得方法。
物体を認識する学習モデルに、入力画像を入力する入力手段、
前記入力画像が入力された前記学習モデルによる認識の根拠となった位置に関する第１情報を取得する第１取得手段、
前記入力画像に含まれる動体又は前景の位置に関する第２情報を取得する第２取得手段、
前記第１情報と前記第２情報とに基づいて、前記入力画像に含まれる前記物体の位置に関する位置情報を取得する位置情報取得手段、
としてコンピュータを機能させるためのプログラム。