JP7445856B2

JP7445856B2 - 物体認識装置、物体認識システムおよび物体認識方法

Info

Publication number: JP7445856B2
Application number: JP2019179767A
Authority: JP
Inventors: 誠新崎; 裕一松本
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2024-03-08
Anticipated expiration: 2039-09-30
Also published as: US20220343635A1; WO2021065413A1; EP4020416A1; CN114503174A; JP2021056803A; CN114503174B; US11972602B2; EP4020416A4

Description

本発明は、機械学習モデルを用いて対象物を認識する物体認識装置、物体認識システムおよび物体認識方法に関するものである。

近年、カメラの撮影画像から対象物を認識する物体認識の技術に、ディープラーニングなどによる機械学習モデルを用いることで、認識精度が飛躍的に向上している。この物体認識の技術を活用すると、小売店舗において、利用者（買物客）が購入する商品の精算を、店員を介さずに行うセルフレジ（無人レジ）の導入も可能となる。これにより、店舗の省力化を図ると共に、精算時間の短縮による利用者の利便性も高めることができる。

このような機械学習モデルを用いた物体認識に関する技術として、従来、ＣＧ（コンピューターグラフィックス）により生成した仮想的な物体画像と背景画像とを合成することで学習用の画像を生成し、その学習用の画像を用いて学習（ディープラーニング）を行い、物体認識用の機械学習モデルを構築する技術が知られている（特許文献１参照）。

特許第６２７５３６２号公報

さて、利用者が購入する商品の精算を行うために、物体認識により商品を識別する際には、利用者が購入する商品を撮影台に置いてカメラで撮影する。このとき、装置の環境変化、例えば日射の変化などが顕著であると、撮影台の明るさの状態が大きく変化し、これに応じて、商品の撮影画像における背景領域の明るさの状態が大きく変化する。このため、認識時点の画像が学習時点の画像と大きく異なるものになり、物体認識の精度が低下するという問題があった。

一方、前記従来の技術では、ＣＧで生成した仮想的な物体画像と背景画像とを用いて学習用の画像を生成するため、様々な状況における学習用の画像を容易に取得することができる。このため、環境変化に影響を受けにくい機械学習モデルを構築することができる。ところが、実環境は様々な要因で変化することから、ＣＧで学習用の画像を生成するのには限界がある。このため、カメラで実際に撮影した画像から学習用の画像を取得して、その学習用の画像を用いて学習を行うことが望ましい。

そこで、本発明は、撮影環境の変化を反映し、精度の高い物体認識を安定して実施することができる物体認識装置、物体認識システムおよび物体認識方法を提供することを主な目的とする。

本発明の物体認識装置は、物体が配置されるべき撮影部を撮影するカメラと、前記撮影部を撮影した画像に含まれる物体を、物体認識用の機械学習モデルを用いて認識するプロセッサとを備え、前記物体認識用の機械学習モデルは、無背景物体画像と物体が配置されていない状態の前記撮影部を撮影した学習用背景画像とを合成した画像を用いて学習処理を行うことで生成された学習済みモデルデータに基づいて構築され、前記プロセッサは、自装置の利用者に関する検知結果と、前記撮影部に配置された物体に関する検知結果とが整合しない状態を検知した回数に基づき、前記物体認識用の機械学習モデルに関する更新処理の要否を判定し、前記更新処理が必要な場合には、物体が配置されていない状態の前記撮影部を撮影して前記学習用背景画像を再取得する処理を前記カメラに行わせ、無背景物体画像と再取得した前記学習用背景画像とを合成した学習用物体画像を学習データとして前記学習処理を再度行わせる構成とする。
また、本発明の物体認識装置は、物体が配置されるべき撮影部を撮影するカメラと、前記撮影部を撮影した画像に含まれる物体を、物体認識用の機械学習モデルを用いて認識するプロセッサとを備え、前記物体認識用の機械学習モデルは、無背景物体画像と物体が配置されていない状態の前記撮影部を撮影した学習用背景画像とを合成した画像を用いて学習処理を行うことで生成された学習済みモデルデータに基づいて構築され、前記プロセッサは、物体認識処理の結果の誤りを修正する利用者の操作を検知した回数に基づき、前記物体認識用の機械学習モデルに関する更新処理の要否を判定し、前記更新処理が必要な場合には、物体が配置されていない状態の前記撮影部を撮影して前記学習用背景画像を再取得する処理を前記カメラに行わせ、無背景物体画像と再取得した前記学習用背景画像とを合成した学習用物体画像を学習データとして前記学習処理を再度行わせる構成とする。

また、本発明の物体認識システムは、物体が配置されるべき撮影部と、前記撮影部を撮影するカメラとを備え、前記撮影部を撮影した画像に含まれる物体を、物体認識用の機械学習モデルを用いて認識する物体認識システムであって、前記物体認識用の機械学習モデルは、無背景物体画像と物体が配置されていない状態の前記撮影部を撮影した学習用背景画像とを合成した画像を用いて学習処理を行うことで生成された学習済みモデルデータに基づいて構築され、前記物体認識システムは、前記物体認識システムの利用者に関する検知結果と、前記撮影部に配置された物体に関する検知結果とが整合しない状態を検知した回数に基づき、前記物体認識用の機械学習モデルに関する更新処理の要否を判定し、前記更新処理が必要な場合には、物体が配置されていない状態の前記撮影部を撮影して前記学習用背景画像を再取得する処理を前記カメラに行わせ、無背景物体画像と再取得した前記学習用背景画像とを合成した学習用物体画像を学習データとして前記学習処理を再度行わせる構成とする。
また、本発明の物体認識システムは、物体が配置されるべき撮影部と、前記撮影部を撮影するカメラとを備え、前記撮影部を撮影した画像に含まれる物体を、物体認識用の機械学習モデルを用いて認識する物体認識システムであって、前記物体認識用の機械学習モデルは、無背景物体画像と物体が配置されていない状態の前記撮影部を撮影した学習用背景画像とを合成した画像を用いて学習処理を行うことで生成された学習済みモデルデータに基づいて構築され、前記物体認識システムは、物体認識処理の結果の誤りを修正する利用者の操作を検知した回数に基づき、前記物体認識用の機械学習モデルに関する更新処理の要否を判定し、前記更新処理が必要な場合には、物体が配置されていない状態の前記撮影部を撮影して前記学習用背景画像を再取得する処理を前記カメラに行わせ、無背景物体画像と再取得した前記学習用背景画像とを合成した学習用物体画像を学習データとして前記学習処理を再度行わせる構成とする。

また、本発明の物体認識方法は、物体が配置されるべき撮影部をカメラで撮影し、撮影した画像に含まれる物体を、物体認識用の機械学習モデルを用いて認識する物体認識方法であって、前記物体認識用の機械学習モデルは、無背景物体画像と物体が配置されていない状態の前記撮影部を撮影した学習用背景画像とを合成した画像を用いて学習処理を行うことで生成された学習済みモデルデータに基づいて構築され、前記物体認識方法は、前記物体認識方法の利用者に関する検知結果と、前記撮影部に配置された物体に関する検知結果とが整合しない状態を検知した回数に基づき、前記物体認識用の機械学習モデルに関する更新処理の要否を判定し、前記更新処理が必要な場合には、物体が配置されていない状態の前記撮影部を撮影して前記学習用背景画像を再取得する処理を前記カメラに行わせ、無背景物体画像と再取得した前記学習用背景画像とを合成した学習用物体画像を学習データとして前記学習処理を再度行わせる構成とする。
また、本発明の物体認識方法は、物体が配置されるべき撮影部をカメラで撮影し、撮影した画像に含まれる物体を、物体認識用の機械学習モデルを用いて認識する物体認識方法であって、前記物体認識用の機械学習モデルは、無背景物体画像と物体が配置されていない状態の前記撮影部を撮影した学習用背景画像とを合成した画像を用いて学習処理を行うことで生成された学習済みモデルデータに基づいて構築され、前記物体認識方法は、物体認識処理の結果の誤りを修正する利用者の操作を検知した回数に基づき、前記物体認識用の機械学習モデルに関する更新処理の要否を判定し、前記更新処理が必要な場合には、物体が配置されていない状態の前記撮影部を撮影して前記学習用背景画像を再取得する処理を前記カメラに行わせ、無背景物体画像と再取得した前記学習用背景画像とを合成した学習用物体画像を学習データとして前記学習処理を再度行わせる構成とする。

本発明によれば、物体認識用の機械学習モデルを更新するため、顕著な環境変化が起きた場合でも、新たな環境に適合した機械学習モデルで物体認識を行うことができる。これにより、撮影環境の変化を反映し、精度の高い物体認識を安定して実施することができる。

第１実施形態に係る商品精算システムの全体構成図第１実施形態に係る商品学習用サーバ装置３で行われる処理の概要を示す説明図第１実施形態に係る商品精算装置１で行われる処理の概要を示す説明図第１実施形態に係る商品精算装置１および商品学習用サーバ装置３の概略構成を示すブロック図第１実施形態に係る商品精算装置１、商品撮影装置２、および商品学習用サーバ装置３の動作手順を示すシーケンス図第２実施形態に係る商品精算システムにおける更新要否判定の概要を示す説明図第２実施形態の変形例に係る商品精算システムにおける更新要否判定の概要を示す説明図第３実施形態に係る商品精算システムにおける更新要否判定の概要を示す説明図第３実施形態の変形例に係る商品精算システムにおける更新要否判定の概要を示す説明図第３実施形態の変形例に係る商品精算装置１のディスプレイ１４に表示される画面を示す説明図

前記課題を解決するためになされた第１の発明は、物体が配置されるべき撮影部を撮影するカメラと、前記撮影部を撮影した画像に含まれる物体を、物体認識用の機械学習モデルを用いて認識するプロセッサとを備え、前記物体認識用の機械学習モデルは、無背景物体画像と物体が配置されていない状態の前記撮影部を撮影した学習用背景画像とを合成した画像を用いて学習処理を行うことで生成された学習済みモデルデータに基づいて構築され、前記プロセッサは、所定のタイミングで、前記物体認識用の機械学習モデルに関する更新処理の要否を判定し、前記更新処理が必要な場合には、物体が配置されていない状態の前記撮影部を撮影して前記学習用背景画像を再取得する処理を前記カメラに行わせ、無背景物体画像と再取得した前記学習用背景画像とを合成した学習用物体画像を学習データとして前記学習処理を再度行わせる構成とする。

これによると、物体認識用の機械学習モデルを更新するため、顕著な環境変化が起きた場合でも、新たな環境に適合した機械学習モデルで物体認識を行うことができる。これにより、撮影環境の変化を反映し、精度の高い物体認識を安定して実施することができる。

また、第２の発明は、前記カメラは、現時点における物体が配置されていない状態の前記撮影部を撮影して判定用背景画像を取得し、前記プロセッサは、前記判定用背景画像が、前記学習用背景画像から所定限度以上変化した場合に、前記更新処理が必要と判定する構成とする。

これによると、判定用背景画像（現時点の背景画像）が学習用背景画像（学習時点の背景画像）から大きく変化した場合、物体認識処理の精度が低下した状態と想定されるため、更新処理の要否の判定を適切に行うことができる。

また、第３の発明は、前記物体認識用の機械学習モデルは、複数の時間帯それぞれについて構築され、前記プロセッサは、前記判定用背景画像が前記学習用背景画像から前記所定限度以上変化したタイミングの時間帯に応じて、前記更新処理の対象となる機械学習モデルを決定する構成とする。

これによると、時間帯に応じた機械学習モデルを、撮影環境の変化に応じて適宜に更新することで、適切な物体認識を行うことができる。

また、第４の発明は、前記物体認識用の機械学習モデルは、複数の天候それぞれについて構築され、前記プロセッサは、前記判定用背景画像が前記学習用背景画像から前記所定限度以上変化したタイミングの天候に応じて、前記更新処理の対象となる機械学習モデルを決定する構成とする。

これによると、天候に応じた機械学習モデルを、撮影環境の変化に応じて適宜に更新することで、適切な物体認識を行うことができる。

また、第５の発明は、前記プロセッサは、自装置の現時点の設置位置および向きの少なくとも一方が、学習時点から所定限度以上変化した場合に、前記更新処理が必要と判定する構成とする。

これによると、装置の設置位置が大きく変化した場合、認識用物体画像における背景領域の明るさの状態に大きな変化が現れて、物体認識処理の精度が低下した状態と想定されるため、更新処理の要否の判定を適切に行うことができる。

また、第６の発明は、前記プロセッサは、自装置の利用者に関する検知結果と、前記撮影部に配置された物体に関する検知結果とが整合しない状態を検知した回数に基づき、前記更新処理が必要と判定する構成とする。

これによると、精算操作を行う利用者に関する検知結果と、撮影位置に配置された物体に関する検知結果とが整合しない状態が多発する場合には、物体認識処理の精度が低下した状態と想定されるため、更新処理の要否の判定を適切に行うことができる。

また、第７の発明は、前記プロセッサは、前記利用者が検知されておらず、かつ、前記物体が認識されている場合に、前記利用者に関する検知結果と前記物体に関する検知結果とが整合しないと判定する構成とする。

これによると、物体認識処理の精度が低下した状態と想定される場合に、更新処理が必要と適切に判定することができる。

また、第８の発明は、前記プロセッサは、前記利用者が検知されており、かつ、前記物体が認識されていない場合に、前記利用者に関する検知結果と前記物体に関する検知結果とが整合しないと判定する構成とする。

また、第９の発明は、前記プロセッサは、物体認識処理の結果の誤りを修正する利用者の操作を検知した回数に基づき、前記更新処理が必要と判定する構成とする。

これによると、物体認識処理の結果の誤りを修正する利用者の操作が多発する場合には、物体認識処理の精度が低下した状態と想定されるため、更新処理の要否の判定を適切に行うことができる。

また、第１０の発明は、前記学習済みモデルデータは、前記無背景物体画像を保持する学習装置において生成され、前記物体認識装置は、更に、前記学習用背景画像を前記学習装置に送信すると共に、前記学習済みモデルデータを前記学習装置から受信する通信部を備え、前記プロセッサは、前記更新処理が必要な場合には、前記学習用背景画像を前記通信部から送信して前記学習装置に前記学習処理を再度行わせる構成とする。

これによると、学習装置において機械学習モデルに対する学習処理が行われるため、物体認識装置の負荷を軽減することができる。

また、第１１の発明は、前記物体認識装置は、前記撮影部に配置された物体の精算を行うための精算装置である構成とする。

これによると、店舗で販売する商品の精算を精度よく行うことができる。

また、第１２の発明は、物体が配置されるべき撮影部と、前記撮影部を撮影するカメラとを備え、前記撮影部を撮影した画像に含まれる物体を、物体認識用の機械学習モデルを用いて認識する物体認識システムであって、前記物体認識用の機械学習モデルは、無背景物体画像と物体が配置されていない状態の前記撮影部を撮影した学習用背景画像とを合成した画像を用いて学習処理を行うことで生成された学習済みモデルデータに基づいて構築され、前記物体認識システムは、所定のタイミングで、前記物体認識用の機械学習モデルに関する更新処理の要否を判定し、前記更新処理が必要な場合には、物体が配置されていない状態の前記撮影部を撮影して前記学習用背景画像を再取得する処理を前記カメラに行わせ、無背景物体画像と再取得した前記学習用背景画像とを合成した学習用物体画像を学習データとして前記学習処理を再度行わせる構成とする。

これによると、第１の発明と同様に、撮影環境の変化を反映し、精度の高い物体認識を安定して実施することができる。

また、第１３の発明は、物体が配置されるべき撮影部をカメラで撮影し、撮影した画像に含まれる物体を、物体認識用の機械学習モデルを用いて認識する物体認識方法であって、前記物体認識用の機械学習モデルは、無背景物体画像と物体が配置されていない状態の前記撮影部を撮影した学習用背景画像とを合成した画像を用いて学習処理を行うことで生成された学習済みモデルデータに基づいて構築され、前記物体認識方法は、所定のタイミングで、前記物体認識用の機械学習モデルに関する更新処理の要否を判定し、前記更新処理が必要な場合には、物体が配置されていない状態の前記撮影部を撮影して前記学習用背景画像を再取得する処理を前記カメラに行わせ、無背景物体画像と再取得した前記学習用背景画像とを合成した学習用物体画像を学習データとして前記学習処理を再度行わせる構成とする。

以下、本発明の実施の形態を、図面を参照しながら説明する。

（第１実施形態）
図１は、第１実施形態に係る商品精算システムの全体構成図である。

この商品精算システムは、コンビニエンスストアやスーパーマーケットなどの小売店舗において商品を購入する利用者（買物客）が店員を介さずに商品の精算を行うことができるようにするものであり、商品精算装置１（物体認識装置）と、商品撮影装置２と、商品学習用サーバ装置３（学習装置）と、顔認証用サーバ装置４と、を備えている。

商品精算装置１は、商品認識用の機械学習モデルを用いて、商品の撮影画像から画像認識により商品を識別して（商品認識処理）、各商品の価格（単価）および数量から支払い代金の総額を算出する（精算処理）。

この商品精算装置１は、利用者が購入する商品（対象物）が載置される撮影台１３（撮影部）と、撮影台１３に載置された商品を撮影する商品認識用カメラ１１と、商品認識結果を表示するディスプレイ１４と、を備えている。また、商品精算装置１は、商品学習用サーバ装置３とネットワーク接続されている。商品精算装置１は、商品学習用サーバ装置３から、学習結果、すなわち、学習済みの商品認識用の機械学習モデルに関する学習済みモデルデータ（設定パラメータなど）を受信して、商品認識用の機械学習モデルを構築する。商品精算装置１は、商品認識の際には、商品認識用の機械学習モデルに商品認識用カメラ１１の撮影画像を入力し、商品認識用の機械学習モデルから出力される商品識別情報（商品の名称など）を取得する。

また、商品精算装置１は、利用者が購入する商品の決済（代金の支払い）のための顔認証に関する処理を行う。商品精算装置１は、商品の精算を行う利用者の顔を撮影する顔認証用カメラ１２を備えている。また、商品精算装置１は、顔認証用サーバ装置４とネットワーク接続されている。商品精算装置１は、顔認証用カメラ１２により取得した対象者の顔画像を含む顔認証要求を顔認証用サーバ装置４に送信し、顔認証用サーバ装置４から顔認証の結果を受信する。

商品撮影装置２は、対象となる商品、すなわち、店舗で販売される商品が載置される撮影台２２と、撮影台２２に載置された商品を撮影するカメラ２１と、を備えている。また、商品撮影装置２は、商品学習用サーバ装置３とネットワーク接続されている。商品撮影装置２は、撮影台２２に載置された商品を撮影し、また、商品がない状態の撮影台２２を撮影して、その撮影画像を商品学習用サーバ装置３に送信する。

商品学習用サーバ装置３は、商品撮影装置２から取得した撮影画像を用いて、商品認識用の機械学習モデルに対する学習（ディープラーニングなど）を行い、学習結果、すなわち、学習済みの機械学習モデルに関する学習済みモデルデータ（設定パラメータなど）を商品精算装置１に送信する。

顔認証用サーバ装置４は、商品精算装置１から対象者の顔画像を取得して、その対象者の顔画像と登録者（登録済みの利用者）の顔画像とを比較する顔照合を行い、対象者が登録者か否かを判定し、顔照合結果として、顔照合の成否と、顔照合が成功した場合には該当する登録者の名前などの情報を出力する。また、顔照合では、顔照合用の機械学習モデルが用いられ、対象者の顔画像を機械学習モデルに入力し、機械学習モデルから出力される顔照合結果を取得する。

なお、利用者の認証に、パスワード認証などの他の認証方法を採用するようにしてもよい。

なお、商品精算装置１は、店員を介さずに商品の精算および決済（代金の支払い）を行う、いわゆる無人レジ（無人店舗）のための装置であるが、有人レジにおいて、店員の精算および決済の作業を支援する装置として構成することもできる。また、商品精算装置１における商品精算時の商品認識に関する機能のみを備えた商品認識装置や、商品認識に限定されない装置（物体認識装置）として構成することもできる。

次に、第１実施形態に係る商品学習用サーバ装置３で行われる処理について説明する。図２は、商品学習用サーバ装置３で行われる処理の概要を示す説明図である。

商品撮影装置２は、商品認識の対象となる商品、すなわち、店舗で販売される商品を撮影台２２に載置した状態で撮影して、商品画像を取得する。また、商品撮影装置２は、商品がない状態の撮影台２２を撮影して、前景抽出用背景撮影を取得する。

商品精算装置１は、商品がない状態の撮影台１３を商品認識用カメラ１１で撮影して学習用背景画像を取得し、その学習用背景画像を商品学習用サーバ装置３に送信する。

商品学習用サーバ装置３は、商品撮影装置２から商品画像および前景抽出用背景撮影を取得して、その商品画像および前景抽出用背景撮影に基づいて、商品画像から前景領域（商品領域）を検出する（前景検出処理）。このとき、背景領域（前景領域以外の領域）を覆うマスク画像（前景領域の範囲を表す画像）を生成する。

次に、商品学習用サーバ装置３は、前景検出処理の結果、すなわち、マスク画像に基づいて、商品画像から前景領域（商品領域）の画像を抽出して、無背景商品画像（無背景物体画像）、すなわち、商品画像から背景領域を除去した画像（商品領域画像）を取得する（前景抽出処理）。

次に、商品学習用サーバ装置３は、商品精算装置１から取得した学習用背景画像（商品のない状態で撮影台１３を撮影した背景画面）と、無背景商品画像（背景のない商品画像）とを合成して、商品精算装置１の撮影台１３に仮想的に商品を載置した状態を表す学習用商品画像（学習用物体画像）を生成する（画像合成処理）。なお、画像合成処理は、学習用背景画像に無背景商品画像を単純に重畳する単純な処理であってもよいし、画像解析結果や商品の３次元形状の情報など基づいて無背景商品画像を加工して陰影等も再現するなどより高度な処理であってもよい。

次に、商品学習用サーバ装置３は、学習用商品画像を入力用の学習データとし、商品識別情報を出力用の学習データとして、商品認識用の機械学習モデルに対する学習処理を行う。この学習処理では、学習結果として、学習済みの機械学習モデルに関する学習済みモデルデータ（設定パラメータ）を取得する。このデータは商品精算装置１に送信される。

このように、本実施形態では、商品精算装置１の撮影台１３に仮想的に商品を載置した状態を表す学習用商品画像を用いて、商品認識用の機械学習モデルに対する学習処理を行うため、商品精算装置１に最適化された機械学習モデルを構築することができる。

なお、本実施形態では、商品撮影装置２を用いて、商品を撮影して商品画像を取得して、その商品画像から前景領域（商品領域）を検出し（前景検出処理）、商品画像から無背景商品画像（背景のない商品画像）を抽出する（前景抽出処理）ようにしたが、商品カタログデータなどにより、対象となる商品の無背景商品画像を全て取得できる場合には、商品撮影、前景検出処理および前景抽出処理は不要である。

次に、第１実施形態に係る商品精算装置１で行われる処理について説明する。図３は、商品精算装置１で行われる処理の概要を示す説明図である。

商品精算装置１は、商品学習用サーバ装置３から、学習結果、すなわち、学習済みの商品認識用の機械学習モデルに関する学習済みモデルデータ（設定パラメータなど）を受信すると、その学習済みモデルに基づいて商品認識用の機械学習モデルを構築する。

次に、商品精算装置１は、撮影台１３に置かれた商品を商品認識用カメラ１１で撮影して認識用商品画像（認識用物体画像）を取得する。次に、認識用商品画像から、商品の位置を検出して、１つの商品を取り囲む矩形の画像領域を認識用商品画像から切り出して、商品領域画像を取得する（商品検知処理）。次に、商品認識用の機械学習モデルを用いて商品認識処理を行う。このとき、商品精算装置１は、商品領域画像を、商品認識用の機械学習モデルに入力し、商品認識用の機械学習モデルから出力される商品識別情報（商品の名称など）を取得する（商品認識処理）。

なお、商品精算装置１は、複数の商品認識用の機械学習モデルを用意して、環境条件に応じて使い分けるようにしてもよい。

また、商品検知処理は、商品認識処理と同様に、機械学習モデルを用いて行うことができる。このとき、商品認識用の機械学習モデルとは別に、商品検知用の機械学習モデルを構築して、その商品検知用の機械学習モデルを用いて商品検知処理を行えばよい。また、商品検知処理と商品認識処理とを単一の機械学習モデルを用いて行うようにしてもよい。

また、商品認識用の機械学習モデルとは別に、商品検知用の機械学習モデルを構築する場合、商品検知用の機械学習モデルも、商品認識用の機械学習モデルと同様に、環境変化に応じた更新処理が行われる。すなわち、商品精算装置１において、更新処理が必要と判定されると、商品学習用サーバ装置３において、商品がない状態で撮影された学習用背景画像から学習用商品画像が再生成され、その学習用商品画像を用いて、商品領域検出用の機械学習モデルに関する学習処理が行われる。

このように、本実施形態では、学習時点の背景画像（学習用背景画像）から合成された学習用商品画像を学習データとした学習処理により構築された商品認識用の機械学習モデルを用いて商品認識処理が行われる。一方、撮影台１３の明るさは、日射や天候の状況に応じて変化する。このため、現時点の撮影台１３の明るさの状態が、学習時点の撮影台１３の明るさの状態から大きく変化すると、学習用商品画像の背景領域と認識用商品画像の背景領域とが大きく異なるため、商品認識処理の精度が低下する。

そこで、本実施形態では、商品がない状態の撮影台１３を商品認識用カメラ１１で撮影して、判定用背景画像（現時点の背景画像）を取得して、その判定用背景画像と、前回の更新時の学習用商品画像（学習時点の背景画像）とを比較し、判定用背景画像が、学習用背景画像から大きく変化した状態であるか否かに応じて、更新処理の要否を判定する（更新要否判定処理）。なお、学習時点の背景画像は前回の更新時のものに限らず、過去複数回の更新時の背景画像を平均化した画像などを用いたりしてもよい。

このとき、判定用背景画像と学習用背景画像とを比較して、判定用背景画像が、学習用背景画像に対して許容限度を超える変化が現れている否かを判定する。特に、撮影台１３の明るさは、日射や天候の状況に応じて、全体的に変化したり部分的に変化したりする。このため、判定用背景画像および学習用背景画像の各々の輝度を取得し、輝度パターン（輝度の分布状況）の変化状況に基づいて判定を行えばよい。また、背景差分法やセグメンテーションなどの手法を用いて判定を行えばよい。

図３に示す例では、判定用背景画像Ａは、学習用商品画像と同様であるが、判定用背景画像Ｂは、学習用商品画像と比較して、全体的に暗くなっており、また、判定用背景画像Ｃは、学習用商品画像と比較して、部分的に暗くなっている。判定用背景画像Ａの場合には、更新処理が不要と判定されるが、判定用背景画像Ｂ，Ｃの場合には、商品認識処理の精度が低下する状態であるため、更新処理が必要と判定される。

なお、商品精算装置１を新規に店舗に設置した際には、更新要否判定処理を省略して、作業者が更新処理の実施を指示する操作（例えば、所定のボタンを押したり、所定の信号を入力したりする等）を行うことで、更新処理を実施するようにするとよい。

また、更新要否判定処理は所定のタイミングで定期的に実施するようにするとよい。また、所定の事象が発生したタイミングで更新要否判定処理を実施するようにしてもよい。例えば、管理者が更新要否判定処理の実施を指示する操作を行うと、更新要否判定処理を実施するようにしてもよい。

また、更新要否判定処理で更新処理が必要と判定されたタイミングで、即座に更新処理を開始する必要はなく、できるだけ早期の適切なタイミングで更新処理を開始すればよい。すなわち、更新処理では、まず、商品がない状態の撮影台１３を撮影して学習用背景画像を取得するが、この背景撮影は、撮影台１３に商品が確実に存在しないタイミングで行う必要がある。一方、店舗が混雑している時間帯等では、撮影台１３に商品が存在しない時間が極めて短かったり、更新処理を行うために精算処理を止めることが難しかったりする。

そこで、例えば、店舗の始業時に商品精算装置１の電源が投入されたタイミングなどの商品がない可能性が高いタイミングで、更新処理を開始して背景撮影を行うとよい。

また、更新（背景撮影）が必要である旨を管理者に通知して、管理者が更新処理の実施を指示する操作を行うと、更新処理を開始して背景撮影を行うようにしてもよい。このようにすることで、更新処理を実施するか否かを管理者の判断に任せることができるので、商品精算装置１は、店舗が一時的に空いている時間帯等、自動的に判断することが難しいタイミングでも更新処理を開始することができる。

また、商品認識用カメラ１１の撮影画像から、撮影台１３に置かれた物体を検知するようにして、撮影台１３の物体が検知されないタイミングで、更新処理を開始して背景撮影を行うようにしてもよい。このようにすることで、撮影台１３に商品がないタイミングを自動で判定して更新処理を開始することができる。また、撮影画像に基づく判断に加えて、その他のセンサの検出結果（重量センサや３次元センサなど）も考慮して、撮影台１３に置かれた物体が検知されない場合に、更新処理を開始するとしてもよい。更新処理が発生するタイミングでは、すでに背景画像が大きく変化している可能性が高く、画像のみでは撮影台１３に物体が置かれているか否かを正確に判断できないおそれがあるためである。また、同様の理由から、撮影画像を用いず、その他のセンサの検出結果に基づいて、撮影台１３上に物体がないことを検知するようにしてもよい。なお、その他のセンサを用いる場合、その精度は撮影画像に基づく判断よりも低くてもよい。更新処理を行うか否かを決定するためには、撮影台１３の上に物体が配置されているか否かが判定できれば十分であり、どのような物体が何個あるかまで判定する必要がないからである。

また、撮影台１３から得られる情報以外の情報に基づいて、更新処理を開始するタイミングを決定してもよい。例えば、商品精算装置１の前に人物がいない場合、撮影台１３に商品が存在しない蓋然性が高いため、商品精算装置１の前に人物がいないタイミングで背景撮影を行うようにしてもよい。この場合、顔認証用カメラ１２の撮影画像から、商品精算装置１の前に人物の顔を検知するようにして、人物の顔が検知されない場合に、商品精算装置１の前に人物がいないものと判定すればよい。また、店舗に設置された防犯カメラの撮影画像から、商品精算装置１の前に人物を検知するようにしてもよい。

また、更新処理が実行されている間は、利用者が商品精算装置１を一時的に使用できなくしてもよい。更新処理が行われている場合、既知のモデルから背景画像が大きく変化しているおそれがあるため正確な商品認識を行うことができなかったり、また、更新処理による負荷で精算処理が停止あるいは遅延したりするおそれがあるためである。同様の理由から、利用者が少ない時間帯に更新処理を実施するようにしてもよい。

次に、第１実施形態に係る商品精算装置１および商品学習用サーバ装置３の概略構成について説明する。図４は、商品精算装置１および商品学習用サーバ装置３の概略構成を示すブロック図である。

商品学習用サーバ装置３は、入出力部３１と、通信部３２と、メモリ３３と、プロセッサ３４と、を備えている。

入出力部３１は、商品撮影装置２との間で所要のデータの入出力を行う。具体的には、商品撮影装置２からカメラ２１の撮影画像が入力される。

通信部３２は、商品精算装置１との間で通信を行う。具体的には、商品精算装置１から送信される学習用背景画像を受信する。また、プロセッサ３４で生成した学習結果、すなわち、学習済みの商品認識用の機械学習モデルに関する学習済みモデルデータ（設定パラメータなど）を商品精算装置１に送信する。なお、本開示において「プロセッサ」は単一のプロセッサのみを意味するものではない。「プロセッサ」は、複数の同一目的のプロセッサや、目的の異なるプロセッサ（例えば、汎用ＣＰＵ（Central Processing Unit）とＧＰＵ（Graphical Processing Unit））が共同して処理を行う場合の動作主体を意味する語としても使用される。

メモリ３３は、プロセッサ３４で実行されるプログラムなどを記憶する。

プロセッサ３４は、メモリ３３に記憶されたプログラムを実行することで情報収集に係る各種の処理を行う。本実施形態では、プロセッサ３４が、前景検出処理、前景抽出処理、画像合成処理、および学習処理などを行う。

前景検出処理では、プロセッサ３４が、商品画像内の前景領域（商品領域）と背景領域とを識別して、商品画像から前景領域（商品領域）を検出する。

前景抽出処理では、プロセッサ３４が、前景検出処理の結果、すなわち、マスク画像（前景領域の範囲を表す画像）に基づいて、前景領域（商品領域）の画像を抽出して、無背景商品画像（商品領域画像）を取得する。

画像合成処理では、プロセッサ３４が、商品精算装置１から取得した学習用背景画像と、メモリに記憶された無背景商品画像とを合成して、商品精算装置１の撮影台１３に仮想的に商品を載置した状態を表す学習用商品画像を取得する。

学習処理では、プロセッサ３４が、学習用商品画像を入力用の学習データとし、商品識別情報を出力用の学習データとして、商品認識用の機械学習モデルに対する学習処理を行い、学習結果として、学習済みの機械学習モデルに関する学習済みモデルデータ（設定パラメータ）を取得する。この学習処理で取得した学習済みモデルデータは、通信部３２から商品精算装置１に送信される。

商品精算装置１は、商品認識用カメラ１１と、顔認証用カメラ１２と、ディスプレイ１４と、通信部１５と、メモリ１６と、プロセッサ１７と、を備えている。

商品認識用カメラ１１は、撮影台１３に置かれた商品を撮影する。この商品認識用カメラ１１の撮影画像は、撮影台１３に置かれた商品（商品名）を認識する用途に用いられる。

顔認証用カメラ１２は、精算台の前で精算に係る操作を行う人物の顔を撮影する。この顔認証用カメラ１２の撮影画像は、決済のための顔認証の用途に用いられる。

ディスプレイ１４は、商品認識結果（精算対象となる商品の名称）に誤りがあるか否かを利用者に確認させる画像を表示する。利用者は、商品認識結果に誤りがなければ、顔認証に関する操作を行うことができる。また、商品認識結果に誤りがある場合には、精算対象となる商品を修正する操作を行うことができる。なお、ディスプレイ１４は、一例として、表示パネルとタッチパネルとが一体化されたタッチパネルディスプレイである。ただし、表示パネルと、タッチパネル又はキーボード等の他の入力手段とが分離された形で合っても構わない。

通信部１５は、商品学習用サーバ装置３との間で通信を行う。具体的には、学習時に、商品がない状態で撮影台１３を撮影した画像（学習用背景画像）をサーバに送信する。また、サーバで行われる学習処理で取得した学習済みの商品認識用の機械学習モデルに関する学習済みモデルデータ（設定パラメータ）をサーバから受信する。

メモリ１６は、プロセッサ１７で実行されるプログラムなどを記憶する。

プロセッサ１７は、メモリ１６に記憶されたプログラムを実行することで情報収集に係る各種の処理を行う。本実施形態では、プロセッサ１７が、商品検知処理、商品認識処理、精算処理、顔認証処理、更新要否判定処理、および更新処理などを行う。

商品検知処理では、プロセッサ１７が、商品認識用カメラ１１の撮影画像に基づいて、撮影台１３に置かれた商品を検知する。このとき、プロセッサ１７は、商品の位置を検出して、１つの商品を取り囲む矩形の画像領域を撮影画像から切り出して、商品領域画像を取得する。本実施形態では、商品検知処理に、商品検知用の機械学習モデルが用いられ、商品認識用カメラ１１の撮影画像を商品検知用の機械学習モデルに入力し、商品検知用の機械学習モデルから出力される商品検知結果（商品の有無、商品の位置など）を取得する。

商品認識処理では、プロセッサ１７が、商品検知処理で取得した商品領域画像に基づいて、撮影台１３に置かれた商品を認識する。本実施形態では、商品認識処理に、商品認識用の機械学習モデルが用いられ、商品領域画像を商品認識用の機械学習モデルに入力し、商品認識用の機械学習モデルから出力される商品認識結果（商品識別情報など）を取得する。

なお、商品精算装置１の撮影台１３に複数の商品を並べて、同時に複数の商品を認識することもできる。この場合、商品検知処理で、単一の商品が写る商品領域画像が複数の商品ごとに生成され、商品認識処理で、商品ごとの商品領域画像に基づいて、各商品が認識される。

精算処理では、プロセッサ１７が、商品認識処理で取得した商品識別情報に基づいて、撮影台１３に置かれた商品の代金を精算する。すなわち、撮影台１３に置かれた各商品の金額（単価）を取得して、その各商品の金額を集計して、代金の総額を算出する。

顔認証処理では、プロセッサ１７が、顔認証用カメラ１２の撮影画像から商品の精算を行う人物の顔を検知し（顔検知）、顔認証用カメラ１２の撮影画像から顔画像を切り出して、その顔画像を含む顔認証要求を顔認証用サーバ装置４に送信するように通信部１５を制御する。

更新要否判定処理では、プロセッサ１７が、商品がない状態の撮影台１３を商品認識用カメラ１１で撮影した判定用背景画像（現時点の背景画像）を取得して、その判定用背景画像と、前回の更新時の学習用商品画像（学習時点の背景画像）とを比較し、判定用背景画像が、学習用背景画像に対して許容限度を超える変化が現れているか否かに応じて、更新処理の要否を判定する。

更新処理では、プロセッサ１７が、更新要否判定処理で更新処理が必要と判定すると、現時点の学習用背景画像を商品学習用サーバ装置３に送信するように通信部１５を制御する。そして、商品学習用サーバ装置３から、学習済みの商品認識用の機械学習モデルに関する学習済みモデルデータ（設定パラメータなど）を受信すると、そのデータに基づいて商品認識用の機械学習モデルを再構築する。

なお、背景画像、すなわち、撮影台１３の状態に影響を及ぼす日射の状態は、時間帯に応じて変化する。そこで、商品精算装置１は、時間帯（例えば朝用、昼用、夜用）ごとの商品認識用の機械学習モデルをメモリに記憶し、現在の時刻に対応する商品認識用の機械学習モデルを選択して商品認識処理を行うようにしてもよい。また、日射の状態は、天候に影響を受けるため、商品精算装置１は、天候（例えば晴天、曇天など）に応じた商品認識用の機械学習モデルをメモリに記憶し、現在の天候に対応する商品認識用の機械学習モデルを選択して商品認識処理を行うようにしてもよい。また、商品精算装置は、時間帯と天候の両方をメモリに記憶し、現在の天候と時間帯に応じた商品認識用の機械学習モデルを選択して商品認識処理を行うようにしてもよい。同様に、更新処理についても、更新処理が必要と判定された時間帯または天候に対応する商品認識用の機械学習モデルを選択して実施してもよい。

次に、第１実施形態に係る商品精算装置１、商品撮影装置２、および商品学習用サーバ装置３の動作手順について説明する。図５は、商品精算装置１、商品撮影装置２、および商品学習用サーバ装置３の動作手順を示すシーケンス図である。

まず、図５（Ａ）に示す学習時における商品精算装置１、商品撮影装置２、および商品学習用サーバ装置３の動作手順について説明する。

学習時には、まず、商品撮影装置２において、カメラ２１が、撮影台２２に置かれた商品を撮影して、商品画像を取得する（商品撮影）。そして、商品画像が商品学習用サーバ装置３に送信される。また、商品精算装置１において、商品認識用カメラ１１が、商品がない状態の撮影台１３を撮影して、前景抽出用背景画像を取得する（背景撮影）。そして、通信部１５が、前景抽出用背景画像を商品学習用サーバ装置３に送信する。

次に、商品学習用サーバ装置３では、プロセッサ３４が、商品画像から前景領域（商品の画像領域）を抽出して、前景領域の位置情報を取得する（前景検出処理）。次に、プロセッサ３４が、商品画像から前景領域（商品領域）の画像を抽出して、無背景商品画像を取得する（前景抽出処理）。

また、商品精算装置１において、商品認識用カメラ１１が、商品がない状態の撮影台１３を撮影して、学習用背景画像を取得する（背景撮影）。そして、通信部１５が、学習用背景画像を商品学習用サーバ装置３に送信する。

次に、商品学習用サーバ装置３において、プロセッサ３４が、商品精算装置１から取得した学習用背景画像と、メモリ３３に記憶された無背景商品画像とを合成して、商品精算装置１の撮影台１３に仮想的に商品を載置した状態を表す学習用商品画像を取得する（画像合成処理）。次に、プロセッサ３４が、学習用商品画像を学習データとして、商品認識用の機械学習モデルに対する学習処理を行う。そして、通信部３２が、学習結果、すなわち、学習済みの機械学習モデルに関する学習済みモデルデータ（設定パラメータ）を商品精算装置１に送信する。

次に、商品精算装置１において、プロセッサ１７が、学習済みの商品認識用の機械学習モデルに関する学習済みモデルデータ（設定パラメータ）に基づいて、商品認識用の機械学習モデルを構築する（モデル構築）。

次に、図５（Ｂ）に示す更新時における商品精算装置１、商品撮影装置２、および商品学習用サーバ装置３の動作手順について説明する。

更新時には、まず、商品精算装置１において、商品認識用カメラ１１が、商品がない状態の撮影台１３を撮影して、学習用背景画像を取得する（背景撮影）。そして、プロセッサ１７が、現時点の学習用背景画像が、前回の更新時の学習用背景画像に対して、許容限度を超える変化が現れているか否かに応じて、商品認識用の機械学習モデルに関する更新処理の要否を判定する（更新要否判定処理）。ここで、更新処理が必要と判定されると、通信部１５が、現時点の学習用背景画像を商品学習用サーバ装置３に送信する。

次に、商品学習用サーバ装置３において、プロセッサ３４が、商品精算装置１から取得した学習用背景画像と、メモリ３３に記憶された無背景商品画像とを合成して、学習用商品画像を取得する（画像合成処理）。次に、プロセッサ３４が、学習用商品画像を学習データとして学習処理を行う。そして、通信部３２が、学習済みの商品認識用の機械学習モデルに関する学習済みモデルデータ（設定パラメータ）を商品精算装置１に送信する。

（第２実施形態）
次に、第２実施形態について説明する。なお、ここで特に言及しない点は前記の実施形態と同様である。図６は、第２実施形態に係る商品精算システムにおける更新要否判定の概要を示す説明図である。

店舗のレイアウトの変更などに伴って商品精算装置１を別の場所に移動すると、商品精算装置１の撮影台１３と日射や照明器具との位置関係が学習時から大きく変化することで、撮影台１３の明るさの状態が学習時から大きく変化する。

そこで、本実施形態では、更新要否判定処理において、商品精算装置１の設置位置が所定距離以上変化したか否かに応じて、更新処理の要否を判定する。具体的には、店舗に設置された防犯カメラ５１が、商品精算装置１を撮影する。そして、監視サーバ装置５が、防犯カメラ５１の撮影画像に基づいて、画像認識により商品精算装置１を検知して、商品精算装置１の位置を測定して、商品精算装置１の設置位置が前回の更新時点から所定距離以上変化したか否かを判定する。

なお、本実施形態では、更新要否判定処理において、商品精算装置１の設置位置の変化に基づいて更新処理の要否を判定するようにしたが、商品精算装置１の向きが変化した場合にも、撮影台１３と日射や照明器具との位置関係が大きく変化することで、撮影台１３の明るさの状態が大きく変化することから、商品精算装置１の向きの変化も考慮して更新処理の要否を判定するようにしてもよい。

また、本実施形態では、商品精算装置１の設置位置の変化に基づいて、更新が必要と判定されると、自動で更新処理を開始して、背景撮影を行うようにしたが、商品精算装置１の設置位置の変化を検知すると、まず、更新（背景撮影）が必要である旨を管理者に通知して、更新（背景撮影）を行うかどうかを管理者に問い合わせる処理を行い、更新（背景撮影）を指示する操作を管理者が行うと、更新処理を開始するようにしてもよい。

また、商品精算装置１の設置位置の変化を検知せずに、更新（背景撮影）を指示する操作そのものを契機として更新処理が開始されるようにしてもよい。すなわち、精算台を移動したら更新処理を行うように事前に管理者に案内した上で、更新を指示する操作を管理者が行うと、更新処理を開始する。

（第２実施形態の変形例）
次に、第２実施形態の変形例について説明する。なお、ここで特に言及しない点は前記の実施形態と同様である。図７は、第２実施形態の変形例に係る商品精算システムにおける更新要否判定の概要を示す説明図である。

第２実施形態では、防犯カメラの撮影画像を利用して商品精算装置１の位置または向きを測定するようにしたが、本変形例では、ＲＦＩＤ（Radio Frequency Identifier）システムの無線信号やビーコン信号などの無線信号を利用して商品精算装置１の位置または向きを測定する。

具体的には、無線信号の送信機および受信機の一方を商品精算装置１に取り付け、送信機および受信機の他方を店舗内の所定位置に設置し、受信機でのビーコン信号の受信状況に基づいて、商品精算装置１の位置を測定する。

図７に示す例では、商品精算装置１にＲＦＩＤタグ６１（送信機）が取り付けられている。また、複数のタグリーダ６２（受信機）が店舗の適所に設置されている。そして、監視サーバ装置５が、ＲＦＩＤタグ６１から送信される無線信号のタグリーダ６２での受信状況に基づいて、商品精算装置１の位置を測定する。

（第３実施形態）
次に、第３実施形態について説明する。なお、ここで特に言及しない点は前記の実施形態と同様である。図８は、第３実施形態に係る商品精算システムにおける更新要否判定の概要を示す説明図である。本実施の形態では、更新処理の要否の判定に、商品精算装置１の利用者の情報も用いる。

商品精算装置１の撮影台１３の明るさの状態が学習時から大きく変化すると、商品認識精度が低下する。例えば、商品精算装置１の前で商品の精算を行う人物がいる場合、撮影台１３に商品が置かれている蓋然性が高い。このため、人物が精算台の前にいるのに、商品が認識されない状態（未認識）となり、また、人物が精算台の前にいないのに、何らかの商品が認識される状態（誤認識）となる場合、商品認識精度が低下しているものと想定される。

そこで、本実施形態では、未認識および誤認識の発生状況により、商品認識精度が低下したことを検知して、更新処理の要否を判定する。

具体的には、商品精算装置１の前で商品の精算を行う利用者を検知すると共に（人物検知）、商品精算装置１の撮影台１３に置かれた商品を検知する（商品検知）。そして、利用者検知の結果と商品検知の結果とが整合する場合、正常な状態であるため、更新処理が不要と判定する。一方、利用者検知の結果と商品検知の結果とが整合しない場合、すなわち、未認識および誤認識が発生した場合には、未認識および誤認識の検知頻度（所定期間内の発生回数）が所定のしきい値を超えたことを条件にして、更新処理が必要と判定する。なお、未認識または誤認識の検知の回数に基づく判定であれば、検知頻度以外の情報を用いて更新処理が必要か否かを判定してもよい。例えば、未認識および誤認識が検知された回数の累計が所定の閾値を超えたことを条件にして更新処理が必要と判定してもよいし、未認識または誤認識のいずれか一方のみの検知回数に基づいて更新処理が必要と判定してもよい。

なお、利用者が商品の精算を行う場合、商品精算装置１に向かい合う状態となり、顔認証用カメラ１２により利用者の顔が正面から撮影されることから、顔認証用カメラ１２の撮影画像から人物の顔を検知するようにするとよい（顔検知）。

また、本実施形態では、顔認証用カメラ１２の撮影画像から商品の精算を行う人物を検知するようにしたが、顔認証を行わない場合には、顔検知のみを行うように構成すればよい。また、カメラ以外のセンサ、例えば、赤外線、超音波、可視光などを利用した人感センサにより、商品の精算を行う人物を検知するようにしてもよい。

（第３実施形態の変形例）
次に、第３実施形態の変形例について説明する。なお、ここで特に言及しない点は前記の実施形態と同様である。図９は、第３実施形態の変形例に係る商品精算システムにおける更新要否判定の概要を示す説明図である。

商品認識精度が低下して商品認識結果に誤り（未認識および誤認識）が発生すると、利用者は、精算対象となる商品を修正する操作（商品修正操作）を行う。このため、本変形例では、商品修正操作の検知頻度（所定期間内の発生回数）を取得して、その検知頻度が所定のしきい値を超えた場合に、更新処理が必要と判定する。

すなわち、利用者の商品修正操作を検知しない場合、商品認識結果に誤りない正常な状態であるため、更新処理が不要と判定する。一方、利用者の商品修正操作を検知した場合、未認識または誤認識が発生しており、この場合、商品修正操作の検知頻度が所定のしきい値を超えたことを条件にして、更新処理が必要と判定する。なお、利用者の商品修正操作が検知されている場合、商品精算装置１の撮影台１３に置かれた商品を検知する処理（商品検知処理）の結果に基づいて、未認識と誤認識とを識別できるため、未認識と誤認識とで処理方法を変える、例えば、未認識と誤認識とで判定のしきい値を変えることもできる。なお、商品修正操作の検知の回数に基づく判定であれば、検知頻度以外の情報を用いて更新処理が必要か否かを判定してもよい。例えば、商品修正操作が検知された回数の累計が所定の閾値を超えたことを条件にして更新処理が必要と判定してもよい。

なお、本実施形態では、顔認証処理を顔認証用サーバ装置４で行うようにしたが、商品精算装置１で顔認証処理を行うようにしてもよい。

次に、第３実施形態の変形例に係る商品精算装置１について説明する。図１０は、商品精算装置１のディスプレイ１４に表示される画面を示す説明図である。

商品精算装置１では、利用者が購入する商品の精算を行う際に、ディスプレイ１４に認識結果確認画面が表示される。この認識結果確認画面には、商品認識用カメラ１１の撮影画像７１と、商品認識結果７２（認識した商品の名称）と、商品認識結果を承認するための承認ボタン７３と、商品認識結果を修正するための修正ボタン７４と、が設けられている。

商品認識結果が正しい場合には、利用者は承認ボタン７３を操作する。一方、商品認識結果が誤っている場合には、利用者は修正ボタン７４を操作する。修正ボタン７４が操作されると、ディスプレイ１４に認識結果修正画面（図示せず）が表示される。この認識結果修正画面では、利用者が、商品認識結果を修正する操作を行うことができる。具体的には、利用者が正しい商品の名称を入力する。

ここで、図１０（Ａ）に示す例は、商品認識結果が正しい場合である。図１０（Ｂ），（Ｃ）に示す例は、商品認識結果が誤っている場合である。特に、図１０（Ｂ）に示す例は、未認識の場合、すなわち、撮影台１３に商品が置かれているのに商品が認識されない場合である。一方、図１０（Ｃ）に示す例は、誤認識の場合、すなわち、撮影台１３に置かれた商品が認識されたが、商品認識結果が誤っている場合である。

また、商品精算装置１では、利用者により商品認識結果を修正する操作が行われると、そのときの時刻などの情報が認識結果修正ログ情報としてメモリ１６に記憶される。プロセッサ１７は、所定のタイミングで、認識結果修正ログ情報に基づいて、商品修正操作の検知頻度（所定期間内の発生回数）を算出する。そして、商品修正操作の検知頻度が所定のしきい値を超えた場合には、更新が必要と判定する。

以上のように、本出願において開示する技術の例示として、実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略などを行った実施形態にも適用できる。また、上記の実施形態で説明した各構成要素を組み合わせて、新たな実施形態とすることも可能である。

（その他の変形例）
上述した各実施形態では、店舗に設置された商品精算装置１が商品認識処理を行うようにしたが、商品精算装置１とネットワーク接続されたサーバ装置が商品認識処理を行うようにしてもよい。この場合、商品精算装置１は、商品撮影画像をサーバ装置に送信し、サーバ装置は、商品精算装置１から受信した商品撮影画像を商品認識用の機械学習モデルに入力して、商品認識結果（商品識別情報）を取得し、その商品認識結果を商品精算装置１に送信する。また、商品の撮影状況は商品精算装置１に応じて異なるため、サーバ装置に、商品精算装置１ごとに最適化された商品認識用の機械学習モデルを構築し、商品精算装置１は、商品撮影画像と共に商品精算装置１の識別情報（装置ＩＤ等）をサーバ装置に送信して、サーバ装置は、商品精算装置１の識別情報に基づいて、商品精算装置１に応じた商品認識用の機械学習モデルを選択して商品認識を行うようにするとよい。

上述した各実施の形態における、商品精算システムの各装置の構成は一例である。カメラと撮影台など物理的な配置が限定される機能を除き、いずれかの装置の機能を他の装置で実施しても構わない。例えば、更新処理において、商品精算装置１が実施する機能を、最低限の情報の取得と送信（各背景画像の撮影と送信など）に限定し、更新処理の実施の判断も含め、他の全ての機能を商品学習用サーバ装置３が実施するものとしてもよい。この場合、商品精算装置１は、所定のタイミングで判定用背景画像を撮影して商品学習用サーバ装置３に送信し、商品学習用サーバ装置３での判定結果に応じて、学習用背景画像を撮影する動作を行う。なお、商品の撮影状況は商品精算装置１毎に異なるため、商品学習用サーバ装置３に機能を集中させる場合には、商品精算装置１の識別情報（装置ＩＤ等）を用いて、どの商品精算装置１向けに実施している処理であるのかを区別するとよい。この構成では、商品精算装置１の構成を簡略化することができるので、多数の店舗等に商品精算装置１を配置することが容易となる。また、逆に商品精算装置１が自ら更新処理の全てを実施するものとしてもよい。この場合、商品精算装置１に対して高い処理能力が求められるが、外部装置との通信が不要となるので、通信量を抑制することができる。また、装置の処理能力や、設置場所の環境、技術の発展や変化等に応じて、他の態様で機能を配分してもよい。

上述した各実施の形態では、商品が載置される撮影台を背景画像の取得対象としていたが、他の背景を用いても良い。例えば、カメラが、商品を側面から撮影する構成の場合、商品の奥に設けられた壁等を背景画像の取得対象としてもよい。すなわち、本開示における撮影部は、台状のものに限られるものではなく、カメラが商品を撮影する際に背景として映り込む任意の被写体であってよい。ただし、上述した各実施の形態のように、背景も含めた画像を商品認識に用いる構成では、背景画像の不安定さは商品の認識精度の低下に直結する。そのため、変化の原因あるいは大きさをある程度予測することができる商品精算装置１の一部として構成された床あるいは壁の面を背景（撮影部）として用いる方が、商品精算システムの精度は安定する。

本開示はソフトウェア、ハードウェア、又は、ハードウェアと連携したソフトウェアで実現することが可能である。上記実施の形態の説明に用いた各機能ブロックは、部分的に又は全体的に、集積回路であるＬＳＩとして実現され、上記実施の形態で説明した各プロセスは、部分的に又は全体的に、一つのＬＳＩ又はＬＳＩの組み合わせによって制御されてもよい。ＬＳＩは個々のチップから構成されてもよいし、機能ブロックの一部または全てを含むように一つのチップから構成されてもよい。ＬＳＩはデータの入力と出力を備えてもよい。ＬＳＩは、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

集積回路化の手法はＬＳＩに限るものではなく、専用回路、汎用プロセッサ又は専用プロセッサで実現してもよい。また、ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡや、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。本開示は、デジタル処理又はアナログ処理として実現されてもよい。

さらには、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。

本発明に係る物体認識装置、物体認識システムおよび物体認識方法は、撮影環境の変化を反映し、精度の高い物体認識を安定して実施することができる効果を有し、機械学習モデルを用いて対象物を認識する物体認識装置、物体認識システムおよび物体認識方法などとして有用である。

１商品精算装置
２商品撮影装置（物体認識装置）
３商品学習用サーバ装置（学習装置）
４顔認証用サーバ装置
５監視サーバ装置
１１商品認識用カメラ
１２顔認証用カメラ
１３撮影台
１７プロセッサ
２１カメラ
２２撮影台
３４プロセッサ
５１防犯カメラ
６１ＲＦＩＤタグ
６２タグリーダ

Claims

物体が配置されるべき撮影部を撮影するカメラと、
前記撮影部を撮影した画像に含まれる物体を、物体認識用の機械学習モデルを用いて認識するプロセッサとを備え、
前記物体認識用の機械学習モデルは、無背景物体画像と物体が配置されていない状態の前記撮影部を撮影した学習用背景画像とを合成した画像を用いて学習処理を行うことで生成された学習済みモデルデータに基づいて構築され、
前記プロセッサは、
自装置の利用者に関する検知結果と、前記撮影部に配置された物体に関する検知結果とが整合しない状態を検知した回数に基づき、前記物体認識用の機械学習モデルに関する更新処理の要否を判定し、
前記更新処理が必要な場合には、物体が配置されていない状態の前記撮影部を撮影して前記学習用背景画像を再取得する処理を前記カメラに行わせ、
無背景物体画像と再取得した前記学習用背景画像とを合成した学習用物体画像を学習データとして前記学習処理を再度行わせることを特徴とする物体認識装置。
前記プロセッサは、
自装置の利用者に関する検知結果と、前記撮影部に配置された物体に関する検知結果とが整合しない状態を検知した頻度または検知した回数の累計に基づき、前記更新処理が必要と判定することを特徴とする請求項１に記載の物体認識装置。
前記プロセッサは、前記利用者が検知されておらず、かつ、前記物体が認識されている場合に、前記利用者に関する検知結果と前記物体に関する検知結果とが整合しないと判定することを特徴とする請求項１に記載の物体認識装置。
前記プロセッサは、前記利用者が検知されており、かつ、前記物体が認識されていない場合に、前記利用者に関する検知結果と前記物体に関する検知結果とが整合しないと判定することを特徴とする請求項１に記載の物体認識装置。
物体が配置されるべき撮影部を撮影するカメラと、
前記撮影部を撮影した画像に含まれる物体を、物体認識用の機械学習モデルを用いて認識するプロセッサとを備え、
前記物体認識用の機械学習モデルは、無背景物体画像と物体が配置されていない状態の前記撮影部を撮影した学習用背景画像とを合成した画像を用いて学習処理を行うことで生成された学習済みモデルデータに基づいて構築され、
前記プロセッサは、
物体認識処理の結果の誤りを修正する利用者の操作を検知した回数に基づき、前記物体認識用の機械学習モデルに関する更新処理の要否を判定し、
前記更新処理が必要な場合には、物体が配置されていない状態の前記撮影部を撮影して前記学習用背景画像を再取得する処理を前記カメラに行わせ、
無背景物体画像と再取得した前記学習用背景画像とを合成した学習用物体画像を学習データとして前記学習処理を再度行わせることを特徴とする物体認識装置。
前記プロセッサは、
物体認識処理の結果の誤りを修正する利用者の操作を検知した頻度または検知した回数の累計に基づき、前記更新処理が必要と判定することを特徴とする請求項５に記載の物体認識装置。
前記学習済みモデルデータは、前記無背景物体画像を保持する学習装置において生成され、
前記物体認識装置は、更に、
前記学習用背景画像を前記学習装置に送信すると共に、前記学習済みモデルデータを前記学習装置から受信する通信部を備え、
前記プロセッサは、前記更新処理が必要な場合には、前記学習用背景画像を前記通信部から送信して前記学習装置に前記学習処理を再度行わせることを特徴とする請求項１または請求項５に記載の物体認識装置。
前記物体認識装置は、前記撮影部に配置された物体の精算を行うための精算装置であることを特徴とする請求項１または請求項５に記載の物体認識装置。
物体が配置されるべき撮影部と、
前記撮影部を撮影するカメラとを備え、
前記撮影部を撮影した画像に含まれる物体を、物体認識用の機械学習モデルを用いて認識する物体認識システムであって、
前記物体認識用の機械学習モデルは、無背景物体画像と物体が配置されていない状態の前記撮影部を撮影した学習用背景画像とを合成した画像を用いて学習処理を行うことで生成された学習済みモデルデータに基づいて構築され、
前記物体認識システムは、
前記物体認識システムの利用者に関する検知結果と、前記撮影部に配置された物体に関する検知結果とが整合しない状態を検知した回数に基づき、前記物体認識用の機械学習モデルに関する更新処理の要否を判定し、
前記更新処理が必要な場合には、物体が配置されていない状態の前記撮影部を撮影して前記学習用背景画像を再取得する処理を前記カメラに行わせ、
無背景物体画像と再取得した前記学習用背景画像とを合成した学習用物体画像を学習データとして前記学習処理を再度行わせることを特徴とする物体認識システム。
物体が配置されるべき撮影部と、
前記撮影部を撮影するカメラとを備え、
前記撮影部を撮影した画像に含まれる物体を、物体認識用の機械学習モデルを用いて認識する物体認識システムであって、
前記物体認識用の機械学習モデルは、無背景物体画像と物体が配置されていない状態の前記撮影部を撮影した学習用背景画像とを合成した画像を用いて学習処理を行うことで生成された学習済みモデルデータに基づいて構築され、
前記物体認識システムは、
物体認識処理の結果の誤りを修正する利用者の操作を検知した回数に基づき、前記物体認識用の機械学習モデルに関する更新処理の要否を判定し、
前記更新処理が必要な場合には、物体が配置されていない状態の前記撮影部を撮影して前記学習用背景画像を再取得する処理を前記カメラに行わせ、
無背景物体画像と再取得した前記学習用背景画像とを合成した学習用物体画像を学習データとして前記学習処理を再度行わせることを特徴とする物体認識システム。
物体が配置されるべき撮影部をカメラで撮影し、
撮影した画像に含まれる物体を、物体認識用の機械学習モデルを用いて認識する物体認識方法であって、
前記物体認識用の機械学習モデルは、無背景物体画像と物体が配置されていない状態の前記撮影部を撮影した学習用背景画像とを合成した画像を用いて学習処理を行うことで生成された学習済みモデルデータに基づいて構築され、
前記物体認識方法は、
前記物体認識方法の利用者に関する検知結果と、前記撮影部に配置された物体に関する検知結果とが整合しない状態を検知した回数に基づき、前記物体認識用の機械学習モデルに関する更新処理の要否を判定し、
前記更新処理が必要な場合には、物体が配置されていない状態の前記撮影部を撮影して前記学習用背景画像を再取得する処理を前記カメラに行わせ、
無背景物体画像と再取得した前記学習用背景画像とを合成した学習用物体画像を学習データとして前記学習処理を再度行わせることを特徴とする物体認識方法。
物体が配置されるべき撮影部をカメラで撮影し、
撮影した画像に含まれる物体を、物体認識用の機械学習モデルを用いて認識する物体認識方法であって、
前記物体認識用の機械学習モデルは、無背景物体画像と物体が配置されていない状態の前記撮影部を撮影した学習用背景画像とを合成した画像を用いて学習処理を行うことで生成された学習済みモデルデータに基づいて構築され、
前記物体認識方法は、
物体認識処理の結果の誤りを修正する利用者の操作を検知した回数に基づき、前記物体認識用の機械学習モデルに関する更新処理の要否を判定し、
前記更新処理が必要な場合には、物体が配置されていない状態の前記撮影部を撮影して前記学習用背景画像を再取得する処理を前記カメラに行わせ、
無背景物体画像と再取得した前記学習用背景画像とを合成した学習用物体画像を学習データとして前記学習処理を再度行わせることを特徴とする物体認識方法。