JP2023080864A - ラベル変更プログラム、ラベル変更方法および情報処理装置 - Google Patents

ラベル変更プログラム、ラベル変更方法および情報処理装置 Download PDF

Info

Publication number
JP2023080864A
JP2023080864A JP2021194402A JP2021194402A JP2023080864A JP 2023080864 A JP2023080864 A JP 2023080864A JP 2021194402 A JP2021194402 A JP 2021194402A JP 2021194402 A JP2021194402 A JP 2021194402A JP 2023080864 A JP2023080864 A JP 2023080864A
Authority
JP
Japan
Prior art keywords
area
person
label
image data
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021194402A
Other languages
English (en)
Inventor
由枝 木村
Yoshie Kimura
源太 鈴木
Genta Suzuki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2021194402A priority Critical patent/JP2023080864A/ja
Priority to US17/959,156 priority patent/US20230169760A1/en
Publication of JP2023080864A publication Critical patent/JP2023080864A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

【課題】行動分析の精度劣化を抑制することを課題とする。【解決手段】情報処理装置は、複数のエリアを有する画像データを取得する。情報処理装置は、画像データを第一の機械学習モデルに入力することで、複数のエリアのそれぞれにラベルを設定する。情報処理装置は、複数のエリアのうちの第一のエリアに位置する人物が、第二のエリアに位置する物体に対して行った行動を特定する。情報処理装置は、特定された人物の行動に基づいて、第二のエリアに設定されたラベルを変更する。【選択図】図16

Description

本発明は、ラベル変更プログラム、ラベル変更方法および情報処理装置に関する。
カメラで撮像された映像データから人の行動を分析する技術開発が進められている。例えば、映像データに含まれる各画像データから、購買行動を起こしやすい領域である注目領域を抽出し、注目領域において腕を一定の位置まで上げる動作をピッキング動作として検出することで、購買行動を分析する。近年では、注目領域の検出手法として、各画像データに対して、人手による注目領域の設定やセマンティックセグメンテーションを用いた注目領域の設定が利用されている。
特開2012-173903号公報 特開2013-50945号公報
しかしながら、上記技術では、注目領域を正確に設定することが難しい。例えば、人手による手法では、膨大な画像データに対して注目領域を設定することになり、時間がかかるだけでなく、人為的なミスを防ぐことが難しい。また、セマンティックセグメンテーションを用いた手法では、店舗内で消費者が歩く通路全体が注目領域に設定されてしまう。このため、不要なピッキング動作が検出されてしまい、行動分析の精度が劣化する。
一つの側面では、行動分析の精度劣化を抑制することができるラベル変更プログラム、ラベル変更方法および情報処理装置を提供することを目的とする。
第1の案では、ラベル変更プログラムは、コンピュータに、複数のエリアを有する画像データを取得し、前記画像データを第一の機械学習モデルに入力することで、前記複数のエリアのそれぞれにラベルを設定し、前記複数のエリアのうちの第一のエリアに位置する人物が、第二のエリアに位置する物体に対して行った行動を特定し、特定された前記人物の行動に基づいて、前記第二のエリアに設定されたラベルを変更する、処理を実行させることを特徴とする。
一実施形態によれば、行動分析の精度劣化を抑制することができる。
図1は、実施例1にかかる情報処理装置を含むシステムの全体構成を説明する図である。 図2は、実施例1にかかる認識対象の行動を説明する図である。 図3は、セマンティックセグメンテーションによる注目領域の検出を説明する図である。 図4は、参考技術における注目領域の検出を説明する図である。 図5は、実施例1にかかる情報処理装置の機能構成を示す機能ブロック図である。 図6は、第1機械学習モデルの生成を説明する図である。 図7は、実施例1にかかる抽出処理部を説明する図である。 図8は、第2機械学習モデルを用いた動作解析を説明する図である。 図9は、トラッキングによる基準方向の設定を説明する図である。 図10は、クラスタリングを説明する図である。 図11は、クラスタの抽出を説明する図である。 図12は、注目領域の抽出を説明する図である。 図13は、実施例1にかかる修正処理部を説明する図である。 図14は、セマンティックセグメンテーションの実行結果への基準線の設定を説明する図である。 図15は、基準線に基づくクラスタリングを説明する図である。 図16は、ラベル修正を説明する図である。 図17は、商品棚エリアの設定を説明する図である。 図18は、実施例1にかかる抽出処理の流れを示すフローチャートである。 図19は、実施例1にかかる修正処理の流れを示すフローチャートである。 図20は、実施例2にかかるユーザの移動軌跡の生成を説明する図である。 図21は、実施例2にかかる顔の向きと身体の向きのプロットを説明する図である。 図22は、実施例2にかかる注目領域の抽出を説明する図である。 図23は、注目領域の座標生成を説明する図である。 図24は、実施例2にかかる抽出処理の流れを示すフローチャートである。 図25は、ハードウェア構成例を説明する図である。
以下に、本願の開示するラベル変更プログラム、ラベル変更方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
[全体構成]
図1は、実施例1にかかる情報処理装置10を含むシステムの全体構成を説明する図である。図1に示すように、このシステムは、空間の一例である店舗1と、店舗1内の異なる場所に設置された複数のカメラ2と、情報処理装置10とを有する。
複数のカメラ2それぞれは、店舗1内の所定領域を撮像する監視カメラの一例であり、撮像した映像のデータを、情報処理装置100に送信する。以下の説明では、映像のデータを「映像データ」と表記する場合がある。また、映像データには、時系列の複数の画像フレームが含まれる。各画像フレームには、時系列の昇順に、フレーム番号が付与される。1つの画像フレームは、カメラ2があるタイミングで撮影した静止画像の画像データである。
情報処理装置10は、複数のカメラ2それぞれにより撮像された各画像データを解析するコンピュータの一例である。なお、複数のカメラ2それぞれと情報処理装置10とは、有線や無線を問わず、インターネットや専用線などの各種ネットワークを用いて接続される。
近年、カメラ2で撮像された映像データから人の行動を分析する技術開発が進められている。例えば、映像データに含まれる各画像データから、購買行動を起こしやすい領域である注目領域を抽出し、注目領域において腕を一定の位置まで上げる動作をピッキング動作として検出することで、購買行動を分析することが行われている。
図2は、実施例1にかかる認識対象の行動を説明する図である。図2に示す領域Aが注目領域と仮定する。この場合、図2の(1)に示す、商品棚の前に位置する人物(ユーザ)のピッキング動作が認識対象である。しかし、図2の(2)や(3)に示す、商品棚がない場所で、商品に手を伸ばしていないもののピッキング動作と似た動作を行った人物も認識されてしまうことで、誤検出が発生する。
誤検出を減らすために、手を伸ばす商品棚の領域を注目領域として設定することが考えられるが、その場合、図2の(2)に示す人物は、画像データ上、手が棚に入っていることから、誤検出されてしまう。別の手法としては、足元の通路を注目領域と設定することが行われる。例えば、図1に示す領域Aを注目領域に設定した場合、図2の(2)や(3)に示す人物は、検出されなくなり、誤検出が抑制される。
足元の領域を注目領域と設定する手法は、手動設定で行われることが多い。しかし、手動設定では、膨大な画像データに対して注目領域を設定することになり、時間がかかるだけでなく、人為的なミスを防ぐことが難しい。
別の手法として、画像データのピクセル単位で何が写っているのかをカテゴリ分けする技術であるセマンティックセグメンテーションによる自動設定が利用されている。図3は、セマンティックセグメンテーションによる注目領域の検出を説明する図である。図3に示すように、セマンティックセグメンテーションは、画像データを機械学習モデル(convolutional encoder-decoder)に入力し、画像データの各領域にラベルが設定された出力結果を取得する。しかし、注目領域に限らず、注目領域以外を含んだ全通路に、ラベル「通路」が設定されてしまい、図2の(2)や(3)の人物も認識対象となることから、これらの人物のピッキング動作を検出する誤検出が発生する。
なお、カメラの映像データから人の作業位置を抽出し、作業位置のクラスタリングによってROI(Region Of Interest)を自動的に提供する参考技術も利用も考えられる。図4は、参考技術における注目領域の検出を説明する図である。図4に示すように、参考技術では、静止しての購買行動が生じた領域を抽出するので、図4の(B)に示した人物が静止した位置のみが抽出されてしまい、注目領域Aを十分にカバーすることが難しい。つまり、参考技術では、ゆっくり移動して商品を取る動作(ピッキング動作)を検出することが難しい。
一般的に、画像データ内で、注目領域と設定する領域やピッキング動作が検出された領域を、人物が手に取る商品等が陳列される商品棚エリアの設定した上で、人物の行動分析等が行われる。しかし、上述したように、手動設定、セマンティックセグメンテーション、または、参考技術による注目領域の設定では、注目領域を正確に抽出することが難しい。このため、商品棚エリアの設定ミスが発生し、最終的な行動分析の精度も劣化する。
そこで、実施例1にかかる情報処理装置10は、複数のエリアを有する画像データを取得し、画像データを機械学習モデルに入力することでシマンテックセグメンテーションを実行し、複数のエリアのそれぞれにラベルを設定する。情報処理装置10は、複数のエリアのうちのいずれかの第1のエリアに位置する人物が、第2のエリアに位置する物体に対して行った行動を特定し、特定された人物の行動に基づいて、第2のエリアに設定されたラベルを変更する。
すなわち、情報処理装置10は、リテール店舗での購買行動は移動と商品を選び取る行動が主として発生し、選び取る際には通路方向に対して身体の向きにバラつきが生じることを用いて、商品の選び取りが発生する注目領域を抽出し、セグメンテーション結果を修正する。この結果、情報処理装置10は、行動分析の対象となる注目領域を正確に設定することができる。
[機能構成]
図5は、実施例1にかかる情報処理装置10の機能構成を示す機能ブロック図である。図5に示すように、情報処理装置10は、通信部11、記憶部12、制御部20を有する。
通信部11は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどにより実現される。例えば、通信部11は、カメラ2から映像データを受信し、制御部20による処理結果を管理端末などに送信する。
記憶部12は、各種データや制御部20が実行するプログラムなどを記憶する処理部であり、メモリやハードディスクなどにより実現される。記憶部12は、訓練データDB13、第1機械学習モデル14、第2機械学習モデル15、映像データDB16、セグメント結果DB17、ROI情報DB18、設定結果DB19を記憶する。
訓練データDB13は、第1機械学習モデル14の訓練に使用される各訓練データを記憶するデータベースである。具体的には、各訓練データは、説明変数であるRGBの画像データと、目的変数(正解情報)である当該画像データに対するセマンティックセグメンテーションの実行結果(以下では、セグメント結果またはセグメンテーション結果と記載することがある)とが対応付けられたデータである。
第1機械学習モデル14は、セマンティックセグメンテーションを実行するモデルである。具体的には、第1機械学習モデル14は、RGBの画像データの入力に応じて、セグメンテーション結果を出力する。セグメンテーション結果には、画像データ内の各領域に対して、識別されたラベルが設定される。例えば、第1機械学習モデル14には、convolutional encoder-decoderなどを採用することができる。
第2機械学習モデル15は、動作解析を実行するモデルである。具体的には、第2機械学習モデル15は、機械学習済みのモデルであり、人物の2次元画像データに対して、頭、手首、腰、足首などの2次元の関節位置(骨格座標)を推定し、基本となる動作の認識やユーザが定義したルールの認識を行う深層学習器の一例である。この第2機械学習モデル15を用いることで、人物の基本動作を認識することができ、足首の位置、顏の向き、身体の向きを取得することができる。
映像データDB16は、店舗1に設置される複数のカメラ2それぞれにより撮像された映像データを記憶するデータベースである。例えば、映像データDB16は、カメラ2ごと、または、撮像された時間帯ごとに、映像データを記憶する。
セグメント結果DB17は、セマンティックセグメンテーションの実行結果を記憶するデータベースである。具体的には、セグメント結果DB17は、第1機械学習モデル14の出力結果を記憶する。例えば、セグメント結果DB17は、RGBの画像データとセマンティックセグメンテーションの実行結果とを対応付けて記憶する。
ROI情報DB18は、後述する制御部20により得られた注目領域のROI、商品棚のROIなどを記憶するデータベースである。例えば、ROI情報DB18は、RGBの画像データごとに、注目領域のROI、商品棚のROIなどを対応付けて記憶する。
設定結果DB19は、後述する制御部20によりセグメント結果に対して商品棚のエリアを設定した結果を記憶するデータベースである。例えば、設定結果DB19は、RGBの画像データと、画像データに対して設定された各ラベルの設定情報とを対応付けて記憶する。
制御部20は、情報処理装置10全体を司る処理部であり、例えばプロセッサなどによる実現される。この制御部20は、事前学習部30、取得部40、抽出処理部50、修正処理部60、エリア設定部70を有する。なお、事前学習部30、取得部40、抽出処理部50、修正処理部60、エリア設定部70は、プロセッサが有する電子回路やプロセッサが実行するプロセスなどにより実現される。
事前学習部30は、第1機械学習モデル14を生成する処理部である。具体的には、事前学習部30は、訓練データDB13に記憶される各訓練データを用いた機械学習により、第1機械学習モデル14の訓練を実行する。
図6は、第1機械学習モデル14の生成を説明する図である。図6に示すように、事前学習部30は、RGBの画像データと正解情報(セグメンテーション結果)とを含む訓練データを第1機械学習モデル14に入力し、出力結果(セグメンテーション結果)を取得する。そして、事前学習部30は、訓練データの正解情報と出力結果との誤差が最小化するように、第1機械学習モデル14のパラメータ等を最適化する。
取得部40は、各カメラ2から映像データを取得して映像データDB16に格納する処理部である。例えば、取得部40は、各カメラ2から随時取得してもよく、定期的に取得してもよい。
抽出処理部50は、映像データに対する動作解析により、映像データ内の注目領域を抽出する処理部である。図7は、実施例1にかかる抽出処理部50を説明する図である。図7に示すように、抽出処理部50は、追跡部51、動作解析部52、基準線抽出部53、クラスタリング実行部54、角度算出部55、注目領域抽出部56を有する。
追跡部51は、映像データ中の同一人物の追跡を実行する処理部である。例えば、追跡部51は、公知のトラッキング技術を用いて、映像データ中の同一人物をトラッキングし、当該人物の移動経路(移動軌跡)を抽出する。そして、追跡部51は、抽出結果を、基準線抽出部53等に出力する。
動作解析部52は、カメラ2により撮像された映像データに写っている人物の動作解析を実行する処理部である。具体的には、動作解析部52は、映像データに含まれる各画像データ(フレーム)を第2機械学習モデル15に入力し、各画像データに写る人物の動作を認識する。
図8は、第2機械学習モデル15を用いた動作解析を説明する図である。図8に示すように、動作解析部52は、RGBの画像データを第2機械学習モデル15に入力し、画像データに写っている人物の2次元骨格座標を取得する。そして、動作解析部52は、2次元骨格座標にしたがって、人物の足首の位置、顔の向き、身体の向きを特定し、特定した結果を、クラスタリング実行部54などに出力する。
このように、動作解析部52は、所定時間間隔で取得された各映像データに含まれる各画像データ(例えば100フレーム)それぞれを第2機械学習モデル15に入力し、各画像データに写っている人物の足首の位置、顔の向き、身体の向きを測定することで、映像データ内における人物の足首の位置の遷移、顔の向きの遷移、身体の向きの遷移を特定することができる。
基準線抽出部53は、トラッキング情報から人の移動経路を抽出し、基準線となる通路方向を設定する処理部である。具体的には、基準線抽出部24は、映像データ内から画像データを取得(選択)し、追跡部51により得られたある人物の移動経路を用いて、取得された画像データ上に、ユーザが歩く方向である基準方向を設定する。そして、基準線抽出部53は、設定された基準方向を、移動経路を示す基準線として抽出する。なお、基準線抽出部53は、画像データとして、映像データの最初の画像データや最後の画像データなど、映像データ内の任意の画像データを選択することができる。
図9は、トラッキングによる基準方向の設定を説明する図である。図9に示すように、基準線抽出部53は、画像データ上に、トラッキング結果である移動経路A1と移動経路A2とを設定する。このとき、基準線抽出部53は、設定された移動経路を含む領域を通路の領域と設定することができる。なお、基準線抽出部53は、画像データに対してセマンティックセグメンテーションを実行した結果により、画像データ上に通路の領域を設定することができる。
続いて、基準線抽出部53は、トラッキング結果により、移動経路A1から移動経路A2への遷移を特定し、その遷移にしたがって、通路の領域上に基準方向B1、B2、B3のそれぞれを設定する。そして、基準線抽出部53は、この基準方向B1、B2、B3それぞれを、基準線に設定する。なお、移動経路や移動経路の遷移は、一方方向に限らず、多方向が特定されることもあるが、この場合であっても、方向を除外して同じ移動軌跡であれば、1つの通路方向であり、1つの基準線として抽出される。例えば、基準線抽出部53は、ユーザが歩く複数の移動経路から通路方向となる近似直線を算出し、その近似曲線を基準線として設定する。また、基準線抽出部53は、基準線の設定結果をクラスタリング実行部54などに出力する。
クラスタリング実行部54は、各人物の移動軌跡を抽出し、各基準線と各人物の移動軌跡との距離に基づくクラスタリングにより、複数のクラスタを生成する処理部である。具体的には、クラスタリング実行部54は、各移動軌跡がどの基準線に近いかをクラスタリングする。
図10は、クラスタリングを説明する図である。図10に示すように、クラスタリング実行部54は、各画像データに写っている人物の足首の位置を動作解析部52から取得し、基準線B1、B2、B3が設定された画像データにプロットする。そして、クラスタリング実行部54は、各基準線と各人物の移動軌跡との距離に基づくクラスタリングにより、複数のクラスタを生成する。
例えば、クラスタリング実行部54は、各移動軌跡から各基準線への垂線を引き、その垂線の長さを基にしたクラスタリングを実行することにより、各移動軌跡をいずれかの基準線にクラスタリングする。なお、ベースとなる距離は、垂線の長さに限らず、ユークリッド距離などを用いることもできる。
この結果、クラスタリング実行部54は、基準線B1に最も近い移動軌跡の点群を含むクラスタC1と、基準線B2に最も近い移動軌跡の点群を含むクラスタC2と、基準線B3に最も近い移動軌跡の点群を含むクラスタC3と、を生成する。そして、クラスタリング実行部54は、クラスタリング結果を角度算出部55などに出力する。
角度算出部55は、クラスタリングされた各移動軌跡について、各基準線に対する身体の向きのなす角を算出する処理部である。具体的には、角度算出部55は、各画像データに写っている人物の身体の向きを動作解析部52から取得し、画像データ内の移動軌跡に、該当する身体の向きを対応付ける。そして、角度算出部55は、クラスタリング結果を用いて、各移動軌跡が属するクラスタの基準線を特定する。その後、角度算出部55は、各移動軌跡に対して、公知の手法を用いて、属するクラスタの基準線と身体の向きとのなす角度を算出する。なお、角度算出部55は、身体の向きに限らず、顔の向きを用いることもできる。角度算出部55は、各移動軌跡に対応する角度を注目領域抽出部56などに出力する。
注目領域抽出部56は、複数のクラスタそれぞれについて、クラスタに属する各移動軌跡と基準線とのなす角度に基づく評価値が閾値以上であるクラスタを含む領域を注目領域に抽出する処理部である。具体的には、注目領域抽出部56は、各基準線に対する身体の向きのなす角のうち、大きい角度を多く含む基準線を抽出し、このような基準線が属する領域を注目領域として抽出する。
図11は、クラスタの抽出を説明する図である。図11に示すように、注目領域抽出部56は、各移動軌跡がプロットされた画像データに対して、各移動軌跡に対応する身体の向きをプロットする。また、注目領域抽出部56は、各移動軌跡に対して算出された角度も対応付ける。
そして、注目領域抽出部56は、各クラスタについて、属する移動軌跡の角度を集計する。例えば、図11に示すように、注目領域抽出部56は、クラスタC1に属する各移動軌跡の角度とその角度に該当する移動軌跡の数、クラスタC2に属する各移動軌跡の角度とその角度に該当する移動軌跡の数、クラスタC3に属する各移動軌跡の角度とその角度に該当する移動軌跡の数を集計する。
その後、注目領域抽出部56は、大きい角度を多く有するクラスタを抽出する。例えば、注目領域抽出部56は、クラスタごとに、角度の中央値、角度の平均値、60度以上の角度の数の割合などを評価値として算出する。そして、注目領域抽出部56は、評価値が閾値以上であるクラスタC2とクラスタC3を抽出する。
続いて、注目領域抽出部56は、抽出したクラスタC2とクラスタC3について、注目領域として、クラスタに属する各移動軌跡を囲む多角形を生成する。図12は、注目領域の抽出を説明する図である。図12に示すように、注目領域抽出部56は、クラスタC2について、クラスタC2に属する各移動軌跡を含む最大の多角形C2´を生成して、注目領域として抽出する。同様に、注目領域抽出部56は、クラスタC3について、クラスタC3に属する各移動軌跡を含む最大の多角形C3´を生成して、注目領域として抽出する。
また、注目領域抽出部56は、各多角形の座標をROI情報DB18に格納したり、エリア設定部28に出力したりする。注目領域抽出部56は、設定された注目領域に関する情報として、例えば注目領域が設定された画像データなどを設定結果DB19に格納したりする。
図5に戻り、修正処理部60は、抽出処理部50の抽出結果を用いて、セマンティックセグメンテーションにより得られた各エリアのラベルを修正(変更)する処理部である。図13は、実施例1にかかる修正処理部60を説明する図である。図13に示すようには修正処理部60は、抽出結果取得部61、セマンティックセグメンテーション部62、基準線設定部63、クラスタリング実行部64、ラベル修正部65を有する。
抽出結果取得部61は、抽出処理部50の処理結果を取得する処理部である。例えば、抽出結果取得部61は、修正処理部60から、基準線に関する情報、注目領域の抽出結果、ROIに関する情報、足首の位置や身体の向きや顔の向きなどの行動認識結果などを取得して、基準線設定部63やクラスタリング実行部64などに出力する。
セマンティックセグメンテーション部62は、セマンティックセグメンテーションにより、画像データの各エリアにラベルを付与する処理部である。例えば、セマンティックセグメンテーション部62は、抽出処理部50により注目領域の抽出に使用された画像データなど、映像データに含まれる画像データを、第1機械学習モデル14に入力する。そして、セマンティックセグメンテーション部62は、第1機械学習モデル14により実行されたセマンティックセグメンテーションの実行結果を取得する。
セマンティックセグメンテーション部62は、セマンティックセグメンテーションの実行結果(セグメンテーション結果)を基準線設定部63に出力する。なお、セグメンテーション結果には、画像データに含まれる複数の領域それぞれについて、識別された結果を示すラベルが付与されている。例えば、セマンティックセグメンテーションの実行結果には、「棚」、「通路」、「壁」などのラベルが付与される。
基準線設定部63は、セグメンテーション結果に基準線を設定する処理部である。図14は、セマンティックセグメンテーションの実行結果への基準線の設定を説明する図である。図14に示すように、基準線設定部63は、セグメンテーション結果をセマンティックセグメンテーション部62から取得し、基準線に関する情報を抽出結果取得部61から取得する。そして、基準線設定部63は、セグメンテーション結果に対して、基準線B1、B2、B3をプロットする。
クラスタリング実行部64は、基準線設定部63により基準線が設定されたセグメンテーション結果に対して、基準線に基づくクラスタリングを実行する処理部である。図15は、基準線に基づくクラスタリングを説明する図である。図15に示すように、クラスタリング実行部64は、セグメンテーション結果に設定(識別)された各ラベルのうち、「通路」のラベルが設定されたエリアを特定する。そして、クラスタリング実行部64は、特定した「通路」のエリアに属する各画素と各基準線(B1、B2、B3)との距離を算出し、最も距離が近い基準線に属するように、各画素をクラスタリングする。なお、距離には、各画素から各基準線に対する垂線の長さや、画素と基準線とのユークリッド距離などを用いることができる。
そして、クラスタリング実行部64は、基準線B1に属するクラスタL1、基準線B2に属するクラスタL2、基準線B3に属するクラスタL3を特定する。その後、クラスタリング実行部64は、特定結果等をラベル修正部65等に出力する。
ラベル修正部65は、抽出処理部50の抽出結果に基づき、セグメンテーション結果のラベルを修正する処理部である。具体的には、ラベル修正部65は、複数のクラスタのうち注目領域に対応する注目クラスタを特定し、注目クラスタの領域を、対応する注目領域を含む領域に修正し、修正された領域に対して設定されたラベルを、注目領域に該当するラベルに変更する。すなわち、ラベル修正部65は、クラスタリング実行部64により生成されたクラスタリング結果と抽出処理部50により抽出された注目領域とを含む領域が最大を取るように、各クラスタの領域を修正し、その修正された領域を注目領域としてラベリングする。
図16は、ラベル修正を説明する図である。図16に示すように、ラベル修正部65は、注目領域(C2´とC3´)に関する各多角形の座標を抽出処理部50から取得し、クラスタリングされたセグメンテーション結果(画像データ)にマッピングする。そして、ラベル修正部65は、注目領域C2´が属するクラスタL2と、注目領域C3´が属するクラスタL3とを特定する。
その後、ラベル修正部65は、注目領域C2´が含まれるように、クラスタL2の領域を拡張した領域L2´を生成する。そして、ラベル修正部65は、領域L2´に設定されているラベル「通路」を、ラベル「注目領域」に修正(変更)する。
同様に、ラベル修正部65は、注目領域C3´が含まれるように、クラスタL3の領域を拡張した領域L3´を生成する。そして、ラベル修正部65は、領域L3´に設定されているラベル「通路」を、ラベル「注目領域」に修正する。
なお、ラベル修正部65は、注目領域の方がクラスタの領域よりも大きい場合、注目領域のラベル「通路」を、ラベル「注目領域」に修正(変更)する。ラベル修正部65は、修正結果を含むラベル設定済みのセグメンテーション結果をエリア設定部70に出力する。
図5に戻り、エリア設定部70は、顔の向きまたは身体の向きに基づき、店舗1を構成する複数の領域のうちラベル「注目領域」と隣接する、人物に関連する物体が収納される領域を設定する処理部である。具体的には、エリア設定部28は、画像データに対して、ピッキング動作の対象となる商品が置いてある商品棚エリアを特定する。すなわち、エリア設定部70は、領域L2´や領域L3´と隣接するエリアについて、セグメンテーション結果により設定済みであるラベルを、ラベル「商品棚」に変更する。
図17は、商品棚エリアの設定を説明する図である。図17に示すように、エリア設定部70は、ラベル「注目領域」が設定された領域L2´と領域L3´のそれぞれについて、各領域に属する各移動軌跡および顔の向きを、抽出処理部50から取得してプロットする。
そして、エリア設定部70は、顔の向きのベクトルの数が閾値以上である方向を特定し、その方向にある領域のうち、領域L2´と接する領域もしく領域L2´と隣接する領域として、領域E1と領域E2を特定する。この結果、エリア設定部28は、セグメンテーション結果において、領域E1と領域E2のラベルを「商品棚エリア」と設定する。
同様に、エリア設定部70は、顔の向きのベクトルの数が閾値以上である方向を特定し、その方向にある領域のうち、領域L3´と接する領域もしく領域L3´と隣接する領域として、領域E3と領域E4を特定する。この結果、エリア設定部28は、セグメンテーション結果において、領域E3と領域E4のラベルを「商品棚エリア」と設定する。
そして、エリア設定部70は、領域E1、領域E2、領域E3、領域E4の座標や、領域E1からE4それぞれを設定した画像データなどの情報を設定結果DB19に格納する。なお、エリア設定部70は、セグメンテーション結果ではなく、セグメンテーション結果の元となった画像データに対して、「商品棚エリア」に領域を設定することもできる。
[抽出処理の流れ]
図18は、実施例1にかかる抽出処理の流れを示すフローチャートである。図18に示すように、抽出処理部50は、処理開始が指示されると(S101:Yes)、抽出処理部50は、映像データDB16から映像データを取得する(S102)。
続いて、抽出処理部50は、映像データに基づき人物追跡を実行し(S103)、人物追跡結果に基づき、基準方向を設定する(S104)。例えば、抽出処理部50は、映像データ中の同一人物をトラッキングして移動経路を抽出し、ユーザが歩く移動経路を用いて基準線を設定する。
また、抽出処理部50は、映像データを構成する各画像データを用いた行動分析を実行し(S105)、行動分析の結果により、人物の位置や向きを取得する(S106)。例えば、抽出処理部50は、第2機械学習モデル15を用いて、映像データ中の各人物の顔の向き、身体の向き、足首の位置やこれらの遷移を特定する。
その後、抽出処理部50は、各人物の移動軌跡を抽出し、各基準線と各人物の移動軌跡との距離に基づくクラスタリングにより、複数のクラスタを生成する(S107)。例えば、抽出処理部50は、各移動軌跡がどの基準線に近いかをクラスタリングする。
続いて、抽出処理部50は、各クラスタについて角度を算出する(S108)。例えば、抽出処理部50は、各移動軌跡に対応する身体の向きと、各移動軌跡が属するクラスタの基準線との角度を算出する。
そして、抽出処理部50は、各クラスタについて、属する各移動軌跡の角度の中央値を算出し(S109)、中央値が閾値以上であるクラスタを抽出する(S110)。続いて、抽出処理部50は、抽出したクラスタに属する全移動軌跡を囲む(含む)ように多角形の領域を生成し、当該領域を注目領域として抽出する(S111)。
その後、抽出処理部50は、注目領域の情報、多角形の座標、行動認識結果などの抽出処理で得られた情報を、記憶部12や修正処理部60に出力する(S112)。
[修正処理の流れ]
図19は、実施例1にかかる修正処理の流れを示すフローチャートである。図19に示すように、修正処理部60は、図18の抽出処理で得られた情報を取得し(S201)、画像データを第1機械学習モデル14に入力して、画像データのセマンティックセグメンテーションの実行結果を取得する(S202)。
続いて、修正処理部60は、セマンティックセグメンテーションの実行結果に基準線をプロットし(S203)、基準線に基づくクラスタリングを実行する(S204)。例えば、修正処理部60は、通路の各画素がどの基準線に近いかをクラスタリングする。
そして、修正処理部60は、クラスタリング結果に抽出結果を重畳する(S205)。例えば、修正処理部60は、クラスタリング結果に、図18の処理で生成された注目領域の多角形をマッピングする。
その後、修正処理部60は、重畳結果に基づき、ラベル修正を実行する(S206)。例えば、修正処理部60は、注目領域を最大に含むようにクラスタの領域を拡張し、拡張した領域が属するエリアのラベル「通路」をラベル「注目領域」に修正する。そして、エリア設定部28は、顔の向きまたは身体の向きに基づき、注目領域と隣接する商品棚エリアを設定する(S207)。
[効果]
上述したように、情報処理装置10は、画像データから領域分割をするセマンティックセグメンテーションを実行し、セグメンテーション結果と動作解析結果から通路領域を再抽出し、動作解析結果から顏の向きと身体の向きのバラつきを抽出し、通路領域とバラつき情報からクラスタリングにより注目領域を抽出する。そして、情報処理装置10は、セグメンテーション結果の通路領域にクラスタリングを実施し、クラスタリング結果と抽出された注目領域の最大を取るように領域を修正し、その修正された領域を注目領域としてラベリングする。
この結果、情報処理装置10は、注目領域を抽出しようとすると抽出された領域に対して過不足が生じるという問題発生を抑制し、過不足のない注目領域を自動的に提供することができる。したがって、情報処理装置10は、行動分析の対象となる注目領域を正確に設定することができる。
ところで、実施例1では、基準線を抽出して、基準線を用いたクラスタリングにより注目領域(多角形の座標)を生成する例を説明したが、注目領域の抽出はこれに限定されるものではない。例えば、情報処理装置10は、移動時は顏と身体の向きが同じ方向を向き、選び取る行動の時は顏と身体の向きにバラつきが生じることを用いて注目領域を抽出することもできる。
そこで、実施例2では、抽出処理部50が実行する別処理として、顏と身体の向きにバラつきを用いて注目領域を抽出する例を説明する。なお、修正処理部60の処理は実施例1と同じなので、詳細な説明は省略する。
まず、抽出処理部50は、カメラ2により撮像された映像データに含まれる各画像データ(フレーム)を第2機械学習モデル15に入力し、各画像データに写っている人物の動作を認識する。具体的には、抽出処理部50は、図8で説明した手法により、人物の2次元骨格座標、人物の足首の位置、顔の向き、身体の向きなどを特定する。
例えば、抽出処理部50は、所定時間間隔で取得された各映像データに含まれる各画像データ(例えば100フレーム)それぞれを第2機械学習モデル15に入力し、各画像データに写っている人物の足首の位置、顔の向き、身体の向きを測定することで、映像データ内における人物の足首の位置の遷移、顔の向きの遷移、身体の向きの遷移を特定することができる。
次に、抽出処理部50は、人物の2次元骨格座標を用いて、当該人物の身体の向きと顔の向きとのバラつきを抽出する。具体的には、抽出処理部50は、映像データに含まれる各画像データ(例えば100フレーム)についての顔の向きと身体の向きとを、動作解析部23から取得する。続いて、抽出処理部50は、バラつきとして、各画像データ内の人物の顔の向きと顔の向きとのなす角度を算出する。
次に、抽出処理部50は、映像データに写っている各人物の移動軌跡を生成する。具体的には、抽出処理部50は、映像データ内の画像データに対するセマンティックセグメンテーションの実行結果に、人物の足首の位置をプロットすることで、人物の移動軌跡を生成する。
図20は、実施例2にかかるユーザの移動軌跡の生成を説明する図である。図20に示すように、抽出処理部50は、映像データ内の画像データ(例えば最後の画像データ)を、第1機械学習モデル14に入力する。そして、抽出処理部50は、第1機械学習モデル14により領域(エリア)が識別されて、各エリアにラベルが設定されたセグメンテーション結果を取得する。
その後、抽出処理部50は、セグメンテーション結果に含まれる各ラベルから、ラベル「通路」が設定された通路の領域を特定する。続いて、抽出処理部50は、通路の領域に対して、映像データ内の各画像データから特定された各人物の足首の位置を、軌跡としてプロットする。このようにして、抽出処理部50は、映像データについて、映像データ内の出現する人物が通路の領域を移動する移動軌跡を生成することができる。
次に、抽出処理部50は、生成された移動軌跡のうち、人物の顔の向きと顔の向きとのなす角度が閾値以上である移動軌跡を含む領域を、注目領域として抽出する。図21は、実施例2にかかる顔の向きと身体の向きのプロットを説明する図であり、図22は、実施例2にかかる注目領域の抽出を説明する図である。
図21に示すように、抽出処理部50は、生成された移動軌跡に、特定された人物の顔の向きと身体の向きとをプロットする。続いて、抽出処理部50は、算出された角度(バラつき)に基づき、各軌跡について、人物の顔の向きと身体の向きの角度を特定する。その後、図22に示すように、抽出処理部50は、移動軌跡の点群に対して、顔の向きと身体の向きとのバラつきをベースにクラスタリングを実行する。そして、抽出処理部50は、角度が閾値以上であり、バラつきが大きいとしてクラスタリングされた領域M1とM2を注目領域として抽出し、角度が閾値未満であり、バラつきが小さいとしてクラスタリングされた領域M3を通路の領域として抽出する。
最後に、抽出処理部50は、注目領域の座標を生成する。図23は、注目領域の座標生成を説明する図である。図23に示すように、抽出処理部50は、注目領域として抽出されたクラスタM1に属する軌跡(点群)を囲む多角形Gを生成し、多角形Gの座標を抽出する。同様に、抽出処理部50は、注目領域として抽出されたクラスタM2に属する軌跡を囲む多角形Hを生成し、多角形Hの座標を抽出する。
このようにして、抽出処理部50は、映像データ内で人物の行動分析の対象である領域であって、商品に対するピッキング動作の検出対象となる領域である注目領域を絞り込むことができる。修正処理部60は、実施例2で説明した手法により生成された注目領域の情報(例えば多角形の座標)を用いて、図19の処理を実行する。なお、抽出処理部50は、クラスタリングに限らず、例えば、角度が閾値以上である軌跡を最大に含む各領域を注目領域として抽出するなどの手法を用いることもできる。
[処理の流れ]
図24は、実施例2にかかる抽出処理の流れを示すフローチャートである。図24に示すように、処理開始が指示されると(S301:Yes)、抽出処理部50は、映像データに基づき、動作解析を実行する(S302)。そして、抽出処理部50は、動作解析に基づき、人物の顔の向き等を検出する(S303)。例えば、抽出処理部50は、映像データに含まれる各画像データを第2機械学習モデル15に入力して、各画像データに含まれる人物の2次元骨格情報や2次元骨格情報の遷移を特定し、各人物の足首の位置、顏の向き、身体の向きを検出する。
続いて、抽出処理部50は、映像データに含まれる画像データを、第1機械学習モデル14に入力し、セマンティックセグメンテーションの実行結果であるセグメンテーション結果を取得する(S304)。
そして、抽出処理部50は、映像データに含まれる各画像データから、人物の移動軌跡を生成する(S305)。例えば、抽出処理部50は、各画像データ内の人物に対して特定された足首の位置を、セグメンテーション結果にプロットすることで、各人物の移動軌跡を生成する。
その後、抽出処理部50は、移動軌跡をプロットしたセグメンテーション結果内の各移動軌跡に、顔の向きと身体の向きとをプロットする(S306)。そして、抽出処理部50は、顔の向きと身体の向きとのバラつきを検出する(S307)。例えば、抽出処理部50は、各移動軌跡について、顔の向きと身体の向きの各ベクトルのなす角度を、バラつきとして取得する。
続いて、抽出処理部50は、顔の向きと身体の向きとのバラつきをベースにクラスタリングを実行し(S308)、クラスタリング結果に基づき、注目領域を抽出する(S309)。例えば、注目領域抽出部26は、角度が閾値以上である軌跡のクラスタを注目領域として抽出する。その後、抽出処理部50は、注目領域の情報、多角形の座標、行動認識結果などの抽出処理で得られた情報を、記憶部12や修正処理部60に出力する(S310)。
[効果]
この情報処理装置10を用いることで、手動で注目領域を設定する必要がないので、人為的なミスを削減でき、手動設定に比べて、膨大な画像データに対して正確かつ高速な注目領域の設定を実現することができる。また、情報処理装置10は、人物が興味を示す顔を動かす動作が行われた領域を注目領域として抽出することができるので、図4の参考技術と異なり、過不足のない注目領域を設定できる。
また、情報処理装置10は、過不足のない注目領域と隣接する領域を商品棚と特定することができるので、参考技術とは異なり、停止した状態でのピッキング動作に限らず、ゆっくり移動して商品を取るピッキング動作を検出することができる。この結果、情報処理装置10は、ピッキング動作の検出精度を向上させることができ、行動分析などの精度を向上させることができる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
[数値等]
上記実施例で用いた数値例、カメラ数、ラベル名、軌跡の数等は、あくまで一例であり、任意に変更することができる。また、各フローチャートで説明した処理の流れも矛盾のない範囲内で適宜変更することができる。また、上記実施例では、店舗を例にして説明したが、これに限定されるものではなく、例えば倉庫、工場、教室、電車の車内や飛行機の客室などにも流用することができる。これらの場合、人物に関連する物体が収納された領域の一例として説明した商品棚の領域に代わりに、物を置く領域や荷物をしまう領域が検出、設定対象となる。
また、上記実施例では、人物の足首の位置を用いる例を説明したが、これに限定されるものではなく、例えば足の位置、靴の位置などを用いることもできる。また、上記実施例では、顔の向きの方向にあるエリアを商品棚エリアと特定する例を説明したが、身体の向きの方向にあるエリアを商品棚エリアと特定することもできる。また、各機械学習モデルは、ニューラルネットワークなどを用いることができる。
[システム]
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア]
図25は、ハードウェア構成例を説明する図である。図25に示すように、情報処理装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図25に示した各部は、バス等で相互に接続される。
通信装置10aは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。HDD10bは、図5に示した機能を動作させるプログラムやDBを記憶する。
プロセッサ10dは、図5に示した各処理部と同様の処理を実行するプログラムをHDD10b等から読み出してメモリ10cに展開することで、図5等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、情報処理装置10が有する各処理部と同様の機能を実行する。具体的には、プロセッサ10dは、事前学習部30、取得部40、抽出処理部50、修正処理部60、エリア設定部70等と同様の機能を有するプログラムをHDD10b等から読み出す。そして、プロセッサ10dは、事前学習部30、取得部40、抽出処理部50、修正処理部60、エリア設定部70等と同様の処理を実行するプロセスを実行する。
このように、情報処理装置10は、プログラムを読み出して実行することで情報処理方法を実行する情報処理装置として動作する。また、情報処理装置10は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置10によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、上記実施例が同様に適用されてもよい。
このプログラムは、インターネットなどのネットワークを介して配布されてもよい。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行されてもよい。
10 情報処理装置
11 通信部
12 記憶部
13 訓練データDB
14 第1機械学習モデル
15 第2機械学習モデル
16 映像データDB
17 セグメント結果DB
18 ROI情報DB
19 設定結果DB
20 制御部
30 事前学習部
40 取得部
50 抽出処理部
51 追跡部
52 動作解析部
53 基準線抽出部
54 クラスタリング実行部
55 角度算出部
56 注目領域抽出部
60 修正処理部
61 抽出結果取得部
62 セマンティックセグメンテーション部
63 基準線設定部
64 クラスタリング実行部
65 ラベル修正部
70 エリア設定部

Claims (8)

  1. コンピュータに、
    複数のエリアを有する画像データを取得し、
    前記画像データを第一の機械学習モデルに入力することで、前記複数のエリアのそれぞれにラベルを設定し、
    前記複数のエリアのうちの第一のエリアに位置する人物が、第二のエリアに位置する物体に対して行った行動を特定し、
    特定された前記人物の行動に基づいて、前記第二のエリアに設定されたラベルを変更する、
    処理を実行させることを特徴とするラベル変更プログラム。
  2. 前記行動を特定する処理は、
    取得した前記画像データを第二の機械学習モデルに入力することで、前記第一のエリアに位置する前記人物の骨格情報を生成し、
    前記変更する処理は、
    生成した前記骨格情報に基づいて、前記人物が、前記第二のエリアに物体に対する行動を特定し、
    特定された前記行動を用いて、前記第二のエリアに設定されたラベルを変更する、処理を実行することを特徴とする請求項1に記載のラベル変更プログラム。
  3. 室内を撮像した前記画像データを含む映像データに基づき同一人物を追跡した追跡情報を用いて、前記画像データの通路領域に、人物の移動経路を示す各基準線を設定し、
    前記映像データに写る各人物の骨格情報に基づき、前記各人物の位置を特定し、
    前記各人物の位置を用いて、前記映像データにおける前記各人物の移動軌跡を特定し、
    前記画像データにおいて、前記各基準線と前記各人物の移動軌跡との距離に基づくクラスタリングにより、複数のクラスタを生成し、
    前記複数のクラスタそれぞれについて、前記クラスタに属する各移動軌跡と前記基準線とのなす角度に基づく評価値が閾値以上であるクラスタを含む注目領域に抽出し、
    前記第一の機械学習モデルにより設定された前記複数のエリアそれぞれに設定される前記ラベルを、前記クラスタを含む注目領域に基づき変更する、
    処理を実行することを特徴とする請求項1に記載のラベル変更プログラム。
  4. 前記変更する処理は、
    前記第一の機械学習モデルにより識別された通路領域に、前記各基準線を設定し、
    前記通路領域に属する各画素と前記各基準線との距離に基づくクラスタリングにより、複数のクラスタを生成し、
    前記複数のクラスタのうち前記注目領域に対応する注目クラスタを特定し、
    前記注目クラスタの領域を、対応する前記注目領域を含む領域に修正し、
    前記第一の機械学習モデルにより前記修正された領域に対して設定済みであるラベルを、前記注目領域に該当するラベルに変更する、
    処理を実行することを特徴とする請求項3に記載のラベル変更プログラム。
  5. 前記画像データを含む映像データ内の各画像データから、前記映像データに写る各人物の位置を特定し、
    前記各人物の位置における前記人物の顔の向きと前記人物の身体の向きとのなす角度に基づき、前記第一のエリア内で、前記人物の行動分析の対象となる注目領域を特定し、
    前記第一の機械学習モデルにより設定された前記複数のエリアそれぞれのラベルを、前記注目領域に基づき変更する、
    処理を実行することを特徴とする請求項1に記載のラベル変更プログラム。
  6. 前記変更する処理は、
    前記第一の機械学習モデルにより識別された通路領域に、人物の移動経路を示す各基準線を設定し、
    前記通路領域に属する各画素と前記各基準線との距離に基づくクラスタリングにより、複数のクラスタを生成し、
    前記複数のクラスタのうち前記注目領域に対応する注目クラスタを特定し、
    前記注目クラスタの領域を、対応する前記注目領域を含む領域に修正し、
    前記第一の機械学習モデルにより前記修正された領域に対して設定されたラベルを、前記注目領域に該当するラベルに変更する、
    処理を実行することを特徴とする請求項5に記載のラベル変更プログラム。
  7. コンピュータが、
    複数のエリアを有する画像データを取得し、
    前記画像データを第一の機械学習モデルに入力することで、前記複数のエリアのそれぞれにラベルを設定し、
    前記複数のエリアのうちの第一のエリアに位置する人物が、第二のエリアに位置する物体に対して行った行動を特定し、
    特定された前記人物の行動に基づいて、前記第二のエリアに設定されたラベルを変更する、
    処理を実行させることを特徴とするラベル変更方法。
  8. 複数のエリアを有する画像データを取得し、
    前記画像データを第一の機械学習モデルに入力することで、前記複数のエリアのそれぞれにラベルを設定し、
    前記複数のエリアのうちの第一のエリアに位置する人物が、第二のエリアに位置する物体に対して行った行動を特定し、
    特定された前記人物の行動に基づいて、前記第二のエリアに設定されたラベルを変更する、
    制御部を有することを特徴とする情報処理装置。
JP2021194402A 2021-11-30 2021-11-30 ラベル変更プログラム、ラベル変更方法および情報処理装置 Pending JP2023080864A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021194402A JP2023080864A (ja) 2021-11-30 2021-11-30 ラベル変更プログラム、ラベル変更方法および情報処理装置
US17/959,156 US20230169760A1 (en) 2021-11-30 2022-10-03 Computer-readable recording medium storing label change program, label change method, and information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021194402A JP2023080864A (ja) 2021-11-30 2021-11-30 ラベル変更プログラム、ラベル変更方法および情報処理装置

Publications (1)

Publication Number Publication Date
JP2023080864A true JP2023080864A (ja) 2023-06-09

Family

ID=86500490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021194402A Pending JP2023080864A (ja) 2021-11-30 2021-11-30 ラベル変更プログラム、ラベル変更方法および情報処理装置

Country Status (2)

Country Link
US (1) US20230169760A1 (ja)
JP (1) JP2023080864A (ja)

Also Published As

Publication number Publication date
US20230169760A1 (en) 2023-06-01

Similar Documents

Publication Publication Date Title
WO2021043073A1 (zh) 基于图像识别的城市宠物活动轨迹监测方法及相关设备
CN107358149B (zh) 一种人体姿态检测方法和装置
US9020250B2 (en) Methods and systems for building a universal dress style learner
CN113963445B (zh) 一种基于姿态估计的行人摔倒动作识别方法及设备
US10140508B2 (en) Method and apparatus for annotating a video stream comprising a sequence of frames
US9183431B2 (en) Apparatus and method for providing activity recognition based application service
CN106203423B (zh) 一种融合上下文探测的弱结构感知视觉目标跟踪方法
Schwarz et al. Manifold learning for tof-based human body tracking and activity recognition.
Khan et al. A deep survey on supervised learning based human detection and activity classification methods
CN111985333B (zh) 一种基于图结构信息交互增强的行为检测方法及电子装置
JP2021503139A (ja) 画像処理装置、画像処理方法および画像処理プログラム
KR20170025535A (ko) 스켈레톤 자세 데이터세트를 이용한 비디오 기반 상호 활동 모델링 방법
CN113297963A (zh) 多人姿态的估计方法、装置、电子设备以及可读存储介质
Batool et al. Telemonitoring of daily activities based on multi-sensors data fusion
Li et al. Recognizing hand gestures using the weighted elastic graph matching (WEGM) method
Nosheen et al. Efficient Vehicle Detection and Tracking using Blob Detection and Kernelized Filter
JP2023080864A (ja) ラベル変更プログラム、ラベル変更方法および情報処理装置
US20220343112A1 (en) Learning data generation device, learning data generation method, and learning data generation program
Wang et al. Integrating manifold ranking with boundary expansion and corners clustering for saliency detection of home scene
JP2023081062A (ja) 抽出プログラム、抽出方法および情報処理装置
JP7374632B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2023080835A (ja) 設定プログラム、設定方法および情報処理装置
JP6308011B2 (ja) 同一対象検出装置、同一対象検出方法、及び同一対象検出プログラム
An et al. SDAT: Simultaneous detection and tracking of humans using Particle Swarm Optimization
Gudauskas et al. Multiple object tracking for video-based sports analysis