JP2023081062A - Extraction program, extraction method and information processing device - Google Patents
Extraction program, extraction method and information processing device Download PDFInfo
- Publication number
- JP2023081062A JP2023081062A JP2021194741A JP2021194741A JP2023081062A JP 2023081062 A JP2023081062 A JP 2023081062A JP 2021194741 A JP2021194741 A JP 2021194741A JP 2021194741 A JP2021194741 A JP 2021194741A JP 2023081062 A JP2023081062 A JP 2023081062A
- Authority
- JP
- Japan
- Prior art keywords
- person
- image data
- area
- unit
- passage area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 42
- 230000010365 information processing Effects 0.000 title claims abstract description 36
- 238000004458 analytical method Methods 0.000 claims abstract description 39
- 230000033001 locomotion Effects 0.000 claims description 70
- 238000000034 method Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 24
- 238000011156 evaluation Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 abstract description 24
- 230000006399 behavior Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 24
- 238000010801 machine learning Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 10
- 238000001514 detection method Methods 0.000 description 10
- 230000011218 segmentation Effects 0.000 description 10
- 210000003423 ankle Anatomy 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 230000007704 transition Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- 210000002683 foot Anatomy 0.000 description 3
- 239000013598 vector Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 210000001624 hip Anatomy 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、抽出プログラム、抽出方法および情報処理装置に関する。 The present invention relates to an extraction program, an extraction method, and an information processing apparatus.
カメラで撮像された映像データから人の行動を分析する技術開発が進められている。例えば、映像データに含まれる各画像データから、購買行動を起こしやすい領域である注目領域を抽出し、注目領域において腕を一定の位置まで上げる動作をピッキング動作として検出することで、購買行動を分析する。近年では、注目領域の検出手法として、各画像データに対して、人手による注目領域の設定やセマンティックセグメンテーションを用いた注目領域の設定が利用されている。 Techniques for analyzing human behavior from video data captured by cameras are being developed. For example, from each image data included in the video data, we extract the attention area, which is the area where purchasing behavior is likely to occur, and detect the movement of raising the arm to a certain position in the attention area as a picking motion, thereby analyzing the purchase behavior. do. In recent years, as an attention area detection method, manual attention area setting and attention area setting using semantic segmentation are used for each image data.
しかしながら、上記技術では、注目領域を正確に設定することが難しい。例えば、人手による手法では、膨大な画像データに対して注目領域を設定することになり、時間がかかるだけでなく、人為的なミスを防ぐことが難しい。また、セマンティックセグメンテーションを用いた手法では、店舗内で消費者が歩く通路全体が注目領域に設定されてしまう。このため、不要なピッキング動作が検出されてしまい、行動分析の精度が劣化する。 However, with the above technique, it is difficult to accurately set the attention area. For example, in a manual method, an attention area is set for a huge amount of image data, which not only takes time but also makes it difficult to prevent human error. In addition, in the method using semantic segmentation, the entire aisle that the consumer walks in the store is set as the region of interest. As a result, an unnecessary picking action is detected, degrading the accuracy of behavior analysis.
一つの側面では、行動分析の対象となる注目領域を正確に設定することができる抽出プログラム、抽出方法および情報処理装置を提供することを目的とする。 An object of one aspect of the present invention is to provide an extraction program, an extraction method, and an information processing apparatus capable of accurately setting an attention area to be subjected to behavior analysis.
第1の案では、抽出プログラムは、コンピュータに、室内を撮影した画像データから人物の骨格情報を生成し、生成された前記人物の骨格情報に基づいて、前記室内の通路領域を移動する人物の身体の向きを特定し、前記通路領域から、特定された前記人物の身体の向きと前記通路領域に設定された基準方向とが異なる、前記人物の行動分析の対象とする注目領域を抽出する、処理を実行させることを特徴とする。 In the first scheme, the extraction program causes the computer to generate skeleton information of a person from image data of the interior of the room, and based on the generated skeleton information of the person, an image of the person moving through the passage area in the room. Identifying the orientation of the body, and extracting from the passage area an attention area targeted for behavior analysis of the person in which the identified orientation of the person's body is different from a reference direction set in the passage area; It is characterized by executing processing.
一実施形態によれば、行動分析の対象となる注目領域を正確に設定することができる。 According to one embodiment, it is possible to accurately set an attention area to be subjected to behavior analysis.
以下に、本願の開示する抽出プログラム、抽出方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。 Exemplary embodiments of the extraction program, the extraction method, and the information processing apparatus disclosed in the present application will be described below in detail with reference to the drawings. In addition, this invention is not limited by this Example. Moreover, each embodiment can be appropriately combined within a range without contradiction.
[全体構成]
図1は、実施例1にかかる情報処理装置10を含むシステムの全体構成を説明する図である。図1に示すように、このシステムは、空間の一例である店舗1と、店舗1内の異なる場所に設置された複数のカメラ2と、情報処理装置10とを有する。
[overall structure]
FIG. 1 is a diagram illustrating the overall configuration of a system including an
複数のカメラ2それぞれは、店舗1内の所定領域を撮像する監視カメラの一例であり、撮像した映像のデータを、情報処理装置100に送信する。以下の説明では、映像のデータを「映像データ」と表記する場合がある。また、映像データには、時系列の複数の画像フレームが含まれる。各画像フレームには、時系列の昇順に、フレーム番号が付与される。1つの画像フレームは、カメラ2があるタイミングで撮影した静止画像の画像データである。
Each of the plurality of
情報処理装置10は、複数のカメラ2それぞれにより撮像された各画像データを解析するコンピュータの一例である。なお、複数のカメラ2それぞれと情報処理装置10とは、有線や無線を問わず、インターネットや専用線などの各種ネットワークを用いて接続される。
The
近年、カメラ2で撮像された映像データから人の行動を分析する技術開発が進められている。例えば、映像データに含まれる各画像データから、購買行動を起こしやすい領域である注目領域を抽出し、注目領域において腕を一定の位置まで上げる動作をピッキング動作として検出することで、購買行動を分析することが行われている。
In recent years, technology development for analyzing human behavior from video data captured by the
図2は、実施例1にかかる認識対象の行動を説明する図である。図2に示す領域Aが注目領域と仮定する。この場合、図2の(1)に示す、商品棚の前に位置する人物(ユーザ)のピッキング動作が認識対象である。しかし、図2の(2)や(3)に示す、商品棚がない場所で、商品に手を伸ばしていないもののピッキング動作と似た動作を行った人物も認識されてしまうことで、誤検出が発生する。 FIG. 2 is a diagram for explaining behavior of a recognition target according to the first embodiment; Assume that the region A shown in FIG. 2 is the region of interest. In this case, the picking motion of the person (user) positioned in front of the product shelf shown in (1) of FIG. 2 is the recognition target. However, as shown in (2) and (3) in Fig. 2, a person who does not reach out to pick a product in a place where there is no product shelf but performs a similar picking action is also recognized, resulting in erroneous detection. occurs.
誤検出を減らすために、手を伸ばす商品棚の領域を注目領域として設定することが考えられるが、その場合、図2の(2)に示す人物は、画像データ上、手が棚に入っていることから、誤検出されてしまう。別の手法としては、足元の通路を注目領域と設定することが行われる。例えば、図1に示す領域Aを注目領域に設定した場合、図2の(2)や(3)に示す人物は、検出されなくなり、誤検出が抑制される。 In order to reduce erroneous detection, it is conceivable to set the area of the product shelf where the hand reaches as the attention area. In that case, the person shown in FIG. Therefore, it is erroneously detected. Another method is to set the passage at your feet as the attention area. For example, when the area A shown in FIG. 1 is set as the attention area, the persons shown in (2) and (3) in FIG. 2 are not detected, and erroneous detection is suppressed.
足元の領域を注目領域と設定する手法は、手動設定で行われることが多い。しかし、手動設定では、膨大な画像データに対して注目領域を設定することになり、時間がかかるだけでなく、人為的なミスを防ぐことが難しい。 Manual setting is often used to set the foot area as the attention area. However, with manual setting, the attention area is set for a huge amount of image data, which not only takes time but also makes it difficult to prevent human error.
別の手法として、画像データのピクセル単位で何が写っているのかをカテゴリ分けする技術であるセマンティックセグメンテーションによる自動設定が利用されている。図3は、セマンティックセグメンテーションによる注目領域の検出を説明する図である。図3に示すように、セマンティックセグメンテーションは、画像データを機械学習モデル(convolutional encoder-decoder)に入力し、画像データの各領域にラベルが設定された出力結果を取得する。しかし、注目領域に限らず、注目領域以外を含んだ全通路に、ラベル「通路」が設定されてしまい、図2の(2)や(3)の人物も認識対象となることから、これらの人物のピッキング動作を検出する誤検出が発生する。 Another technique uses automatic configuration through semantic segmentation, a technique that categorizes what is in each pixel of image data. FIG. 3 is a diagram explaining detection of a region of interest by semantic segmentation. As shown in FIG. 3, semantic segmentation inputs image data into a machine learning model (convolutional encoder-decoder) and obtains an output result in which each region of the image data is labeled. However, the label "passage" is set not only for the attention area but also for all passages including areas other than the attention area, and the persons (2) and (3) in FIG. An erroneous detection occurs when a person's picking action is detected.
なお、カメラの映像データから人の作業位置を抽出し、作業位置のクラスタリングによってROI(Region Of Interest)を自動的に提供する参考技術も利用も考えられる。図4は、参考技術における注目領域の検出を説明する図である。図4に示すように、参考技術では、静止しての購買行動が生じた領域を抽出するので、図4の(B)に示した人物が静止した位置のみが抽出されてしまい、注目領域Aを十分にカバーすることが難しい。つまり、参考技術では、ゆっくり移動して商品を取る動作(ピッキング動作)を検出することが難しい。 In addition, it is possible to use a reference technology that automatically provides ROI (Region Of Interest) by extracting the working positions of people from the image data of the camera and clustering the working positions. FIG. 4 is a diagram illustrating detection of a region of interest in the reference technique. As shown in FIG. 4, in the reference technique, since the area where the purchase behavior occurs while still is extracted, only the position where the person is stationary shown in FIG. difficult to adequately cover. In other words, with the reference technology, it is difficult to detect an action of moving slowly to pick up an item (picking action).
一般的に、画像データ内で、注目領域と設定する領域やピッキング動作が検出された領域を、人物が手に取る商品等が陳列される商品棚エリアの設定した上で、人物の行動分析等が行われる。しかし、上述したように、手動設定、セマンティックセグメンテーション、または、参考技術による注目領域の設定では、注目領域を正確に抽出することが難しい。このため、商品棚エリアの設定ミスが発生し、最終的な行動分析の精度も劣化する。 In general, in image data, areas set as attention areas and areas where picking motions are detected are set as product shelf areas where products picked up by people are displayed, and then human behavior analysis, etc. is performed. is done. However, as described above, it is difficult to accurately extract the attention area by manual setting, semantic segmentation, or setting the attention area by the reference technique. For this reason, a product shelf area setting error occurs, and the accuracy of the final behavior analysis also deteriorates.
そこで、実施例1にかかる情報処理装置10は、室内の一例である店舗内を撮影した画像データから人物の骨格情報を生成し、生成された人物の骨格情報に基づいて、店舗内の通路領域を移動する人物の身体の向きを特定する。そして、情報処理装置10は、通路領域から、特定された人物の身体の向きと通路領域に設定された基準方向とが異なる、人物の行動分析の対象とする注目領域を抽出する。
Therefore, the
すなわち、情報処理装置10は、リテール店舗での購買行動は移動と商品を選び取る行動が主として発生し、選び取る際には通路方向に対して身体の向きにバラつきが生じることを用いて、商品の選び取りが発生する注目領域を抽出する。この結果、情報処理装置10は、行動分析の対象となる注目領域を正確に設定することができる。
In other words, the
[機能構成]
図5は、実施例1にかかる情報処理装置10の機能構成を示す機能ブロック図である。図5に示すように、情報処理装置10は、通信部11、記憶部12、制御部20を有する。
[Function configuration]
FIG. 5 is a functional block diagram of the functional configuration of the
通信部11は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどにより実現される。例えば、通信部11は、カメラ2から映像データを受信し、制御部20による処理結果を管理端末などに送信する。
The
記憶部12は、各種データや制御部20が実行するプログラムなどを記憶する処理部であり、メモリやハードディスクなどにより実現される。記憶部12は、機械学習モデル13、映像データDB14、ROI情報DB15、設定結果DB16を記憶する。
The
機械学習モデル13は、人物の動作解析を実行するモデルである。具体的には、機械学習モデル13は、機械学習済みのモデルであり、人物の2次元画像データに対して、頭、手首、腰、足首などの2次元の関節位置(骨格座標)を推定し、基本となる動作の認識やユーザが定義したルールの認識を行う深層学習器の一例である。この機械学習モデル13を用いることで、人物の基本動作を認識することができ、足首の位置、顏の向き、身体の向きを取得することができる。なお、基本となる動作とは、例えば歩く、走る、止まるなどである。ユーザが定義したルールとは、商品を手に取るまでの各行動に該当する骨格情報の遷移などである。
The
映像データDB14は、店舗1に設置される複数のカメラ2それぞれにより撮像された映像データを記憶するデータベースである。例えば、映像データDB14は、カメラ2ごと、または、撮像された時間帯ごとに、映像データを記憶する。
The
ROI情報DB15は、後述する制御部20により得られた注目領域のROI、商品棚のROIなどを記憶するデータベースである。例えば、ROI情報DB15は、RGBの画像データごとに、注目領域のROI、商品棚のROIなどを対応付けて記憶する。
The
設定結果DB19は、後述する制御部20により、画像データに対して設定された商品棚のエリアに関する情報を記憶するデータベースである。例えば、設定結果DB19は、RGBの画像データと、画像データに対して設定された各エリアのラベル情報とを対応付けて記憶する。
The setting result DB 19 is a database that stores information relating to product shelf areas set for image data by the
制御部20は、情報処理装置10全体を司る処理部であり、例えばプロセッサなどによる実現される。この制御部20は、取得部21、追跡部22、動作解析部23、基準線抽出部24、クラスタリング実行部25、角度算出部26、注目領域抽出部27、エリア設定部28を有する。なお、取得部21、追跡部22、動作解析部23、基準線抽出部24、クラスタリング実行部25、角度算出部26、注目領域抽出部27、エリア設定部28は、プロセッサが有する電子回路やプロセッサが実行するプロセスなどにより実現される。
The
取得部21は、各カメラ2から映像データを取得して映像データDB14に格納する処理部である。例えば、取得部21は、各カメラ2から随時取得してもよく、定期的に取得してもよい。
The
追跡部22は、映像データ中の同一人物の追跡を実行する処理部である。例えば、追跡部22は、公知のトラッキング技術を用いて、映像データ中の同一人物をトラッキングし、当該人物の移動経路(移動軌跡)を抽出する。そして、追跡部22は、抽出結果を、基準線抽出部24等に出力する。
The
動作解析部23は、カメラ2により撮像された映像データに写っている人物の動作解析を実行する処理部である。具体的には、動作解析部23は、映像データに含まれる各画像データ(フレーム)を機械学習モデル13に入力し、各画像データに写っている人物の動作を認識する。
The
図6は、機械学習モデル13を用いた動作解析を説明する図である。図6に示すように、動作解析部23は、RGBの画像データを機械学習モデル13に入力し、画像データに写っている人物の2次元骨格座標を取得する。そして、動作解析部23は、2次元骨格座標にしたがって、人物の足首の位置、顔の向き、身体の向きを特定し、特定した結果を、クラスタリング実行部25などに出力する。
FIG. 6 is a diagram for explaining motion analysis using the
このように、動作解析部23は、所定時間間隔で取得された各映像データに含まれる各画像データ(例えば100フレーム)それぞれを機械学習モデル13に入力し、各画像データに写っている人物の足首の位置、顔の向き、身体の向きを測定することで、映像データ内における人物の足首の位置の遷移、顔の向きの遷移、身体の向きの遷移を特定することができる。
In this way, the
基準線抽出部24は、トラッキング情報から人の移動経路を抽出し、基準線となる通路方向を設定する処理部である。具体的には、基準線抽出部24は、映像データ内から画像データを取得(選択)し、追跡部22により得られたある人物の移動経路を用いて、取得された画像データ上に、ユーザが歩く方向である基準方向を設定する。そして、基準線抽出部24は、設定された基準方向を基準線として抽出する。なお、基準線抽出部24は、画像データとして、映像データの最初の画像データや最後の画像データなど、映像データ内の任意の画像データを選択することができる。
The reference
図7は、トラッキングによる基準方向の設定を説明する図である。図7に示すように、基準線抽出部24は、画像データ上に、トラッキング結果である移動経路A1と移動経路A2とを設定する。このとき、基準線抽出部24は、設定された移動経路を含む領域を通路の領域と設定することができる。なお、基準線抽出部24は、画像データに対してセマンティックセグメンテーションを実行した結果により、画像データ上に通路の領域を設定することができる。
FIG. 7 is a diagram for explaining setting of a reference direction by tracking. As shown in FIG. 7, the reference
続いて、基準線抽出部24は、トラッキング結果により、移動経路A1から移動経路A2への遷移を特定し、その遷移にしたがって、通路の領域上に基準方向B1、B2、B3のそれぞれを設定する。そして、基準線抽出部24は、この基準方向B1、B2、B3それぞれを、基準線に設定する。なお、移動経路や移動経路の遷移は、一方方向に限らず、多方向が特定されることもあるが、この場合であっても、方向を除外して同じ移動軌跡であれば、1つの通路方向であり、1つの基準線として抽出される。例えば、基準線抽出部24は、ユーザが歩く複数の移動経路から通路方向となる近似直線を算出し、その近似曲線を基準線として設定する。また、基準線抽出部24は、基準線の設定結果をクラスタリング実行部25などに出力する。
Subsequently, the reference
クラスタリング実行部25は、各人物の移動軌跡を抽出し、各基準線と各人物の移動軌跡との距離に基づくクラスタリングにより、複数のクラスタを生成する処理部である。具体的には、クラスタリング実行部25は、各移動軌跡がどの基準線に近いかをクラスタリングする。 The clustering execution unit 25 is a processing unit that extracts the movement trajectory of each person and generates a plurality of clusters by clustering based on the distance between each reference line and the movement trajectory of each person. Specifically, the clustering execution unit 25 clusters which reference line each trajectory is close to.
図8は、クラスタリングを説明する図である。図8に示すように、クラスタリング実行部25は、各画像データに写っている人物の足首の位置を動作解析部23から取得し、基準線B1、B2、B3が設定された画像データにプロットする。そして、クラスタリング実行部25は、各基準線と各人物の移動軌跡との距離に基づくクラスタリングにより、複数のクラスタを生成する。
FIG. 8 is a diagram for explaining clustering. As shown in FIG. 8, the clustering execution unit 25 acquires the ankle positions of the persons shown in each image data from the
例えば、クラスタリング実行部25は、各移動軌跡から各基準線への垂線を引き、その垂線の長さを基にしたクラスタリングを実行することにより、各移動軌跡をいずれかの基準線にクラスタリングする。なお、ベースとなる距離は、垂線の長さに限らず、ユークリッド距離などを用いることもできる。 For example, the clustering execution unit 25 clusters each movement trajectory on one of the reference lines by drawing a perpendicular from each trajectory to each reference line and performing clustering based on the length of the perpendicular. Note that the base distance is not limited to the length of the perpendicular, and Euclidean distance or the like can also be used.
この結果、クラスタリング実行部25は、基準線B1に最も近い移動軌跡の点群を含むクラスタC1と、基準線B2に最も近い移動軌跡の点群を含むクラスタC2と、基準線B3に最も近い移動軌跡の点群を含むクラスタC3と、を生成する。そして、クラスタリング実行部25は、クラスタリング結果を角度算出部26などに出力する。
As a result, the clustering execution unit 25 determines the cluster C1 including the point group of the movement trajectory closest to the reference line B1, the cluster C2 including the point group of the movement trajectory closest to the reference line B2, and the cluster C2 including the point group of the movement trajectory closest to the reference line B3. and a cluster C3 containing a point cloud of the trajectory. The clustering execution unit 25 then outputs the clustering result to the
角度算出部26は、クラスタリングされた各移動軌跡について、各基準線に対する身体の向きのなす角を算出する処理部である。具体的には、角度算出部26は、各画像データに写っている人物の身体の向きを動作解析部23から取得し、画像データ内の移動軌跡に該当する身体の向きを対応付ける。そして、角度算出部26は、クラスタリング結果を用いて、各移動軌跡が属するクラスタの基準線を特定する。その後、角度算出部26は、各移動軌跡に対して、公知の手法を用いて、属するクラスタの基準線と身体の向きとのなす角度を算出する。なお、角度算出部26は、身体の向きに限らず、顔の向きを用いることもできる。角度算出部26は、各移動軌跡に対応する角度を注目領域抽出部27などに出力する。
The
注目領域抽出部27は、複数のクラスタそれぞれについて、クラスタに属する各移動軌跡と基準線とのなす角度に基づく評価値が閾値以上であるクラスタを含む領域を注目領域に抽出する処理部である。具体的には、注目領域抽出部27は、各基準線に対する身体の向きのなす角のうち、大きい角度を多く含む基準線を抽出し、このような基準線が属する領域を注目領域として抽出する。 The region-of-interest extraction unit 27 is a processing unit that extracts, as a region of interest, a region including a cluster whose evaluation value based on the angle formed by each movement trajectory belonging to the cluster and the reference line is equal to or greater than a threshold value, for each of a plurality of clusters. Specifically, the attention area extracting unit 27 extracts reference lines that include many large angles among the angles formed by the orientation of the body with respect to each reference line, and extracts areas to which such reference lines belong as attention areas. .
図9は、クラスタの抽出を説明する図である。図9に示すように、注目領域抽出部27は、各移動軌跡がプロットされた画像データに対して、各移動軌跡に対応する身体の向きをプロットする。また、注目領域抽出部27は、各移動軌跡に対して算出された角度も対応付ける。 FIG. 9 is a diagram for explaining cluster extraction. As shown in FIG. 9, the attention area extracting unit 27 plots the orientation of the body corresponding to each movement trajectory with respect to the image data in which each movement trajectory is plotted. The attention area extracting unit 27 also associates the calculated angle with each movement trajectory.
そして、注目領域抽出部27は、各クラスタについて、属する移動軌跡の角度を集計する。例えば、図9に示すように、注目領域抽出部27は、クラスタC1に属する各移動軌跡の角度とその角度に該当する移動軌跡の数、クラスタC2に属する各移動軌跡の角度とその角度に該当する移動軌跡の数、クラスタC3に属する各移動軌跡の角度とその角度に該当する移動軌跡の数を集計する。 Then, the region-of-interest extraction unit 27 aggregates the angles of the movement trajectory belonging to each cluster. For example, as shown in FIG. 9, the region-of-interest extraction unit 27 determines the angle of each trajectory belonging to cluster C1, the number of trajectories corresponding to the angle, the angle of each trajectory belonging to cluster C2, and the number of trajectories corresponding to the angle. The number of trajectories that correspond to each other, the angle of each trajectory belonging to cluster C3, and the number of trajectories that correspond to the angle are counted.
その後、注目領域抽出部27は、大きい角度を多く有するクラスタを抽出する。例えば、注目領域抽出部27は、クラスタごとに、角度の中央値、角度の平均値、60度以上の角度の数の割合などを評価値として算出する。そして、注目領域抽出部27は、評価値が閾値以上であるクラスタC2とクラスタC3を抽出する。 After that, the region-of-interest extraction unit 27 extracts clusters having many large angles. For example, the region-of-interest extraction unit 27 calculates, for each cluster, the median value of angles, the average value of angles, the ratio of the number of angles of 60 degrees or more, and the like as evaluation values. Then, the attention area extraction unit 27 extracts clusters C2 and C3 whose evaluation values are equal to or greater than the threshold.
続いて、注目領域抽出部27は、抽出したクラスタC2とクラスタC3について、注目領域として、クラスタに属する各移動軌跡を囲む多角形を生成する。図10は、注目領域の抽出を説明する図である。図10に示すように、注目領域抽出部27は、クラスタC2について、クラスタC2に属する各移動軌跡を含む最大の多角形を生成して、注目領域として抽出する。同様に、注目領域抽出部27は、クラスタC3について、クラスタC3に属する各移動軌跡を含む最大の多角形を生成して、注目領域として抽出する。 Subsequently, for the extracted clusters C2 and C3, the attention area extraction unit 27 generates, as attention areas, polygons surrounding each trajectory belonging to the cluster. FIG. 10 is a diagram for explaining extraction of a region of interest. As shown in FIG. 10, the attention area extracting unit 27 generates the maximum polygon including each trajectory belonging to the cluster C2 and extracts it as an attention area. Similarly, for the cluster C3, the attention area extraction unit 27 generates the maximum polygon including each trajectory belonging to the cluster C3 and extracts it as the attention area.
また、注目領域抽出部27は、各多角形の座標をROI情報DB15に格納したり、エリア設定部28に出力したりする。注目領域抽出部27は、設定された注目領域に関する情報として、例えば注目領域が設定された画像データなどを設定結果DB16に格納したり、エリア設定部28に出力したりする。
Also, the attention area extracting unit 27 stores the coordinates of each polygon in the
エリア設定部28は、顔の向きまたは身体の向きに基づき、店舗1を構成する複数の領域のうち注目領域と隣接する、人物に関連する物体が収納される領域を設定する処理部である。具体的には、エリア設定部28は、画像データに対して、ピッキング動作の対象となる商品が置いてある商品棚エリアを特定する。
The area setting unit 28 is a processing unit that sets an area in which an object related to a person is stored, adjacent to the attention area, among the plurality of areas that constitute the
図11は、商品棚エリアの設定を説明する図である。図11に示すように、エリア設定部28は、画像データにおいて注目領域Cに属する各移動軌跡に対して、動作解析部23により特定された顔の向きをプロットする。そして、エリア設定部28は、顔の向きのベクトルの数が閾値以上である方向を特定し、その方向にある領域のうち、注目領域Cと接する領域もしく注目領域Cと隣接する領域として、領域E1と領域E2を特定する。この結果、エリア設定部28は、画像データ上で、領域E1と領域E2を商品棚エリアと設定する。
FIG. 11 is a diagram for explaining the setting of the product shelf area. As shown in FIG. 11, the area setting unit 28 plots the orientation of the face specified by the
同様に、エリア設定部28は、画像データにおいて注目領域Dに属する各移動軌跡に対して、動作解析部23により特定された顔の向きのベクトルの数が閾値以上である方向を特定し、その方向にある領域から、領域E3と領域E4を特定する。この結果、エリア設定部28は、画像データ上で、領域E3と領域E4を商品棚エリアと設定する。
Similarly, the area setting unit 28 identifies a direction in which the number of face direction vectors identified by the
そして、エリア設定部28は、領域E1、領域E2、領域E3、領域E4の座標や、領域E1からE4それぞれを設定した画像データなどの情報を設定結果DB16に格納する。なお、エリア設定部28は、画像データに対してセマンティックセグメンテーションを実行し、エリア分割(識別)された結果に対して、領域E1から領域E4それぞれを設定することもできる。また、エリア設定部28は、セマンティックセグメンテーションの実行結果に対して、領域E1からE4それぞれに該当するラベルを「商品棚エリア」に設定し直すこともできる。
Then, the area setting unit 28 stores information such as coordinates of the area E1, area E2, area E3, and area E4, and image data setting each of the areas E1 to E4 in the
[処理の流れ]
図12は、処理の流れを示すフローチャートである。図12に示すように、処理開始が指示されると(S101:Yes)、制御部20は、映像データDB14から映像データを取得する(S102)。
[Process flow]
FIG. 12 is a flowchart showing the flow of processing. As shown in FIG. 12, when an instruction to start processing is given (S101: Yes), the
続いて、基準線抽出部24は、映像データに基づき人物追跡を実行し(S103)、人物追跡結果に基づき、基準方向を設定する(S104)。例えば、基準線抽出部24は、映像データ中の同一人物をトラッキングして移動経路を抽出し、ユーザが歩く移動経路を用いて基準線を設定する。
Subsequently, the reference
また、動作解析部23は、映像データを構成する各画像データを用いた行動分析を実行し(S105)、行動分析の結果により、人物の位置や向きを取得する(S106)。例えば、動作解析部23は、機械学習モデル13を用いて、映像データ中の各人物の顔の向き、身体の向き、足首の位置やこれらの遷移を特定する。
Further, the
その後、クラスタリング実行部25は、各人物の移動軌跡を抽出し、各基準線と各人物の移動軌跡との距離に基づくクラスタリングにより、複数のクラスタを生成する(S107)。例えば、クラスタリング実行部25は、各移動軌跡がどの基準線に近いかをクラスタリングする。 After that, the clustering execution unit 25 extracts the movement trajectory of each person, and generates a plurality of clusters by clustering based on the distance between each reference line and the movement trajectory of each person (S107). For example, the clustering execution unit 25 clusters which reference line each trajectory is close to.
続いて、角度算出部26は、各クラスタについて角度を算出する(S108)。例えば、角度算出部26は、各移動軌跡に対応する身体の向きと、各移動軌跡が属するクラスタの基準線との角度を算出する。
Subsequently, the
そして、注目領域抽出部27は、各クラスタについて、属する各移動軌跡の角度の中央値を算出し(S109)、中央値が閾値以上であるクラスタを抽出する(S110)。続いて、注目領域抽出部27は、抽出したクラスタに属する全移動軌跡を囲む(含む)ように多角形の領域を生成し、当該領域を注目領域として抽出する(S111)。 The region-of-interest extraction unit 27 then calculates the median value of the angles of the trajectories belonging to each cluster (S109), and extracts clusters whose median value is equal to or greater than the threshold value (S110). Subsequently, the attention area extraction unit 27 generates a polygonal area so as to surround (include) all movement trajectories belonging to the extracted cluster, and extracts the area as an attention area (S111).
その後、注目領域抽出部27は、多角形の座標を記憶部12や指定された送信先に出力する(S112)。そして、エリア設定部28は、顔の向きまたは身体の向きに基づき、注目領域と隣接する商品棚エリアを設定する(S113)。
After that, the attention area extraction unit 27 outputs the coordinates of the polygon to the
[効果]
上述したように、情報処理装置10は、映像データに対してトラッキングを行い、トラッキング結果から通路方向である基準線を抽出する。情報処理装置10は、行動分析により人の動作解析を実行し、基準線と動作解析結果から移動軌跡のクラスタリングを実行する。情報処理装置10は、各クラスタの基準線と体の向きのなす角を算出し、閾値以上の角度を多く含むクラスタで購買行動が頻繁に生じていると想定し、そのクラスタ(クラス)に分類される点群を囲う多角形を注目領域として抽出する。この結果、情報処理装置10は、注目領域を自動的に抽出することができ、行動分析の対象となる注目領域を正確に設定することができる。
[effect]
As described above, the
例えば、この情報処理装置10を用いることで、手動で注目領域を設定する必要がないので、人為的なミスを削減でき、手動設定に比べて、膨大な画像データに対して正確かつ高速な注目領域の設定を実現することができる。また、情報処理装置10は、人物が興味を示す顔を動かす動作が行われた領域を注目領域として抽出することができるので、図4の参考技術と異なり、過不足のない注目領域を設定できる。
For example, by using the
また、情報処理装置10は、停止した状態でのピッキング動作に限らず、ゆっくり移動して商品を取るピッキング動作を検出することができる。また、情報処理装置10は、過不足のない注目領域と隣接する領域を商品棚と特定することができるので、ピッキング動作の検出精度を向上させることができ、行動分析などの精度を向上させることができる。
In addition, the
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。 Although the embodiments of the present invention have been described so far, the present invention may be implemented in various different forms other than the embodiments described above.
[数値等]
上記実施例で用いた数値例、カメラ数、ラベル名、軌跡の数等は、あくまで一例であり、任意に変更することができる。また、各フローチャートで説明した処理の流れも矛盾のない範囲内で適宜変更することができる。また、上記実施例では、店舗を例にして説明したが、これに限定されるものではなく、例えば倉庫、工場、教室、電車の車内や飛行機の客室などにも流用することができる。これらの場合、人物に関連する物体が収納された領域の一例として説明した商品棚の領域に代わりに、物を置く領域や荷物をしまう領域が検出、設定対象となる。
[Numbers, etc.]
Numerical examples, the number of cameras, label names, the number of trajectories, etc. used in the above embodiment are only examples, and can be changed arbitrarily. Also, the flow of processing described in each flowchart can be changed as appropriate within a consistent range. In addition, in the above embodiment, the store was explained as an example, but the present invention is not limited to this, and can be applied to, for example, a warehouse, a factory, a classroom, a train car, an airplane cabin, and the like. In these cases, instead of the product shelf area described as an example of the area in which objects related to people are stored, an area where objects are placed and an area where luggage is stored are detected and set.
また、上記実施例では、人物の足首の位置を用いる例を説明したが、これに限定されるものではなく、例えば足の位置、靴の位置などを用いることもできる。また、上記実施例では、顔の向きの方向にあるエリアを商品棚エリアと特定する例を説明したが、身体の向きの方向にあるエリアを商品棚エリアと特定することもできる。また、上記実施例では、角度の計算に身体の向きを用いる例を説明したが、顔の向きを用いることもできる。また、各機械学習モデルは、ニューラルネットワークなどを用いることができる。 Also, in the above embodiment, an example using the position of the person's ankle has been described, but the present invention is not limited to this, and the position of the foot, the position of the shoe, or the like can also be used. In the above embodiment, an example was described in which the area in the direction of the face is specified as the product shelf area, but the area in the direction of the body can also be specified as the product shelf area. Also, in the above embodiment, an example in which the orientation of the body is used to calculate the angle has been described, but the orientation of the face can also be used. Also, each machine learning model can use a neural network or the like.
[システム]
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[system]
Information including processing procedures, control procedures, specific names, and various data and parameters shown in the above documents and drawings can be arbitrarily changed unless otherwise specified.
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。 Also, each component of each device illustrated is functionally conceptual, and does not necessarily need to be physically configured as illustrated. That is, the specific forms of distribution and integration of each device are not limited to those shown in the drawings. That is, all or part of them can be functionally or physically distributed and integrated in arbitrary units according to various loads and usage conditions.
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。 Further, each processing function performed by each device may be implemented in whole or in part by a CPU and a program analyzed and executed by the CPU, or implemented as hardware based on wired logic.
[ハードウェア]
図13は、ハードウェア構成例を説明する図である。図13に示すように、情報処理装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図13に示した各部は、バス等で相互に接続される。
[hardware]
FIG. 13 is a diagram illustrating a hardware configuration example. As shown in FIG. 13, the
通信装置10aは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。HDD10bは、図5に示した機能を動作させるプログラムやDBを記憶する。
The
プロセッサ10dは、図5に示した各処理部と同様の処理を実行するプログラムをHDD10b等から読み出してメモリ10cに展開することで、図5等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、情報処理装置10が有する各処理部と同様の機能を実行する。具体的には、プロセッサ10dは、取得部21、追跡部22、動作解析部23、基準線抽出部24、クラスタリング実行部25、角度算出部26、注目領域抽出部27、エリア設定部28等と同様の機能を有するプログラムをHDD10b等から読み出す。そして、プロセッサ10dは、取得部21、追跡部22、動作解析部23、基準線抽出部24、クラスタリング実行部25、角度算出部26、注目領域抽出部27、エリア設定部28等と同様の処理を実行するプロセスを実行する。
The
このように、情報処理装置10は、プログラムを読み出して実行することで設定方法を実行する情報処理装置として動作する。また、情報処理装置10は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置10によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、上記実施例が同様に適用されてもよい。
Thus, the
このプログラムは、インターネットなどのネットワークを介して配布されてもよい。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行されてもよい。 This program may be distributed via a network such as the Internet. In addition, this program is recorded on a computer-readable recording medium such as a hard disk, flexible disk (FD), CD-ROM, MO (Magneto-Optical disk), DVD (Digital Versatile Disc), etc., and is read from the recording medium by a computer. It may be executed by being read.
10 情報処理装置
11 通信部
12 記憶部
13 機械学習モデル
14 映像データDB
15 ROI情報DB
16 設定結果DB
20 制御部
21 取得部
22 追跡部
23 動作解析部
24 基準線抽出部
25 クラスタリング実行部
26 角度算出部
27 注目領域抽出部
28 エリア設定部
REFERENCE SIGNS
15 ROI information DB
16 Setting result DB
20
Claims (8)
室内を撮影した画像データから人物の骨格情報を生成し、
生成された前記人物の骨格情報に基づいて、前記室内の通路領域を移動する人物の身体の向きを特定し、
前記通路領域から、特定された前記人物の身体の向きと前記通路領域に設定された基準方向とが異なる、前記人物の行動分析の対象とする注目領域を抽出する、
処理を実行させることを特徴とする抽出プログラム。 to the computer,
Generating skeletal information of a person from image data taken in the room,
Based on the generated skeletal information of the person, identifying the orientation of the body of the person moving in the passage area in the room;
extracting, from the passage area, an attention area targeted for behavior analysis of the person in which the direction of the specified person's body is different from a reference direction set in the passage area;
An extraction program characterized by causing a process to be executed.
前記顔の向きまたは前記身体の向きに基づき、前記室内を構成する複数の領域のうち前記注目領域と隣接する、前記人物に関連する物体が収納される領域を設定する、
処理を前記コンピュータに実行させることを特徴とする請求項1に記載の抽出プログラム。 identifying the orientation of the person's face based on the skeletal information of the person;
Based on the orientation of the face or the orientation of the body, an area adjacent to the attention area and containing an object related to the person is set among a plurality of areas constituting the room.
2. The extraction program according to claim 1, causing the computer to execute processing.
前記各人物の位置に基づく移動軌跡を用いて、前記画像データの通路領域に前記基準方向を設定する、処理を前記コンピュータに実行させることを特徴とする請求項3に記載の抽出プログラム。 identifying the position of each person in each image data based on the skeleton information of each person appearing in the image data from each image data in the image data;
4. The extraction program according to claim 3, causing the computer to execute a process of setting the reference direction in the passage area of the image data using the movement trajectory based on the position of each person.
前記映像データ内の各画像データから前記映像データに写っている各人物の骨格情報に基づき、前記各画像データにおける前記各人物の位置を特定し、
前記各人物の位置を用いて、前記映像データにおける前記各人物の移動軌跡を特定し、
前記画像データにおいて、前記基準方向に基づく各基準線と前記各人物の移動軌跡との距離に基づくクラスタリングにより、複数のクラスタを生成し、
前記複数のクラスタそれぞれについて、前記クラスタに属する各移動軌跡と前記基準線とのなす角度に基づく評価値が閾値以上であるクラスタを含む領域を前記注目領域に抽出する、ことを特徴とする請求項4に記載の抽出プログラム。 The process of extracting
identifying the position of each person in each image data based on the skeleton information of each person appearing in the image data from each image data in the image data;
using the position of each person to identify the movement trajectory of each person in the video data;
generating a plurality of clusters in the image data by clustering based on the distance between each reference line based on the reference direction and the movement trajectory of each person;
3. For each of said plurality of clusters, an area including a cluster whose evaluation value based on an angle between each movement trajectory belonging to said cluster and said reference line is equal to or greater than a threshold is extracted as said attention area. 4. The extraction program according to 4.
前記評価値が閾値である前記クラスタについて、当該クラスタに属する前記各移動軌跡を囲む多角形を生成し、
前記多角形の座標を出力する、ことを特徴とする請求項5に記載の抽出プログラム。 The process of extracting
generating a polygon surrounding each movement trajectory belonging to the cluster for the cluster whose evaluation value is a threshold;
6. The extraction program according to claim 5, outputting the coordinates of said polygon.
室内を撮影した画像データから人物の骨格情報を生成し、
生成された前記人物の骨格情報に基づいて、前記室内の通路領域を移動する人物の身体の向きを特定し、
前記通路領域から、特定された前記人物の身体の向きと前記通路領域に設定された基準方向とが異なる、前記人物の行動分析の対象とする注目領域を抽出する、
処理を実行することを特徴とする抽出方法。 the computer
Generating skeletal information of a person from image data taken in the room,
Based on the generated skeletal information of the person, identifying the orientation of the body of the person moving in the passage area in the room;
extracting, from the passage area, an attention area targeted for behavior analysis of the person in which the direction of the specified person's body is different from a reference direction set in the passage area;
An extraction method characterized by performing a process.
生成された前記人物の骨格情報に基づいて、前記室内の通路領域を移動する人物の身体の向きを特定し、
前記通路領域から、特定された前記人物の身体の向きと前記通路領域に設定された基準方向とが異なる、前記人物の行動分析の対象とする注目領域を抽出する、
制御部を有することを特徴とする情報処理装置。 Generating skeletal information of a person from image data taken in the room,
Based on the generated skeletal information of the person, identifying the orientation of the body of the person moving in the passage area in the room;
extracting, from the passage area, an attention area targeted for behavior analysis of the person in which the direction of the specified person's body is different from a reference direction set in the passage area;
An information processing apparatus comprising a control unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021194741A JP2023081062A (en) | 2021-11-30 | 2021-11-30 | Extraction program, extraction method and information processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021194741A JP2023081062A (en) | 2021-11-30 | 2021-11-30 | Extraction program, extraction method and information processing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023081062A true JP2023081062A (en) | 2023-06-09 |
Family
ID=86656444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021194741A Pending JP2023081062A (en) | 2021-11-30 | 2021-11-30 | Extraction program, extraction method and information processing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023081062A (en) |
-
2021
- 2021-11-30 JP JP2021194741A patent/JP2023081062A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021043073A1 (en) | Urban pet movement trajectory monitoring method based on image recognition and related devices | |
Choi et al. | A general framework for tracking multiple people from a moving camera | |
Bauters et al. | Automated work cycle classification and performance measurement for manual work stations | |
Jalal et al. | Depth maps-based human segmentation and action recognition using full-body plus body color cues via recognizer engine | |
Akhter et al. | Adaptive pose estimation for gait event detection using context-aware model and hierarchical optimization | |
Zeng et al. | Silhouette-based gait recognition via deterministic learning | |
US20170169297A1 (en) | Computer-vision-based group identification | |
Khan et al. | A deep survey on supervised learning based human detection and activity classification methods | |
CN111985333B (en) | Behavior detection method based on graph structure information interaction enhancement and electronic device | |
Batool et al. | Telemonitoring of daily activities based on multi-sensors data fusion | |
Wang et al. | Pedestrian detection in crowded scenes via scale and occlusion analysis | |
Sugimoto et al. | Robust rule-based method for human activity recognition | |
Abdulghani et al. | Discover human poses similarity and action recognition based on machine learning | |
JP2023081062A (en) | Extraction program, extraction method and information processing device | |
Baptista-Ríos et al. | Human activity monitoring for falling detection. A realistic framework | |
Yasin et al. | DeepSegment: Segmentation of motion capture data using deep convolutional neural network | |
JP2023080835A (en) | Setting program, setting method, and information processing apparatus | |
Di Lascio et al. | Tracking interacting objects in complex situations by using contextual reasoning | |
JP2023080864A (en) | Label change program, label change method, and information processing apparatus | |
Borja-Borja et al. | Machine learning methods from group to crowd behaviour analysis | |
Hazra et al. | A pilot study for investigating gait signatures in multi-scenario applications | |
Juang et al. | Human body 3D posture estimation using significant points and two cameras | |
EP4231222A1 (en) | Information processing program, information processing method, and information processing apparatus | |
Lee et al. | Understanding human-place interaction from tracking and identification of many users | |
Suma et al. | Activity recognition in egocentric videos using bag of key action units |