JP7509384B2 - Image processing device, image processing method, and program - Google Patents

Image processing device, image processing method, and program Download PDF

Info

Publication number
JP7509384B2
JP7509384B2 JP2022126537A JP2022126537A JP7509384B2 JP 7509384 B2 JP7509384 B2 JP 7509384B2 JP 2022126537 A JP2022126537 A JP 2022126537A JP 2022126537 A JP2022126537 A JP 2022126537A JP 7509384 B2 JP7509384 B2 JP 7509384B2
Authority
JP
Japan
Prior art keywords
unit
video file
customer service
video
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022126537A
Other languages
Japanese (ja)
Other versions
JP2022145822A (en
Inventor
有 佐藤
晋一 樫本
弘一 香川
利夫 岡本
孝 田中
一郎 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Digital Solutions Corp filed Critical Toshiba Digital Solutions Corp
Priority to JP2022126537A priority Critical patent/JP7509384B2/en
Publication of JP2022145822A publication Critical patent/JP2022145822A/en
Application granted granted Critical
Publication of JP7509384B2 publication Critical patent/JP7509384B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Description

実施形態は、映像処理装置、映像処理方法およびプログラムに関する。 The embodiments relate to a video processing device, a video processing method, and a program.

飲食業に代表されるサービス業において再訪率は、重要な経営指標であり、顧客の店舗への再訪率を高めるために様々なコンサルティング手法がある。なかでも、顧客のテーブルを従業員が訪れ応対した回数(接客回数)を評価することは、再訪率を高めるための基礎的な事項である。そこで、店舗における接客回数を客観的に計測したいというニーズがあり、それに応えようとするサービス(ビジネス)が近年、展開されている。 In the service industry, such as the food and beverage industry, repeat visit rates are an important management indicator, and there are various consulting methods to increase the rate at which customers return to a store. In particular, evaluating the number of times that employees visit and serve customers at their tables (number of customer interactions) is a fundamental element in increasing repeat visit rates. As a result, there is a need to objectively measure the number of customer interactions in stores, and in recent years, services (businesses) that attempt to meet this need have been developed.

例えば、客に扮したコンサルタントが店舗を訪れ、一定時間内の接客回数を目視でカウントするという手法がある。よりスマートには、店舗内を撮影したデータ(映像データ)を分析者(アナリスト)が見て、シーンにタグ付けし、“接客”としてタグ付けされた場面の数をカウントする手法もある。さらに、映像に含まれる人物の行動を判定する、人物行動判定装置が知られている。 For example, one method is for a consultant disguised as a customer to visit a store and visually count the number of times that a customer is served within a certain period of time. A smarter method is for an analyst to view data (video data) filmed inside a store, tag the scenes, and count the number of scenes tagged as "customer service." In addition, a human behavior determination device is known that determines the behavior of people included in a video.

特許第5285575号明細書Patent No. 5285575

人物行動判定装置を応用すれば、店舗における接客行動を自動で検出できる可能性がある。しかしながら既存の技術では、接客行動に対応する特徴量や、行動条件に対応する辞書等を人手で設計する必要があった。このため専門家による膨大な作業を必要とし、コストも嵩む。システムを導入することは容易ではなく、大規模な異業種展開(横展開)も難しい。 By applying a human behavior assessment device, it may be possible to automatically detect customer service behavior in stores. However, with existing technology, it is necessary to manually design features corresponding to customer service behavior and dictionaries corresponding to behavioral conditions. This requires a huge amount of work by experts and is costly. It is not easy to introduce the system, and large-scale deployment (horizontal expansion) to different industries is also difficult.

そこで、目的は、設計作業を要さずに接客回数をカウント可能な映像処理装置、映像処理方法およびプログラムを提供することにある。 Therefore, the objective is to provide a video processing device, video processing method, and program that can count the number of customer visits without requiring design work.

実施形態によれば、映像処理装置は、解析部と、カウント部と、記憶部とを具備する。解析部は、店舗の営業シーンの映像データを解析して、映像データの各画像フレームごとに、各テーブルで従業員の接客行動が発生しているかどうかを判別する。カウント部は、解析部により接客行動を含むと判別された回数を接客回数としてカウントする。記憶部は、接客回数を記憶する。解析部は、特徴量抽出部と、行動判定部とを備える、特徴量抽出部は、映像データから画像フレーム単位で特徴量を抽出する。行動判定部は、抽出された特徴量に基づいて、各テーブルにて従業員の接客行動が発生しているか否かを判定する。 According to an embodiment, the video processing device includes an analysis unit, a counting unit, and a storage unit. The analysis unit analyzes video data of business scenes in a store and determines whether or not an employee's customer service behavior is occurring at each table for each image frame of the video data. The counting unit counts the number of times that the analysis unit determines that a customer service behavior is included as the number of customer service events. The storage unit stores the number of customer service events. The analysis unit includes a feature extraction unit and a behavior determination unit. The feature extraction unit extracts features from the video data on an image frame-by-image frame basis. The behavior determination unit determines whether or not an employee's customer service behavior is occurring at each table based on the extracted features.

図1は、実施形態に係わる映像処理装置の一例を示すブロック図である。FIG. 1 is a block diagram showing an example of a video processing device according to an embodiment. 図2は、図1の映像処理装置1に備わる機能の一例を示す機能ブロック図である。FIG. 2 is a functional block diagram showing an example of functions provided in the video processing device 1 of FIG. 図3は、記憶部6に記憶されるデータテーブルの一例を示す図である。FIG. 3 is a diagram showing an example of a data table stored in the storage unit 6. As shown in FIG. 図4は、解析部11の機能の一例を示す機能ブロック図である。FIG. 4 is a functional block diagram showing an example of the functions of the analysis unit 11. As shown in FIG. 図5は、特徴量抽出部113のニューラルネットワークの一例を示す図である。FIG. 5 is a diagram showing an example of a neural network of the feature extraction unit 113. As shown in FIG. 図6は、映像処理装置1の処理を表すフローチャートである。FIG. 6 is a flowchart showing the process of the video processing device 1. 図7は、解析部11の処理を表すフローチャートである。FIG. 7 is a flowchart showing the process of the analysis unit 11. 図8は、映像データから切り出された画像フレームの一例を示す図である。FIG. 8 is a diagram showing an example of an image frame extracted from video data. 図9は、映像データから切り出された画像フレームの他の例を示す図である。FIG. 9 is a diagram showing another example of an image frame extracted from video data. 図10は、接客回数に着目したコンサルティングシステムの概念図である。FIG. 10 is a conceptual diagram of a consulting system that focuses on the number of customer visits.

以下に、実施形態について図面を参照して説明する。参照される図面は模式的なものである。以下の説明において、同じ機能及び構成を有する要素に、共通する参照符号を付して示す。 The following describes the embodiments with reference to the drawings. The drawings are schematic. In the following description, elements having the same function and configuration are denoted by the same reference symbols.

図1は、実施形態に係わる映像処理装置の一例を示すブロック図である。映像処理装置1は、プロセッサ2、ランダムアクセスメモリ(RAM)3、読み出し専用メモリ(ROM)4、記憶部6を備えるコンピュータである。さらに映像処理装置1は、ディスプレイ5、I/O部7、およびインタフェース(I/F)部8を備える。 Figure 1 is a block diagram showing an example of a video processing device according to an embodiment. The video processing device 1 is a computer including a processor 2, a random access memory (RAM) 3, a read-only memory (ROM) 4, and a storage unit 6. The video processing device 1 further includes a display 5, an I/O unit 7, and an interface (I/F) unit 8.

プロセッサ2は、映像処理装置1全体の動作を制御する。例えばプロセッサ2は、ユーザによる操作やホスト機器(図示せず)からの命令に応答して、映像処理プログラムを実行する。またプロセッサ2は、RAM3や記憶部6のメモリ空間を管理する。 The processor 2 controls the operation of the entire video processing device 1. For example, the processor 2 executes a video processing program in response to a user operation or a command from a host device (not shown). The processor 2 also manages the memory space of the RAM 3 and the storage unit 6.

プロセッサ2は、記憶部6に記憶されたプログラムをロードし、実行することで、実施形態において説明する各種の機能を実現する。プロセッサ2は、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、或いは、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC))、プログラマブル論理デバイス(例えば、単純プログラマブル論理デバイス(Simple Programmable Logic Device:SPLD)、複合プログラマブル論理デバイス(Complex Programmable Logic Device:CPLD)、及びフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA))等のハードウェア資源である。また、CPUにGPU(Graphics Processing Unit)を組み合わせることも可能である。 The processor 2 loads and executes programs stored in the storage unit 6 to realize various functions described in the embodiment. The processor 2 is a hardware resource such as a CPU (Central Processing Unit), MPU (Micro Processing Unit), or an Application Specific Integrated Circuit (ASIC), a programmable logic device (e.g., a Simple Programmable Logic Device (SPLD), a Complex Programmable Logic Device (CPLD), and a Field Programmable Gate Array (FPGA)). It is also possible to combine the CPU with a GPU (Graphics Processing Unit).

RAM3は、記憶部6からロードされたプログラムやデータを記憶する。また、RAM3は、プロセッサ2の作業領域として使用される。RAM3としては、例えばDRAM等の半導体メモリが使用される。 RAM 3 stores programs and data loaded from storage unit 6. RAM 3 is also used as a working area for processor 2. For example, a semiconductor memory such as a DRAM is used as RAM 3.

ROM4は、制御用のプログラムや制御データ等が予め記憶された不揮発性メモリである。ROM4は、例えばBIOS(Basic Input/Output System)を保持する。 ROM4 is a non-volatile memory in which control programs, control data, etc. are pre-stored. ROM4 holds, for example, a BIOS (Basic Input/Output System).

記憶部6は、ユーザが解析に使用する映像ファイルや、映像処理によって生成されたデータを記憶する。また記憶部6は、映像処理に用いる種々のプログラム6aや、プログラムに関連するデータを保持する。記憶部6に保持されたプログラム6aは、映像処理装置1が当該プログラムを実行する際に読み出され、RAM3に展開される。記憶部6としては、例えばSSD(Solid State Drive)や、ハードディスクドライブが使用される。尚、記憶部6はデータを記憶することが可能であれば良く、記憶部6としてその他の記録媒体を使用しても良い。 The storage unit 6 stores video files used by the user for analysis and data generated by video processing. The storage unit 6 also holds various programs 6a used in video processing and data related to the programs. The programs 6a held in the storage unit 6 are read out when the video processing device 1 executes the programs, and are expanded in the RAM 3. For example, an SSD (Solid State Drive) or a hard disk drive is used as the storage unit 6. Note that the storage unit 6 only needs to be capable of storing data, and other recording media may also be used as the storage unit 6.

ディスプレイ5は、プロセッサ2の制御もとで、例えば種々のプログラムに対応するGUI(Graphical User Interface)等を表示する。例えばディスプレイ5は、映像処理の結果を再生するために使用される。 Under the control of the processor 2, the display 5 displays, for example, a GUI (Graphical User Interface) corresponding to various programs. For example, the display 5 is used to play back the results of video processing.

I/O部7は、主にユーザの操作を受け付けるヒューマンマシンインタフェースであり、マウス9やキーボードなどが接続される。
I/F部8は、例えばLAN(Local Area Network)とのインタフェースであり、ハブ(HUB)などを経由して、映像処理装置1を外部ネットワーク(インターネット等)やクラウドコンピューティングシステム等に接続可能とする。
The I/O unit 7 is a human-machine interface that mainly accepts user operations, and is connected to a mouse 9, a keyboard, and the like.
The I/F unit 8 is, for example, an interface with a LAN (Local Area Network), and enables the video processing device 1 to be connected to an external network (such as the Internet) or a cloud computing system via a hub or the like.

なお、図1に示される構成は一例であり、映像処理装置1はこれとは異なる構成をとることもできる。例えば、映像処理装置1が記憶部6及びディスプレイ5を備えていなくても良い。この場合、映像処理装置1には、記憶部6及びディスプレイ5がそれぞれ外部接続される。 Note that the configuration shown in FIG. 1 is just an example, and the video processing device 1 may have a different configuration. For example, the video processing device 1 may not include the storage unit 6 and the display 5. In this case, the storage unit 6 and the display 5 are each externally connected to the video processing device 1.

図2は、図1の映像処理装置1に備わる機能の一例を示す機能ブロック図である。映像処理装置1は、実施形態に係わる処理機能として解析部11、カウント部12、および集計部13を備える。解析部11、カウント部12、および集計部13は、記憶部6のプログラム6aの実行に際して生成されるプロセスとして、理解され得る。つまりプログラム6aは、コンピュータとしての映像処理装置1を、解析部11、カウント部12、集計部13、および記憶部6として機能させるための命令を含む。 Figure 2 is a functional block diagram showing an example of functions provided in the video processing device 1 of Figure 1. The video processing device 1 has an analysis unit 11, a counting unit 12, and a tallying unit 13 as processing functions related to the embodiment. The analysis unit 11, the counting unit 12, and the tallying unit 13 can be understood as processes generated when the program 6a in the memory unit 6 is executed. In other words, the program 6a includes instructions for causing the video processing device 1 as a computer to function as the analysis unit 11, the counting unit 12, the tallying unit 13, and the memory unit 6.

解析部11は、店舗の営業シーンを撮影した映像データを取得し、解析して、従業員の接客行動を含むシーンを判別する。すなわち解析部11は、映像データの各フレームごとに、各テーブルで従業員の接客行動が発生しているかどうかを判定する。判定の結果は、例えば0~1の数値で示される推論確率(尤度)として出力される。 The analysis unit 11 acquires and analyzes video data captured during business scenes in the store to determine which scenes include customer service behavior by employees. That is, the analysis unit 11 determines for each frame of the video data whether customer service behavior by employees is occurring at each table. The result of the determination is output as an inference probability (likelihood) expressed as a numerical value between 0 and 1, for example.

なお、例えば、客席に向けて定点カメラを店舗内に取り付ければ、従業員の接客行為を捕えた映像データを取得することができる。映像データはリアルタイムストリーミングで取得しても良いし、ネットワークサーバに蓄積されたのちダウンロードされても良い。あるいは、DVD(Digital Versatile Disk)などの記録媒体に記録して事後的に解析部11に与えても良い。 For example, if a fixed camera is installed inside the store facing the customer seats, video data capturing the customer service activities of employees can be obtained. The video data may be obtained by real-time streaming, or may be stored on a network server and then downloaded. Alternatively, the data may be recorded on a recording medium such as a DVD (Digital Versatile Disk) and provided to the analysis unit 11 afterwards.

カウント部12は、解析部11により算出された行動判定結果に基づいて演算処理を行い、尤度を接客回数に変換する。例えば演算処理とは、解析部11の出力の移動平均をとり、尤度が閾値以上の状態が既定長さ期間以上にわたって継続すれば、接客1回としてカウントする処理である。つまりカウント部12は、解析部11により接客行動を含むと判別された回数をカウントする。そしてカウント部12は、顧客ごとの接客回数を、映像データに付随する補助的情報(メタデータ)と対応付けて記憶部6に保存する。
集計部13は、カウント部12の出力を集計し、平均接客回数などを算出する。
The counting unit 12 performs calculation processing based on the behavior determination result calculated by the analysis unit 11, and converts the likelihood into the number of times of customer service. For example, the calculation processing is processing for taking a moving average of the output of the analysis unit 11, and counting as one customer service event if the state in which the likelihood is equal to or greater than a threshold continues for a predetermined length of time or more. In other words, the counting unit 12 counts the number of times that the analysis unit 11 determines to include a customer service behavior. The counting unit 12 then stores the number of times of customer service for each customer in the storage unit 6 in association with auxiliary information (metadata) accompanying the video data.
The tallying unit 13 tallyes up the output of the counting unit 12 and calculates the average number of customer visits, etc.

記憶部6は、実施形態に係わる画像処理機能を実現するためのプログラム6aを、プロセッサ2が読み取り、実行することの可能な形式で記憶する。また記憶部6は、カウント部12によりカウントされた接客回数、および接客回数に関連する補助的情報などを、例えばデータテーブルの形式で記憶する。 The storage unit 6 stores a program 6a for implementing the image processing function according to the embodiment in a format that can be read and executed by the processor 2. The storage unit 6 also stores the number of customer visits counted by the counting unit 12 and auxiliary information related to the number of customer visits, for example in the format of a data table.

図3は、記憶部6に記憶されるデータテーブルの一例を示す図である。データテーブルは、映像データに、店舗種別(ブランド名)、どの店舗で撮影されたかを示す店舗名、日付、時間帯などの補助的情報(メタデータ)を対応付けたテーブル形式のデータである。さらに、各映像データ(映像データ1、2、…)ごとに、集計部13により集計された平均接客回数が対応付けて記録される。 Figure 3 is a diagram showing an example of a data table stored in the storage unit 6. The data table is data in a table format that associates video data with auxiliary information (metadata) such as store type (brand name), store name indicating which store the video data was taken in, date, time period, etc. Furthermore, the average number of customer visits tallied by the tallying unit 13 is associated with each piece of video data (video data 1, 2, ...) and recorded.

図4は、解析部11の機能の一例を示す機能ブロック図である。解析部11は、実施形態に係わる処理機能として、フレーム取得部111、前処理部112、特徴量抽出部113、行動判定部114、フレーム記憶部115、およびモデル記憶部116を備える。 Figure 4 is a functional block diagram showing an example of the functions of the analysis unit 11. The analysis unit 11 includes, as processing functions related to the embodiment, a frame acquisition unit 111, a preprocessing unit 112, a feature extraction unit 113, a behavior determination unit 114, a frame storage unit 115, and a model storage unit 116.

フレーム取得部111、前処理部112、特徴量抽出部113、行動判定部114は、記憶部6のプログラム6aが実行される際にクラウドコンピューティングシステムのリソースを利用する、例えばWeb API(Application Programming Interface)の形式で実現されることができる。 The frame acquisition unit 111, the preprocessing unit 112, the feature extraction unit 113, and the behavior determination unit 114 can be realized, for example, in the form of a Web API (Application Programming Interface), which utilizes the resources of a cloud computing system when the program 6a in the memory unit 6 is executed.

プログラム6aからWeb APIを利用する際に、HTTP(HyperText aTransfer Protocol)リクエストをクラウドに送信すると、これに応じてHTTPレスポンスが、例えばXML(Extensible Markup Language)、HTML(HyperText Markup Language)、JSON(JavaScript(登録商標) Object Notation)、各種の画像ファイル形式等のデータ形式で返送される。プログラム6aは、このリクエスト-レスポンスに係わる一連の手順を実行するための命令を含む。つまり記憶部6のプログラム6aは、コンピュータとしての映像処理装置1をフレーム取得部111として機能させるための命令と、前処理部112として機能させるための命令と、特徴量抽出部113として機能させるための命令と、行動判定部114として機能させるための命令とを含む。 When using the Web API from program 6a, an HTTP (HyperText aTransfer Protocol) request is sent to the cloud, and an HTTP response is returned in a data format, such as XML (Extensible Markup Language), HTML (HyperText Markup Language), JSON (JavaScript (registered trademark) Object Notation), or various image file formats. Program 6a includes instructions for executing a series of procedures related to this request-response. In other words, program 6a in memory unit 6 includes instructions for causing the video processing device 1 as a computer to function as a frame acquisition unit 111, as a preprocessing unit 112, as a feature extraction unit 113, and as a behavior determination unit 114.

フレーム取得部111は、入力された映像データの画像フレームを切り出し、フレーム記憶部115に画像フレーム115aとして蓄積する。フレーム記憶部115は、フレーム取得部111が取得した画像フレーム115aを記憶する。
前処理部112は、フレーム記憶部115に蓄積された過去の画像フレーム115aと、フレーム取得部111により処理された画像フレームを用いて前処理を行う。すなわち前処理部112は、映像データを前処理して、フレーム間のオプティカルフローと勾配(Gradient)を算出し、特徴量抽出部113への入力に対応したデータとして整形する。
The frame acquisition unit 111 extracts an image frame from the input video data, and accumulates it as an image frame 115a in the frame storage unit 115. The frame storage unit 115 stores the image frame 115a acquired by the frame acquisition unit 111.
The pre-processing unit 112 performs pre-processing using past image frames 115a stored in the frame storage unit 115 and image frames processed by the frame acquisition unit 111. That is, the pre-processing unit 112 pre-processes the video data to calculate optical flow and gradient between frames, and shapes the data into data corresponding to input to the feature extraction unit 113.

実施形態では、特徴量抽出部113において、ニューラルネットワークを用いて画像の特徴量を抽出することを考える。そこで前処理部112は、計算したオプティカルフローおよび勾配と、映像データの画像フレームとを含む複数次元のベクトルデータを生成し、特徴量抽出部113に渡す。例えば入力画像フレームとして(RGB)の3次元データを与えるとすれば、フレーム間のオプティカルフロー(XY軸方向)の2次元、勾配(XY軸方向)の2次元の、合わせて7次元×画素数のベクトルデータが、ニューラルネットワークの入力層に入力される。 In the embodiment, it is considered that the feature extraction unit 113 extracts image features using a neural network. Therefore, the preprocessing unit 112 generates multi-dimensional vector data including the calculated optical flow and gradient, and the image frame of the video data, and passes it to the feature extraction unit 113. For example, if three-dimensional data (RGB) is given as the input image frame, vector data of 7 dimensions x number of pixels, consisting of two dimensions of optical flow (XY axis direction) between frames and two dimensions of gradient (XY axis direction), is input to the input layer of the neural network.

特徴量抽出部113は、入力層、中間層および出力層を有するニューラルネットワークを備える。このニューラルネットワークは、モデル記憶部116に保存された機械学習モデル116aを反映する。機械学習モデル116aは、画像フレームの特徴量の計算に際して特徴量抽出部113に読み込まれ、GT(Grand Truth)が与えられると、機械学習アルゴリズムに従って更新される。特徴量抽出部113は、前処理部112から取得したベクトルデータに対し、機械学習モデル116aに基づく畳み込み演算により、画像フレームの特徴量を得る。つまり入力画像フレームの現在時刻に対応した特徴量が、出力層から出力される。 The feature extraction unit 113 includes a neural network having an input layer, an intermediate layer, and an output layer. This neural network reflects the machine learning model 116a stored in the model storage unit 116. The machine learning model 116a is read into the feature extraction unit 113 when calculating the features of an image frame, and is updated according to a machine learning algorithm when a GT (Grand Truth) is given. The feature extraction unit 113 obtains the features of the image frame by performing a convolution operation based on the machine learning model 116a on the vector data acquired from the preprocessing unit 112. In other words, the features corresponding to the current time of the input image frame are output from the output layer.

行動判定部114は、特徴量抽出部113から出力される特徴量から、現在時刻において、各テーブルにて従業員の接客行動が発生しているか否かを判別する。例えば、特徴量により示される尤度を用いた閾値判定により、対象とする画像フレームが従業員の接客行動を含むか否かを判別することができる。 The behavior determination unit 114 determines whether or not an employee is engaging in customer service behavior at each table at the current time from the features output from the feature extraction unit 113. For example, it is possible to determine whether or not a target image frame includes an employee engaging in customer service behavior by performing a threshold determination using the likelihood indicated by the features.

図5は、特徴量抽出部113のニューラルネットワークの一例を示す図である。図5において、入力画像フレーム(RGB、フレーム間のオプティカルフロー(XY軸方向)、および勾配(XY軸方向)を含む7次元の前処理済み画像フレームが、入力層41に入力される。さらに、現在フレームだけでなく、時刻を過去に遡った方向の次元も持つ画像フレーム(1フレーム前画像、2フレーム前画像、…)を、入力層41に入力しても良い。 Figure 5 is a diagram showing an example of the neural network of the feature extraction unit 113. In Figure 5, a seven-dimensional preprocessed image frame including an input image frame (RGB, optical flow between frames (X-axis and Y-axis directions), and gradient (X-axis and Y-axis directions)) is input to the input layer 41. Furthermore, in addition to the current frame, image frames having dimensions going back in time (image one frame ago, image two frames ago, ...) may also be input to the input layer 41.

中間層を含む畳み込み特徴量抽出層42は、1つあるいは複数のニューラルネットワークによって構成され、空間的(XY画素方向)あるいは空間的かつ時間的(3次元方向:XY画素方向+時刻方向)に画像を畳み込む。空間的な畳み込みと時間的な畳み込みは別々のニューラルネットワークで構成されていてもよい。さらに、複数のニューラルネットワークの出力に演算処理を施す構造をしていてもよい。 The convolutional feature extraction layer 42, including the intermediate layer, is composed of one or more neural networks, and convolves the image spatially (XY pixel direction) or spatially and temporally (three-dimensional direction: XY pixel direction + time direction). The spatial convolution and the temporal convolution may be composed of separate neural networks. Furthermore, the structure may be such that arithmetic processing is performed on the output of multiple neural networks.

出力層を含む時系列情報保存層43は、再帰型ニューラルネットワークによって構成され、その内部変数は、前時刻の内部状態ベクトルを保持する。畳み込み特徴量抽出層42が出力した特徴量ベクトルと、保持されている内部状態ベクトルとを用いた演算により、行動判定結果を与えるベクトル(行動判定出力)が出力される。同時に、現在時刻に対応した内部状態ベクトルが算出され、この内部状態ベクトルは、次時刻の演算まで保持される。
次に、上記構成を基礎として、複数の実施の形態について説明する。
The time-series information storage layer 43 including the output layer is composed of a recurrent neural network, and its internal variables hold the internal state vector of the previous time. A vector giving a behavior determination result (behavior determination output) is output by calculation using the feature vector output by the convolution feature extraction layer 42 and the held internal state vector. At the same time, an internal state vector corresponding to the current time is calculated, and this internal state vector is held until the calculation of the next time.
Next, a number of embodiments will be described based on the above configuration.

(第1の実施形態)
図6は、映像処理装置1の処理を表すフローチャートである。図6において、映像処理装置1は、解析部11に映像データを入力する(ステップS21)。解析部11は、入力された映像データを解析し、フレーム毎の行動判定結果を数値化して出力する(ステップS22)。つまり解析部11は、従業員の接客行動を含むシーン(またはフレーム)を判別し、その結果を出力する(ステップS22)。
First Embodiment
Fig. 6 is a flow chart showing the processing of the video processing device 1. In Fig. 6, the video processing device 1 inputs video data to the analysis unit 11 (step S21). The analysis unit 11 analyzes the input video data, digitizes the behavior determination result for each frame, and outputs it (step S22). In other words, the analysis unit 11 determines the scene (or frame) including the customer service behavior of the employee, and outputs the result (step S22).

次に、カウント部12は、解析部11からの出力に基づいて、接客行動を含むと判別された回数(接客回数)をカウントする(ステップS23)。接客回数は、顧客ごとの平均値として出力されてもよい。カウント部12が出力した接客回数は、映像データの補助的情報と対応付けられて、記憶部6に保存される(ステップS24)。 Next, the counting unit 12 counts the number of times determined to include customer service behavior (the number of times of customer service) based on the output from the analysis unit 11 (step S23). The number of times of customer service may be output as an average value for each customer. The number of times of customer service output by the counting unit 12 is associated with auxiliary information of the video data and stored in the memory unit 6 (step S24).

ステップS21~ステップS24の手順は、全ての映像データについて繰り返され(ステップS25)、最後の映像データまでの処理が完了すると、集計部13は、記憶部6に保存された映像データの補助的情報と接客回数とを集計する(ステップS26)。 The procedure from step S21 to step S24 is repeated for all video data (step S25), and when processing is completed for the last video data, the counting unit 13 counts the auxiliary information and the number of customer visits for the video data stored in the memory unit 6 (step S26).

図7は、解析部11の処理を表すフローチャートである。図7に示される処理手順は、図6のステップS22に主に対応する。
図7において、特徴量抽出部113は、機械学習モデル116aをモデル記憶部116からRAM3の記憶領域に読み込む(ステップS31)。また、フレーム取得部111は、画像フレーム115aから1つのフレームを切り出し(ステップS32)、時系列の画像フレームの履歴を時刻情報(タイムスタンプ)とともにフレーム記憶部115に記憶する(ステップS33)。
7 is a flowchart showing the process of the analysis unit 11. The process procedure shown in FIG 7 mainly corresponds to step S22 in FIG 6.
7, the feature extraction unit 113 reads the machine learning model 116a from the model storage unit 116 into the storage area of the RAM 3 (step S31). The frame acquisition unit 111 extracts one frame from the image frames 115a (step S32) and stores the history of the chronological image frames together with time information (time stamp) in the frame storage unit 115 (step S33).

次に、前処理部112は、予め設定された数の画像フレームをフレーム記憶部115から取得し、フレーム間のオプティカルフローと勾配とを計算する。そして、計算したオプティカルフロー、勾配、および画像フレームをまとめて、特徴量抽出部113のニューラルネットワークに入力可能な形式に変換して、ベクトルデータを生成する(ステップS34)。 Next, the preprocessing unit 112 retrieves a preset number of image frames from the frame storage unit 115 and calculates the optical flow and gradient between the frames. The preprocessing unit 112 then compiles the calculated optical flow, gradient, and image frames and converts them into a format that can be input to the neural network of the feature extraction unit 113 to generate vector data (step S34).

次に、特徴量抽出部113は、前処理部112から与えられたベクトルデータをニューラルネットワークに入力し、接客行動に係わる特徴量を抽出する(ステップS35)。行動判定部114は、特徴量抽出部113から出力された特徴量に対して演算処理を行い、テーブルごとに従業員の接客行動が発生しているかの判定結果を出力する(ステップS36)。 Next, the feature extraction unit 113 inputs the vector data provided by the preprocessing unit 112 into a neural network and extracts features related to customer service behavior (step S35). The behavior determination unit 114 performs calculations on the features output from the feature extraction unit 113 and outputs a determination result as to whether or not an employee's customer service behavior has occurred for each table (step S36).

次に、解析部11は、入力された画像フレームに(または画像フレームに対応する時刻に)接客行動学習タグ情報が付与されているか否かを判定する(ステップS37)。接客行動学習タグ情報は、いわゆるGT(Grand Truth)であり、第1の実施形態においては、映像データを参照しながら人間により与えられるタグ情報である。 Next, the analysis unit 11 determines whether or not customer service behavior learning tag information is assigned to the input image frame (or to the time corresponding to the image frame) (step S37). The customer service behavior learning tag information is so-called GT (Grand Truth), and in the first embodiment, it is tag information provided by a human while referring to the video data.

当該画像フレームに接客行動学習タグ情報が付与されていると(ステップS37でYES)、解析部11は機械学習モデルを更新する(ステップS38)。例えば、ニューラルネットワークからされた予測結果(尤度)と接客行動学習タグ情報との差分から損失関数を求め、逆誤差伝搬法により機械学習モデルを更新することができる。更新された機械学習モデルは、モデル記憶部116に保存される(ステップS38)。そして、ステップS31~ステップS38の手順が、映像データの終点に到達するまで繰り返される(ステップS39)。 If the image frame has been assigned customer service behavior learning tag information (YES in step S37), the analysis unit 11 updates the machine learning model (step S38). For example, a loss function can be calculated from the difference between the prediction result (likelihood) from the neural network and the customer service behavior learning tag information, and the machine learning model can be updated using the backpropagation method. The updated machine learning model is stored in the model storage unit 116 (step S38). Then, the procedure from step S31 to step S38 is repeated until the end of the video data is reached (step S39).

図8は、映像データから切り出された画像フレームの一例を示す図である。図8(a)に示されるフレームが現れたところで、人間(アナリスト)が「このフレームは(接客)を示している」と判断すると、例えばマウス9(図1)のクリック操作により、接客行動学習タグ情報(GT)が与えられる。そうすると機械学習モデルが更新され、例えば図8(b)の画像フレームが現れると、このフレームの尤度として、例えば0.8といった高いスコアが与えられる。例えば0.5を閾値とすれば、図9(a)のフレームは「接客」としてカウントされることとなる。 Figure 8 is a diagram showing an example of an image frame extracted from video data. When the frame shown in Figure 8(a) appears, if a human (analyst) judges that "this frame shows (customer service)," customer service behavior learning tag information (GT) is provided, for example, by clicking the mouse 9 (Figure 1). This updates the machine learning model, and when the image frame in Figure 8(b) appears, a high score of, for example, 0.8 is given as the likelihood of this frame. For example, if 0.5 is used as the threshold, the frame in Figure 9(a) will be counted as "customer service."

一方、図9(a)のようなシーンの尤度は0.1、図9(b)のようなシーンの尤度は0.2とする結果が得られるかもしれない。この場合、いずれのフレームも接客とはカウントされないことになる。そして、GTを与える回数を増やしたり、時間の経過とともに機械学習モデルが更新され、「接客」行動の判定確率が高まってゆく。 On the other hand, the likelihood of a scene like that in Figure 9(a) might be 0.1, and the likelihood of a scene like that in Figure 9(b) might be 0.2. In this case, neither frame would be counted as customer service. Then, by increasing the number of times GT is given or updating the machine learning model over time, the probability of determining "customer service" behavior would increase.

重要な点は、以上の過程において、接客行動に対応する特徴量や行動条件に対応する辞書等を、人手で設計する必要が無かったという点である。つまり第1の実施形態に係わる映像処理装置1によれば、与えられたGTに基づくマシン側の演算処理により、店舗における接客行動が判定され、その精度が高まってゆくこととなる。 The important point is that in the above process, there was no need to manually design features corresponding to customer service behaviors or dictionaries corresponding to behavioral conditions. In other words, with the video processing device 1 according to the first embodiment, customer service behaviors in a store are determined by calculation processing on the machine side based on the given GT, and the accuracy of this determination is improved.

以上説明したように、第1の実施形態に係わる映像処理装置1では、画像フレーム、フレーム間のオプティカルフロー、勾配の7次元画像、あるいはさらにその時系列データを入力ベクトルとし、畳み込みニューラルネットワークと再帰型ニューラルネットワークを用いたディープラーニングにより、映像データから接客回数をカウントする認識手法を実現することができる。 As described above, the video processing device 1 according to the first embodiment can realize a recognition method that counts the number of customer visits from video data by using image frames, optical flow between frames, seven-dimensional images of gradients, or even time series data as input vectors and deep learning using a convolutional neural network and a recurrent neural network.

すなわち、7次元の入力により従業員を識別する服の色、接客の動きという時系列要素を考慮した学習を実現できる。また、既存技術のデメリットである、接客の特徴量を抽出し、また辞書の作成に専門家の手間とコストがかかる点を払拭することが可能になる。つまり、従業員の様態や時系列的動作を考慮した3次元的な動作推定を行い、ディープラーニングの学習データに接客行動が発生しているか否かを示すタグ情報を付与するだけで、接客行動の特徴量や辞書を人手で設計をすることなしに、接客回数を集計することが可能となる。ひいては、店舗再訪率向上のためのコンサルティングに活かすことができる。 In other words, seven-dimensional input makes it possible to realize learning that takes into account time-series elements such as the color of clothing that identifies employees and customer service movements. It also makes it possible to eliminate the disadvantage of existing technology, which is that it requires the effort and cost of experts to extract customer service features and create a dictionary. In other words, by simply performing three-dimensional motion estimation that takes into account the employee's appearance and time-series movements, and adding tag information indicating whether or not customer service actions have occurred to the deep learning learning data, it becomes possible to tally up the number of customer service interactions without having to manually design customer service action features or a dictionary. Ultimately, this can be used in consulting to improve store revisit rates.

これらのことから、第1の実施形態によれば、煩雑な設計作業を要さずに接客回数をカウント可能な映像処理装置、映像処理方法およびプログラムを提供することができる。 As a result, according to the first embodiment, it is possible to provide an image processing device, an image processing method, and a program that can count the number of customer visits without requiring complicated design work.

(第2の実施形態)
第2の実施形態では、自動カウントされた接客回数を、店舗再訪率向上のためのコンサルティングに活かすための技術について説明する。
Second Embodiment
In the second embodiment, a technology for utilizing the automatically counted number of customer visits in consulting for improving the rate of repeat visits to a store will be described.

図10は、接客回数に着目したコンサルティングシステムの概念図である、図10において、例えばチェーン展開された店舗ごとの映像データを映像処理装置1に投入し、店舗ごとの接客回数のカウントデータ、および集計データなどを算出する。チェーン店を展開する会社の規模によって店舗数は数百にもおよび、各店舗に設置された画像センサから取得された映像データは膨大な量になる。このようなデータは、いわゆるビッグデータとして映像処理装置1に与えられる。映像処理装置1のビッグデータ解析により得られた結果は、例えばコンサルティング会社の有するサーバに渡され、店舗経営に係わる多様なデータの分析に利用される。 Figure 10 is a conceptual diagram of a consulting system focusing on the number of customer interactions. In Figure 10, for example, video data for each store in a chain is input into the video processing device 1, and count data and aggregate data for the number of customer interactions for each store are calculated. Depending on the size of the company operating the chain, the number of stores may number in the hundreds, and the amount of video data acquired from image sensors installed in each store becomes enormous. This data is provided to the video processing device 1 as so-called big data. The results obtained by the big data analysis by the video processing device 1 are passed to, for example, a server owned by a consulting company, and are used to analyze various data related to store management.

第2の実施形態では、KPI(Key Performance Indicator)と称される指標に着目する。KPIは、統計学の分野では古くから知られている指標であり、この実施形態では、カウントされた接客回数を統計的に処理して得られたKPIにより、店舗経営のうえで有益な知見を得ることを考える。 In the second embodiment, we focus on an index known as a KPI (Key Performance Indicator). KPIs are an index that has long been known in the field of statistics, and in this embodiment, we consider obtaining useful knowledge for store management by using KPIs obtained by statistically processing the counted number of customer interactions.

サーバ100は、大量の映像データから得られた店舗ごとの接客回数、集計データなどを統計的に処理し、接客回数、再訪率などの指標をKPIとして数値化する。そして、接客回数と、例えば店舗ごとの売り上げなどの指標との関連性を分析する。このようなビッグデータ解析により、例えば、「接客回数の低下が、再訪率の低下を招き、数か月後の売り上げ低迷の予兆として現れる」といった知見を得られる可能性がある。 The server 100 statistically processes the number of times each store served a customer, aggregated data, and other data obtained from large amounts of video data, and quantifies indicators such as the number of times each store served a customer and the rate of repeat visits as KPIs. It then analyzes the correlation between the number of times each store served a customer and an indicator such as sales for each store. This type of big data analysis can potentially provide insights such as, for example, "a decrease in the number of times each store served a customer leads to a decrease in the rate of repeat visits, which can be a sign of sluggish sales several months later."

従来の技術では、例えば「店舗ごとの売り上げ」といった、POSレジから得られる売上・客数・商品の出数など、容易に入手可能な会計に係るデータだけが注目され、お客様に対しての接客が行き届いているかなどの「接客回数」や、再来訪率などお客様の行動の変化といった、客観的に評価するのが困難な指標を組み込んだコンサルティングが難しかった。このため、いわゆる現場の感覚的な報告をベースに経営判断を行う、現場主義による短期的な経営分析や、過去の経験則に基づく主観的な判断となり、経営努力が必ずしも成果に結びつくとは言い難い面があった。 Conventional technology only focuses on easily available accounting data such as "sales per store" obtained from POS registers, such as sales, number of customers, and number of items issued, making it difficult to provide consulting that incorporates indicators that are difficult to evaluate objectively, such as the "number of times customers were served," which indicates whether customers were well-received, or changes in customer behavior, such as repeat visit rates. This resulted in short-term management analysis based on a field-oriented approach, with management decisions being made based on so-called field reports that are subjective, or on past experience, and it was difficult to say that management efforts necessarily led to results.

これに対し第2の実施形態では、「接客回数」をKPIとして数値化し、ビッグデータ解析により、他の指標(売り上げなど)との関連性を見いだすようにした。従って第2の実施形態によれば、従来の感覚に頼った報告に基づく店舗経営ではなく、客観的な指標に基づいて店舗経営のコンサルティングを行うことが可能になり、ひいては、店舗オペレーションの改善に役立てることが可能になる。 In contrast, in the second embodiment, the "number of customer interactions" is quantified as a KPI, and correlations with other indicators (such as sales) are found through big data analysis. Therefore, according to the second embodiment, it becomes possible to provide store management consulting based on objective indicators, rather than store management based on traditional reports that rely on intuition, and ultimately to use this information to improve store operations.

なお、この発明は上記実施形態に限定されるものではない。
例えば図2において、映像処理に用いるプログラム6aが記憶部6に記憶されているとしたが、これに限定される必要はない。例えば、映像処理装置1が実行するプログラムを、ネットワーク上のサーバ(図示せず)に保持しても良い。この場合、映像処理装置1が映像処理を実行する際に、種々のプログラムがネットワーク上のサーバから映像処理装置1に配信される。そして種々のプログラムを受信した映像処理装置1は、これらのプログラムをRAM3(図1)に展開して、映像処理を実行する。
It should be noted that the present invention is not limited to the above-described embodiment.
2, the program 6a used for video processing is stored in the storage unit 6, but this is not necessarily limited to this. For example, the programs executed by the video processing device 1 may be held in a server (not shown) on the network. In this case, when the video processing device 1 executes video processing, various programs are distributed from the server on the network to the video processing device 1. Then, the video processing device 1, having received the various programs, loads these programs in the RAM 3 (FIG. 1) and executes the video processing.

また、実施形態では、ニューラルネットワークにより、画像フレームごとに接客行動の尤度を算出し、閾値判定により接客行動の有無を判別した。これに代えて、閾値以上の尤度を示すフレームに直接、「接客行動」を意味するタグ(フラグデータ)を付加し、タグの数をカウントすることによっても上記と同様の効果を得ることができる。これを実現するためには、解析部11に、店舗の営業シーンを含む映像ファイルを解析して、従業員の接客行動を含むシーンにタグ付けしたタグ付き映像ファイルを出力する機能を持たせ、カウント部12に、タグ付き映像ファイルのタグの数をカウントする機能を持たせ、記憶部6に、カウントされたタグの数を記憶させるようにすればよい。 In the embodiment, the likelihood of customer service behavior is calculated for each image frame using a neural network, and the presence or absence of customer service behavior is determined by threshold judgment. Alternatively, a similar effect to the above can be obtained by directly adding a tag (flag data) meaning "customer service behavior" to frames that show a likelihood equal to or greater than the threshold, and counting the number of tags. To achieve this, the analysis unit 11 can be given a function to analyze a video file containing a business scene of the store and output a tagged video file in which scenes containing customer service behavior by employees are tagged, the counting unit 12 can be given a function to count the number of tags in the tagged video file, and the memory unit 6 can be made to store the number of counted tags.

このような構成によれば、「接客行動」タグを付与された映像データ(タグ付き映像ファイル)を自動で生成することが可能になり、コンサルティングの際に顧客に配布できるなどのメリットを得られる。 This configuration makes it possible to automatically generate video data tagged with "customer service behavior" (tagged video files), which has the advantage of being able to be distributed to customers during consultations.

また、図5の説明において、畳み込み特徴量抽出層42に、現在フレームと、それ以前のフレームとを入力する形態を示したが、これに限らず、現在フレームと、それ以前のフレームと、それ以後のフレームとを入力することも、もちろん可能である。なお現在フレームとは、「接客行動」含むか否かの判定の対象とするフレームであって、時間的に現時点でのフレームを意味するものではない。 In addition, in the explanation of FIG. 5, the current frame and the previous frame are input to the convolutional feature extraction layer 42, but this is not limiting, and it is of course possible to input the current frame, the previous frame, and the subsequent frame. Note that the current frame is the frame that is the subject of the determination as to whether or not it contains "customer service behavior," and does not mean the frame at the current time point.

映像データとして記録映像を入力とする場合、例えば、”…、2フレーム前、1フレーム前、現在フレーム、1フレーム後、2フレーム後、…”のように、現在フレームを含む前後期間の時系列データをニューラルネットワークに入力することができる。この場合、時系列情報保存層43は、前時刻と次時刻両方の内部状態ベクトルを保持し、かつ、前と後ろの時刻に現在時刻の内部状態ベクトルを伝えることになる。つまり、“これまでどう動いていて、かつ、これからどう動くと接客なのかを考える”という、計算処理を実現できる。 When recorded video is input as video data, time series data for the period before and after the current frame can be input to the neural network, for example, "..., two frames before, one frame before, current frame, one frame later, two frames later, ...". In this case, the time series information storage layer 43 holds the internal state vectors for both the previous and next time, and conveys the internal state vector for the current time to the previous and next time. In other words, it is possible to realize a calculation process that "considers how the customer has moved up until now and how he or she should move from now on to serve customers".

すなわち、メディアデータとして記録された映像データを用いる場合、入力層41から畳み込み特徴量抽出層42に至る計算は、原理的は、全ての時刻について同時に計算することができる。そして、時系列情報保存層43においては、過去と未来から順番に内部状態ベクトルの変化を別々に計算していき、現在時刻に合流したところでそれぞれを演算するという処理手順を実行しても良い。 In other words, when using video data recorded as media data, the calculations from the input layer 41 to the convolutional feature extraction layer 42 can, in principle, be performed simultaneously for all time. In the time-series information storage layer 43, the changes in the internal state vector can be calculated separately from the past and future, and then calculated when they join at the current time.

さらに、実施形態では、畳み込みニューラルネットワークおよび再帰型ニューラルネットワークについて説明したが、回帰結合型ニューラルネットワーク、ディープビリーフネットワーク、ディープボルツマンマシン、積層自己符号化器などのニューラルネットワークを適用することも可能である。 Furthermore, in the embodiment, a convolutional neural network and a recurrent neural network are described, but it is also possible to apply neural networks such as a recurrent neural network, a deep belief network, a deep Boltzmann machine, and a layered autoencoder.

上記に説明した各装置及びシステムを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、実行処理を行ってもよい。なお「コンピュータシステム」とは、OSや周辺機器等のハードウェアだけに限らず、通信ネットワークおよびクラウドコンピューティングシステムを含むものであってもよい。 The programs for implementing the devices and systems described above may be recorded on a computer-readable recording medium, and the programs recorded on the recording medium may be read into a computer system and executed to perform the execution process. Note that the term "computer system" is not limited to hardware such as an OS and peripheral devices, but may also include a communication network and a cloud computing system.

本発明の実施形態を説明したが、この実施形態は例として提示するものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although an embodiment of the present invention has been described, this embodiment is presented as an example and is not intended to limit the scope of the invention. This new embodiment can be embodied in various other forms, and various omissions, substitutions, and modifications can be made without departing from the gist of the invention. This embodiment and its modifications are included within the scope and gist of the invention, and are included in the scope of the invention and its equivalents described in the claims.

上記の実施形態の一部または全部は、例えば(付記1)、(付記2)のようにも記載されることができる。しかし、(付記1)、(付記2)の内容に限定されるものではない。 (付記1)
映像データを解析可能なプロセッサと、メモリとを具備し、
前記プロセッサは、
店舗の営業シーンの映像データを解析して、従業員の接客行動を含むシーンを判別し、 前記接客行動を含むと判別された回数をカウントし、
前記回数を前記メモリに記憶させる、映像処理装置。
Some or all of the above-described embodiments can be described as, for example, (Supplementary Note 1) or (Supplementary Note 2). However, the present invention is not limited to the contents of (Supplementary Note 1) or (Supplementary Note 2). (Supplementary Note 1)
The apparatus includes a processor capable of analyzing video data and a memory,
The processor,
Analyzing video data of business scenes in the store to identify scenes including customer service behavior of employees, and counting the number of times the scenes are identified as including the customer service behavior;
The video processing device stores the number of times in the memory.

(付記2)
店舗の営業シーンを含む映像ファイルを解析して、従業員の接客行動を含むシーンにタグ付けしたタグ付き映像ファイルを出力する解析部と、
前記タグ付き映像ファイルの前記タグの数をカウントするカウント部と、
前記カウントされたタグの数を記憶する記憶部とを具備する、映像処理装置。
(Appendix 2)
an analysis unit that analyzes a video file including a sales scene of the store and outputs a tagged video file in which scenes including customer service actions of employees are tagged;
a counting unit that counts the number of tags in the tagged video file;
and a storage unit that stores the counted number of tags.

1…映像処理装置、2…プロセッサ、3…RAM、4…ROM、5…ディスプレイ、6…記憶部、6a…プログラム、7…I/O部、8…I/F部、9…マウス、11…解析部、12…カウント部、13…集計部、41…入力層、42…畳み込み特徴量抽出層、43…時系列情報保存層、111…フレーム取得部、112…前処理部、113…特徴量抽出部、114…行動判定部、115…フレーム記憶部、115a…画像フレーム、116…モデル記憶部、116a…機械学習モデル、100…サーバ。 1...video processing device, 2...processor, 3...RAM, 4...ROM, 5...display, 6...storage unit, 6a...program, 7...I/O unit, 8...I/F unit, 9...mouse, 11...analysis unit, 12...counting unit, 13...tallying unit, 41...input layer, 42...convolution feature extraction layer, 43...time series information storage layer, 111...frame acquisition unit, 112...preprocessing unit, 113...feature extraction unit, 114...behavior determination unit, 115...frame storage unit, 115a...image frame, 116...model storage unit, 116a...machine learning model, 100...server.

Claims (13)

店舗の営業シーンを含む映像ファイルを解析して、従業員の接客行動を含む画像フレームにタグ付けしたタグ付き映像ファイルを出力する解析部と、
前記タグ付き映像ファイルの前記タグの数をカウントするカウント部と、
前記カウントされたタグの数を記憶する記憶部とを具備し、
前記解析部は、
前記映像ファイルから画像フレーム単位で特徴量を抽出する特徴量抽出部と、
抽出された前記特徴量に基づいて、前記店舗の各テーブルにて前記従業員の接客行動が発生しているか否かを判定する行動判定部とを備える、映像処理装置。
an analysis unit that analyzes a video file including a sales scene of the store and outputs a tagged video file in which image frames including customer service actions of employees are tagged;
a counting unit that counts the number of tags in the tagged video file;
a storage unit that stores the number of the counted tags,
The analysis unit is
a feature extraction unit that extracts features from the video file on an image frame basis;
and a behavior determination unit that determines whether or not the employee is performing customer service behavior at each table in the store based on the extracted feature amount.
前記行動判定部は、前記特徴量により示される尤度を用いた閾値判定により、対象とする前記画像フレームが前記従業員の接客行動を含むか否かを判定する、請求項1に記載の映像処理装置。 The video processing device according to claim 1, wherein the behavior determination unit determines whether the target image frame includes the customer service behavior of the employee by threshold determination using the likelihood indicated by the feature amount. 前記特徴量抽出部は、
前記映像ファイルに基づくベクトルデータを入力される入力層と、前記特徴量を出力する出力層とを備え、機械学習モデルに基づく畳み込み演算により前記特徴量を得るニューラルネットワークを備える、請求項2に記載の映像処理装置。
The feature extraction unit is
The video processing device according to claim 2 , further comprising: an input layer to which vector data based on the video file is input; and an output layer to which the feature amount is output; and a neural network that obtains the feature amount by a convolution operation based on a machine learning model.
前記解析部は、
前記映像ファイルを前処理して、前記画像フレームと、前記画像フレーム間のオプティカルフローと、前記画像フレーム間の勾配とを含む複数次元のベクトルデータを生成して前記入力層に入力する前処理部をさらに具備する、請求項3に記載の映像処理装置。
The analysis unit is
The video processing device according to claim 3 , further comprising a pre-processing unit that pre-processes the video file to generate multi-dimensional vector data including the image frames, optical flows between the image frames, and gradients between the image frames, and inputs the multi-dimensional vector data to the input layer.
前記前処理部は、前記映像ファイルを前処理して、前記ベクトルデータの時系列データを生成して前記入力層に入力する、請求項4に記載の映像処理装置。 The video processing device according to claim 4, wherein the preprocessing unit preprocesses the video file to generate time series data of the vector data and input the time series data to the input layer. 前記ニューラルネットワークは、畳み込みニューラルネットワークおよび再帰型ニューラルネットワークを含む、請求項3乃至5のいずれか1項に記載の映像処理装置。 The image processing device according to any one of claims 3 to 5, wherein the neural network includes a convolutional neural network and a recurrent neural network. コンピュータが、店舗の営業シーンを含む映像ファイルを解析して、従業員の接客行動を含む画像フレームにタグ付けしたタグ付き映像ファイルを出力する解析過程と、
前記コンピュータが、前記タグ付き映像ファイルの前記タグの数をカウントする過程と、
前記コンピュータが、前記カウントされたタグの数を記憶する過程とを具備し、
前記解析過程は、
前記コンピュータが、前記映像ファイルから画像フレーム単位で特徴量を抽出する特徴量抽出過程と、
前記コンピュータが、抽出された前記特徴量に基づいて、前記店舗の各テーブルにて前記従業員の接客行動が発生しているか否かを判定する行動判定過程とを備える、映像処理方法。
an analysis process in which a computer analyzes a video file including a business scene of a store and outputs a tagged video file in which image frames including customer service actions of employees are tagged;
said computer counting the number of tags in said tagged video file;
and a step of the computer storing the number of tags counted;
The analysis process includes:
a feature extraction step of extracting features from the video file on an image frame basis by the computer;
The image processing method further comprises a behavior determination step in which the computer determines whether or not the employee is performing customer service behavior at each table in the store based on the extracted feature amount.
前記コンピュータが、前記行動判定過程において、前記特徴量により示される尤度を用いた閾値判定により、対象とする前記画像フレームが前記従業員の接客行動を含むか否かを判定する、請求項7に記載の映像処理方法。 The video processing method according to claim 7, wherein the computer, in the action determination process, determines whether the target image frame includes the customer service action of the employee by threshold determination using the likelihood indicated by the feature amount. 前記コンピュータが、前記特徴量抽出過程において、前記映像ファイルに基づくベクトルデータを入力される入力層と、前記特徴量を出力する出力層とを備え、機械学習モデルに基づく畳み込み演算により前記特徴量を得るニューラルネットワークにより前記特徴量を抽出する、請求項8に記載の映像処理方法。 The video processing method according to claim 8, wherein the computer, in the feature extraction process, has an input layer to which vector data based on the video file is input and an output layer to which the feature is output, and extracts the feature using a neural network that obtains the feature by a convolution operation based on a machine learning model. 前記解析過程は、
前記コンピュータが、前記映像ファイルを前処理して、前記画像フレームと、前記画像フレーム間のオプティカルフローと、前記画像フレーム間の勾配とを含む複数次元のベクトルデータを生成して前記入力層に入力する前処理過程をさらに具備する、請求項9に記載の映像処理方法。
The analysis process includes:
10. The image processing method of claim 9, further comprising a preprocessing step in which the computer preprocesses the video file to generate multi-dimensional vector data including the image frames, optical flow between the image frames, and gradients between the image frames, and inputs the multi-dimensional vector data to the input layer.
前記コンピュータは、前記前処理過程において、前記映像ファイルを前処理して、前記ベクトルデータの時系列データを生成して前記入力層に入力する、請求項10に記載の映像処理方法。 The video processing method according to claim 10, wherein the computer preprocesses the video file in the preprocessing step, generates time series data of the vector data, and inputs the time series data to the input layer. 前記ニューラルネットワークは、畳み込みニューラルネットワークおよび再帰型ニューラルネットワークを含む、請求項9乃至11のいずれか1項に記載の映像処理方法。 The image processing method according to any one of claims 9 to 11, wherein the neural network includes a convolutional neural network and a recurrent neural network. コンピュータを、
店舗の営業シーンを含む映像ファイルを解析して、従業員の接客行動を含む画像フレームにタグ付けしたタグ付き映像ファイルを出力する解析部として機能させるための命令と、
前記タグ付き映像ファイルの前記タグの数をカウントするカウント部として機能させるための命令と、
前記カウントされたタグの数を記憶する記憶部として機能させるための命令と、
前記映像ファイルから画像フレーム単位で特徴量を抽出する特徴量抽出部として機能させるための命令と、
抽出された前記特徴量に基づいて、前記店舗の各テーブルにて前記従業員の接客行動が発生しているか否かを判定する行動判定部として機能させるための命令とを含む、プログラム。
Computer,
An instruction to function as an analysis unit that analyzes a video file including a business scene of a store and outputs a tagged video file in which image frames including customer service actions of employees are tagged;
an instruction to function as a counting unit that counts the number of tags in the tagged video file;
An instruction to function as a memory unit that stores the number of the counted tags;
An instruction to function as a feature extraction unit that extracts features from the video file on an image frame-by-image frame basis;
and instructions for causing the program to function as a behavior determination unit that determines whether or not the employee is performing customer service behavior at each table in the store based on the extracted features.
JP2022126537A 2017-10-06 2022-08-08 Image processing device, image processing method, and program Active JP7509384B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022126537A JP7509384B2 (en) 2017-10-06 2022-08-08 Image processing device, image processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017196383A JP2019070934A (en) 2017-10-06 2017-10-06 Video processing apparatus, video processing method and program
JP2022126537A JP7509384B2 (en) 2017-10-06 2022-08-08 Image processing device, image processing method, and program

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017196383A Division JP2019070934A (en) 2017-10-06 2017-10-06 Video processing apparatus, video processing method and program

Publications (2)

Publication Number Publication Date
JP2022145822A JP2022145822A (en) 2022-10-04
JP7509384B2 true JP7509384B2 (en) 2024-07-02

Family

ID=66441608

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017196383A Pending JP2019070934A (en) 2017-10-06 2017-10-06 Video processing apparatus, video processing method and program
JP2022126537A Active JP7509384B2 (en) 2017-10-06 2022-08-08 Image processing device, image processing method, and program

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2017196383A Pending JP2019070934A (en) 2017-10-06 2017-10-06 Video processing apparatus, video processing method and program

Country Status (1)

Country Link
JP (2) JP2019070934A (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7115502B2 (en) 2020-03-23 2022-08-09 トヨタ自動車株式会社 Object state identification device, object state identification method, computer program for object state identification, and control device
JP7359735B2 (en) 2020-04-06 2023-10-11 トヨタ自動車株式会社 Object state identification device, object state identification method, computer program for object state identification, and control device
JP7388971B2 (en) 2020-04-06 2023-11-29 トヨタ自動車株式会社 Vehicle control device, vehicle control method, and vehicle control computer program
CN114764946B (en) * 2021-09-18 2023-08-11 北京甲板智慧科技有限公司 Action counting method and system based on time sequence standardization and intelligent terminal

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000242789A (en) 1999-02-22 2000-09-08 Atr Media Integration & Communications Res Lab Action discriminating device and computer-readable recording medium recording program which makes computer function as action discriminating device
JP2014013469A (en) 2012-07-04 2014-01-23 Mitsubishi Electric Corp Image processor
JP2015186210A (en) 2014-03-26 2015-10-22 キヤノン株式会社 Imaging apparatus, control method of imaging apparatus, and program
JP2016071414A (en) 2014-09-26 2016-05-09 富士ゼロックス株式会社 Information presentation program and information processing apparatus
JP2016071502A (en) 2014-09-29 2016-05-09 セコム株式会社 Target identification device
JP2016076092A (en) 2014-10-07 2016-05-12 パナソニックIpマネジメント株式会社 Activity state analysis system, activity state analysis device, activity state analysis method, activity state analysis program, and storage medium for storing program
JP2016206736A (en) 2015-04-16 2016-12-08 日本電気株式会社 Customer service data processing device and customer service data processing method
WO2017078744A1 (en) 2015-11-05 2017-05-11 Facebook, Inc. Systems and methods for processing content using convolutional neural networks
WO2017155663A1 (en) 2016-03-11 2017-09-14 Qualcomm Incorporated Recurrent networks with motion-based attention for video understanding

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017168487A1 (en) * 2016-03-28 2017-10-05 株式会社日立製作所 Customer service evaluation assistance system and customer service evaluation assistance method

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000242789A (en) 1999-02-22 2000-09-08 Atr Media Integration & Communications Res Lab Action discriminating device and computer-readable recording medium recording program which makes computer function as action discriminating device
JP2014013469A (en) 2012-07-04 2014-01-23 Mitsubishi Electric Corp Image processor
JP2015186210A (en) 2014-03-26 2015-10-22 キヤノン株式会社 Imaging apparatus, control method of imaging apparatus, and program
JP2016071414A (en) 2014-09-26 2016-05-09 富士ゼロックス株式会社 Information presentation program and information processing apparatus
JP2016071502A (en) 2014-09-29 2016-05-09 セコム株式会社 Target identification device
JP2016076092A (en) 2014-10-07 2016-05-12 パナソニックIpマネジメント株式会社 Activity state analysis system, activity state analysis device, activity state analysis method, activity state analysis program, and storage medium for storing program
JP2016206736A (en) 2015-04-16 2016-12-08 日本電気株式会社 Customer service data processing device and customer service data processing method
WO2017078744A1 (en) 2015-11-05 2017-05-11 Facebook, Inc. Systems and methods for processing content using convolutional neural networks
JP2018534710A (en) 2015-11-05 2018-11-22 フェイスブック,インク. System and method for processing content using convolutional neural networks
WO2017155663A1 (en) 2016-03-11 2017-09-14 Qualcomm Incorporated Recurrent networks with motion-based attention for video understanding
JP2019509566A (en) 2016-03-11 2019-04-04 クゥアルコム・インコーポレイテッドQualcomm Incorporated Recurrent network using motion-based attention for video understanding

Also Published As

Publication number Publication date
JP2022145822A (en) 2022-10-04
JP2019070934A (en) 2019-05-09

Similar Documents

Publication Publication Date Title
JP7509384B2 (en) Image processing device, image processing method, and program
Nwosu et al. Predicting stroke from electronic health records
US20240086971A1 (en) Systems, methods, and storage media for training a machine learning model
CN108509941B (en) Emotion information generation method and device
CN104919794B (en) For extracting the method and system of metadata from master-slave mode camera tracking system
US8874471B2 (en) Retail loss prevention using biometric data
JP7458306B2 (en) Data analysis equipment, data analysis method
Song et al. EfficientDet for fabric defect detection based on edge computing
CN109168052B (en) Method and device for determining service satisfaction degree and computing equipment
US20210232291A1 (en) Machine Learning-Based Interactive Visual Monitoring Tool for High Dimensional Data Sets Across Multiple KPIs
Bakaev et al. HCI vision for automated analysis and mining of web user interfaces
JP2019528538A (en) Method and system for performing real-time analytics on multiple data streams
JP2018509847A (en) Method for processing asynchronous signals
JP2020013553A (en) Information generating method and apparatus applicable to terminal device
JP2017102865A (en) Information processing device, information processing method and program
Rezaei et al. Automated soccer head impact exposure tracking using video and deep learning
US10437944B2 (en) System and method of modeling irregularly sampled temporal data using Kalman filters
JPWO2018061623A1 (en) Evaluation apparatus and evaluation method
CN111966871A (en) Bank business product quality monitoring method, device and storage medium
WO2022113453A1 (en) Abnormality detection device and abnormality detection method
US11854369B2 (en) Multi-computer processing system for compliance monitoring and control
US20220129821A1 (en) Retail traffic analysis statistics to actionable intelligence
Li et al. Correlating stressor events for social network based adolescent stress prediction
US20160343071A1 (en) Systems and methods for generating communication data analytics
Srivastava et al. Social media analytics: current trends and future prospects

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220808

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20220819

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220819

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20230302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20230303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240123

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240612

R150 Certificate of patent or registration of utility model

Ref document number: 7509384

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150