JP2023108464A

JP2023108464A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2023108464A
Application number: JP2022009603A
Authority: JP
Inventors: 怜金井; Rei Kanai; 信介山岡; Shinsuke Yamaoka; 和喜森屋; Kazuyoshi Moriya
Original assignee: NS Solutions Corp
Current assignee: NS Solutions Corp
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2023-08-04

Abstract

【課題】対象となる主体が実施している作業をより精度よく分類可能とする。【解決手段】所定の主体に装着された観測装置による当該主体の周囲の状況の観測結果に基づくデータに対して、当該観測結果に応じた前記主体の周囲の状況の特徴に関する付帯情報を関連付ける関連付け手段と、分類対象の候補となる作業ごとに、当該作業に対してあらかじめ登録された情報に基づく特徴と、より類似度の高い特徴に関する前記付帯情報が関連付けられたデータがより優先されるように、前記付帯情報が関連付けられた一連の前記データに対して重みを設定する重み付け手段と、前記分類対象の候補となる作業ごとの前記重みが設定された前記データに基づき、前記主体が実施している作業を分類する分類手段と、を備える、情報処理装置。【選択図】図４

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。

従来より、作業環境の撮像結果に応じた動画像や静止画像（以下、これらを総じて画像と称する場合がある）等のような当該作業環境の状況の観測結果に応じた情報を利用して、作業者や設備（例えば、作業車両等）が実施している作業を判定する技術が知られている。また、近年では、このような技術の一例として、機械学習に基づきあらかじめ構築された学習済モデルを利用して、作業者や設備が実施している作業を判定する技術も各種検討されている。例えば、特許文献１には、作業車両に取り付けられたカメラによる撮像結果に応じた画像のデータ（以降では、画像データとも称する）を利用して、当該作業車両が実施している作業を判定する技術の一例が開示されている。

特開２０２０－４０９６号公報

一方で、従来の技術では、作業環境で作業者や設備（例えば、作業車両等）等のような作業の主体が実施する当該作業の分類に際して、必ずしも要求される精度での分類が実現できているとは限らない場合がある。このような背景から、対象となる主体（例えば、作業者や設備等）が実施する作業をより精度よく分類可能とする技術の実現が求められている。

本発明は上記の問題を鑑み、対象となる主体が実施している作業をより精度よく分類可能とすることを目的とする。

本発明に係る情報処理装置は、所定の主体に装着された観測装置による当該主体の周囲の状況の観測結果に基づくデータに対して、当該観測結果に応じた前記主体の周囲の状況の特徴に関する付帯情報を関連付ける関連付け手段と、分類対象の候補となる作業ごとに、当該作業に対してあらかじめ登録された情報に基づく特徴と、より類似度の高い特徴に関する前記付帯情報が関連付けられたデータがより優先されるように、前記付帯情報が関連付けられた一連の前記データに対して重みを設定する重み付け手段と、前記分類対象の候補となる作業ごとの前記重みが設定された前記データに基づき、前記主体が実施している作業を分類する分類手段と、を備える。

本発明によれば、対象となる主体が実施している作業をより精度よく分類することが可能となる。

情報処理システムのシステム構成の一例を示した図である。情報処理装置のハードウェア構成の一例を示した図である。情報処理システムの機能構成の一例を示した機能ブロック図である。特徴量に基づく判定に係る処理の一例について説明するための図である。データに重みを設定する処理の一例について説明するための図である。情報処理システムの処理の一例を示したフローチャートである。動画像の画像データを対象とした解析処理の一例を示した図である。特徴量に基づく判定に係る処理の他の一例について説明するための図である。スペクトログラム画像の一例を示した図である。情報処理システムの処理の他の一例を示したフローチャートである。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

＜システム構成＞
図１を参照して、本開示の一実施形態に係る情報処理システムのシステム構成の一例について説明する。本実施形態に係る情報処理システム１は、サーバ装置１００と、１以上の端末装置２００と、ウェアラブルデバイス３００とを含む。なお、図１に示す端末装置２００ａ及び２００ｂは、それぞれが端末装置２００の一例を示している。以降の説明では、端末装置２００ａ及び２００ｂのそれぞれを特に区別しない場合には、単に端末装置２００と称するものとする。また、ウェアラブルデバイス３００は、ユーザが装着して使用する端末装置であり、観測対象となるユーザごとに個別に設けられている。

また、ウェアラブルデバイス３００には、装着されたユーザの周囲の状況を観測する観測装置３１０が支持されている。このような構成により、観測装置３１０は、ウェアラブルデバイス３００を介してユーザに装着された状態で使用されることとなる。
観測装置３１０は、例えば、周囲の状況を撮像し、撮像結果に応じた画像（例えば、静止画像や動画像）のデータを所定の出力先に出力する撮像装置により実現され得る。また、他の一例として、観測装置３１０は、周囲の空間を伝搬して到来する音響（例えば、環境音や音声等）を集音し、集音結果に応じた音響のデータを所定の出力先に出力する集音装置により実現されてもよい。このように、観測装置３１０としては、周囲の状況を人が知覚可能な感覚の種類（モダリティ）に対応する方法で観測可能であれば、その種別は特に限定はされない。

なお、ウェアラブルデバイス３００として適用される装置については、ユーザが装着して使用可能な装置であり、かつ観測装置３１０を支持可能に構成されていれば、その種別は特に限定はされない。具体的な一例として、所謂メガネ型のデバイスがウェアラブルデバイス３００として適用されてもよい。また、他の一例として、観測装置３１０自体が、ウェアラブルデバイス３００として構成されていてもよい。この場合には、観測装置３１０自体がベルト等の支持部材によりユーザに装着された状態で、当該観測装置３１０が使用されることとなる。

なお、本実施形態では、情報処理システム１の特徴をよりわかりやすくするために、観測対象となるユーザが、ユーザＵ１として示す１人のユーザであり、使用されるウェアラブルデバイス３００が、当該ユーザＵ１に装着されて使用される１台であるものとする。また、観測装置３１０としては、所謂ビデオカメラのような、周囲の状況の観測結果に基づくデータとして、撮像結果に応じた画像と集音結果に音響とを含むデータを出力可能な撮像装置が適用されるものとする。

サーバ装置１００と、各端末装置２００と、ウェアラブルデバイス３００とは、ネットワークＮ１を介して互いに情報を送受信可能に接続されている。
なお、ネットワークＮ１の種別は特に限定はされない。具体的な一例として、ネットワークＮ１は、インターネット、専用線、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、または、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）等により構成されていてもよい。また、ネットワークＮ１は、有線のネットワークにより構成されていてもよいし、５Ｇ、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、及びＷｉ－Ｆｉ（登録商標）等の通信規格に基づくネットワークのような無線のネットワークにより構成されていてもよい。また、ネットワークＮ１は、複数のネットワークを含んでもよく、一部のネットワークとして、他のネットワークと異なる種別のネットワークが適用されてもよい。また、上述した各種情報処理装置間の通信が論理的に確立されていればよく、物理的には各種情報処理装置間の通信が他の通信装置等により中継されてもよい。

端末装置２００は、ユーザからの入力（例えば、各種指示）の受け付けや、ユーザへの各種情報（例えば、フィードバック等）の提示に係るインタフェースとしての役割を担う。具体的な一例として、端末装置２００は、ネットワークを介して後述するサーバ装置１００からデータを受信し、当該データに基づく情報を、所定の出力装置（例えば、ディスプレイ等）を介してユーザに提示してもよい。また、端末装置２００は、所定の入力装置（例えば、タッチパネル等）を介してユーザから受け付けた操作に基づき、当該ユーザからの指示を認識し、ネットワークを介して当該指示に応じた情報をサーバ装置１００に送信してもよい。これにより、サーバ装置１００は、ユーザからの指示を認識し、当該指示に応じた処理を実行することが可能となる。
端末装置２００は、例えば、所謂スマートフォン、タブレット端末、及びＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）等のような通信機能を有する情報処理装置により実現され得る。

サーバ装置１００は、管理者となるユーザ（以下、単に管理者とも称する）が、管理対象となる作業者による作業の実施状況の管理や、当該作業の実施状況の分析を行うために、当該管理や当該分析を支援するための各種機能を提供する。例えば、サーバ装置１００は、管理対象となる作業者（例えば、ユーザＵ１）が装着するウェアラブルデバイス３００から、当該ウェアラブルデバイス３００に支持された観測装置３１０による、当該作業者の周囲の状況の観測結果に基づくデータを取得する。サーバ装置１００は、取得したデータに対して解析を施し、当該解析の結果に応じて、ウェアラブルデバイス３００を装着した作業者が実施している作業を、分類対象の候補となる一連の作業のうちのいずれかに分類する。具体的な一例として、サーバ装置１００は、取得したデータから抽出される特徴量と、分類対象の候補となる一連の作業それぞれについて設定された特徴量と、の類似度を判定することで、当該判定の結果に基づき、作業者が実施している作業を分類してもよい。上述したサーバ装置１００の機能については詳細を別途後述する。

なお、図１に示す構成はあくまで一例であり、必ずしも本実施形態に係る情報処理システム１のシステム構成を限定するものではない。具体的な一例として、サーバ装置１００が端末装置２００の役割を担ってもよい。すなわち、サーバ装置１００自体が、ユーザから各種情報の入力を受け付けてもよく、ユーザに対して各種情報の提示を行ってもよい。また、サーバ装置１００に相当する構成要素が、複数の装置が協働することで実現されてもよい。具体的な一例として、サーバ装置１００に相当する構成要素が、所謂クラウドサービスとして実現されてもよい。この場合には、当該クラウドサービスが、複数のサーバ装置が協働することにより実現されてもよい。

以上、図１を参照して、本開示の一実施形態に係る情報処理システムのシステム構成の一例について説明した。

＜ハードウェア構成＞
図２を参照して、図１に示した本実施形態に係る情報処理システム１を構成する各種装置（例えば、サーバ装置１００、端末装置２００、及びウェアラブルデバイス３００等）として適用可能な情報処理装置９００のハードウェア構成の一例について説明する。情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９１０と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９２０と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９３０と、補助記憶装置９４０と、ネットワークＩ／Ｆ９７０とを含む。また、情報処理装置９００は、出力装置９５０と、入力装置９６０とのうち少なくともいずれかを含んでもよい。ＣＰＵ９１０と、ＲＯＭ９２０と、ＲＡＭ９３０と、補助記憶装置９４０と、出力装置９５０と、入力装置９６０と、ネットワークＩ／Ｆ９７０とは、バス９８０を介して相互に接続されている。

ＣＰＵ９１０は、情報処理装置９００の各種動作を制御する中央演算装置である。例えば、ＣＰＵ９１０は、情報処理装置９００全体の動作を制御してもよい。ＲＯＭ９２０は、ＣＰＵ９１０で実行可能な制御プログラムやブートプログラムなどを記憶する。ＲＡＭ９３０は、ＣＰＵ９１０の主記憶メモリであり、ワークエリア又は各種プログラムを展開するための一時記憶領域として用いられる。

補助記憶装置９４０は、各種データや各種プログラムを記憶する。補助記憶装置９４０は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）や、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）に代表される不揮発性メモリ等のような、各種データを一時的または持続的に記憶可能な記憶デバイスにより実現される。

出力装置９５０は、各種情報を出力する装置であり、ユーザに対する各種情報の提示に利用される。例えば、出力装置９５０は、ディスプレイ等の表示デバイスにより実現され、各種表示情報を表示させることで、ユーザに対して情報を提示してもよい。また、他の一例として、出力装置９５０は、音声や電子音等の音を出力する音響出力デバイスにより実現され、音声や電信等の音を出力することで、ユーザに対して情報を提示してもよい。このように、出力装置９５０として適用されるデバイスは、ユーザに対して情報を提示するために利用する媒体に応じて適宜変更されてもよい。なお、出力装置９５０が、各種情報の提示に利用される「出力部」の一例に相当する。

入力装置９６０は、ユーザからの各種指示の受け付けに利用される。例えば、入力装置９６０は、マウス、キーボード、タッチパネル等の入力デバイスを含んでもよい。また、他の一例として、入力装置９６０は、マイクロフォン等の集音デバイスを含み、ユーザが発話した音声を集音してもよい。この場合には、集音された音声に対して音響解析や自然言語処理等の各種解析処理が施されることで、この音声が示す内容がユーザからの指示として認識されてもよい。このように、入力装置９６０として適用されるデバイスは、ユーザからの指示を認識する方法に応じて適宜変更されてもよい。また、入力装置９６０として複数種類のデバイスが適用されてもよい。

ネットワークＩ／Ｆ９７０は、外部の装置とのネットワークを介した通信に利用される。なお、ネットワークＩ／Ｆ９７０として適用されるデバイスは、通信経路の種別や適用される通信方式に応じて適宜変更されてもよい。

情報処理装置９００のプログラムは、例えば、ＣＤ－ＲＯＭ等の記録媒体によって情報処理装置９００に提供されるか、またはネットワーク等を介してダウンロードされてもよい。記録媒体によって情報処理装置９００のプログラムが提供される場合には、記録媒体が所定のドライブ装置にセットされることで、当該記録媒体に記録されたプログラムが補助記憶装置９４０にインストールされる。

また、図２に示す構成はあくまで一例であり、必ずしも本実施形態に係る情報処理システム１を構成する情報処理装置のハードウェア構成を限定するものではない。具体的な一例として、入力装置９６０や出力装置９５０等のような一部の構成が含まれていなくてもよい。また、他の一例として、情報処理装置９００が実現する機能に応じた構成が適宜追加されてもよい。

以上、図２を参照して、図１に示した本実施形態に係る情報処理システム１を構成する各種装置として適用可能な情報処理装置９００のハードウェア構成の一例について説明した。

＜機能構成＞
図３を参照して、本実施形態に係る情報処理システム１の機能構成の一例について、特にサーバ装置１００の構成に着目して説明する。サーバ装置１００は、通信部１０１と、入出力制御部１０２と、データ解析部１０３と、類似度判定部１０６と、重み付け処理部１０７と、分類部１０８と、記憶部１１０とを含む。

通信部１０１は、サーバ装置１００の各構成要素が、他の装置（例えば、端末装置２００）とネットワークＮ１を介して情報を送受信するための通信インタフェースである。通信部１０１は、例えば、ネットワークＩ／Ｆ９７０により実現され得る。なお、以降の説明では、サーバ装置１００の各構成要素が他の装置との間で情報の送受信を行う場合には、特に説明がない限りは、通信部１０１を介して当該情報の送受信が行われるものとする。

記憶部１１０は、各種データや各種プログラム等を記憶するための記憶領域を模式的に示している。例えば、記憶部１１０は、サーバ装置１００の各構成要素が処理を実行するためのデータやプログラムを記憶してもよい。
また、記憶部１１０は、ウェアラブルデバイス３００から送信されるデータ（例えば、観測装置３１０による観測結果に応じた画像データや音響データ等）を記憶してもよい。また、記憶部１１０は、データ解析部１０３による上記データの解析の過程において生成されるデータや、当該解析の結果に応じて生成されるデータ等を記憶してもよい。また、記憶部１１０は、後述する類似度判定部１０６による各種の判定に利用されるデータ等を記憶してもよい。

入出力制御部１０２は、ユーザ（例えば、管理者）に対する各種情報の提示や、ユーザからの情報の入力（例えば、指示等）の受け付けに係る各種処理を実行する。例えば、入出力制御部１０２は、端末装置２００を介した所定のＵＩの提示に係る処理や、当該ＵＩを介した入力の受け付けに係る処理を実行してもよい。これにより、サーバ装置１００は、ユーザからの指示を認識し、当該指示に応じた処理の結果を当該ユーザに提示することが可能となる。

データ解析部１０３は、ウェアラブルデバイス３００に支持された観測装置３１０による、当該ウェアラブルデバイス３００を装着した作業者の周囲の状況の観測結果に基づくデータを取得し、当該データに対して各種の解析を施す。なお、データ解析部１０３が上記データを取得できればその方法は特に限定されない。例えば、データ解析部１０３は、ウェアラブルデバイス３００から上記データを受信してもよい。また、他の一例として、データ解析部１０３は、ウェアラブルデバイス３００から送信される上記データが記憶された所定の記憶領域を参照することで、当該データを取得してもよい。
また、本実施形態に係るデータ解析部１０３は、特徴量抽出部１０４と、付帯処理部１０５とを含む。

特徴量抽出部１０４は、観測装置３１０による作業者の周囲の状況の観測結果に基づくデータに対して所定の解析処理を施すことで、観測された当該作業者の周囲の状況の特徴を示す情報を特徴量として抽出する。

例えば、特徴量抽出部１０４は、観測装置３１０として適用された撮像装置による撮像結果に応じた画像（例えば、静止画像や動画像）のデータを解析処理の対象としてもよい。この場合には、特徴量抽出部１０４は、上記撮像装置による撮像結果に応じた画像に対して画像解析等の所望の解析を施すことで、当該画像に被写体として撮像された対象を認識し、当該認識の結果に応じた情報（例えば、当該対象を示す文字情報）を、特徴量として抽出してもよい。また、他の一例として、特徴量抽出部１０４は、上記画像に対して所望の解析を施すことで、当該画像に被写体として撮像された対象が、あらかじめ設定された検出対象であることの確からしさを示す確信度情報を、特徴量として抽出してもよい。また、特徴量抽出部１０４は、動画像のデータを解析処理の対象とする場合には、当該動画像を構成する一連のフレームそれぞれについて、当該フレームに対応する静止画像から上記特徴量を個別に抽出してもよい。
また、他の一例として、特徴量抽出部１０４は、観測装置３１０として適用された集音装置による集音結果に応じた音響のデータを解析処理の対象としてもよい。この場合には、特徴量抽出部１０４は、上記集音装置による集音結果に応じた音響に対して音響解析等の所望の解析を施すことで、当該音響（例えば、環境音や音声等）が示す対象を認識し、当該認識の結果に応じた情報（例えば、当該対象を示す文字情報）を、特徴量として抽出してもよい。また、他の一例として、特徴量抽出部１０４は、上記音響に対して所望の解析を施すことで、当該音響が示す対象が、あらかじめ設定された検出対象であることの確からしさを示す確信度情報を、特徴量として抽出してもよい。また、特徴量抽出部１０４は、一連の音響を所定の期間ごとに分割したうえで、当該期間ごとの音響それぞれから上記特徴量を個別に抽出してもよい。

また、特徴量抽出部１０４は、観測装置３１０による作業者の周囲の状況の観測結果に基づくデータからの、観測された当該作業者の周囲の状況の特徴を示す上記特徴量の抽出に、所謂機械学習に基づき構築された学習済モデル（所謂、識別器や認識器等）を適用してもよい。

例えば、画像のデータを解析処理の対象とする場合には、画像と当該画像中の被写体に関する情報との組を教師データとした機械学習に基づき、画像を入力した場合に当該画像中の被写体を示す情報を出力するように構築された学習済モデルを適用すればよい。
また、音響のデータを解析処理の対象とする場合には、音響と当該音響が示す対象に関する情報との組を教師データとした機械学習に基づき、音響を入力した場合に当該音響が示す対象に関する情報を出力するように構築された学習済モデルを適用すればよい。また、他の一例として、音響をスペクトログラムに変換することで、当該スペクトログラムの画像を解析の対象としてもよい。この場合には、スペクトログラムの画像と当該スペクトログラムに対応する音響が示す対象に関する情報との組を教師データとした機械学習に基づき、音響から変換されたスペクトログラムの画像をした場合に当該音響が示す対象に関する情報を出力するように構築された学習済モデルを適用すればよい。
なお、学習済モデルを使用した場合の一例については詳細を別途後述する。

付帯処理部１０５は、解析の対象となるデータに対して、特徴量抽出部１０４により当該データから抽出された上記特徴量を付帯情報として関連付ける。具体的な一例として、付帯処理部１０５は、解析の対象となるデータに対して、所謂タグ付け処理により、上記特徴量を付帯情報として関連付けてもよい。もちろん、解析の対象となるデータに対して、当該データから抽出された特徴量を付帯情報として関連付けることが可能であれば、その方法は特に限定はされない。

類似度判定部１０６は、データ解析部１０３により特徴量の抽出と当該特徴量の関連付けとが行われたデータを対象として、当該データに関連付けられた当該特徴量と、分類対象の候補となる作業ごとに規定された特徴量との類似度を判定する。類似度判定部１０６により判定される当該類似度は、対象となるデータが示す作業者の周囲の状況（すなわち、観測された作業者の周囲の状況）の特徴と、分類対象の候補となる作業が実施されている場合に想定される作業者の周囲の状況の特徴との類似度を示している。

ここで、類似度判定部１０６の処理の一例について、図４を参照して、対象となるデータが撮像装置による撮像結果に応じた画像のデータである場合に着目してより詳細に説明する。図４は、画像から抽出された特徴量を利用した判定に係る処理の一例として、観測された作業者の周囲の状況と、分類対象の候補となる作業が実施されている場合に想定される作業者の周囲の状況の特徴との類似度の判定に係る処理について概要を示した図である。なお、図４に示す例では、対象となる画像からの特徴量の抽出に学習済モデルが使用され、当該特徴量として、当該画像に被写体として撮像された対象が、あらかじめ設定された検出対象であることの確からしさを示す確信度情報が抽出されるものとする。

まず、図４に示す例における、左側に示すフローについて説明する。図４に示す例において、左側に示すフローは、撮像装置による作業者の周囲の状況の撮像結果に応じた画像からの特徴量の抽出に係る処理フローを示している。具体的には、動画像を構成する一連のフレームそれぞれに対応する静止画像を学習済モデルに入力することで、当該静止画像（フレーム）に被写体として撮像された対象が、あらかじめ設定された検出対象であることの確からしさを示す確信度情報が抽出される。

例えば、図４に示す例の場合には、脚立と作業者の手とが映り込んだフレームに対応する静止画像が学習済モデルに入力されている。そのため、確信度情報としては、静止画像に被写体として撮像された対象が、「手」である確率と、「脚立」である確率とがより高く設定され、「犬」等のように実際に被写体として撮像されていない検出対象である確率がより低く設定されている。このように、確信度情報は、検出対象として規定された一連の候補それぞれについて、観測された対象が当該候補である確率が設定されることとなる。すなわち、検出対象の候補が１０００種類の場合には、確信度情報として、当該１０００種類の候補それぞれである確率が設定された１０００次元の情報が出力されることとなる。なお、「手」、「脚立」等のような物に限らず、例えば、「切る」、「刻む」等のような動作や、草木の擦れる音等のような環境音のように、所望の観測装置により観測可能であれば、多様な事象が検出対象の候補として設定され得る。

また、図４に示す例では、学習済モデルから出力された確信度情報に基づき、観測された対象が検出対象として規定された一連の候補それぞれである確率により規定される特徴量ベクトルを抽出している。例えば、検出対象の候補が１０００種類の場合には、抽出される特徴量ベクトルは、１０００次元のベクトルとなる。また、確信度情報からの特徴量ベクトルの抽出に、機械学習に基づき構築された学習済モデルが適用されてもよい。このような学習済モデルの一例としては、「ｗｏｒｄ２ｖｅｃ」と称されるモデルが一般的に知られている。なお、以降では、上記特徴量ベクトルを、便宜上「単語ベクトル」とも称する。
なお、観測装置３１０（例えば、撮像装置）による観測結果に応じたデータから抽出された特徴量（例えば、確信度情報）に基づく単語ベクトルが、「第２の特徴量ベクトル」の一例に相当する。

次いで、図４に示す例における、右側に示すフローについて説明する。図４に示す例において、右側に示すフローは、分類対象の候補となる作業ごとの特徴量の抽出に係る処理フローを示している。本実施形態に係る情報処理システムでは、作業者の周囲の状況の観測結果に基づき、当該作業者が実施している作業が、あらかじめ分類対象の候補として規定された一連の作業のうちのいずれかに分類する。そのため、分類対象の候補として規定された一連の作業それぞれについて、当該作業が実施される際に観測され得る対象（換言すると、当該作業と関連性の高い対象）に関する情報が作業イベントとしてあらかじめ規定されている。

例えば、図４に示す例では、作業イベントとして、対象となる作業が実施される際に観測される道具の道具名、当該作業の実施に際して観測される動作の動作名、及び、当該作業の実施に際して観測される効果音（換言すると、環境音）の効果音名が規定されている。ここで、「剪定」の作業を対象とした場合に着目して、作業イベントとして規定される情報の一例について具体的な例を挙げて説明する。
具体的な一例として、「剪定」の作業においては、当該作業に使用される道具（例えば、被写体として画像中に映り込む対象）として、「ハサミ」、「のこぎり」、「軍手」、「手」、「枝」等が使用される。そのため、これらの道具を示す情報が道具名として規定されている。また、同作業においては、「切る」、「刻む」、「持つ」等の動作が伴う。そのため、これらの動作を示す情報が動作名として規定されている。また、同作業の実施中には、「切る」動作や「刻む」動作により発生する音や「草木音」が観測され得る。そのため、これらの音を示す情報が効果音名として規定されている。

なお、作業イベントの規定方法については特に限定はされない。具体的な一例として、管理者が各作業の特徴や実施状況を鑑みて、各作業に対応する作業イベントを規定してもよい。また、他の一例として、各作業の実施状況の観測結果に基づき、当該作業に対応する作業イベントが規定されてもよい。また、既に規定されている作業イベントが、その時々の状況に応じて適宜更新されてもよい。具体的な一例として、管理者からの指示に基づき、少なくとも一部の作業に対応する作業イベントが更新されてもよい。また、他の一例として、少なくとも一部の作業の実施状況に応じた情報が、当該作業に対応する作業イベントにフィードバックされることで、当該作業イベントが更新されてもよい。

以上のような前提のもとで、分類対象の候補として規定された作業ごとに、当該作業について規定された作業イベントに基づき、単語ベクトルが抽出される。例えば、図４に示す「剪定」作業の場合には、対応する作業イベントにおいて道具名、作業名、及び効果音名等として規定された情報を要素として含む単語ベクトルが抽出される。
なお、作業イベントに基づき抽出される単語ベクトルが、「第１の特徴量ベクトル」の一例に相当する。

そのうえで、類似度判定部１０６は、作業者の周囲の状況の撮像結果に応じた画像から抽出された確信度情報に基づく単語ベクトルと、分類対象の候補となる作業ごとに作業イベントに基づき抽出された単語ベクトルとの類似度を判定する。なお、これらの単語ベクトルの類似度の判定方法については、複数のベクトル間の類似度を判定することが可能であれば特に限定はされない。具体的な一例として、類似度判定部１０６は、上記２つの単語ベクトル間のコサイン類似度を算出することで、当該２つの単語ベクトル間の類似度を判定してもよい。２つのベクトル間のコサイン類似度は、以下に（式１）～（式３）として示す計算式に基づき算出される。また、コサイン類似度は、対象となる２つのベクトルがより類似しているほどより１に近い値を示し、当該２つのベクトルが似ていないほどより－１に近い値を示す。

ここで、改めて図３を参照する。重み付け処理部１０７は、データ解析部１０３により特徴量の抽出と当該特徴量の関連付けとが行われた一連のデータに対して、分類対象の候補となる作業ごとに、当該一連のデータそれぞれに対する類似度判定部１０６による類似度の判定結果に基づき重みを設定する。具体的には、重み付け処理部１０７は、対象となる上記一連のデータのうち、分類対象の候補となる作業との間で、単語ベクトルの類似度がより高いデータほどより優先されるように、当該一連のデータに対して重みを設定する。

ここで、重み付け処理部１０７の処理の一例について、図５を参照して、対象となるデータが撮像装置による撮像結果に応じた動画像のデータである場合に着目してより詳細に説明する。図５は、動画像を構成する一連のフレームそれぞれに対応する静止画像に対して、分類対象の候補となる作業ごとに、類似度判定部１０６による類似度の判定結果に基づき重みを設定する場合の一例について概要を説明するための説明図である。

図５に示す例のように、動画像を構成する一連のフレームには、対象となる作業との関連度の高いものと、当該作業との関連度の低いものがある。
例えば、剪定の作業を対象とした場合には、手袋や脚立等のように、当該作業で使用される道具が被写体として映り込んでいるフレームについては、当該作業との関連度がより高い特徴量が抽出される。換言すると、対象となる作業との関連度が高いフレームに対応する静止画像から抽出された単語ベクトルは、当該作業に対応する作業イベントに基づき抽出された単語ベクトルとの類似度がより高い値を示す。このような特性から、対象となる作業との関連度がより高いフレームを利用して、当該フレームに対応する静止画像から抽出される特徴量に基づき作業者が実施している作業の特定を試みた場合には、当該作業が上記対象となる作業に高い確率で分類されることとなる。
一方で、木や草のみが被写体として映り込んでいるフレームについては、当該フレームに対応する画像のみでは、剪定の作業のみに関わらず、他の作業との関連性が推測され得る。そのため、これらのフレームについては、手袋や脚立等が映り込んでいるフレームに比べて、剪定の作業との関連度が低い。換言すると、対象となる作業との関連度が低いフレームに対応する静止画像から抽出された単語ベクトルは、当該作業に対応する作業イベントに基づき抽出された単語ベクトルとの類似度がより低い値を示す。このような特性から、対象となる作業との関連度がより低いフレームを利用して、当該フレームに対応する静止画像から抽出される特徴量に基づき作業者が実施している作業の特定を試みた場合には、当該作業が上記対象となる作業とは異なる他の作業に分類される可能性がある。

このような状況下において、例えば、図５に示す一連のフレームそれぞれに対応する静止画像から抽出された特徴量の平均に基づき、作業者が実施している作業の分類を試みたものとする。図５に示す例では、上述したように、対象となる一連のフレームの中に、剪定の作業との関連度が低いフレームが含まれている。そのため、上記一連のフレームそれぞれに対応する特徴量を作業者が実施している作業の分類に利用した場合には、関連度の低いフレームの数が多いほど、作業者が実施している作業が剪定の作業であることの確信度がより低くなる。そのため、この場合には、作業者が実施している作業が、剪定の作業とは異なる他の作業に分類される可能性がある。

そこで、重み付け処理部１０７は、分類対象の候補となる作業ごとに、一連のフレームそれぞれに対する単語ベクトルとの類似度の判定結果に基づき、当該類似度がより高いフレームほどより優先されるように、当該一連のフレームに対して重みを設定する。
例えば、図５に示す例の場合には、重み付け処理部１０７は、作業者が実施している作業が剪定の作業に分類されるか否かの判定が行われる状況下において、当該剪定の作業と関連度の高いフレームに対応する特徴量がより優先されるように、一連のフレームに重みを設定する。これにより、図５に示す例において、作業者が実施している作業が剪定の作業に分類されるか否かの判定が行われる場合に、当該剪定の作業との関連度の高いフレームに対応する静止画像から抽出された特徴量がより考慮されることとなる。

ここで、改めて図３を参照する。分類部１０８は、対象となる一連のデータ、すなわち、データ解析部１０３により特徴量の抽出と当該特徴量の関連付けとが行われた一連のデータを、当該特徴量に応じて分類する。この際に、分類部１０８は、対象となる一連のデータを、それぞれが少なくとも１以上のデータを含むようにグループ分けしたうえで、当該一連のデータの分類を当該グループ単位で行ってもよい。この場合には、分類部１０８は、一連のデータのグループ分けを行う際に、観測タイミングが時系列に沿って連続する所定数のデータが共通のグループに割り当てられるように、当該グループを設定してもよい。また、分類部１０８は、重み付け処理部１０７により上記一連のデータに対して設定された重みを考慮して、当該一連のデータの分類を行ってもよい。なお、一連のデータを特徴量に応じて分類することが可能であれば、その方法は特に限定はされない。なお、以降では、クラスタリングと称される技術により、特徴量がより類似するデータが同じグループに分類されるように、一連のデータの分類が行われるものとする。

具体的な一例として、分類部１０８は、動画像を構成する一連のフレームを、撮像タイミング（すなわち、観測タイミング）が時系列に沿って連続する所定数のフレームが共通のグループに割り当てられるように、当該グループを設定してもよい。これにより、上記動画像が撮像された期間（換言すると、観測期間）が、所定の時間幅を有する複数の期間に分割され、各期間について、当該期間に含まれるフレームに対応する静止画像が割り当てられたグループが設定されることとなる。なお、以降の説明では、上記一連のフレームのグループ分けに伴い設定された個々のグループ（すなわち、複数のフレームを含むグループ）を、便宜上、フレームグループとも称する。
そのうえで、分類部１０８は、各フレームグループを、当該フレームグループに含まれるフレームに対応する特徴量（例えば、単語ベクトル等）に基づき分類する。この際に、分類部１０８は、フレームグループに含まれる複数のフレームそれぞれに対応する特徴量に基づき、フレームグループごとの特徴量を算出したうえで、当該フレームグループごとの特徴量に基づき当該フレームグループを分類してもよい。
また、分類部１０８は、フレームグループごとの特徴量の算出に際して、当該フレームグループに含まれる一連のフレームそれぞれに対応する特徴量に設定された重みを考慮してもよい。具体的な一例として、分類部１０８は、対象となるフレームグループに含まれる一連のフレームが、作業者による剪定の作業の実施状況の撮像結果であることの確信度に関連する特徴量の算出に際し、当該剪定の作業との関連度の高いフレームに対応する特徴量をより優先してもよい。

そして、分類部１０８は、対象となる一連のデータの分類結果を所定の出力先に出力する。具体的な一例として、分類部１０８は、対象となる一連のデータの分類結果を記憶部１１０に記憶させてもよい。これにより、記憶部１１０に記憶された上記一連のデータの分類結果を利用することで、当該データとして記録された情報が観測された環境において、所定の作業者（例えば、観測装置３１０を装着した作業者）が実施している作業を分類、認識、識別、または推定することが可能となる。
具体的には、対象となるデータがクラスタリング等により分類されたグループの特徴が、分類対象の候補となる一連の作業のいずれかの特徴をより示しているかに応じて、作業者が実施している作業を分類、認識、識別、または推定することが可能である。また、対象となるデータには、観測装置３１０による観測が行われた日時に関する情報が含まれていてもよい。この場合には、対象となるデータに含まれる上記に日時に関する情報を、作業者が作業を実施していた日時（例えば、作業の開始タイミングや終了タイミング等）の特定に利用することも可能となる。
また、上記の通り、対象となる一連のデータをグループ分けしたうえで、グループごとにデータの分類が行われてもよい。この場合には、上記グループごとに、当該グループに対応する分類結果を利用することで、所定の作業者が実施している作業を分類、認識、識別、または推定することが可能となる。そのため、例えば、一連の観測期間を複数の部分的な期間に分けたうえで、当該複数の部分的な期間それぞれについてグループを設定することで、部分的な期間ごとに作業者が実施している作業を分類、認識、識別、または推定することも可能となる。

なお、上述した構成はあくまで一例であり、情報処理システム１の機能構成（特に、サーバ装置１００の機能構成）を必ずしも図３に示す例には限定されない。例えば、サーバ装置１００の一連の構成要素が、複数の装置が協働することで実現されてもよい。具体的な一例として、サーバ装置１００の一連の構成要素のうち、一部の構成要素が当該サーバ装置１００に対して外付けされていてもよい。また、他の一例として、サーバ装置１００の一連の構成要素のうち、少なくとも一部の構成要素の処理に係る負荷が、複数の装置に分散されてもよい。

以上、図３～図５を参照して、本実施形態に係る情報処理システム１の機能構成の一例について、特にサーバ装置１００の構成に着目して説明した。

＜処理＞
図６及び図７を参照して、本実施形態に係る情報処理システム１の処理の一例について、特にサーバ装置１００の処理に着目して説明する。図６は、本実施形態に係るサーバ装置１００の処理の一例を示したフローチャートである。なお、図６に示す例では、観測装置３１０として動画像を撮像可能な撮像装置が適用され、作業者による作業の実施環境の撮像結果に応じた動画像のデータがサーバ装置１００による解析の対象とされるものとする。また、図７は、動画像の画像データを対象としたサーバ装置１００による解析処理の一例について説明するための説明図である。

Ｓ１０１において、サーバ装置１００は、観測装置３１０（撮像装置）による撮像結果に応じた動画像の画像データを、当該観測装置３１０を支持するウェアラブルデバイス３００からネットワークを介して取得する。
Ｓ１０２において、サーバ装置１００は、Ｓ１０１において取得した動画像の画像データを、当該動画像を構成する一連のフレームそれぞれに対応する静止画像の画像データに分割する。

Ｓ１０３において、サーバ装置１００は、フレームごとに当該フレームに対応する静止画像から、ウェアラブルデバイス３００を装着する作業者の周囲の状況の特徴を示す特徴量を抽出し、当該静止画像の画像データに対して抽出した当該特徴量を示す情報をタグ付けする。ここでは、サーバ装置１００は、「ＩｍａｇｅｔｏＴｅｘｔ」と称される技術を利用することで、静止画像に被写体として撮像された対象（例えば、作業に使用される道具等）を示す文字情報を、当該静止画像の画像データにタグ付けするものとする。例えば、図７に示す例では、動画像を構成する一連のフレームそれぞれについて、当該フレームに対応する静止画像から被写体に関する情報が文字情報として抽出され、抽出された当該被写体に関する文字情報が、特徴量として当該静止画像の画像データにタグ付けされている。

Ｓ１０４において、サーバ装置１００は、Ｓ１０３においてフレームごとの画像データに対してタグ付けされた情報に基づき、当該画像データに対して重みを設定する。具体的な一例として、サーバ装置１００は、フレームごとの画像データに対してタグ付けされた情報に基づく単語ベクトルと、分類対象の候補となる作業ごとの単語ベクトルと、の類似度に基づき、当該画像データに対して重みを設定してもよい。これにより、例えば、対象となる画像データは、対応する静止画像に撮像された被写体の特徴が、類似度の比較対象となる作業との関連度が高いほど、作業者が当該作業を実施している状況を示す確信度がより高いことを示すように重み付けがされる。

Ｓ１０５において、サーバ装置１００は、対象となる動画像（すなわち、Ｓ１０１において取得した画像データに対応する動画像）の最終フレームまで、Ｓ１０３及びＳ１０４として示した解析処理を実行したか否かを判定する。
サーバ装置１００は、Ｓ１０５において最終フレームまで解析処理を実行していないと判定した場合には、処理をＳ１０３に進める。この場合には、サーバ装置１００は、Ｓ１０３及びＳ１０４として示した解析処理を施していないフレームを対象として、当該解析処理を実行することとなる。
そして、サーバ装置１００は、Ｓ１０５において最終フレームまで解析処理を実行したと判定した場合には、処理をＳ１０６に進める。

Ｓ１０６において、サーバ装置１００は、対象となる動画像（すなわち、Ｓ１０１において取得した画像データに対応する動画像）の一連のフレームを、それぞれが少なくとも１以上のフレームを含むようにグループ分けすることで、フレームグループを設定する。例えば、図７に示す例では、それぞれが所定数のフレームを含むようにフレームグループＦＧが複数設定されている。

Ｓ１０７において、サーバ装置１００は、Ｓ１０６において設定されたフレームグループ単位で、当該フレームグループに含まれる一連のフレームそれぞれに対応する画像データから抽出された特徴量（例えば、単語ベクトル）に基づき画像データの分類を行う。なお、図６に示す例では、サーバ装置１００は、所謂クラスタリングにより、フレームグループ単位で画像データの分類を行うものとする。また、この際にサーバ装置１００は、Ｓ１０４において各フレームに対応する画像データに設定された重みを考慮して、対象となるフレームグループについて画像データのクラスタリングを行ってもよい。
Ｓ１０８において、サーバ装置１００は、Ｓ１０７における画像データの分類結果（例えば、クラスタリングの結果）を、所定の出力先に出力する。具体的な一例として、サーバ装置１００は、当該画像データの分類結果を所定の記憶領域（例えば、記憶部１１０）に記憶させてもよい。
これにより、サーバ装置１００は、上記一連の画像データの分類結果を利用することで、当該画像データとして記録された情報が観測された環境において、観測装置３１０を装着した作業者が実施している作業を分類、認識、識別、または推定することが可能となる。また、上述の通り、フレームグループ単位で画像データの分類が行われることで、例えば、サーバ装置１００は、フレームグループに対応する期間ごとに、当該期間において作業者が実施している作業を分類、認識、識別、または推定することも可能となる。

Ｓ１０９において、サーバ装置１００は、Ｓ１０６において設定した一連のフレームグループのうちの最終フレームグループまで、Ｓ１０７及びＳ１０８として示した解析処理を実行したか否かを判定する。
サーバ装置１００は、Ｓ１０９において最終フレームグループまで解析処理を実行していないと判定した場合には、処理をＳ１０７に進める。この場合には、サーバ装置１００は、Ｓ１０７及びＳ１０８として示した解析処理を施していないフレームグループを対象として、当該解析処理を実行することとなる。
そして、サーバ装置１００は、Ｓ１０９において最終フレームグループまで解析処理を実行したと判定した場合には、図６に示す一連の処理を終了する。

以上、図６及び図７を参照して、本実施形態に係る情報処理システム１の処理の一例について、特にサーバ装置１００の処理に着目して説明した。

＜変形例＞
続いて、本実施形態に係る情報処理システムの変形例として、観測装置３１０としてマイクロフォン等の集音装置を適用することで、当該集音装置による集音結果に応じた音響のデータを解析処理の対象とする場合の一例について説明する。

まず、図８を参照して、観測装置３１０（集音装置）による集音結果に応じた音響のデータを利用して、作業者の周囲の状況の特徴を示す特徴量を抽出し、当該特徴量を作業者が実施している作業の分類に利用する方法の一例について説明する。図８は、音響から抽出された特徴量を利用した判定に係る処理の一例として、観測された作業者の周囲の状況と、分類対象の候補となる作業が実施されている場合に想定される作業者の周囲の状況の特徴との類似度の判定に係る処理について概要を示した図である。なお、図８に示す例では、対象となる音響からの特徴量の抽出に学習済モデルが使用され、当該特徴量として、当該音響が示す対象が、あらかじめ設定された検出対象であることの確からしさを示す確信度情報が抽出されるものとする。

まず、図８に示す例における、左側に示すフローについて説明する。図８に示す例において、左側に示すフローは、集音装置による作業者の周囲の環境を伝搬する音響の集音結果からの特徴量の抽出に係る処理フローを示している。具体的には、図８に示す例では、集音結果に応じた音響をスペクトログラム画像に変換し、当該スペクトログラム画像を所定の期間ごとに分割している。そのうえで、分割された期間ごとのスペクトログラム画像を学習済モデルに入力することで、当該スペクトログラムに対応する音響が示す対象が、あらかじめ設定された検出対象であることの確からしさを示す確信度情報が抽出される。

ここで、図９を参照して、スペクトログラム画像について概要を説明する。図９は、集音装置による集音結果に応じた音響から変換されたスペクトログラム画像の一例を示している。図９に示すスペクトログラム画像において、横軸は時間を示しており、縦軸は周波数を示している。そのうえで、各ドットの明るさや色により、横軸方向の位置に対応する時間における、縦軸方向の位置に対応する周波数の成分の強さ（振幅）が表されている。

ここで、改めて図８を参照する。図８に示す例では、剪定の作業においてハサミ等の刃物を利用して枝を切る際に発生する環境音が集音されているものとする。この場合には、確信度情報として、集音結果に応じた音響が、ハサミ等の刃物により枝を「切る音」である確率がより高く設定され、会話等のように実際に集音されていない音響である確率がより低く設定されている。

また、図８に示す例では、学習済モデルから出力された確信度情報に基づき、観測された対象が検出対象として規定された一連の候補それぞれである確率により規定される特徴量ベクトル（すなわち、単語ベクトル）を抽出している。具体的には、検出対象として規定された一連の候補それぞれについて単語ベクトルが抽出され、当該候補ごとの単語ベクトルに対する上記確信度情報における各候補の確信度（換言すると、予測確率）に基づく加重平均により、集音結果に応じた音響に対応する単語ベクトルを抽出している。

次いで、図８に示す例における、右側に示すフローについて説明する。図８に示す例において、右側に示すフローは、図４に示す例と同様に、分類対象の候補となる作業ごとの特徴量の抽出に係る処理フローを示している。すなわち、分類対象の候補として規定された作業ごとに、当該作業について規定された作業イベントに基づき、単語ベクトルが抽出される。なお、図８に示す例では、単語ベクトルの抽出に際して、作業イベントとして規定された情報のうち、「効果音」として規定された情報のように、特に観測され得る音響に関する情報が使用されてもよい。

そのうえで、サーバ装置１００は、集音装置による作業者の周囲の環境を伝搬する音響の集音結果に応じた確信度情報に基づく単語ベクトルと、分類対象の候補となる作業ごとに作業イベントに基づき抽出された単語ベクトルとの類似度を判定する。このようにして判定された類似度は、前述した実施形態と同様に、対象となるデータ（本変形例の場合には集音結果に応じた音響のデータ）に対する重みの設定に利用される。

続いて、図１０を参照して、本変形例に係る情報処理システム１の処理の一例について、特にサーバ装置１００の処理に着目して説明する。図１０は、本変形例に係るサーバ装置１００の処理の一例を示したフローチャートである。なお、図１０に示す例では、観測装置３１０として所謂ビデオカメラが適用され、作業者による作業の実施環境の観測結果に応じた動画像及び音響のデータのうち特に音響のデータを対象として、サーバ装置１００による解析の対象とされるものとする。

Ｓ２０１において、サーバ装置１００は、観測装置３１０（ビデオカメラ）による撮像結果に応じた動画像の画像データを、当該観測装置３１０を支持するウェアラブルデバイス３００からネットワークを介して取得する。なお、当該画像データには、ビデオカメラが備えるマイクロフォン等の集音装置による集音結果に応じた音響のデータが含まれるものとする。
Ｓ２０２において、サーバ装置１００は、Ｓ２０１において取得した動画像の画像データから、ビデオカメラが備える集音装置による集音結果に応じた音響のデータを抽出する。
Ｓ２０３において、サーバ装置１００は、Ｓ２０２において抽出した音響のデータを、スペクトログラム画像に変換する。
Ｓ２０４において、サーバ装置１００は、Ｓ２０３において音響のデータが変換されたスペクトログラム画像を、時系列に沿って所定の長さの期間ごとに分割する。ここでは、サーバ装置１００は、対象となるスペクトログラム画像をフレームごとに分割する（すなわち、フレームに対応する期間ごとに分割する）ものとする。

Ｓ２０５において、サーバ装置１００は、フレームごとに当該フレームに対応するスペクトログラム画像から、ウェアラブルデバイス３００を装着する作業者の周囲の状況の特徴を示す特徴量を抽出し、当該スペクトログラム画像のデータに対して抽出した当該特徴量を示す情報をタグ付けする。

Ｓ２０６において、サーバ装置１００は、Ｓ２０５においてフレームごとのスペクトログラム画像のデータに対してタグ付けされた情報に基づき、当該データに対して重みを設定する。具体的な一例として、サーバ装置１００は、フレームごとのスペクトログラム画像のデータに対してタグ付けされた情報に基づく単語ベクトルと、分類対象の候補となる作業ごとの単語ベクトルと、の類似度に基づき、当該データに対して重みを設定してもよい。これにより、例えば、対象となるスペクトログラム画像のデータは、対応する音響の発生要因の特徴が、類似度の比較対象となる作業との関連度が高いほど、作業者が当該作業を実施している状況を示す確信度がより高いことを示すように重み付けがされる。

Ｓ２０７において、サーバ装置１００は、対象となる音響が集音された期間に対応する一連のフレームのうちの最終フレームまで、Ｓ２０５及びＳ２０６として示した解析処理を実行したか否かを判定する。
サーバ装置１００は、Ｓ２０７において最終フレームまで解析処理を実行していないと判定した場合には、処理をＳ２０５に進める。この場合には、サーバ装置１００は、Ｓ２０５及びＳ２０６として示した解析処理を施していないフレームを対象として、当該解析処理を実行することとなる。
そして、サーバ装置１００は、Ｓ２０７において最終フレームまで解析処理を実行したと判定した場合には、処理をＳ２０８に進める。

なお、Ｓ２０８～Ｓ２１１の処理については、処理の対象がスペクトログラム画像のデータである点を除けば、図６を参照して説明した例におけるＳ１０６～Ｓ１０９の処理と実質的に同様であるため、詳細な説明は省略する。

以上のようにして、フレームごとのスペクトログラム画像（換言すると、当該フレームに対応する期間に集音された音響）が抽出された特徴量に応じて分類される。これにより、サーバ装置１００は、上記一連のスペクトログラム画像のデータの分類結果を利用することで、当該データとして記録された情報が観測された環境において、観測装置３１０を装着した作業者が実施している作業を分類、認識、識別、または推定することが可能となる。また、上述の通り、フレームグループ単位でスペクトログラム画像のデータ（換言すると、当該スペクトログラム画像に変換された音響）の分類が行われることで、例えば、サーバ装置１００は、フレームグループに対応する期間ごとに、当該期間において作業者が実施している作業を分類、認識、識別、または推定することも可能となる。

なお、図１０に示す例では、集音結果に応じた音響をスペクトログラム画像に変換したうえで当該スペクトログラム画像から特徴量を抽出する場合について示しているが、対象となる音響から集音装置の周囲の状況の特徴を示す特徴量を抽出することが可能であればその方法は限定されない。例えば、音響のデータ自体を解析することで、当該音響の周波数、振幅、位相、及び歪み等の特性に基づき、集音装置の周囲の状況の特徴を示す特徴量が抽出されてもよい。

また、図１０に示す例では、ビデオカメラによる撮像結果に応じた動画像の画像データに含まれる音響のデータを、作業者が実施している作業の分類に利用する例について説明したが、当該動画像自体の画像データについても、図４に示す例と同様の手法により利用することが可能である。

また、動画像の画像データを対象とした解析結果と、音響のデータを対象とした解析結果との組み合わせにより、対象となる作業者が実施している作業の分類、認識、識別、または推定が行われてもよい。この場合には、サーバ装置１００は、所定の条件（例えば、観測時の条件等）に基づき、動画像の画像データを対象とした解析結果と、音響のデータを対象とした解析結果との間で優先度付けを行ってもよい。
具体的な一例として、夕方や夜間の時間帯に観測が行われた場合には、昼間の時間帯に比べて暗い環境で観測が行われることとなり、撮像結果に応じた画像からの被写体の検出精度が低下し、ひいては作業者の周囲の状況の特徴を示す特徴量の抽出に係る精度が低下する場合がある。そのため、このような状況下では、サーバ装置１００は、音響のデータを対象とした解析結果をより優先して、作業者が実施している作業の分類を行ってもよい。
また、他の一例として、雑音の影響が強い環境下においては、検出対象となる音響が雑音によりかき消され、当該音響の解析に係る精度が低下し、結果として作業者の周囲の状況の特徴を示す特徴量の抽出に係る精度が低下する場合がある。そのため、このような状況下では、サーバ装置１００は、動画像や静止画像の画像データを対象とした解析結果をより優先して、作業者が実施している作業の分類を行ってもよい。

以上、図８～図１０を参照して、本実施形態に係る情報処理システムの変形例として、観測装置３１０としてマイクロフォン等の集音装置を適用することで、当該集音装置による集音結果に応じた音響のデータを解析処理の対象とする場合の一例について説明した。

＜むすび＞
以上説明したように、本開示の一実施形態において、情報処理装置（例えば、サーバ装置１００）は、所定の主体に装着された観測装置による当該主体の周囲の状況の観測結果に基づくデータに対して、当該観測結果に応じた当該主体の周囲の状況の特徴に関する付帯情報を関連付ける。また、情報処理装置は、分類対象の候補となる作業ごとに、当該作業に対してあらかじめ登録された情報に基づく特徴と、より類似度の高い特徴に関する上記付帯情報が関連付けられたデータがより優先されるように、上記付帯情報が関連付けられた一連のデータに対して重みを設定する。そのうえで、情報処理装置は、分類対象の候補となる作業ごとの上記重みが設定されたデータに基づき、上記主体が実施している作業を分類する。
以上のような構成により、対象となる作業者が実施している作業の分類に際して、当該作業者の周囲の状況の観測結果に応じた一連のデータのうち、当該作業者が実施している作業との関連度がより高いデータから抽出された特徴量がより考慮されるようになる。そのため、本実施形態に係る情報処理システムに依れば、作業者の周囲の状況の観測結果に基づくデータを利用した当該作業者が実施している作業の分類を、より高い精度で実現することが可能となる。

なお、上述した実施形態はあくまで一例であり、必ずしも本発明の構成や処理を限定するものではなく、本発明の技術思想を逸脱しない範囲で種々の変形や変更が加えられてもよい。

例えば、上述した実施形態や変形例では、作業者が実施している作業を分類、認識、識別、または推定する場合の一例について説明したが、分析の対象については、作業を実施する主体であれば、必ずしも作業者のような所謂人のみには限定されない。具体的な一例として、作業者が各種作業の実施に際して使用するような設備（例えば、作業車両等）を分析の対象として、当該設備が実施している作業（換言すると、作業者が当該設備を使用して実施している作業）の分類、認識、識別、または推定が行われてもよい。

また、上述した実施形態や変形例では、対象となる作業者に装着された観測装置を利用して、当該作業者の周囲の状況の観測を行う場合の一例について説明した。一方で、対象となる作業者が作業を実施している状況下において、当該作業者の周囲の状況を観測することが可能であれば、当該観測に利用される観測装置の設置位置は必ずしも限定はされない。具体的な一例として、観測対象となる環境が比較的狭いような状況下においては、当該環境を観測範囲に捕捉することが可能な位置に観測装置（例えば、撮像装置や集音装置等）が設置されてもよい。また、対象となる作業者の周囲の状況の観測に、複数の観測装置が使用されてもよく、撮像装置と集音装置とのように互いに種別の異なる複数の観測装置が使用されてもよい。また、複数の観測装置が使用される状況下では、それぞれが互いに異なる位置に設置された状態で使用されてもよい。

また、上述した実施形態や変形例では、対象となる作業者の周囲の状況を視覚的または聴覚的に観測したうえで、当該観測の結果を利用して、当該作業者が実施している作業の分類、認識、識別、または推定を行う場合の一例について説明した。一方で、対象となる作業者の周囲の状況を観測したうえで、当該観測の結果を当該作業者が実施している作業の分類、認識、識別、または推定に利用することが可能であれば、観測対象、観測方法、及び観測のための構成等は特に限定はされない。すなわち、視覚や聴覚以外の他の五感情報を観測結果として取得することで、当該観測結果を、作業者が実施している作業の分類、認識、識別、または推定に利用してもよい。
具体的な一例として、作業者が作業を実施するために道具等の対象物を把持する際の触覚情報や、当該対象物に加わる力覚情報等を観測結果として取得することで、当該観測結果を利用して、当該作業者が実施している作業の分類、認識、識別、または推定を行ってもよい。また、他の一例として、作業者の周囲の臭いを嗅覚情報として検知することが可能であれば、当該嗅覚情報を観測結果として利用することで、当該作業者が実施している作業の分類、認識、識別、または推定を行うことも可能である。
また、前述した視覚情報（撮像結果に応じた画像）と聴覚情報（集音結果に応じた音響）との組み合わせのように、複数のモーダルそれぞれに対応する観測結果を組み合わせて利用することで、作業者が実施している作業の分類、認識、識別、または推定を行うことも可能である。また、この場合には、所定の条件（例えば、観測条件等）に応じて、複数のモーダルそれぞれに対応する観測結果のうち、いずれを作業者が実施している作業の分類、認識、識別、または推定に優先して利用するかに関して優先度付けが行われてもよい。これにより、例えば、作業環境の観測条件に応じて、当該作業環境の状況をより精度よく観測可能なモーダルをより優先させることで、作業者が実施している作業の分類、認識、識別、または推定に係る精度をより向上させる効果が期待できる。

また、本発明には、上述した実施形態の機能を実現するプログラム、および、該プログラムを格納したコンピュータが読み取り可能な記録媒体が含まれる。

１情報処理システム
１００サーバ装置
１０１通信部
１０２入出力制御部
１０３データ解析部
１０４特徴量抽出部
１０５付帯処理部
１０６類似度判定部
１０７重み付け処理部
１０８分類部
１１０記憶部
２００端末装置
３００ウェアラブルデバイス
３１０観測装置

Claims

所定の主体に装着された観測装置による当該主体の周囲の状況の観測結果に基づくデータに対して、当該観測結果に応じた前記主体の周囲の状況の特徴に関する付帯情報を関連付ける関連付け手段と、
分類対象の候補となる作業ごとに、当該作業に対してあらかじめ登録された情報に基づく特徴と、より類似度の高い特徴に関する前記付帯情報が関連付けられたデータがより優先されるように、前記付帯情報が関連付けられた一連の前記データに対して重みを設定する重み付け手段と、
前記分類対象の候補となる作業ごとの前記重みが設定された前記データに基づき、前記主体が実施している作業を分類する分類手段と、
を備える、情報処理装置。
前記分類対象の候補となる作業ごとに、当該作業に関連する１以上の文字情報があらかじめ登録され、
前記関連付け手段は、前記観測結果に応じた前記主体の周囲の状況の特徴が１以上の文字情報に関連付けて示された前記付帯情報を、前記データに関連付け、
前記重み付け手段は、前記分類対象の候補となる作業に対して登録された前記１以上の文字情報に基づく第１の特徴量ベクトルと、一連の前記データそれぞれに関連付けられた前記付帯情報に基づく第２の特徴量ベクトルと、の類似度に基づき、一連の前記データに対して前記重みを設定する、
請求項１に記載の情報処理装置。
前記重み付け手段は、前記第１の特徴量ベクトルと前記第２の特徴量ベクトルとの内積に基づき、当該第１の特徴量ベクトルと当該第２の特徴量ベクトルとの類似度を算出する、
請求項２に記載の情報処理装置。
前記分類手段は、前記付帯情報が関連付けられた一連の前記データそれぞれを、当該データに関連付けられた前記付帯情報と、当該データに設定された前記重みと、に応じて分類し、当該一連の前記データの分類結果に基づき、前記主体が実施している作業を分類する、
請求項１～３のいずれか１項に記載の情報処理装置。
観測タイミングが時系列に沿って連続する所定数の前記データが共通のグループに割り当てられるように当該グループを設定する設定手段を備え、
前記分類手段は、前記グループごとに、前記分類対象の候補となる作業ごとの前記重みが設定された当該グループに含まれる前記データに基づき、前記主体が実施している作業を分類する、
請求項１～４のいずれか１項に記載の情報処理装置。
前記グループに含まれる所定数の前記データそれぞれに関連付けられた前記付帯情報が示す特徴に基づき、当該グループごとの特徴を算出する算出手段を備え、
前記重み付け手段は、算出された前記グループごとの特徴に基づき、前記グループ単位で前記重みを設定し、
前記分類手段は、前記グループ単位で設定された前記重みに応じて、前記グループごとに前記主体が実施している作業を分類する、
請求項５に記載の情報処理装置。
前記観測装置は撮像装置であり、
前記関連付け手段は、前記撮像装置による前記主体の周囲の状況の撮像結果に基づく画像の画像データである前記データに対して、前記画像の解析結果に基づき、当該画像に被写体として撮像された検出対象に関する情報を前記付帯情報として関連付け、
前記重み付け手段は、前記分類対象の候補となる作業ごとに、当該作業に対してあらかじめ登録された１以上の検出対象に基づく特徴と、より類似度の高い特徴に関する前記付帯情報が関連付けられた前記データがより優先されるように、前記付帯情報が関連付けられた一連の前記データに対して重みを設定し、
前記分類手段は、前記分類対象の候補となる作業ごとの前記重みが設定された前記データに基づき、前記主体が実施している作業を分類する、
請求項１～６のいずれか１項に記載の情報処理装置。
前記画像データは、動画像を構成する一連のフレームそれぞれが示す静止画像のデータである、
請求項７に記載の情報処理装置。
前記関連付け手段は、前記撮像装置による撮像結果に基づく画像に対して画像解析を施すことで、当該画像に被写体として撮像された検出対象を認識し、当該画像に対応する前記データに対して認識された当該検出対象に関する情報を前記付帯情報として関連付け、
前記重み付け手段は、前記分類対象の候補となる作業ごとに、当該作業に対してあらかじめ登録された１以上の検出対象に基づく特徴と、より類似度の高い特徴を示す検出対象に関する情報が前記付帯情報として関連付けられた前記データがより優先されるように、前記付帯情報が関連付けられた一連の前記データに対して重みを設定する、
請求項７または８に記載の情報処理装置。
前記関連付け手段は、機械学習に基づき構築された学習済モデルに対して前記撮像装置による撮像結果に基づく画像を入力することで、当該学習済モデルから出力される当該画像に撮像された被写体が検出対象であることの確からしさを示す確信度情報を前記付帯情報として、当該画像に対応する前記データに関連付け、
前記重み付け手段は、前記分類対象の候補となる作業ごとに、当該作業に対してあらかじめ登録された１以上の検出対象に基づく特徴と、より類似度の高い特徴を示す前記確信度情報が前記付帯情報として関連付けられた前記データがより優先されるように、前記付帯情報が関連付けられた一連の前記データに対して重みを設定する、
請求項７または８に記載の情報処理装置。
前記観測装置は集音装置であり、
前記関連付け手段は、前記集音装置による集音結果に基づく音響の音響データである前記データに対して、前記音響の解析結果に基づき、当該音響が示す検出対象に関する情報を前記付帯情報として関連付け、
前記重み付け手段は、前記分類対象の候補となる作業ごとに、当該作業に対してあらかじめ登録された１以上の検出対象に基づく特徴と、より類似度の高い特徴に関する前記付帯情報が関連付けられた前記データがより優先されるように、前記付帯情報が関連付けられた一連の前記データに対して重みを設定し、
前記分類手段は、前記分類対象の候補となる作業ごとの前記重みが設定された前記データに基づき、前記主体が実施している作業を分類する、
請求項１～６のいずれか１項に記載の情報処理装置。
前記分類対象の候補となる作業に対して、少なくとも一部の前記検出対象として環境音の発生要因に関する情報が登録され、
前記関連付け手段は、前記集音装置による集音結果に基づく音響の解析結果に基づき、当該音響の発生要因に関する情報を前記付帯情報として、当該音響に対応する前記データに関連付け、
前記重み付け手段は、前記分類対象の候補となる作業ごとに、当該作業に対してあらかじめ登録された前記環境音の発生要因に関する情報に基づく特徴と、より類似度の高い特徴を示す前記音響の発生要因に関する情報が前記付帯情報として関連付けられた前記データがより優先されるように、前記付帯情報が関連付けられた一連の前記データに対して重みを設定する、
請求項１１に記載の情報処理装置。
前記重み付け手段は、前記集音装置による集音結果に応じた音響から変換されたスペクトログラムの画像に対する解析の結果に基づき、当該音響が示す検出対象に関する情報を前記付帯情報として、当該音響に対応する前記データに関連付ける、
請求項１１または１２に記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
所定の主体に装着された観測装置による当該主体の周囲の状況の観測結果に基づくデータに対して、当該観測結果に応じた前記主体の周囲の状況の特徴に関する付帯情報を関連付ける関連付けステップと、
分類対象の候補となる作業ごとに、当該作業に対してあらかじめ登録された情報に基づく特徴と、より類似度の高い特徴に関する前記付帯情報が関連付けられたデータがより優先されるように、前記付帯情報が関連付けられた一連の前記データに対して重みを設定する重み付けステップと、
前記分類対象の候補となる作業ごとの前記重みが設定された前記データに基づき、前記主体が実施している作業を分類する分類ステップと、
を含む、情報処理方法。
コンピュータに、
所定の主体に装着された観測装置による当該主体の周囲の状況の観測結果に基づくデータに対して、当該観測結果に応じた前記主体の周囲の状況の特徴に関する付帯情報を関連付ける関連付けステップと、
分類対象の候補となる作業ごとに、当該作業に対してあらかじめ登録された情報に基づく特徴と、より類似度の高い特徴に関する前記付帯情報が関連付けられたデータがより優先されるように、前記付帯情報が関連付けられた一連の前記データに対して重みを設定する重み付けステップと、
前記分類対象の候補となる作業ごとの前記重みが設定された前記データに基づき、前記主体が実施している作業を分類する分類ステップと、
を実行させる、プログラム。