JP6908337B2

JP6908337B2 - コンピュータシステム、物体状況判断方法及びプログラム

Info

Publication number: JP6908337B2
Application number: JP2020547730A
Authority: JP
Inventors: 俊二菅谷
Original assignee: Optim Corp
Current assignee: Optim Corp
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2021-07-28
Anticipated expiration: 2038-09-27
Also published as: WO2020065838A1; CN113168679A; JPWO2020065838A1; US20210312654A1

Description

本発明は、物体の状況を推測するコンピュータシステム、物体状況判断方法及びプログラムに関する。

近年、物体を撮影し、撮影した画像に基づいて、物体の状況を推測することが行われている。このような物体の状況を推測する構成として、画像に写った人物を検出し、この人物の向きと、移動情報とに基づいて、この人物の状況を判定する構成が開示されている（特許部文献１参照）。

特開２０１８−３６８４８号公報

しかしながら、特許文献１の構成では、物体の状況としてどのような方向を向いているのかを判定するものに過ぎず、この物体が何をしているのかといった状況を推測するようなものではなかった。

本発明は、画像から、物体の状況を推測することが容易なコンピュータシステム、物体状況判断方法及びプログラムを提供することを目的とする。

本発明では、以下のような解決手段を提供する。

本発明は、画像を取得する画像取得手段と、
取得した前記画像内に撮影された物体、当該物体の姿勢、形、方向、撮影された画像の背景の少なくとも２つに関する構成要素を、当該画像内の特徴点を抽出して解析する解析手段と、
前記物体がどのような状況であるかの状況データを取得する状況取得手段と、
前記構成要素の組み合わせと、取得した前記状況データとを関連付けて学習する学習手段と、
所定の画像に対して解析した結果が、前記構成要素の組み合わせと類似又は同一の場合、前記状況データの学習結果に基づいて、前記物体の状況を推測する推測手段と、
を備えることを特徴とするコンピュータシステム提供する。

本発明によれば、コンピュータシステムは、画像を取得し、取得した前記画像内に撮影された物体、当該物体の姿勢、形、方向、撮影された画像の背景の少なくとも２つに関する構成要素を、当該画像内の特徴点を抽出して解析し、前記物体がどのような状況であるかの状況データを取得し、前記構成要素の組み合わせと、取得した前記状況データとを関連付けて学習し、所定の画像に対して解析した結果が、前記構成要素の組み合わせと類似又は同一の場合、前記状況データの学習結果に基づいて、前記物体の状況を推測する。

本発明は、コンピュータシステムのカテゴリであるが、方法及びプログラム等の他のカテゴリにおいても、そのカテゴリに応じた同様の作用・効果を発揮する。

本発明によれば、画像から、物体の状況を推測することが容易なコンピュータシステム、物体状況判断方法及びプログラムを提供することが容易となる。

図１は、物体状況判断システム１の概要を示す図である。図２は、物体状況判断システム１の全体構成図である。図３は、コンピュータ１０が実行する第一の物体状況学習処理を示すフローチャートである。図４は、コンピュータ１０が実行する第二の物体状況学習処理を示すフローチャートである。図５は、コンピュータ１０が実行する第一の物体状況判断処理を示すフローチャートである。図６は、コンピュータ１０が実行する第二の物体状況判断処理を示すフローチャートである。図７は、コンピュータ１０が取得する画像を模式的に示した図である。図８は、コンピュータ１０が取得する画像を模式的に示した図である。図９は、コンピュータ１０が取得する画像を模式的に示した図である。図１０は、コンピュータ１０が取得する画像を模式的に示した図である。

以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。

［物体状況判断システム１の概要］
本発明の好適な実施形態の概要について、図１に基づいて説明する。図１は、本発明の好適な実施形態である物体状況判断システム１の概要を説明するための図である。物体状況判断システム１は、コンピュータ１０から構成され、画像内に撮影された物体の状況を推測するコンピュータシステムである。

なお、物体状況判断システム１は、図示していないユーザが所持するユーザ端末（スマートフォンやタブレット端末等の携帯端末やカメラ等の撮影装置）等の他の端末類が含まれていてもよい。

コンピュータ１０は、ユーザ端末と公衆回線網等を介してデータ通信可能に接続されており、必要なデータの送受信を実行する。

コンピュータ１０は、ユーザ端末が撮影した画像や、その他のコンピュータが記録する画像を取得する。コンピュータ１０は、この取得した画像内に撮影された物体、この物体の姿勢、形、方向、撮影された画像の背景の少なくとも２つに関する構成要素をこの画像内の特徴点を抽出して解析する。コンピュータ１０は、特徴点として、形状、輪郭や画素値の平均、分散ヒストグラム等の統計的な数値を抽出して解析する。

コンピュータ１０は、この画像内に複数の物体が撮影されている場合、其々の物体を画像解析し、其々の物体の姿勢、形、方向、撮影された画像の背景の少なくとも２つに関する構成要素をこの画像内の特徴点を抽出して解析する。また、コンピュータ１０は、この複数の物体の組み合わせ及び物体間の相対位置に関する構成要素をこの画像内の特徴点を抽出して解析する。

コンピュータ１０は、物体がどのような状況であるかの状況データを取得する。コンピュータ１０は、ユーザ端末により入力されたこの物体の状況（作業内容や動作や場所等）を、状況データとして取得する。また、コンピュータ１０は、その他のコンピュータが記録するこの物体の状況を、状況データとして取得する。

コンピュータ１０は、解析した構成要素の組み合わせと、取得した状況データとを関連付けて学習する。コンピュータ１０は、画像内に撮影された物体、この物体の姿勢、形、方向、撮影された画像の背景の少なくとも２つに関する構成要素と、取得した状況データとを関連付けて学習する。また、コンピュータ１０は、画像内に複数の物体が撮影されている場合、画像内に撮影された其々の物体の姿勢、形、方向、撮影された画像の背景の少なくとも２つに関する構成要素と、取得した状況データとを関連付けて学習する。また、コンピュータ１０は、画像内に複数の物体が撮影されている場合、画像内に撮影された複数の物体の組み合わせ及び物体間の相対位置に関する構成要素と、取得した状況データとを関連付けて学習する。

コンピュータ１０は、所定の画像に対して、この画像内に撮影された物体、当該物体の姿勢、形、方向、撮影された画像の背景の少なくとも２つに関する構成要素を、当該画像内の特徴点を抽出して解析した結果が、学習結果における構成要素の組み合わせと類似又は同一の場合、状況データの学習結果に基づいて、物体の状況を推測する。また、コンピュータ１０は、画像内に複数の物体が撮影されている場合、画像内に撮影された其々の物体の姿勢、形、方向、撮影された画像の背景の少なくとも２つに関する構成要素を、この画像内の特徴点を抽出して解析した結果が、学習結果における構成要素の組み合わせと類似又は同一の場合、状況データの学習結果に基づいて、物体の状況及び複数の物体が全体として何を行っているかを推測する。また、コンピュータ１０は、画像内に複数の物体が撮影されている場合、画像内に撮影された複数の物体の組み合わせ及び物体間の相対位置に関する構成要素を、この画像内の特徴点を抽出して解析した結果が、学習結果における構成要素の組み合わせと類似又は同一の場合、状況データの学習結果に基づいて、物体の状況及び複数の物体が全体として何を行っているかを推測する。

物体状況判断システム１が実行する処理の概要について説明する。

はじめに、コンピュータ１０は、ユーザ端末が撮影した画像やその他のコンピュータが記録する画像を取得する（ステップＳ０１）。

コンピュータ１０は、この画像を画像解析する（ステップＳ０２）。コンピュータ１０は、この取得した画像に撮影された物体、この物体の姿勢、形、方向又は画像の背景の少なくとも２つに関する構成要素を、この画像内の特徴点を抽出して解析する（ステップＳ０２）。コンピュータ１０は、特徴点として、形状、輪郭や、画素値の平均、分散ヒストグラム等の統計的な数値を抽出して解析する。

なお、コンピュータ１０は、複数の物体がこの画像に撮影されている場合、この複数の物体其々を画像解析し、其々の物体、この其々の物体の姿勢、形、方向又は画像の背景の少なくとも２つに関する構成要素を、この画像内の特徴点を抽出して解析する。また、コンピュータ１０は、複数の物体の組み合わせ及び物体間の相対位置に関する構成要素を、この画像内の特徴点を抽出して解析する。

コンピュータ１０は、この物体がどのような状況であるかの状況データを取得する（ステップＳ０３）。コンピュータ１０は、ユーザ端末により入力されたこの物体の状況（作業内容や動作や場所等）を、状況データとして取得する。また、コンピュータ１０は、その他のコンピュータが記録するこの物体の状況を、状況データとして取得する。

コンピュータ１０は、解析した構成要素の組み合わせと、取得した状況データとを関連付けて学習する（ステップＳ０４）。コンピュータ１０は、所定の構成要素の組み合わせに該当する状況を状況データに基づいて学習することにより、類似又は同一の構成要素を有する画像に撮影された物体の状況を推測することになる。

コンピュータ１０は、画像内に撮影された物体、この物体の姿勢、形、方向、撮影された画像の背景の少なくとも２つに関する構成要素と、取得した状況データとを関連付けて学習する。また、コンピュータ１０は、画像内に複数の物体が撮影されている場合、画像内に撮影された其々の物体の姿勢、形、方向、撮影された画像の背景の少なくとも２つに関する構成要素と、取得した状況データとを関連付けて学習する。また、コンピュータ１０は、画像内に複数の物体が撮影されている場合、画像内に撮影された複数の物体の組み合わせ及び物体間の相対位置に関する構成要素と、取得した状況データとを関連付けて学習する。

コンピュータ１０は、所定の画像に対して解析した結果が、構成要素の組み合わせと類似又は同一の場合、状況データの学習結果に基づいて、物体の状況を推測する（ステップＳ０５）。コンピュータ１０は、所定の画像内に撮影された物体、この物体の姿勢、形、方向、撮影された画像の背景の少なくとも２つに関する構成要素を抽出して解析する。コンピュータ１０は、解析した構成要素の組み合わせと、学習結果における構成要素の組み合わせとを比較することにより、この所定の画像に撮影された物体の状況を推測する。コンピュータ１０は、類似又は同一であるか否かの判定として、例えば、構成要素の組み合わせの一致率を用いる。この一致率が所定の割合以上であるか否かに基づいて判定する。

以上が、物体状況判断システム１の概要である。

［物体状況判断システム１のシステム構成］
図２に基づいて、本発明の好適な実施形態である物体状況判断システム１のシステム構成について説明する。図２は、本発明の好適な実施形態である物体状況判断システム１のシステム構成を示す図である。図２において、物体状況判断システム１は、コンピュータ１０から構成され、画像内に撮影された物体の状況を推測するコンピュータシステムである。コンピュータ１０は、図示していないユーザ端末やその他のコンピュータ等と公衆回線網等を介してデータ通信可能に接続されており、必要なデータの送受信を実行する。

コンピュータ１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等を備え、通信部として、ユーザ端末や他のコンピュータと通信可能にするためのデバイス、例えば、ＩＥＥＥ８０２．１１に準拠したＷｉ―Ｆｉ（Ｗｉｒｅｌｅｓｓ―Ｆｉｄｅｌｉｔｙ）対応デバイス等を備える。また、コンピュータ１０は、記録部として、ハードディスクや半導体メモリ、記録媒体、メモリカード等によるデータのストレージ部を備える。また、コンピュータ１０は、処理部として、各種処理を実行する各種デバイス等を備える。

コンピュータ１０において、制御部が所定のプログラムを読み込むことにより、通信部と協働して、画像取得モジュール２０、音声取得モジュール２１、状況取得モジュール２２、通知モジュール２３を実現する。また、コンピュータ１０において、制御部が所定のプログラムを読み込むことにより、記録部と協働して、記録モジュール３０を実現する。また、コンピュータ１０において、制御部が所定のプログラムを読み込むことにより、処理部と協働して、画像解析モジュール４０、音声認識モジュール４１、学習モジュール４２、物体数判定モジュール４３、比較モジュール４４、推測モジュール４５を実現する。

［第一の物体状況学習処理］
図３に基づいて、物体状況判断システム１が実行する第一の物体状況学習処理について説明する。図３は、コンピュータ１０が実行する第一の物体状況学習処理のフローチャートを示す図である。上述した各モジュールが実行する処理について、本処理に併せて説明する。

はじめに、画像取得モジュール２０は、動画や静止画等の画像を取得する（ステップＳ１０）。ステップＳ１０において、画像取得モジュール２０は、ユーザ端末が撮影した画像やその他のコンピュータが記録する画像等を取得する。例えば、ユーザ端末は、自身に内蔵された撮影装置により撮影した画像を、画像データとしてコンピュータ１０に送信する。画像取得モジュール２０は、この画像データを受信することにより、画像を取得する。

音声取得モジュール２１は、音声を取得する（ステップＳ１１）。ステップＳ１１において、音声取得モジュール２１は、ユーザ端末が集音した音声やその他のコンピュータが記録する音声等を取得する。例えば、ユーザ端末は、画像を撮影する際、音声も集音し、この集音した音声を、音声データとしてコンピュータ１０に送信する。音声取得モジュール２１は、この音声データを取得することにより、音声を取得する。

なお、ステップＳ１１の処理は、省略可能である。この場合、コンピュータ１０は、後述する処理において、音声に関連する処理を省略すればよい。

画像解析モジュール４０は、取得した画像を画像解析する（ステップＳ１２）。ステップＳ１２において、画像解析モジュール４０は、取得した画像の特徴点（形状又は輪郭や、画素値の平均、分散ヒストグラム等の統計的な数値）を抽出する。画像解析モジュール４０は、この特徴点に基づいて、この画像の構成要素を解析する。構成要素としては、この物体そのもの（例えば、物体の名称、型式）、この物体の姿勢（例えば、物体を構成する各部位の状態、この部位の動作内容）、この物体の形（例えば、概形、特徴的な部位の形状）、この物体の方向（例えば、物体そのものがどの方向を向いているか、特徴的な部位がどの方向を向いているか、各部位がどの方向を向いているか）、背景（例えば、画像内における物体以外）が挙げられる。

解析する構成要素の組み合わせとしては、上述した通り、これらの少なくとも２つに関する構成要素の組み合わせであるが、この組み合わせに関して、より状況を推測するために有効な組み合わせを解析することも可能である。例えば、画像モジュール４０は、各構成要素において、より状況を推測する際に有効な構成要素の組み合わせを選んで解析する。このような構成要素としては、物体そのものと、物体の方向とを少なくとも含む組み合わせや、物体そのものと背景とを少なくとも含む組み合わせや、物体の形と方向とを少なくとも含む組み合わせが挙げられる。これらの組み合わせが有効な理由としては、後述する状況の推測として、物体が、どこで、何を、どうした（どうしている）を推測する際、よりこれらの状況を推測しやすくなる構成要素であるからである。すなわち、画像解析モジュール４００は、状況を推測しやすくする構成要素の組み合わせを優先的に抽出して解析することも可能である。

図７に基づいて、画像解析モジュール４０が実行する画像解析について説明する。図７は、画像取得モジュール２０が取得する画像を模式的に示した図である。画像解析モジュール４０は、画像１００を画像解析することにより、特徴点を抽出する。画像解析モジュール４０は、特徴点を抽出することにより、この画像１００に撮影された物体１１０と、背景１６０とを特定する。画像解析モジュール４０は、この画像１００の構成要素を抽出した特徴点に基づいて解析する。画像解析モジュール４０は、この画像１００の構成要素として、物体１１０そのもの、物体１１０の姿勢、形、方向を解析する。また、画像解析モジュール４０は、この画像１００の構成要素として、背景１６０を解析する。画像解析モジュール４０は、物体１１０そのものとして、ショベルカーであることを解析する。画像解析モジュール４０は、この物体１１０の姿勢として、アーム１２０が地面１４０に向かって伸びている、バケット１３０の爪が地面１４０に接触していることを其々解析する。画像解析モジュール４０は、この物体１１０の形として、ショベルカーの概形、アーム１２０及びバケット１３０の形状を解析する。画像解析モジュール４０は、この物体１１０の方向として、自身が向いている方向、アーム１２０の先端が向いている方向、バケット１３０が向いている方向、このバケット１３０の爪が向いている方向を解析する。画像解析モジュール４０は、画像１１０の背景として、地面１４０、土砂１５０を解析する。

なお、図７において、画像解析モジュール４０は、物体１１０そのもの、物体１１０の姿勢、形、方向、画像１００の背景の全てを構成要素として解析しているが、上述した通り、これらのうち、少なくとも２つに関するものを構成要素として解析してもよい。例えば、画像解析モジュール４０は、物体１１０そのものと、姿勢とに関するものを構成要素として解析してもよいし、物体１１０の姿勢、形及び方向に関するものを構成要素として解析してもよいし、物体１１０そのものと画像１００の背景１６０とに関するものを構成要素として解析してもよいし、これらの例以外の組み合わせに関するものを構成要素として解析してもよい。

また、画像解析モジュール４０は、上述した例以外のものを解析してもよい。例えば、物体１１０の姿勢、形、方向は、上述した例に限らずその他の部位やパーツ等を解析してもよい。また、画像１００の背景１６０も、上述した例に限らずその他のものを解析してもよい。

音声認識モジュール４１は、取得した音声を音声認識する（ステップＳ１３）。ステップＳ１３において、音声認識モジュール４１は、取得した音声を、スペクトラムアナライザ等により音声認識し、音波波形に基づいて、音声（例えば、物体の駆動音や、物体の排気音や、各部位の駆動音や、環境音等）を構成要素として認識する。

状況取得モジュール２２は、画像内に撮影された物体がどのような状況であるかの状況データを取得する（ステップＳ１４）。ステップＳ１４において、状況取得モジュール２２は、ユーザ端末により入力された物体の状況（作業内容、動作、場所等）を、状況データとして取得する。ユーザ端末は、ユーザから物体の状況の入力を受け付け、受け付けた物体の状況を状況データとして送信する。また、状況取得モジュール２２は、その他のコンピュータが記録する物体の状況を、状況データとして取得する。その他のコンピュータは、自身が記録する物体の状況を状況データとして送信する。状況取得モジュール２２は、この状況データを受信することにより、状況データを取得する。例えば、図７の画像に対して、状況取得モジュール２２は、この物体１１０の状況として、「ショベルカーが建設現場で地面を掘削している」、ことを状況データとして取得する。

このように、状況データとは、物体が、どこで、何を、どうした（どうしている）に関するデータである。

学習モジュール４２は、解析した構成要素の組み合わせと、取得した状況データとを関連付けて学習する（ステップＳ１５）ステップＳ１５において、学習モジュール４２は、画像に撮影された物体そのもの、この物体の姿勢、形、方向、背景に関する構成要素のうち、画像解析モジュール４０により解析された少なくとも２つに関する構成要素と、音声認識モジュール４１により認識された音声に関する構成要素と、状況取得モジュール２２が取得した状況データとを関連付けて学習する。

なお、学習モジュール４２は、認識された音声に関する構成要素を除外し、解析された構成要素と状況データとを関連付けて学習する構成であってもよい。

図７に基づいて、ステップＳ１５の処理を説明する。学習モジュール４２は、この画像１００の物体１１０、物体１１０の姿勢、形、方向、背景１６０の少なくとも２つに関する構成要素の解析結果と、状況データとを関連付けて学習する。具体的には、例えば、学習モジュール４２は、物体１１０そのものがショベルカー、物体１１０の姿勢として、アーム１２０が地面に向かって伸びている、バケット１３０の爪が地面１４０に接触している、物体１１０の形として、ショベルカーの概形、アーム１２０及びバケット１３０の形状、物体１１０の方向として、自身が向いている方向、アーム１２０の先端が向いている方向、バケット１３０が向いている方向、バケット１３０の爪が向いている方向、背景１６０として、地面１４０、土砂１５０のうち、物体１１０そのもの、物体１１０の姿勢、形、方向、背景１６０の少なくとも２つに関する構成要素の解析結果と、状況データとを関連付けて学習する。

さらに、このとき、解析結果の構成要素と、音声の認識結果と状況データとを関連付けて学習する。

例えば、学習モジュール４２は、物体１１０そのものと、物体１１０の姿勢とに関する構成要素の解析結果と、状況データとを関連付けて学習する場合、物体１１０としてショベルカーと、物体１１０の姿勢として、アーム１２０が地面に向かって伸びている、バケット１３０の爪が地面１４０に接触していることとを、状況データと関連付けて学習する。学習モジュール４２は、物体１１０の姿勢と、形と、方向とに関する構成要素の解析結果と、状況データとを関連付けて学習する場合、物体１１０の姿勢として、アーム１２０が地面に向かって伸びていること、バケット１３０の爪が地面１４０に接触していることと、物体１１０の形として、ショベルカーの概形、アーム１２０及びバケット１３０の形状と、物体１１０の方向として、自身が向いている方向、アーム１２０の先端が向いている方向、バケット１３０が向いている方向、バケット１３０の爪が向いている方向とを状況データと関連付けて学習する。その他の組み合わせも同様である。

本例では、上述した全ての構成応要素の解析結果と、状況データとを関連付けて学習するものとして説明する。

記録モジュール３０は、この学習結果を記録する（ステップＳ１６）。コンピュータ１０は、このようにして記録した学習結果を、後述する処理に使用する。

以上が、第一の物体状況学習処理である。

［第二の物体状況学習処理］
図４に基づいて、物体状況判断システム１が実行する第二の物体状況学習処理について説明する。図４は、コンピュータ１０が実行する第二の物体状況学習処理のフローチャートを示す図である。上述した各モジュールが実行する処理について、本処理に併せて説明する。

第一の物体状況学習処理と、第二の物体状況学習処理との相違点は、第一の物体状況学習処理が、画像に撮影された物体が１つであるのに対して、第二の物体状況学習処理が画像に撮影された物体が２つ以上である点である。

なお、上述した第一の物体状況学習処理と同様の処理は、その詳細な説明は省略する。

はじめに、画像取得モジュール２０は、動画や静止画等の画像を取得する（ステップＳ２０）。ステップＳ２０の処理は、上述したステップＳ１０の処理と同様である。

音声取得モジュール２１は、音声を取得する（ステップＳ２１）。ステップＳ２１の処理は、上述したステップＳ１１の処理と同様である。

なお、ステップＳ２１の処理は、省略可能である。この場合、コンピュータ１０は、後述する処理において、音声に関連する処理を省略すればよい。

画像解析モジュール４０は、取得した画像を画像解析する（ステップＳ２２）。ステップＳ２２において、画像解析モジュール４０は、取得した画像の特徴点を抽出する。画像解析モジュール４０は、この特徴点に基づいて、この画像の構成要素を解析する。構成要素としては、其々の物体そのもの、其々の物体の姿勢、形、方向、背景が挙げられる。すなわち、上述したステップＳ１２の処理を、其々の物体に対して行うことになる。その結果、画像解析モジュール４０は、其々の物体そのもの、其々の物体の姿勢、形、方向、背景の少なくとも２つに関する構成要素を解析する。

解析する構成要素の組み合わせとしては、上述した通り、これらの少なくとも２つに関する構成要素の組み合わせであるが、この組み合わせに関して、より状況を推測するために有効な組み合わせを解析することも可能である。例えば、画像モジュール４０は、各構成要素において、より状況を推測する際に有効な構成要素の組み合わせを選んで解析する。このような構成要素としては、其々の物体そのものと、其々の物体の方向とを少なくとも含む組み合わせや、其々の物体そのものと背景とを少なくとも含む組み合わせや、其々の物体の形と方向とを少なくとも含む組み合わせが挙げられる。これらの組み合わせが有効な理由としては、後述する状況の推測として、其々の物体が、どこで、何を、どうした（どうしている）を推測する際、よりこれらの状況を推測しやすくなる構成要素であるからである。また、後述する状況の推測として、複数の物体が全体として、どこで、何を、どうした（どうしている）を推測する際、よりこれらの状況を推測しやすくなる構成要素であるからである。すなわち、画像解析モジュール４００は、状況を推測しやすくする構成要素の組み合わせを優先的に抽出して解析することも可能である。

また、画像解析モジュール４０は、この特徴点に基づいて、複数の物体の組み合わせ（画像内に撮影された物体と物体との組み合わせ）及び物体間の相対位置（物体同士の位置関係、距離、配置等）に関する構成要素を解析する。

図８に基づいて、画像解析モジュール４０が実行する画像解析について説明する。図８は、画像取得モジュール２０が取得する画像を模式的に示した図である。画像解析モジュール４０は、画像２００を画像解析することにより、特徴点を抽出する。画像解析モジュール４０は、特徴点を抽出することにより、この画像２００に撮影された物体２１０と、物体２２０と、背景２８０とを特定する。画像解析モジュール４０は、この画像２００の構成要素を抽出した特徴点に基づいて解析する。画像解析モジュール４０は、この画像２００の構成要素として、物体２１０そのもの、物体２１０の姿勢、形、方向と、物体２２０そのもの、物体２２０の姿勢、形、方向と、背景２８０との其々を解析する。その結果、画像解析モジュール４０は、其々の物体そのもの、其々の物体の姿勢、形、方向、背景２８０を構成要素として解析する。また、画像解析モジュール４０は、この物体２１０と物体２２０との組み合わせ及びこの物体２１０と物体２２０との間の相対位置を構成要素として解析する。

画像解析モジュール４０は、物体２１０がショベルカーであることを解析する。画像解析モジュール４０は、物体２１０の姿勢として、アーム２３０が物体２２０に向かって伸びている、バケット２４０が物体２２０に接触していることを其々解析する。画像解析モジュール４０は、物体２１０の形として、ショベルカーの概形、アーム２３０及びバケット２４０の形状を解析する。画像解析モジュール４０は、物体２１０の方向として、物体２１０が物体２２０の方向を向いている、アーム２３０及びバケット２４０が物体２２０の方向を向いていると解析する。

また、画像解析モジュール４０は、物体２２０がダンプカーであると解析する。画像解析モジュール４０は、物体２２０の姿勢として、荷台２５０を傾けていないことを解析する。画像解析モジュール４０は、物体２２０の形として、ダンプカーの概形、荷台２５０の形状を解析する。画像解析モジュール４０は、物体２２０の方向として、物体２２０が物体２１０と反対の方向を向いている、荷台２５０が物体２１０の方向を向いていることを解析する。

また、画像解析モジュール４０は、この画像２００に撮影された背景２８０として、土砂２６０、地面２７０を解析する。

また、画像解析モジュール４０は、物体２１０と物体２２０との組み合わせとして、ショベルカーとダンプカーとであることを解析する。さらに、画像解析モジュール４０は、物体２１０と物体２２０との相対位置として、物体２１０と物体２２０とが近傍に位置し、特に、アーム２３０及びバケット２４０と荷台２５０とが近接していることを解析する。

なお、図８において、画像解析モジュール４０は、其々の物体２１０，２２０そのもの、其々の物体２１０，２２０の姿勢、形、方向、画像２００の背景２８０の全てを構成要素として解析しているが、上述した通り、これらのうち、少なくとも２つに関するものを構成要素として解析してもよい。例えば、画像解析モジュール４０は、其々の物体２１０，２２０そのものと、其々の物体２１０，２２０の姿勢とに関するものを構成要素として解析してもよいし、其々の物体２１０，２２０の姿勢、形及び方向に関するものを構成要素として解析してもよいし、其々の物体２１０，２２０そのものと画像２００の背景２８０とに関するものを構成要素として解析してもよいし、これらの例以外の組み合わせに関するものを構成要素として解析してもよい。

また、画像解析モジュール４０は、上述した例以外のものを解析してもよい。例えば、其々の物体２１０，２２０の姿勢、形、方向は、上述した例に限らず、その他の部位やパーツ等を解析してもよい。また、画像２００の背景２８０も、上述した例に限らずその他のものを解析してもよい。また、画像解析モジュール４０は、物体２１０，２２０の組み合わせも上述した例に限らずその他のものを解析してもよい。また、画像解析モジュール４０は、物体２１０，２２０間の相対位置も上述した例に限らず、その他の部位やパーツ等を解析してもよい。

音声認識モジュール４１は、取得した音声を音声認識する（ステップＳ２３）。ステップＳ２３の処理は、上述したステップＳ１３の処理と同様である。ステップＳ２３において、音声認識モジュール４１は、其々の物体の駆動音、排気音、其々の物体の各部位の駆動音、環境音等を認識する。

状況取得モジュール２２は、画像内に撮影された其々の物体がどのような状況であるかの状況データを取得する（ステップＳ２４）。ステップＳ２４の処理は、上述したステップＳ１４の処理と同様である。例えば、図８の画像に対して、状況取得モジュール２２は、物体２１０の状況として、ショベルカーが、建設現場で、地面を掘削していること、この掘削した土砂を積み込んでいること、物体２２０の状況としてダンプカーが、建設現場で、土砂を積み込まれていることを状況データとして取得する。さらに、状況取得モジュール２２は、複数の物体の全体としての状況として、「建設現場で、ショベルカーが掘削した土砂を、ダンプカーに積み込んでいる」ことを状況データとして取得する。

学習モジュール４２は、解析した構成要素の組み合わせと、取得した状況データとを関連付けて学習する（ステップＳ２５）。ステップＳ２５の処理は、上述したステップＳ１５の処理と略同様である。ステップＳ２５において、学習モジュール４２は、画像に撮影された其々の物体そのもの、其々の物体の姿勢、形、方向、画像の背景に関する構成要素のうち、画像解析モジュール４０により解析された少なくとも２つに関する構成要素と、音声認識モジュール４１により認識された音声に関する構成要素と、状況取得モジュール２２が取得した状況データとを関連付けて学習する。このときに関連付ける状況データは、其々の物体の状況及び全体としての状況である。

また、学習モジュール４２は、画像に撮影された物体の組み合わせ及び物体間の相対位置に関する構成要素と、音声認識モジュール４１により認識された音声に関する構成要素と、状況取得モジュール２２が取得した状況データとを関連付けて学習する。このときに関連付ける状況データは、全体としての状況である。

図８に基づいて、ステップＳ２５の処理を説明する。学習モジュール４２は、この画像２００の其々の物体２１０，２２０そのもの、其々の物体２１０，２２０の姿勢、形、方向、画像２００の背景２８０の少なくとも２つに関する構成要素の解析結果と、状況データとを関連付けて学習する。具体的には、学習モジュール４２は、物体２１０がショベルカー、物体２２０がダンプカーであること、物体２１０の姿勢として、アーム２３０が物体２２０に向かって伸びている、バケット２４０が物体２２０に接触している、物体２２０の姿勢として、荷台２５０を傾けていないこと、物体２１０の形として、ショベルカーの概形、アーム２３０及びバケット２４０の形状、物体２２０の形として、ダンプカーの概形、荷台２５０の形状、物体２１０の方向として、物体２１０が物体２２０の方向を向いている、アーム２３０及びバケット２４０が物体２２０の方向を向いている、物体２２０の方向として、物体２２０が物体２１０と反対の方向を向いている、荷台２５０が物体２１０の方向を向いていること、背景２８０として土砂２６０、地面２７０のうち、其々の物体２１０，２２０そのもの、其々の物体２１０，２２０の姿勢、形、方向、背景２８０の少なくとも２つに関する構成要素の解析結果と、状況データとを関連付けて学習する。

また、学習モジュール４２は、画像２００に撮影された物体２１０，２２０の組み合わせ及び物体２１０，２２０間の相対位置に関する構成要素と、状況データとを関連付けて学習する。具体的には、物体２１０と物体２２０との組み合わせとして、ショベルカーとダンプカーであること及び物体２１０，２２０間の相対位置として、物体２１０と物体２２０とが近傍に位置し、特に、アーム２３０及びバケット２４０と荷台２５０とが近接していることを、画像２００に撮影された物体２１０，２２０の組み合わせ及び物体２１０，２２０間の相対位置に関する構成要素の解析結果として、状況データに関連付けて学習する。

さらに、解析結果の構成要素と、音声の認識結果と状況データとを関連付けて学習する。

例えば、学習モジュール４２は、物体２１０及び物体２２０そのものと、物体２１０及び物体２２０の姿勢とに関する構成要素の解析結果と、状況データとを関連付けて学習する場合、物体２１０としてショベルカー、物体２２０としてダンプカーと、物体２１０の姿勢として、アーム２３０が物体２２０に向かって伸びている、バケット２４０が物体２２０に接触している、物体２２０の姿勢として、荷台２５０を傾けていないこととを、状況データと関連付けて学習する。学習モジュール４２は、物体２１０及び物体２２０の姿勢と、形と、方向とに関する構成要素の解析結果と、状況データと関連付けて学習する場合、アーム２３０が物体２２０に向かって伸びている、バケット２４０が物体２２０に接触している、物体２２０の姿勢として、荷台２５０を傾けていないこと、物体２１０の形として、ショベルカーの概形、アーム２３０及びバケット２４０の形状、物体２２０の形として、ダンプカーの概形、荷台２５０の形状、物体２１０の方向として、物体２１０が物体２２０の方向を向いている、アーム２３０及びバケット２４０が物体２２０の方向を向いている、物体２２０の方向として、物体２２０が物体２１０と反対の方向を向いている、荷台２５０が物体２１０の方向を向いていることを状況データと関連付けて学習する。その他の組み合わせも同様である。

また、例えば、学習モジュール４２は、物体２１０，２２０の組み合わせ及び物体２１０，２２０間の相対位置に関する構成要素の解析結果と、状況データとを関連付けて学習する場合、物体２１０と物体２２０との組み合わせとして、ショベルカーとダンプカーであること及び物体２１０，２２０間の相対位置として、物体２１０と物体２２０とが近傍に位置し、特に、アーム２３０及びバケット２４０と荷台２５０とが近接していることを状況データと関連付けて学習する。

記録モジュール３０は、この学習結果を記録する（ステップＳ２６）。コンピュータ１０は、このようにして記録した学習結果を、後述する処理に使用する。

以上が、第二の物体状況学習処理である。

［第一の物体状況判断処理］
図５に基づいて、物体状況判断システム１が実行する第一の物体状況判断処理について説明する。図５は、コンピュータ１０が実行する第一の物体状況判断処理のフローチャートを示す図である。上述した各モジュールが実行する処理について、本処理に併せて説明する。

はじめに、画像取得モジュール２０は、動画や静止画等の画像を取得する（ステップＳ３０）。ステップＳ３０の処理は、上述したステップＳ１０の処理と同様である。

音声取得モジュール２１は、音声を取得する（ステップＳ３１）。ステップＳ３１の処理は、上述したステップＳ１１の処理と同様である。

画像解析モジュール４０は、取得した画像を画像解析する（ステップＳ３２）。ステップＳ３２において、画像解析モジュール４０は、取得した画像の特徴点を抽出する。

物体数判定モジュール４３は、抽出した特徴点に基づいて、複数の物体が画像内に撮影されているか否かを判定する（ステップＳ３３）。ステップＳ３３において、物体数判定モジュール４３は、抽出した特徴点に基づいて、この画像内に撮影された物体の個数を判定することにより、複数の物体が撮影されているか否かを判定する。

ステップＳ３３において、物体数判定モジュール４３は、複数の物体が撮影されていると判定した場合（ステップＳ３３ＹＥＳ）、コンピュータ１０は、後述する第二の物体状況判断処理を実行する。なお、本処理では、記載を簡略化するために、処理を終了するものとして説明する。

一方、ステップＳ３３において、物体数判定モジュール４３は、複数の物体が撮影されていないと判定した場合（ステップＳ３３ＮＯ）、画像解析モジュール４０は、この特徴点に基づいて、この画像の構成要素を解析する（ステップＳ３４）。ステップＳ３４の処理は、上述したステップＳ１２の処理と同様である。

図９に基づいて、画像解析モジュール４０が実行する画像解析について説明する。図９は、画像取得モジュール２０が取得する画像を模式的に示した図である。画像解析モジュール４０は、画像３００を画像解析することにより、特徴点を抽出する。画像解析モジュール４０は、特徴点を抽出することにより、この画像３００に撮影された物体３１０と、背景３６０とを特定する。画像解析モジュール４０は、この画像３００の構成要素を、抽出した特徴点に基づいて解析する。画像解析モジュール４０は、この画像３００の構成要素として、物体３１０そのもの、物体３１０の姿勢、形、方向を解析する。また、画像解析モジュール４０は、この画像３００の構成要素として、背景３６０を解析する。画像解析モジュール４０は、物体３１０そのものとして、ショベルカーであることを解析する。画像解析モジュール４０は、この物体３１０の姿勢として、アーム３２０が地面３４０に向かって伸びている、バケット３３０の爪が地面３４０に接触していることを其々解析する。画像解析モジュール４０は、この物体３１０の形として、ショベルカーの概形、アーム３２０及びバケット３３０の形状を解析する。画像解析モジュール４０は、この物体３１０の方向として、自身が向いている方向、アーム３２０の先端が向いている方向、バケット３３０が向いている方向、このバケット３３０の爪が向いている方向を解析する。画像解析モジュール４０は、画像３００の背景３６０として、地面３４０、土砂３５０を解析する。

なお、図９において、画像解析モジュール４０は、物体３１０そのもの、物体３１０の姿勢、形、方向、画像３００の背景３６０の全てを構成要素として解析しているが、上述した通り、これらのうち、少なくとも２つに関するものを構成要素として解析してもよい。例えば、画像解析モジュール４０は、物体３１０そのものと、姿勢とに関するものを構成要素として解析してもよいし、物体３１０の姿勢、形及び方向に関するものを構成要素として解析してもよいし、物体３１０そのものと画像３００の背景とに関するものを構成要素として解析してもよいし、これらの例以外の組み合わせに関するものを構成要素として解析してもよい。

また、画像解析モジュール４０は、記録モジュール３０が記録した学習結果を参照し、学習結果として記録した構成要素の組み合わせに該当する構成要素の組み合わせを解析してもよい。

また、画像解析モジュール４０は、上述した例以外のものを解析してもよい。例えば、物体３１０の姿勢、形、方向は、上述した例に限らずその他の部位やパーツ等を解析してもよい。また、画像３００の背景３６０も、上述した例に限らずその他のものを解析してもよい。

音声認識モジュール４１は、取得した音声を音声認識する（ステップＳ３５）。ステップＳ３５の処理は、上述したステップＳ１３の処理と同様である。

比較モジュール４４は、今回解析した画像及び音声における構成要素と、記録モジュール３０が記録する学習結果における構成要素とを比較する（ステップＳ３６）。ステップＳ３６において、解析結果である物体そのもの、物体の姿勢、形、方向、画像の背景、音声に関する構成要素と、学習結果における物体そのもの、物体の姿勢、形、方向、画像の背景、音声に関する構成要素とを比較する。このとき、学習結果における構成要素の組み合わせに該当する解析結果である物体そのもの、物体の姿勢、形、方向、画像の背景、音声の組み合わせと、学習結果における構成要素の組み合わせとを比較する。すなわち、比較モジュール４４は、学習結果における構成要素が、物体そのもの、物体の姿勢に関するものである場合、解析結果における物体そのもの、物体の姿勢に関する構成要素を比較する。比較モジュール４４は、他の構成要素の組み合わせも同様に比較する。

なお、比較モジュール４４は、音声に関する構成要素を除外して、今回解析した画像における構成要素と、記録モジュール３０が記録する学習結果における構成要素とを比較する構成であってもよい。

比較モジュール４４は、比較した結果、構成要素の組み合わせと、類似又は同一であるか否かを判定する（ステップＳ３７）。ステップＳ３７において、比較モジュール４４は、今回の構成要素の解析結果と、学習結果における構成要素とを比較し、其々の構成要素の組み合わせが類似又は同一であるか否かを判定する。比較モジュール４４が実行する類似又は同一であるか否かの判定としては、例えば、構成要素の一致率を用い、この一致率が所定の割合以上であるか否かに基づくものである。例えば、類似である場合、比較モジュール４４は、解析結果における構成要素と、学習結果における構成要素との一致率が７５％を超過する場合、類似するものと判定する。一致である場合、比較モジュール４４は、解析結果における構成要素と、学習結果における構成要素との一致率が９０％を超過する場合、一致するものと判定する。

上述した図９において、比較モジュール４４は、物体３１０そのものとして、ショベルカー、この物体３１０の姿勢として、アーム３２０が地面３４０に向かって伸びている、バケット３３０の爪が地面３４０に接触している、この物体３１０の形として、ショベルカーの概形、アーム３２０及びバケット３３０の形状、この物体３１０の方向として、自身が向いている方向、アーム３２０の先端が向いている方向、バケット３３０が向いている方向、このバケット３３０の爪が向いている方向、画像３００の背景３６０として、地面３４０、土砂３５０と、学習結果における構成要素との一致率を判定する。

ステップＳ３７において、比較モジュール４４は、構成要素の組み合わせと類似又は同一ではないと判定した場合（ステップＳ３７ＮＯ）、推測モジュール４５は、この物体の状況を推測できないと判定し、本処理を終了する。

なお、コンピュータ１０は、物体の状況を推測できなかった旨の通知を、ユーザ端末等に通知させる構成であってもよい。さらに、コンピュータ１０は、上述したステップＳ１４−１６の処理を今回取得した画像に対して実行することにより、学習精度を向上させ、物体の状況を推測する精度を向上させてもよい。このとき、コンピュータ１０は、物体の状況を推測できなかった旨の通知とともに、状況データの入力を促す通知を行うことにより、これらの処理を実行するようにしてもよい。

一方、ステップＳ３７において、比較モジュール４４は、構成要素の組み合わせと類似又は同一であると判定した場合（ステップＳ３７ＹＥＳ）、推測モジュール４５は、学習結果に基づいて、物体の状況を推測する（ステップＳ３８）。ステップＳ３８において、推測モジュール４５は、今回の解析結果の組み合わせと類似又は同一の構成要素の組み合わせに関連付けられた学習結果における状況データを、今回の画像に撮影された物体の状況として推測する。推測モジュール４５は、今回の場合、上述した物体３１０そのもの、物体３１０の姿勢、形、方向、背景と同一又は類似する学習結果における状況データとして、「ショベルカーが建設現場で地面を掘削している」を、画像の状況として推測する。

なお、推測モジュール４５は、物体の状況として、複数の状況を推測した場合、其々の一致率に応じて、其々の状況の可能性の割合とともに、推測してもよい。

通知モジュール２３は、この推測結果を、ユーザに通知する（ステップＳ３９）。ステップＳ３９において、通知モジュール２３は、この推測結果を、ユーザ端末に出力する。ユーザ端末は、この推測結果を、自身の表示部等に表示又は音声により放音する。このようにすることにより、通知モジュール２３は、推測結果をユーザに通知する。

なお、通知モジュール２３は、複数の状況を推測した場合、各状況と、各状況の可能性の割合とを自身の表示部等に表示又は音声により放音してもよい。

以上が、第一の物体状況判断処理である。

［第二の物体状況判断処理］
図６に基づいて、物体状況判断システム１が実行する第二の物体状況判断処理について説明する。図６は、コンピュータ１０が実行する第二の物体状況判断処理のフローチャートを示す図である。上述した各モジュールが実行する処理について、本処理に併せて説明する。

第一の物体状況判断処理と、第二の物体状況判断処理との相違点は、第一の物体状況判断処理が、画像に撮影された物体が１つであるのに対して、第二の物体状況判断処理が画像に撮影された物体が２つ以上である点である。

はじめに、画像取得モジュール２０は、動画や静止画等の画像を取得する（ステップＳ４０）。ステップＳ４０の処理は、上述したステップＳ１０の処理と同様である。

音声取得モジュール２１は、音声を取得する（ステップＳ４１）。ステップＳ４１の処理は、上述したステップＳ１１の処理と同様である。

なお、ステップＳ４１の処理は、省略可能である。この場合、コンピュータ１０は、後述する処理において、音声に関連する処理を省略すればよい。

画像解析モジュール４０は、取得した画像を画像解析する（ステップＳ４２）。ステップＳ４２において、画像解析モジュール４０は、取得した画像の特徴点を抽出する。

物体数判定モジュール４３は、抽出した特徴点に基づいて、複数の物体が画像内に撮影されているか否かを判定する（ステップＳ４３）。ステップＳ４３の処理は、上述したステップＳ３３の処理と同様である。

ステップＳ４３において、物体数判定モジュール４３は、複数の物体が撮影されていないと判定した場合（ステップＳ４３ＮＯ）、コンピュータ１０は、上述した第一の物体状況判断処理を実行する。なお、本処理では、記載を簡略化するために、処理を終了するものとして説明する。

一方、ステップＳ４３において、物体数判定モジュール４３は、複数の物体が撮影されていると判定した場合（ステップＳ４３ＹＥＳ）、画像解析モジュール４０は、この特徴点に基づいて、この画像の構成要素を解析する（ステップＳ４４）。ステップＳ４４の処理は、上述したステップＳ１２の処理と同様である。

図１０に基づいて、画像解析モジュール４０が実行する画像解析について説明する。図１０は、画像取得モジュール２０が取得する画像を模式的に示した図である。画像解析モジュール４０は、画像４００を画像解析することにより、特徴点を抽出する。画像解析モジュール４０は、特徴点を抽出することにより、この画像４００に撮影された物体４１０，４２０と、背景４８０とを特定する。画像解析モジュール４０は、この画像４００の構成要素を抽出した特徴点に基づいて解析する。画像解析モジュール４０は、この画像４００の構成要素として、物体４１０そのもの、物体４１０の姿勢、形、方向を解析する。また、画像解析モジュール４０は、この画像４００の構成要素として、物体４２０そのもの、物体４２０の姿勢、形、方向を解析する。また、画像解析モジュール４０は、この画像４００の構成要素として、背景４８０を解析する。

画像解析モジュール４０は、物体４１０そのものとして、ショベルカーであることを解析する。画像解析モジュール４０は、物体４１０の姿勢として、アーム４３０が物体４２０に向かって伸びている、バケット４４０が物体４２０に接触していることを其々解析する。画像解析モジュール４０は、物体４１０の形として、ショベルカーの概形、アーム４３０及びバケット４４０の形状を解析する。画像解析モジュール４０は、物体４１０の方向として、物体４１０が物体４２０の方向を向いている、アーム４３０及びバケット４４０が物体４２０の方向を向いていると解析する。

また、画像解析モジュール４０は、物体４２０がダンプカーであると解析する。画像解析モジュール４０は、物体４２０の姿勢として、荷台４５０を傾けていないことを解析する。画像解析モジュール４０は、物体４２０の形として、ダンプカーの概形、荷台４５０の形状を解析する。画像解析モジュール４０は、物体４２０の方向として、物体４２０が物体４１０と反対の方向を向いている、荷台４５０が物体４１０の方向を向いていることを解析する。

また、画像解析モジュール４０は、この画像４００に撮影された背景４８０として、土砂４６０、地面４７０を解析する。

また、画像解析モジュール４０は、物体４１０と物体４２０との組み合わせとして、ショベルカーとダンプカーとの組み合わせであることを解析する。さらに、画像解析モジュール４０は、物体４１０と物体４２０との相対位置として、物体４１０と物体４２０とが近傍に位置し、特に、アーム４３０及びバケット４４０と荷台４５０とが近接していることを解析する。

なお、図１０において、画像解析モジュール４０は、物体４１０，４２０そのもの、物体４１０，４２０の姿勢、形、方向、画像４００の背景４８０の全てを構成要素として解析しているが、上述した通り、これらのうち、少なくとも２つに関するものを構成要素として解析してもよい。例えば、画像解析モジュール４０は、物体４１０，４２０そのものと、物体４１０，４２０の其々の姿勢とに関するものを構成要素として解析してもよいし、物体４１０，４２０の其々の姿勢、形及び方向に関するものを構成要素として解析してもよいし、物体４１０，４２０そのものと画像４００の背景４８０とに関するものを構成要素として解析してもよいし、これらの例以外の組み合わせに関するものを構成要素として解析してもよい。

また、画像解析モジュール４０は、上述した例以外のものを解析してもよい。例えば、物体４１０，４２０の姿勢、形、方向は、上述した例に限らずその他の部位やパーツ等を解析してもよい。また、画像４００の背景４８０も、上述した例に限らずその他のものを解析してもよい。また、物体の組み合わせ及び物体間の相対位置も、上述した例に限らずその他のものを解析してもよい。

音声認識モジュール４１は、取得した音声を音声認識する（ステップＳ４５）。ステップＳ４５の処理は、上述したステップＳ１３の処理と同様である。

比較モジュール４４は、今回解析した画像及び音声における構成要素と、記録モジュール３０が記録する学習結果における構成要素とを比較する（ステップＳ４６）。ステップＳ４６において、比較モジュール４４は、解析結果である其々の物体そのもの、其々の物体の姿勢、形、方向、画像の背景、其々の音声に関する構成要素と、学習結果における其々の物体そのもの、其々の物体の姿勢、形、方向、画像の背景、音声に関する構成要素とを比較する。このとき、学習結果における構成要素の組み合わせに該当する解析結果である物体そのもの、其々の物体の姿勢、形、方向、画像の背景、音声の組み合わせと、学習結果における構成要素の組み合わせとを比較する。すなわち、比較モジュール４４は、学習結果における構成要素が、物体そのもの、物体の姿勢に関するものである場合、解析結果における物体そのもの、物体の姿勢に関する構成要素を比較する。比較モジュール４４は、他の構成要素の組み合わせも同様に比較する。

また、比較モジュール４４は、解析結果である物体の組み合わせ及び物体間の相対位置に関する構成要素と、学習結果における物体の組み合わせ及び物体間の相対位置に関する構成要素とを比較する。

比較モジュール４４は、比較した結果、構成要素の組み合わせと、類似又は同一であるか否かを判定する（ステップＳ４７）。ステップＳ４７の処理は、上述したステップＳ３７の処理と同様である。

上述した図１０において、比較モジュール４４は、物体４１０そのものとして、ショベルカー、物体４１０の姿勢として、アーム４３０が物体４２０に向かって伸びている、バケット４４０が物体４２０に接触している、物体４１０の形として、ショベルカーの概形、アーム４３０及びバケット４４０の形状、物体４１０の方向として、物体４１０が物体４２０の方向を向いている、アーム４３０及びバケット４４０が物体４２０の方向を向いていると、物体４２０がダンプカー、物体４２０の姿勢として、荷台４５０を傾けていない、物体４２０の形として、ダンプカーの概形、荷台４５０の形状、物体４２０の方向として、物体４２０が物体４１０と反対の方向を向いている、荷台４５０が物体４１０の方向を向いていることと、画像４００に撮影された背景４８０として、土砂４６０、地面４７０と、学習結果における構成要素との一致率を判定する。

また、比較モジュール４４は、物体４１０と物体４２０との組み合わせとして、ショベルカーとダンプカーとの組み合わせ、物体４１０と物体４２０との相対位置として、物体４１０と物体４２０とが近傍に位置し、特に、アーム４３０及びバケット４４０と荷台４５０とが近接していることと、学習結果における構成要素との一致率を判定する。

ステップＳ４７において、比較モジュール４４は、構成要素の組み合わせと類似又は同一ではないと判定した場合（ステップＳ４７ＮＯ）、推測モジュール４５は、この物体の状況を推測できないと判定し、本処理を終了する。

なお、コンピュータ１０は、物体の状況を推測できなかった旨の通知を、ユーザ端末等に通知させる構成であってもよい。さらに、コンピュータ１０は、上述したステップＳ２４−２６の処理を今回取得した画像に対して実行することにより、学習精度を向上させ、物体の状況を推測する精度を向上させてもよい。このとき、コンピュータ１０は、物体の状況を推測できなかった旨の通知とともに、状況データの入力を促す通知を行うことにより、これらの処理を実行するようにしてもよい。

一方、ステップＳ４７において、比較モジュール４４は、構成要素の組み合わせと類似又は同一であると判定した場合（ステップＳ４７ＹＥＳ）、推測モジュール４５は、学習結果に基づいて、物体の状況を推測する（ステップＳ４８）。ステップＳ４８において、推測モジュール４５は、今回の解析結果の組み合わせと類似又は同一の構成要素の組み合わせに関連付けられた学習結果における状況データを、今回の画像に撮影された物体の状況として推測する。推測モジュール４５は、今回の場合、上述した其々の物体４１０，４２０そのもの、其々の物体４１０，４２０の姿勢、形、方向、背景４８０と同一又は類似する学習結果における状況データとして、物体４１０の状況として「ショベルカーが、建設現場で、地面を掘削している」、「掘削した土砂を積み込んでいる」、物体４２０の状況として、「ダンプカーが、建設現場で、土砂を積み込まれている」、物体４１０及び物体４２０の全体としての状況として、「建設現場で、ショベルカーが掘削した土砂を、ダンプカーに積み込んでいる」ことを、画像の状況として推測する。

なお、推測モジュール４５は、其々の物体の状況として、複数の状況を推測した場合、其々の一致率に応じて、其々の状況の可能性の割合とともに、推測してもよい。

通知モジュール２３は、この推測結果を、ユーザに通知する（ステップＳ４９）。ステップＳ４９の処理は、上述したステップＳ３９の処理と同様である。

以上が、第二の物体状況判断処理である。

上述した手段、機能は、コンピュータ（ＣＰＵ、情報処理装置、各種端末を含む）が、所定のプログラムを読み込んで、実行することによって実現される。プログラムは、例えば、コンピュータからネットワーク経由で提供される（ＳａａＳ：ソフトウェア・アズ・ア・サービス）形態で提供される。また、プログラムは、例えば、フレキシブルディスク、ＣＤ（ＣＤ−ＲＯＭなど）、ＤＶＤ（ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭなど）等のコンピュータ読取可能な記録媒体に記録された形態で提供される。この場合、コンピュータはその記録媒体からプログラムを読み取って内部記録装置又は外部記録装置に転送し記録して実行する。また、そのプログラムを、例えば、磁気ディスク、光ディスク、光磁気ディスク等の記録装置（記録媒体）に予め記録しておき、その記録装置から通信回線を介してコンピュータに提供するようにしてもよい。

以上、本発明の実施形態について説明したが、本発明は上述したこれらの実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。

１物体状況判断システム、１０コンピュータ

Claims

画像を取得する画像取得手段と、
取得した前記画像内に撮影された物体、当該物体の姿勢、形、方向、撮影された画像の背景の少なくとも２つに関する構成要素を、当該画像内の特徴点を抽出して解析する解析手段と、
前記物体がどのような状況であるかを示す作業内容、動作、作業場所の何れかを含む状況データを取得する状況取得手段と、
前記構成要素の組み合わせと、取得した前記状況データとを関連付けて学習する学習手段と、
所定の画像に対して解析した結果が、前記構成要素の組み合わせと類似又は同一の場合、前記状況データの学習結果に基づいて、前記物体の状況を推測する推測手段と、
を備えることを特徴とするコンピュータシステム。
前記画像内に複数の物体が撮影されている場合、
前記解析手段は、前記複数の物体其々を画像解析し、解析した物体の姿勢、形、方向、撮影された画像の背景を、構成要素として、前記画像内の特徴点を抽出して解析し、
前記推測手段は、前記複数の物体が全体として何を行っているかを推測する、
ことを特徴とする請求項１に記載のコンピュータシステム。
前記画像内に複数の物体が撮影されている場合、
前記解析手段は、前記複数の物体の組み合わせ及び物体間の相対位置を併せて構成要素として、前記画像内の特徴点を抽出して解析する、
ことを特徴とする請求項１に記載のコンピュータシステム。
コンピュータシステムが実行する物体状況判断方法であって、
画像を取得するステップと、
取得した前記画像内に撮影された物体、当該物体の姿勢、形、方向、撮影された画像の背景の少なくとも２つに関する構成要素を、当該画像内の特徴点を抽出して解析するステップと、
前記物体がどのような状況であるかを示す作業内容、動作、作業場所の何れかを含む状況データを取得するステップと、
前記構成要素の組み合わせと、取得した前記状況データとを関連付けて学習するステップと、
所定の画像に対して解析した結果が、前記構成要素の組み合わせと類似又は同一の場合、前記状況データの学習結果に基づいて、前記物体の状況を推測するステップと、
を備えることを特徴とする物体状況判断方法。
コンピュータシステムに、
画像を取得するステップ、
取得した前記画像内に撮影された物体、当該物体の姿勢、形、方向、撮影された画像の背景の少なくとも２つに関する構成要素を、当該画像内の特徴点を抽出して解析するステップ、
前記物体がどのような状況であるかを示す作業内容、動作、作業場所の何れかを含む状況データを取得するステップ、
前記構成要素の組み合わせと、取得した前記状況データとを関連付けて学習するステップ、
所定の画像に対して解析した結果が、前記構成要素の組み合わせと類似又は同一の場合、前記状況データの学習結果に基づいて、前記物体の状況を推測するステップ、
を実行させるためのコンピュータ読み取り可能なプログラム。