JP7459679B2

JP7459679B2 - 行動認識方法、行動認識プログラム及び行動認識装置

Info

Publication number: JP7459679B2
Application number: JP2020107485A
Authority: JP
Inventors: 孝広齊藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2024-04-02
Anticipated expiration: 2040-06-23
Also published as: US11538174B2; JP2022003434A; US20210398297A1; CN113836990A

Description

本発明は、行動認識方法、行動認識プログラム及び行動認識装置に関する。

映像から行動を認識する技術が知られている。例えば、複雑な行動を構成する要素となる基本動作の組合せが定義されたルールにしたがって映像の基本動作の認識結果から目的とする行動を認識するものがある。

特開２０１８－１４７１５３号公報特開２００５－２０２６５３号公報

しかしながら、認識対象とする行動には、大量のバリエーションが存在し得る。それ故、上記の技術では、ルールの作成時点で目的とする行動の認識漏れがないルールの作成は困難である。

１つの側面では、本発明は、運用に即したルールの更新を実現できる行動認識方法、行動認識プログラム及び行動認識装置を提供することを目的とする。

一態様の行動認識方法では、映像のフレームごとに複数の関節の位置を含む骨格情報を抽出し、前記骨格情報から第１動作特徴量を算出し、認識対象とする上位行動に関する第２動作特徴量が観測され得る範囲が前記上位行動ごとにマッピングされた複数のマッピング領域を有する特徴量空間に前記第１動作特徴量をプロットすることで、前記特徴量空間に対して前記第１動作特徴量がプロットされた位置であるプロット位置を算出し、前記複数のマッピング領域それぞれと前記プロット位置との距離のうち最小距離の他の距離に対する乖離度が所定の基準を満たす場合、前記プロット位置から前記最小距離にあるマッピング領域を前記プロット位置に基づいて拡張する更新を実行する、処理をコンピュータが実行する。

運用に即したルールの更新を実現できる。

図１は、実施例１に係る行動認識サービスの一例を示す図である。図２は、判定条件データの一例を示す図である。図３は、映像の一例を示す図である。図４は、映像の一例を示す図である。図５は、特徴量空間の一例を示す図である。図６は、第２ルールの更新方法の一例を示す模式図である。図７は、実施例１に係る行動認識装置の機能的構成の一例を示すブロック図である。図８は、第２ルールの一例を示す図である。図９は、第２ルールの他の一例を示す図である。図１０は、分析結果の一例を示す図である。図１１は、分析結果の一例を示す図である。図１２は、実施例１に係るルール変換処理の手順を示すフローチャートである。図１３は、実施例１に係るルール更新処理の手順を示すフローチャートである。図１４は、上位行動の認識結果の補正例を示す図である。図１５は、コンピュータのハードウェア構成例を示す図である。

以下に添付図面を参照して本願に係る行動認識方法、行動認識プログラム及び行動認識装置について説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

［行動認識サービスの一例］
図１は、実施例１に係る行動認識サービスの一例を示す図である。図１に示す行動認識サービス１は、カメラ２の映像から被写体、例えば人の行動を認識するサービスを提供するものである。このような行動認識サービス１では、あくまで一例として、複数の動作が組み合わさることで複雑化する上位行動、例えば作業行動や不審行動、購買行動などが認識対象とされる。

上記の行動認識サービス１を除けば、「上位行動」の認識には、その行動が含まれる映像などを学習データとして大量に準備する必要がある。このような大量の学習データの準備は実質的に困難であったり、あるいは大量の学習データの準備ができたとしても時間と手間がかかったりといった一面があるので、現場への導入が困難である側面がある。

このような大量の学習データの準備を不要化する側面から、上記の行動認識サービス１では、日常の生活で行われる「基本動作」の組合せが規定されたルールにしたがって上位行動を認識する。

図１に示すように、行動認識サービス１には、オブジェクト認識機能３、基本動作認識機能４、上位行動認識機能５などが含まれ得る。

オブジェクト認識機能３は、カメラ２により撮像される映像からオブジェクトを認識する機能である。ここで言う「オブジェクト」とは、行動認識の対象とする映像の被写体を指し、例えば、行動認識の対象とする人が含まれ得る。人以外にも、オブジェクトには、行動認識に関連する物体、例えば人が使用する道具や環境に配置される備品、商品あるいは設備なども含まれてもよい。あくまで一例として、オブジェクト認識機能３は、映像のフレームごとにオブジェクトを認識する。その上で、オブジェクト認識機能３は、オブジェクトに骨格検出、あるいは姿勢検出（姿勢推定）とも呼ばれる処理を行うことにより、各関節の位置を含む骨格情報を抽出する。

基本動作認識機能４は、各フレームの骨格情報から基本動作を認識する機能である。ここで言う「基本動作」には、人の全身に動きが現れる「全身行動」や人の身体の一部に動きが現れる「部分行動」などが含まれ得る。このうち、「全身行動」の例として、「歩く」や「走る」、「止まっている」などの行動が挙げられる。また、「部分行動」の例として、「右手を上げる」や「下を向く」、「前を向く」などの行動が挙げられる。これら「全身行動」や「部分行動」は、日常で行われる「基本動作」であるので、「上位行動」に比べれば単純な動作である。それ故、「基本動作」はその映像の収集が容易であると共に、学習済みのモデルにより高精度な認識を実現し得る。さらに、「基本動作」には、「物を持つ」、「物を見る」といった対象物に対する動作、さらには、「映像中の関心領域、いわゆるＲＯＩ（Region of Interest）への身体部位が入る」といった場所に対する動作が含まれ得る。

このような「基本動作」の認識には、映像のフレーム単位で関節間の位置関係から姿勢を表す特徴量として算出される姿勢特徴量やその時間変化情報を用いることができる。以下、「姿勢特徴量」および「時間変化情報」のことを合わせて「動作特徴量」と記載する場合がある。なお、ここでは、あくまで一例として、基本動作の認識に特徴量を用いる例を挙げるが、ディープラーニング等の機械学習のアルゴリズムにしたがって基本動作が学習済みであるモデルによっても実現され得る。

図２は、判定条件データの一例を示す図である。図２に示すように、判定条件データ４Ａは、基本動作を識別する識別情報の一例である「基本動作ＩＤ（IDentification）」ごとに姿勢特徴量および時間変化情報の２種類の動作特徴量の判定条件が定義される。より具体的には、判定条件データ４Ａには、基本動作ＩＤごとに動作名、動作種別および判定条件が対応付けられたデータが採用される。ここで言う「動作名」は、基本動作の名称を指す。また、「動作種別」は、基本動作を分類する種類を指し、ここでは、あくまで一例として、動作が「継続」または「瞬間」の２種類のうちいずれに該当するのかにより分類される。例えば、「～ている」と「～する」とが表す状況が同一である動作は「継続」に分類される。また、「～ている」でその動作の終了状態、例えば結果や完了を意味する動作は「瞬間」に分類される。このような分類は、「瞬間」の基本動作を次のような弁別を可能にする。例えば、「しゃがんでいる」という状態の認識を目的とする場合、姿勢特徴量が判定条件を満たすか否かを判定し、また、「しゃがむ」という姿勢変化の認識を目的とする場合、時間変化情報が判定条件を満たすか否かを判定するといった用途が可能となる。

例えば、図２に示す基本動作のうち全身行動を例に挙げる。全身行動のうち動作種別が「継続」に分類される基本動作には、「歩く」および「走る」が含まれる。例えば、基本動作「歩く」は、全身の関節の位置が姿勢“walk”に該当し、かつ全身の関節の位置の移動速度が４．０以下であるといった判定条件を満たすか否かにより認識される。このように複数の関節の位置の移動速度が用いられる場合、平均値や中央値、最頻値などの統計値を閾値と比較する代表値として用いることができる。また、基本動作「走る」は、全身の関節の位置が姿勢“run”に該当し、かつ全身の関節の位置の移動速度が４．０を超えるといった判定条件を満たすか否かにより認識される。

また、全身行動のうち動作種別が「瞬間」に分類される基本動作には、「しゃがむ」および「座る」が含まれる。このうち、基本動作「しゃがむ」を例に挙げると、「しゃがんでいる」という状態が認識される場合、姿勢特徴量の判定条件が適用される一方で、「しゃがむ」という姿勢変化が認識される場合、時間変化情報の判定条件が適用される。例えば、「しゃがんでいる」という状態は、全身の関節の位置が姿勢“squat”に該当するか否かにより認識される。一方、「しゃがむ」という姿勢変化は、全身の姿勢特徴量の状態変化の有無により判定される。すなわち、全身の関節の位置が姿勢“squat”に該当しない状態から全身の関節の位置が姿勢“squat”に該当する状態へ変化したか否かにより、「しゃがむ」という姿勢変化が認識される。

次に、図２に示す基本動作のうち部分行動の一例として「右手を前に伸ばす」および「左手を前に伸ばす」が含まれる。このうち、基本動作「右手を前に伸ばす」を例に挙げると、「右手を前に伸ばしている」という状態は、右肘の曲がり角が１５０度を超え、かつ右手首の相対位置が“front”であるか否かにより認識される。また、「右手を前に伸ばす」という姿勢変化は、右肘の曲がり角が１５０度以下である状態、あるいは右手首の相対位置が“front”でない状態から、右肘の曲がり角が１５０度を超え、かつ右手首の相対位置が“front”である状態へ変化したか否かにより認識される。

さらに、図２に示す基本動作のうち部分行動の一例として「上半身を動かす」、「足をばたつかせる」、「キョロキョロする」および「ウロウロする」が含まれる。例えば、基本動作「上半身を動かす」は、上半身の姿勢変化量の閾値判定により認識される。また、基本動作「足をばたつかせる」は、下半身の姿勢変化量の閾値判定により認識される。また、基本動作「キョロキョロする」は、頭部の向きの変化量の閾値判定により認識される。また、基本動作「ウロウロする」は、移動方向の変化量の閾値判定により認識される。

上位行動認識機能５は、上位行動を認識する機能である。あくまで一例として、上位行動認識機能５は、基本動作の認識結果と、ルール７とを照合し、ルール７を満たす場合、目的とする上位行動が認識される。

あくまで一例として、ルール７には、ＩＦ－ＴＨＥＮ形式で認識対象とする上位行動に対応する基本動作の組合せが定義され得る。ＩＦ－ＴＨＥＮ形式で基本動作の組合せを定義する場合、ＡＮＤやＯＲなどの論理演算を採用することができる。例えば、「ＩＦ基本動作Ａ＆基本動作ＢＴＨＥＮ上位行動Ｘ」と記述された場合、基本動作Ａおよび基本動作Ｂが同時に認識された場合、上位行動Ｘと認識する。この他、基本動作の組合せパターンには、連鎖、すなわち行動のシーケンスを採用することもできる。例えば、「ＩＦ基本動作Ａ→基本動作ＢＴＨＥＮ上位行動Ｙ」と記述された場合、基本動作Ａが認識された後に基本動作Ｂが認識された場合、これら一連の動作を上位行動Ｙと認識する。

ここで、上記の行動認識サービス１では、システム定義のみならず、ユーザ定義によりルール７を設定させることができる。例えば、上記の行動認識サービス１を提供する事業者側のシステムエンジニアや上記の行動認識サービス１の顧客などのユーザＵにルール７を編集させることにより、ユーザＵによるカスタマイズが可能である。

［行動認識サービスの適用例］
次に、本実施例に係る行動認識サービス１の適用例について説明する。あくまで一例として、本実施例に係る行動認識サービス１が食品工場の現場で行われる「選別作業」、「回収作業」、「空トレイ設置」および「トレイ運搬」の４種類の作業の分析、例えば生産性および作業時間内訳の提示に適用される例を挙げる。

図３は、映像の一例を示す図である。図３には、あくまで一例として、作業者Ｗ１が「選別作業」を行う様子が撮像された映像２０が示されている。さらに、図３には、「選別作業」が行われるＡテーブルに設定されるＲＯＩと、「回収作業」および「空トレイ設置」が行われるＡトレイに設定されるＲＯＩとが太線で示されている。図３に示すように、「選別作業」では、カット後のタマネギが置かれたＡテーブル上でタマネギに混じった皮などのゴミが除去された上でタマネギが選別される。続いて、「回収作業」では、選別されたタマネギが空トレイ上のビニール袋へ重量計測器ｍ１の計測値が所定の値に達するまで回収される。そして、「空トレイ設置」では、タマネギ回収済みのトレイが縦方向へ積み重ねられると共にビニール袋が広げられた空トレイが新たに設置される。その後、「トレイ運搬」では、所定の段数まで積み重ねられたトレイが所定の収集場所まで運搬される。

［課題の一側面］
上記の背景技術の欄でも説明した通り、認識対象とする行動には、大量のバリエーションが存在し得る。それ故、ルールの作成時点で目的とする行動の認識漏れがないルールの作成は困難である。

上記の課題を説明する側面から、目的とする上位行動として「トレイ運搬」が認識される場合における認識漏れの発生事例を挙げる。図４は、映像の一例を示す図である。図４には、あくまで一例として、作業者Ｗ１が「トレイ運搬」を行う様子が撮像された映像２１が示されている。さらに、図４には、作業者Ｗ１がオブジェクトとして認識された領域、例えばバウンディングボックスが太線で示されている。例えば、図４に示す映像２１から上位行動「トレイ運搬」を認識するルールの一例として、下記の（Ｒ１）に示すＩＦ－ＴＨＥＮルールを記述することができる。

上位行動「トレイ運搬」：ＩＦ基本動作「両手を前に伸ばす」＆基本動作「歩く」ＴＨＥＮ行動＝「トレイ運搬」・・・（Ｒ１）

しかしながら、上記のＩＦ－ＴＨＥＮルールでは、「肘を曲げた状態で」、「片手で」、あるいは「バックする」といった動作パターンでトレイが運搬される場合、上位行動「トレイ運搬」と認識できず、認識漏れが発生する。なぜなら、図３の映像２１に示された動作パターンも「トレイ運搬」の１つの態様ではあるが、それが「トレイ運搬」の全てではなく、「トレイ運搬」の動作パターンには大量のバリエーションが存在し得るからである。すなわち、「トレイ運搬」の動作パターンには、肘を伸ばさない、両手でない、さらには、前進しないといったバリエーションが存在し得る。このようなバリエーションの全てをルールの作成時点で網羅するのは困難であるので、認識漏れのないルールを作成するのは困難である。

［課題解決のアプローチの一側面］
そこで、本実施例に係る行動認識サービス１では、（イ）運用中に上位行動の認識漏れを検知し、（ロ）認識漏れの動作パターンを上位行動として認識するルールの更新を行うアプローチを採用する。

ここで、ルールの一例として挙げたＩＦ－ＴＨＥＮルールは、基本動作の組合せで記述されるので、可読性が高い一面を有するが、（イ）認識漏れの検知や（ロ）ルール更新の自動化には不向きな一面を有する。

すなわち、基本動作の認識結果とルールとの照合の結果、限り限りまたは紙一重で上位行動と認識されなかった事例を認識漏れとみなすことができれば（イ）認識漏れの検知を実現し得るが、そのような事例の評価はＩＦ－ＴＨＥＮルールでは困難である。例えば、上位行動「トレイ運搬」の認識漏れの例で言えば、「両手を伸ばす」と、「片手のみを伸ばす」との違いを定量的に数値化することは困難である上、認識対象とする上位行動によって異なる。このため、ＩＦ－ＴＨＥＮルールの下で（イ）認識漏れの検知を実現するのは現実的でない。

また、１つの動作パターンを上位行動として認識させるルール更新の方法は、１つとは限らず、多数存在し得るので、（ロ）ルール更新の方法を適切に決めることも困難である。例えば、上位行動「トレイ運搬」の認識漏れの例で言えば、「両手を伸ばす」ｏｒ「片手を伸ばす」といった論理和をとるといったルール更新で認識漏れを抑止するアプローチが挙げられる。この他、基本動作の認識において「両手を伸ばす」の判定条件に用いる閾値を１５０度よりも緩めるといったルール更新で認識漏れを抑止するアプローチも挙げられる。どちらのルール更新、あるいは両方のルール更新を実施するのが妥当であるかは図３に示された映像２１のみでは確定できない。

これらのことから、本実施例に係る行動認識サービス１では、特徴量空間の下で（イ）認識漏れの検知および（ロ）ルール更新を実現する。

上記の特徴量空間は、次のようにして作成できる。あくまで一例として、認識対象とする上位行動ごとに当該上位行動に対応する基本動作の組合せから各基本動作の認識に用いられる動作特徴量を抽出する。例えば、４種類の上位行動のうち「トレイ運搬」を例に挙げれば、上記（Ｒ１）に示す通り、基本動作「両手を前に伸ばす」および基本動作「歩く」の認識に用いる動作特徴量が図２に示す判定条件データ４Ａから検索される。これによって、「左肘と右肘の曲がり角の最小値」および「移動速度」の２種類の動作特徴量が抽出される。この際、動作特徴量「左肘と右肘の曲がり角の最小値」は、「両手を前に伸ばす」→「右肘曲がり角」＆「左肘曲がり角」→「右肘曲がり角」と「左肘曲がり角」の最小値といった論理演算で自動的に抽出できる。

このように認識対象とする上位行動ごとに抽出された動作特徴量は、その全てがベクトル表現され得る特徴量空間の作成に用いることもできるが、必ずしも全ての動作特徴量を特徴量空間の作成に用いずともよい。例えば、決定木や線形判別分析などに代表される特徴量選択のアルゴリズムにしたがって各上位行動を区別できる動作特徴量に絞り込むこともできる。

以下の説明では、あくまで一例として、「選別作業」、「回収作業」、「空トレイ設置」および「トレイ運搬」の４種類の上位行動を区別できる動作特徴量として、「移動速度」および「上半身姿勢変化量」が選択された例を挙げる。さらに、以下では、各種の基本動作の認識に用いられる動作特徴量の中でも特徴量空間の定義に用いる動作特徴量として選択されたもののことを「選択特徴量」と記載する場合がある。

このように作成された特徴量空間には、「選別作業」、「回収作業」、「空トレイ設置」および「トレイ運搬」の４種類の上位行動ごとに当該上位行動が所定の特徴量空間上で観測され得る範囲がマッピングされる。

ここで、上位行動の観測範囲のマッピングは、あくまで一例として、上位行動が観測される映像、例えばルールの作成時に参照される参照映像を用いて自動化できる。この場合、参照映像のうち上位行動が観測される区間で算出される選択特徴量の最大値および最小値が抽出される。例えば、上位行動の認識が１０秒ごとに直近の１０秒間の基本動作の認識結果を用いて行われる場合、当該上位行動が認識された時点から直近の１０秒間で算出された選択特徴量の最大値および最小値が抽出される。このように抽出された選択特徴量の最大値および最小値を境界とする上位行動の観測範囲が特徴量空間上へ上位行動ごとにマッピングされる。

このように、上位行動の観測範囲が特徴量空間上にマッピングされることで、上位行動を認識するルールをＩＦ－ＴＨＥＮ形式の記述から特徴量空間上の動作特徴量の記述へ変換することができる。以下、ＩＦ－ＴＨＥＮ形式で認識対象とする上位行動に対応する基本動作の組合せが定義されたルールと、特徴量空間上に上位行動の観測範囲のマッピング領域が定義されたルールとを区別する。この側面から、前者のことを「第１ルール」と記載すると共に、後者のことを「第２ルール」と記載する場合がある。

このような特徴量空間が作成された状況の下、本実施例に係る行動認識サービス１の運用が開始される。本実施例に係る行動認識サービス１は、運用中に基本動作の認識時に算出される動作特徴量のうち選択特徴量を特徴量空間上へプロットする。そして、本実施例に係る行動認識サービス１は、運用中の選択特徴量のプロット位置が上位行動の観測範囲のマッピング領域のいずれにも含まれない場合、マッピング領域ごとに当該マッピング領域およびプロット位置の間の距離を算出する。

ここで、本実施例に係る行動認識サービス１は、マッピング領域ごとに算出された距離のうち、最小距離の他の距離に対する乖離度が所定の基準を満たすか否かを判定する。このとき、最小距離の他の距離に対する乖離度が所定の基準を満たす場合、運用中の選択特徴量のプロット位置が上位行動の観測範囲のいずれか１つのマッピング領域にだけ十分近く、かつ他のマッピング領域から十分離れていることが明らかである。このため、運用中の選択特徴量のプロット位置は、限り限りまたは紙一重で上位行動と認識されなかった認識漏れの事例である可能性が高いので、（イ）認識漏れの検知を実現できる。この場合、本実施例に係る行動認識サービス１は、プロット位置からの距離が最小距離であるマッピング領域をプロット位置に基づいて拡張する更新を行う。

図５は、特徴量空間の一例を示す図である。図５には、あくまで一例として、選択特徴量「移動速度」および選択特徴量「上半身姿勢変化量」を含む２次元の特徴量空間が例示されている。さらに、図５には、「選別作業」、「回収作業」、「空トレイ設置」および「トレイ運搬」の４種類の上位行動の観測範囲がマッピングされたマッピング領域Ｗ１～Ｗ４が示されると共に、運用中の選択特徴量がプロットされたプロット位置Ｐ１が示されている。

図５に示すように、運用中の選択特徴量のプロット位置Ｐ１が上位行動の観測範囲のマッピング領域Ｗ１～Ｗ４のいずれにも含まれない場合、プロット位置Ｐ１およびマッピング領域Ｗ１～Ｗ４の間の距離が算出される。このように４つの距離が算出された後、最小距離の他の距離に対する乖離度が所定の基準を満たすか否かの判定の一例として、下記の式（１）にしたがって各距離の総和に対する最小距離の割合が所定の閾値未満であるか否かを判定することができる。

最小距離／Σ距離＜Ｔｈ１・・・（１）

ここでは、距離のあくまで一例として、マンハッタン距離を用いる例を挙げる。さらに、あくまで一例として、プロット位置Ｐ１およびマッピング領域Ｗ１～Ｗ４の間の距離が下記の値である場合を例に挙げる。すなわち、プロット位置Ｐ１およびマッピング領域Ｗ１の間の距離が「５．２」であり、プロット位置Ｐ１およびマッピング領域Ｗ２の間の距離が「５．４」であることとする。さらに、プロット位置Ｐ１およびマッピング領域Ｗ３の間の距離が「０．１」であり、プロット位置Ｐ１およびマッピング領域Ｗ４の間の距離が「７．３」であると仮定する。

Ｐ１およびＷ１の距離＝５．２
Ｐ１およびＷ２の距離＝５．４
Ｐ１およびＷ３の距離＝０．１
Ｐ１およびＷ４の距離＝７．３

上記の例で言えば、プロット位置Ｐ１およびマッピング領域Ｗ３の間の距離「０．１」が最小距離となる。それ故、上記の式（１）へ各距離を代入すると、「０．１／（５．２＋５．４＋０．１＋７．３）」の計算の結果、各距離の総和に対する最小距離の割合は、「０．００５６」と算出される。その上で、各距離の総和に対する最小距離の割合「０．００５６」が所定の閾値Ｔｈ１よりも小さいか否かが判定される。例えば、閾値Ｔｈ１を「０．０１」としたとき、各距離の総和に対する最小距離の割合「０．００５６」は、閾値Ｔｈ１「０．０１」を下回る。

このような判定結果によって、運用中の選択特徴量のプロット位置Ｐ１が上位行動「空トレイ設置」の観測範囲のマッピング領域Ｗ３にだけ十分近く、かつ他のマッピング領域Ｗ１、Ｗ２及びＷ４から十分離れていることが判明する。このため、運用中の選択特徴量のプロット位置Ｐ１は、限り限りまたは紙一重で上位行動「空トレイ設置」と認識されなかった認識漏れの事例である可能性が高いと識別できる。この場合、本実施例に係る行動認識サービス１は、プロット位置Ｐ１からの距離が最小距離であるマッピング領域Ｗ３をプロット位置Ｐ１に基づいて拡張する第２ルールの更新を行う。

図６は、第２ルールの更新方法の一例を示す模式図である。図６には、特徴量空間上にマッピングされた４つのマッピング領域のうち上位行動「空トレイ設置」の観測範囲のマッピング領域Ｗ３が抜粋されている。さらに、図６には、運用中の選択特徴量のプロット位置Ｐ１がバツ印で示されている。この場合、上位行動「空トレイ設置」のマッピング領域は、上位行動「空トレイ設置」の観測範囲のマッピング領域Ｗ３に加えて、図６に示す塗りつぶしの領域が拡張される。すなわち、運用中の選択特徴量のプロット位置Ｐ１からマンハッタン距離で「０．１」以内に対応する三角形の領域が拡張される。このような拡張によって、上記の（ロ）ルール更新が実現される。

以上のように、本実施例に係る行動認識サービス１は、特徴量空間に上位行動の観測範囲がマッピングされた領域の何れか１つに運用中の動作特徴量のプロット位置が近い場合、プロット位置に基づいて最寄りの領域を拡張する。したがって、本実施例に係る行動認識サービス１によれば、運用に即したルールの更新を実現できる。

［行動認識装置の機能的構成］
図７は、実施例１に係る行動認識装置１０の機能的構成の一例を示すブロック図である。図７に示す行動認識装置１０は、上記の行動認識サービス１を提供するコンピュータの一例に対応する。

一実施形態として、行動認識装置１０は、パッケージソフトウェア又はオンラインソフトウェアとして、上記の行動認識サービス１を実現する行動認識プログラムを任意のコンピュータにインストールさせることによって実装できる。例えば、行動認識装置１０は、ＳａａＳ（Software as a Service）型のアプリケーションとして実装することで、上記の行動認識サービス１をクラウドサービスとして提供することとしてもかまわない。これに限定されず、行動認識装置１０は、上記の行動認識サービス１に対応する機能をオンプレミスに提供するサーバとして実装することができる。

さらに、行動認識装置１０には、図７に示すように、撮像装置の一例に対応するカメラ２が接続され得る。これら行動認識装置１０及びカメラ２の間は、任意のネットワークを介して通信可能に接続され得る。例えば、ネットワークは、有線または無線を問わず、インターネットやＬＡＮ（Local Area Network）などの任意の種類の通信網であってかまわない。なお、図１や図７には、説明の便宜上、１つの行動認識装置１０につき１つのカメラ２が接続される例を挙げたが、１つの行動認識装置１０につき複数のカメラ２が接続されることを妨げない。

図７に示すように、行動認識装置１０は、映像取得部１１と、オブジェクト認識部１３と、基本動作認識部１４と、ルール変換部１５と、第１ルール記憶部１６Ａと、参照映像記憶部１６Ｂと、第２ルール記憶部１７と、上位行動認識部１８とを有する。なお、行動認識装置１０は、図７に示す機能部以外にも既知のコンピュータが有する各種の機能部、例えば入出力インタフェイスや通信インタフェイスなどに対応する機能が含まれてもかまわない。

図７に示す映像取得部１１、オブジェクト認識部１３、基本動作認識部１４、ルール変換部１５及び上位行動認識部１８などの機能部は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などのハードウェアプロセッサにより仮想的に実現される。すなわち、プロセッサは、図示しない記憶装置、例えばＨＤＤ（Hard Disk Drive）、光ディスクやＳＳＤ（Solid State Drive）などからＯＳ（Operating System）の他、上記の行動認識サービス１がパッケージ化された行動認識プログラムなどのプログラムを読み出す。その上で、プロセッサは、上記の行動認識プログラムを実行することにより、ＲＡＭ（Random Access Memory）等のメモリ上に上記の機能部に対応するプロセスを展開する。このように、上記の行動認識プログラムが実行される結果、上記の機能部がプロセスとして仮想的に実現される。ここでは、プロセッサの一例として、ＣＰＵやＭＰＵを例示したが、汎用型および特化型を問わず、任意のプロセッサにより上記の機能部が実現されることとしてもかまわない。この他、上記の機能部または機能部の一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによって実現されることとしてもかまわない。

上記の第１ルール記憶部１６Ａ、参照映像記憶部１６Ｂ及び第２ルール記憶部１７などの記憶部は、ＨＤＤや光ディスク、ＳＳＤなどの補助記憶装置として実現したり、補助記憶装置が有する記憶領域の一部を割り当てることにより実現したりすることができる。

映像取得部１１は、映像を取得する処理部である。一実施形態として、映像取得部１１は、カメラ２から伝送される映像をフレーム単位で取得することができる。ここで、映像取得部１１が映像を取得する情報ソースは、任意の情報ソースであってよく、カメラ２に限定されない。例えば、映像取得部１１は、映像を蓄積するハードディスクや光ディスクなどの補助記憶装置またはメモリカードやＵＳＢ（Universal Serial Bus）メモリなどのリムーバブルメディアから映像を取得することもできる。この他、映像取得部１１は、カメラ２以外の外部装置からネットワークＮＷを介して映像を取得することもできる。

オブジェクト認識部１３は、映像からオブジェクトを認識する処理部である。オブジェクト認識部１３は、抽出部の一例に対応し得る。オブジェクト認識部１３は、図１に示すオブジェクト認識機能３に対応し得る。一実施形態として、オブジェクト認識部１３は、映像取得部１１により取得される映像のフレームごとにオブジェクトを認識する。このようなオブジェクト認識は、ディープラーニング等の機械学習のアルゴリズムにしたがってオブジェクトが学習済みであるモデルにより実現され得る。その上で、オブジェクト認識機能３は、オブジェクトに骨格検出、あるいは姿勢検出（姿勢推定）とも呼ばれる処理を行うことにより、各関節の位置、例えば２次元または３次元の座標などを含む骨格情報を抽出する。

基本動作認識部１４は、各フレームの骨格情報から基本動作を認識する処理部である。ここで、基本動作認識部１４は、図１に示す基本動作認識機能４に対応し得るが、必ずしも基本動作認識機能４の全てが備わらずともよい。すなわち、本実施例に係る行動認識サービス１では、第１ルールに定義されるＩＦ－ＴＨＥＮ形式のルールに基づいて上位行動を認識せずとも、第２ルールに定義される特徴量空間上のマッピング領域に基づいて上位行動を認識できる。このような側面から、基本動作認識部１４は、映像取得部１１により取得される映像のフレームごとに動作特徴量の算出が実行されればよい。なお、基本動作認識部１４は、算出部の一例に対応し得る。

一実施形態として、基本動作認識部１４は、上記の動作特徴量の１つとして、映像取得部１１により映像が取得された最新のフレームにおける各関節の位置から姿勢特徴量を算出できる。さらに、基本動作認識部１４は、最新のフレームから所定のフレーム数または期間を遡って得られる姿勢特徴量の時系列データから時間変化情報を算出する。この際、基本動作認識部１４は、あくまで一例として、図２の判定条件データ２Ａに示された全ての基本動作に関する動作特徴量を算出することもできるが、必ずしも全ての基本動作に関する動作特徴量を算出せずともかまわない。例えば、基本動作認識部１４は、第１ルールに定義された上位行動の認識に用いられる基本動作に関する動作特徴量、あるいは第２ルールで特徴量空間の定義に用いられる選択特徴量に絞り込んで動作特徴量を算出することもできる。

ルール変換部１５は、第１ルールを第２ルールへ変換する処理部である。ルール変換部１５によるルール変換は、あくまで一例として、本実施例に係る行動認識サービス１の運用を開始する前に実行できるが、運用開始後に実行されることも妨げはしない。図７に示すように、ルール変換部１５は、選択部１５Ａと、マッピング部１５Ｂとを有する。

選択部１５Ａは、特徴量空間の定義に用いる動作特徴量、すなわち上記の選択特徴量を選択する処理部である。一実施形態として、選択部１５Ａは、第１ルール記憶部１６Ａに記憶された第１ルールを参照する。第１ルール記憶部１６Ａには、ＩＦ－ＴＨＥＮ形式で認識対象とする上位行動に対応する基本動作の組合せが定義された第１ルール、例えば図１に示すルール７が記憶される。このような第１ルール記憶部１６Ａを参照して、選択部１５Ａは、認識対象とする上位行動ごとに当該上位行動に対応する基本動作の組合せから各基本動作の認識に用いられる動作特徴量を抽出する。例えば、４種類の上位行動のうち「トレイ運搬」を例に挙げれば、上記（Ｒ１）に示す通り、基本動作「両手を前に伸ばす」および基本動作「歩く」の認識に用いる動作特徴量が図２に示す判定条件データ４Ａから検索される。これによって、「左肘と右肘の曲がり角の最小値」および「移動速度」の２種類の動作特徴量が抽出される。この際、動作特徴量「左肘と右肘の曲がり角の最小値」は、「両手を前に伸ばす」→「右肘曲がり角」＆「左肘曲がり角」→「右肘曲がり角」と「左肘曲がり角」の最小値といった論理演算で自動的に抽出できる。

このように認識対象とする上位行動ごとに抽出された動作特徴量は、その全てを特徴量空間の定義に用いることもできるが、必ずしも全ての種類の動作特徴量を特徴量空間の作成に用いずともよく、一部に絞り込むこともできる。

あくまで一例として、選択部１５Ａは、認識対象とする上位行動ごとに抽出された動作特徴量の中から、決定木分析や線形判別分析などに代表される特徴量選択のアルゴリズムにしたがって各上位行動を区別できる動作特徴量を選択する。例えば、決定木分析の場合、参照映像記憶部１６Ｂに記憶された参照映像が用いられる。参照映像記憶部１６Ｂには、認証対象とする上位行動ごとに当該上位行動が観測される参照映像が保存される。このように認識対象とする上位行動ごとに用意された参照映像をルートノードとし、ノードを分割する動作特徴量の素性および閾値の選択を繰り返すことにより、参照映像を上位行動のラベルに分類する決定木が生成される。このような決定木の分岐でノードの分割に選択された素性の動作特徴量を選択特徴量として用いることができる。

マッピング部１５Ｂは、認識対象とする上位行動ごとに当該上位行動が観測され得る範囲を、選択部１５Ａにより選択された選択特徴量で定義される特徴量空間上にマッピングする処理部である。

ここで、上位行動の観測範囲のマッピングは、あくまで一例として、参照映像記憶部１６Ｂに記憶された参照映像を用いて自動化できる。このような参照映像のうち上位行動が観測される区間で算出される選択特徴量の最大値および最小値が抽出される。例えば、上位行動の認識が１０秒ごとに直近の１０秒間の基本動作の認識結果を用いて行われる場合、当該上位行動が認識された時点から直近の１０秒間で算出された選択特徴量の最大値および最小値が抽出される。このように抽出された選択特徴量の最大値および最小値を境界とする上位行動の観測範囲が特徴量空間上へ上位行動ごとにマッピングされる。

これによって、ＩＦ－ＴＨＥＮ形式で認識対象とする上位行動に対応する基本動作の組合せが定義された第１ルールを、特徴量空間上に上位行動の観測範囲のマッピング領域が定義された第２ルールへ変換できる。このように、上位行動ごとに当該上位行動の観測範囲が特徴量空間にマッピングされたマッピング領域は、第２ルールとして第２ルール記憶部１７に保存される。例えば、第２ルールは、マッピング領域ごとに当該マッピング領域の境界線を形成する頂点の座標により定義することができる。

図８は、第２ルールの一例を示す図である。図８には、選択特徴量「移動速度」及び「上半身姿勢変化量」を含む２次元の特徴量空間上に「選別作業」、「回収作業」、「空トレイ設置」及び「トレイ運搬」の４種類の上位行動の観測範囲に対応するマッピング領域Ｗ１～Ｗ４が第２ルールとして定義される例が示されている。さらに、図８には、４種類の上位行動の観測範囲に対応するマッピング領域Ｗ１～Ｗ４が左下の頂点を始点とし、そこから反時計回りに頂点の座標を列挙することにより第２ルールが定義される例が示されている。

図８に示すように、上位行動「選別作業」のマッピング領域Ｗ１は、左下の頂点（０．２，０）、右下の頂点（１，０）、右上の頂点（１，０．０５）および左上の頂点（０．２，０．０５）により定義される。上位行動「回収作業」のマッピング領域Ｗ２は、左下の頂点（２，７）、右下の頂点（２．８，７）、右上の頂点（２．８，８．２）および左上の頂点（２，８．２）により定義される。上位行動「空トレイ設置」のマッピング領域Ｗ３は、左下の頂点（１．１，４．２）、右下の頂点（１．８，４．２）、右上の頂点（１．８，５．２）および左上の頂点（１．１，５．２）により定義される。上位行動「トレイ運搬」のマッピング領域Ｗ４は、左下の頂点（０．０１，０．８１）、右下の頂点（０．３，０．８１）、右上の頂点（０．３，１．１）および左上の頂点（０．０１，１．１）により定義される。

なお、図８には、あくまで一例として、特徴量空間が２次元である例を挙げたが、これに限定されず、特徴量空間の次元数は任意であってかまわない。例えば、特徴量空間が３次元以上である場合、マッピング領域の境界面をポリゴンによって定義することができる。これによって、ｎ次元の特徴量空間中の任意の部分領域を多角形で表現することが可能である。

また、ここでは、上位行動の観測範囲のマッピングが参照映像を用いて行われる例を挙げたが、これに限定されず、上位行動の観測範囲のマッピングがユーザ設定により行われることとしてもかまわない。この場合、ユーザ設定の案内として、認識対象とする上位行動ごとに当該上位行動に対応するルールに定義された基本動作の認識に用いる動作特徴量のうち選択特徴量に関する判定条件、例えば閾値を図２の判定条件データ４Ａから検索して表示させることもできる。

上位行動認識部１８は、上位行動を認識する処理部である。図７に示すように、上位行動認識部１８は、ルール照合部１８Ａ、ルール更新部１８Ｂおよび認識結果出力部１８Ｃをさらに有する。

ルール照合部１８Ａは、基本動作認識部１４により算出された選択特徴量と、第２ルール記憶部１７に記憶された第２ルールとを照合する処理部である。一実施形態として、ルール照合部１８Ａは、基本動作認識部１４により算出された選択特徴量のプロット位置が第２ルール記憶部１７に第２ルールとして記憶されたマッピング領域のいずれかに含まれるか否かを判定する。以下、基本動作認識部１４により算出される選択特徴量は、運用開始前に定義され得る第２ルールと対比する側面から、「運用中の選択特徴量」と記載する場合がある。このとき、運用中の選択特徴量のプロット位置がいずれかのマッピング領域に含まれる場合、認識漏れがないと判明する一方で、運用中の選択特徴量のプロット位置がいずれのマッピング領域にも含まれない場合、認識漏れが発生している余地が残る。

ルール更新部１８Ｂは、第２ルール記憶部１７に記憶された第２ルールを更新する処理部である。一実施形態として、ルール更新部１８Ｂは、運用中の選択特徴量のプロット位置がいずれのマッピング領域にも含まれない場合、マッピング領域ごとに当該マッピング領域およびプロット位置の間の距離を算出する。このように４つの距離が算出された後、最小距離の他の距離に対する乖離度が所定の基準を満たすか否かの判定の一例として、上記の式（１）にしたがって各距離の総和に対する最小距離の割合が所定の閾値未満であるか否かを判定することができる。

ここで、最小距離の他の距離に対する乖離度が所定の基準を満たす場合、運用中の選択特徴量のプロット位置が上位行動の観測範囲のいずれか１つのマッピング領域にだけ十分近く、かつ他のマッピング領域から十分離れていることが明らかである。この場合、運用中の選択特徴量のプロット位置は、限り限りまたは紙一重で上位行動と認識されなかった認識漏れの事例である可能性が高いので、認識漏れと識別する。一方、最小距離の他の距離に対する乖離度が所定の基準を満たさない場合、運用中の選択特徴量のプロット位置が上位行動の観測範囲のいずれか１つのマッピング領域だけに十分近くないことが明らかである。この場合、いずれの上位行動にも該当しない動作パターンで認識漏れではないと識別できる。

ここで、ルール更新部１８Ｂは、プロット位置と各マッピング領域との各距離の総和に対する最小距離の割合が上記の閾値未満である場合、プロット位置からの距離が最小距離であるマッピング領域をプロット位置に基づいて拡張する更新を行う。

図９は、第２ルールの他の一例を示す図である。図９には、図８に示された第２ルールに定義されたマッピング領域Ｗ１～Ｗ４のうち上位行動「空トレイ設置」の観測範囲のマッピング領域Ｗ３を対象に図６に示された拡張が実施された例について説明する。図６に示された通り、運用中の選択特徴量のプロット位置Ｐ１からマンハッタン距離で「０．１」以内に対応する三角形の領域が拡張される場合、図８に示された第２ルールから図９に示す第２ルールへ更新される。より具体的には、上位行動「空トレイ設置」のマッピング領域Ｗ３には、図６に示された三角形の領域に対応する各頂点の座標が追加される。すなわち、図９に網掛けで示された通り、上位行動「空トレイ設置」のマッピング領域Ｗ３を定義する頂点には、三角形の頂点の座標（１．５，４．２）、（１．６，４．１）および（１．７，４．２）が追加される。

これによって、運用中の選択特徴量のプロット位置Ｐ１（１．６，４．１）に対応する動作パターンのみならず、プロット位置Ｐ１よりもマッピング領域Ｗ３に近い動作パターンのバリエーションを新マッピング領域に含める拡張を実現できる。さらに、マンハッタン距離をルール更新に用いる場合、２次元の特徴量空間に限定されず、３次元以上の特徴量空間でもマッピング領域を拡張する領域の境界面をポリゴンによって定義できるので、第２ルールの記述の拡張性を高めることができる。

認識結果出力部１８Ｃは、上位行動の認識結果を出力する処理部である。１つの側面として、認識結果出力部１８Ｃは、運用中の選択特徴量のプロット位置がいずれかのマッピング領域に含まれる場合、当該プロット位置が含まれるマッピング領域に対応する上位行動のラベルを認識結果として出力する。他の側面として、認識結果出力部１８Ｃは、プロット位置と各マッピング領域との各距離の総和に対する最小距離の割合が上記の閾値以上である場合、いずれの上位行動のラベルも出力しない。更なる側面として、認識結果出力部１８Ｃは、プロット位置と各マッピング領域との各距離の総和に対する最小距離の割合が上記の閾値未満である場合、当該プロット位置からの距離が最小距離であるマッピング領域に対応する上位行動のラベルを認識結果として出力する。

上記の上位行動の認識結果は、任意の出力先へ出力され得る。ここで言う「出力先」は、任意のハードウェアやソフトウェアでよい。例えば、上位行動の認識結果は、上位行動の認識結果に応じて任意のバックエンドの処理、例えば作業効率の分析処理などを実行するサービスや機能へ出力することができる。この他、上位高度の認識結果は、上記の行動認識サービス１のユーザＵにより設定された表示デバイスや音声出力デバイス、情報処理装置あるいは携帯端末装置などであってもよい。その通知形態もＷｅｂやメールなどの任意であってよい。

［上位行動の認識結果の活用例］
図１０及び図１１を用いて、上位行動の認識結果の活用例を説明する。図１０及び図１１は、分析結果の一例を示す図である。図１０及び図１１には、食品工場の現場で行われる「選別作業」、「回収作業」、「空トレイ設置」および「トレイ運搬」の４種類の上位行動の認識結果が作業者「ＩＤ０００１」～「ＩＤ０００６」の６名の作業員ごとに分析された結果が示されている。図１０には、上記の４種類の上位行動の認識結果を用いる分析の一例として、生産性、例えば単位時間あたりに処理されるトレイの数量が分析された結果が示されている。さらに、図１１には、上記の４種類の上位行動の認識結果を用いる分析の一例として、各上位行動に対応する作業時間の内訳が分析された結果が示されている。

図１０及び図１１に示す分析結果は、上記の行動認識サービス１のユーザＵにより設定された任意の端末装置に出力され得る。例えば、作業台Ｂを担当したＩＤ０００３及びＩＤ０００４の作業者の生産性が高いが、これはトレイ運搬作業や回収作業の割合が低いことに起因しているといった知見を提示できる。一方、空トレイ設置の割合も大きいが、これは選別作業を多くこなした結果であるといった知見を提示できる。さらに、作業台Ｃの担当者であるＩＤ０００５及びＩＤ０００６の作業者の生産性の違いは、回収作業の効率に起因しており、ＩＤ０００５は他の作業者よりも回収作業に時間がかかる傾向がみられ、この作業中に何らかの無駄がある可能性を示唆できる。これら図１０及び図１１に示す分析結果により、上記の行動認識サービス１のユーザＵを始めとする関係者に生産性向上に資する知見を提示することができる。

［処理の流れ］
次に、本実施例に係る行動認識装置１０の処理の流れについて説明する。ここでは、行動認識装置１０により実行される（１）ルール変換処理を説明した後に、（２）ルール更新処理を説明することとする。

（１）ルール変換処理
図１２は、実施例１に係るルール変換処理の手順を示すフローチャートである。この処理は、あくまで一例として、本実施例に係る行動認識サービス１の運用を開始する前の任意のタイミング、例えば第１ルールおよび参照映像の保存後に実行できるが、運用開始後に実行されることも妨げない。

図１２に示すように、選択部１５Ａは、第１ルール記憶部１６Ａに記憶された第１ルールを参照して、認識対象とする上位行動ごとに当該上位行動に対応する基本動作の組合せから各基本動作の認識に用いられる動作特徴量を抽出する（ステップＳ１０１）。

続いて、選択部１５Ａは、ステップＳ１０１で認識対象とする上位行動ごとに抽出された動作特徴量の中から、決定木分析や線形判別分析等に代表される特徴量選択のアルゴリズムにしたがって各上位行動を区別できる動作特徴量を選択する（ステップＳ１０２）。

そして、マッピング部１５Ｂは、参照映像記憶部１６Ｂに記憶された参照映像のうち上位行動が認識される区間で観測される選択特徴量の最大値および最小値を上位行動ごとに抽出する（ステップＳ１０３）。

その後、マッピング部１５Ｂは、ステップＳ１０３で抽出された選択特徴量の最大値および最小値を境界とする上位行動の観測範囲をステップＳ１０２で得られた選択特徴量により定義される特徴量空間上へ上位行動ごとにマッピングする（ステップＳ１０４）。

その上で、マッピング部１５Ｂは、上位行動ごとに当該上位行動の観測範囲が特徴量空間にマッピングされたマッピング領域を第２ルールとして第２ルール記憶部１７に保存し（ステップＳ１０５）、処理を終了する。

（２）ルール更新処理
図１３は、実施例１に係るルール更新処理の手順を示すフローチャートである。この処理は、運用中に所定の周期、例えば１０秒ごとに繰り返して実行することができる。図１３に示すように、映像取得部１１は、カメラ２等から映像のフレームが取得する（ステップＳ３０１）。すると、オブジェクト認識部１３は、ステップＳ３０１で取得された映像から認識されたオブジェクトの骨格検出を行うことにより、各関節の位置を含む骨格情報を抽出する（ステップＳ３０２）。

続いて、基本動作認識部１４は、ステップＳ３０１で取得された最新のフレームにおける各関節の位置から姿勢特徴量を算出すると共に、最新のフレームから所定の期間、例えば１０秒間を遡って得られる姿勢特徴量の時系列データから時間変化情報を算出することにより、選択特徴量を算出する（ステップＳ３０３）。

そして、ルール照合部１８Ａは、ステップＳ３０３で算出された選択特徴量のプロット位置が第２ルール記憶部１７に第２ルールとして記憶されたマッピング領域のいずれかに含まれるか否かを判定する（ステップＳ３０４）。

ここで、運用中の選択特徴量のプロット位置がいずれのマッピング領域にも含まれない場合（ステップＳ３０４Ｎｏ）、ルール更新部１８Ｂは、次のような処理を実行する。すなわち、ルール更新部１８Ｂは、プロット位置と各マッピング領域との各距離の総和に対する最小距離の割合が所定の閾値未満であるか否かを判定する（ステップＳ３０５）。

このとき、プロット位置と各マッピング領域との各距離の総和に対する最小距離の割合が上記の閾値未満である場合（ステップＳ３０５Ｙｅｓ）、ルール更新部１８Ｂは、プロット位置からの距離が最小距離であるマッピング領域をプロット位置に基づいて拡張する更新を行う（ステップＳ３０６）。この場合、認識結果出力部１８Ｃは、当該プロット位置からの距離が最小距離であるマッピング領域に対応する上位行動のラベルを認識結果として出力し（ステップＳ３０７）、処理を終了する。

一方、プロット位置と各マッピング領域との各距離の総和に対する最小距離の割合が上記の閾値未満でない場合（ステップＳ３０５Ｎｏ）、いずれの上位行動のラベルも出力されず、処理が終了する。

また、運用中の選択特徴量のプロット位置がいずれかのマッピング領域に含まれる場合（ステップＳ３０４Ｙｅｓ）、認識結果出力部１８Ｃは、当該プロット位置が含まれるマッピング領域に対応する上位行動のラベルを認識結果として出力し（ステップＳ３０７）、処理を終了する。

［効果の一側面］
上述してきたように、本実施例に係る行動認識装置１０は、特徴量空間に上位行動の観測範囲がマッピングされた領域の何れか１つに運用中の動作特徴量のプロット位置が近い場合、プロット位置に基づいて最寄りの領域を拡張する。したがって、本実施例に係る行動認識装置１０によれば、運用に即したルールの更新を実現できる。

さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。

［スタビライザ処理］
上位行動の認識結果には、いずれの上位行動にも対応しないラベル「出力なし」が含まれる場合がある。例えば、行動認識装置１０は、上記のラベル「出力なし」を下記のルールにしたがって補正する補正部をさらに有することとしてもよい。例えば、補正部は、ラベル「出力なし」の前後のタイミングで出力されるラベルを比較する。この結果、前後のタイミングのラベルが同一である場合、ラベル「出力なし」に対応するタイミングも前後のタイミングのラベルと同一の上位行動が行われた可能性が高まる。この場合、補正部は、ラベル「出力なし」を前後のタイミングで出力されるラベルと同一のラベルに補正する。また、前後のタイミングのラベルが異なる場合、作業が切り替わったタイミングである可能性が高まる。この場合、補正部は、ラベル「出力なし」を前後のタイミングで出力されるラベルが所定の割合ずつ含む特殊ラベルに補正する。

図１４は、上位行動の認識結果の補正例を示す図である。図１４には、任意の開始時間から上位行動の認識結果が得られた時点までに経過した時間ごとに上位行動の認識結果が示されている。さらに、図１４には、上位行動が１０秒ごとに直近の１０秒間の映像から算出される選択特徴量に基づいて認識される場合の認識結果の一例が示されている。さらに、さらに、図１４には、上位行動の認識結果として、上位行動のラベルを示す文字列のうち先頭の１文字が記述される例を挙げ、例えば、「選」は、選別作業を指し、「回」は、回収作業を指し、「空」は、空トレイ設置を指し、「運」は、運搬作業を指すこととする。

図１４に示すように、ラベル「出力なし」は、上位行動の認識結果のうち３つ存在し、６０ｓｅｃ、１７０ｓｅｃ及び２５０ｓｅｃの３つの時間で「出力なし」となる。例えば、６０ｓｅｃのラベルが補正される場合、５０ｓｅｃのラベル「選」と７０ｓｅｃのラベル「選」とが比較される。この場合、両者のラベルが同一であるので、６０ｓｅｃのラベルは「出力なし」から「選」へ補正される。また、１７０ｓｅｃのラベルが補正される場合、１６０ｓｅｃのラベル「選」と１８０ｓｅｃのラベル「回」とが比較される。この場合、両者のラベルが異なる。このため、１７０ｓｅｃのラベルは、「出力なし」から、１６０ｓｅｃのラベル「選」と１８０ｓｅｃのラベル「回」とを均等に含む特殊ラベル「選／回」へ補正される。さらに、２５０ｓｅｃのラベルが補正される場合、２４０ｓｅｃのラベル「ト」と２６０ｓｅｃのラベル「ト」とが比較される。この場合、両者のラベルが同一であるので、２５０ｓｅｃのラベルは「出力なし」から「ト」へ補正される。このような補正によって、図１０に示す生産性の分析や図１１に示す作業時間内訳の分析などの各種の分析処理の精度低下を抑制できる。

なお、前後のタイミングで出力されるラベルの割合は、均等に設定できる他、ラベル「出力なし」が出力されるタイミングで算出された選択特徴量のプロット位置と、前後のタイミングのラベルに対応するマッピング領域との距離に基づいて決定することもできる。この場合、距離が小さくなるに連れて割合を高く設定する一方で、距離が大きくなるに連れて割合を低く設定することができる。例えば、ラベル「出力なし」の前のタイミングで出力される第１ラベルに対応するマッピング領域までの第１距離と、ラベル「出力なし」の後のタイミングで出力される第２ラベルに対応するマッピング領域までの第２距離との比が４対１である場合を例に挙げる。この場合、第１距離と第２距離との比を入れ替えることにより、第１ラベルの割合を「０．２」と設定すると共に第２ラベルの割合を「０．８」に設定することができる。

［分散および統合］
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されておらずともよい。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、映像取得部１１、オブジェクト認識部１３、基本動作認識部１４、ルール変換部１５または上位行動認識部１８を行動認識装置１０の外部装置としてネットワーク経由で接続するようにしてもよい。また、映像取得部１１、オブジェクト認識部１３、基本動作認識部１４、ルール変換部１５または上位行動認識部１８を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記の行動認識装置１０の機能を実現するようにしてもよい。また、第１ルール記憶部１６Ａ、参照映像記憶部１６Ｂおよび第２ルール記憶部１７に記憶される第１ルール、参照映像および第２ルールの全部または一部を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記の行動認識装置１０の機能を実現するようにしてもかまわない。

［行動認識プログラム］
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１５を用いて、実施例１及び実施例２と同様の機能を有する行動認識プログラムを実行するコンピュータの一例について説明する。

図１５は、コンピュータのハードウェア構成例を示す図である。図１５に示すように、コンピュータ１００は、操作部１１０ａと、スピーカ１１０ｂと、カメラ１１０ｃと、ディスプレイ１２０と、通信部１３０とを有する。さらに、このコンピュータ１００は、ＣＰＵ１５０と、ＲＯＭ１６０と、ＨＤＤ１７０と、ＲＡＭ１８０とを有する。これら１１０～１８０の各部はバス１４０を介して接続される。

ＨＤＤ１７０には、図１５に示すように、上記の実施例１で示した映像取得部１１、オブジェクト認識部１３、基本動作認識部１４、ルール変換部１５及び上位行動認識部１８と同様の機能を発揮する行動認識プログラム１７０ａが記憶される。この行動認識プログラム１７０ａは、図７に示した映像取得部１１、オブジェクト認識部１３、基本動作認識部１４、ルール変換部１５及び上位行動認識部１８の各構成要素と同様、統合又は分離してもかまわない。すなわち、ＨＤＤ１７０には、必ずしも上記の実施例１で示した全てのデータが格納されずともよく、処理に用いるデータがＨＤＤ１７０に格納されればよい。

このような環境の下、ＣＰＵ１５０は、ＨＤＤ１７０から行動認識プログラム１７０ａを読み出した上でＲＡＭ１８０へ展開する。この結果、行動認識プログラム１７０ａは、図１５に示すように、行動認識プロセス１８０ａとして機能する。この行動認識プロセス１８０ａは、ＲＡＭ１８０が有する記憶領域のうち行動認識プロセス１８０ａに割り当てられた領域にＨＤＤ１７０から読み出した各種データを展開し、この展開した各種データを用いて各種の処理を実行する。例えば、行動認識プロセス１８０ａが実行する処理の一例として、図１２及び図１３に示す処理などが含まれる。なお、ＣＰＵ１５０では、必ずしも上記の実施例１で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。

なお、上記の行動認識プログラム１７０ａは、必ずしも最初からＨＤＤ１７０やＲＯＭ１６０に記憶されておらずともかまわない。例えば、コンピュータ１００に挿入されるフレキシブルディスク、いわゆるＦＤ、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に行動認識プログラム１７０ａを記憶させる。そして、コンピュータ１００がこれらの可搬用の物理媒体から行動認識プログラム１７０ａを取得して実行するようにしてもよい。また、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ１００に接続される他のコンピュータまたはサーバ装置などに行動認識プログラム１７０ａを記憶させておき、コンピュータ１００がこれらから行動認識プログラム１７０ａを取得して実行するようにしてもよい。

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）映像のフレームごとに複数の関節の位置を含む骨格情報を抽出し、
前記骨格情報から第１動作特徴量を算出し、
認識対象とする上位行動に関する第２動作特徴量が観測され得る範囲が前記上位行動ごとにマッピングされた複数のマッピング領域を有する特徴量空間に前記第１動作特徴量をプロットすることで、前記特徴量空間に対して前記第１動作特徴量がプロットされた位置であるプロット位置を算出し、
前記複数のマッピング領域それぞれと前記プロット位置との距離のうち最小距離の他の距離に対する乖離度が所定の基準を満たす場合、前記プロット位置から前記最小距離にあるマッピング領域を前記プロット位置に基づいて拡張する更新を実行する、
処理をコンピュータが実行する行動認識方法。

（付記２）前記認識対象とする上位行動ごとに前記上位行動に対応する基本動作の組合せから抽出される第３動作特徴量のうち前記特徴量空間の定義に用いる前記第２動作特徴量を選択し、
前記第２動作特徴量で定義される特徴量空間上に前記上位行動が観測され得る範囲をマッピングする処理を前記コンピュータがさらに実行する付記１に記載の行動認識方法。

（付記３）前記選択する処理は、前記基本動作の組合せから抽出される第３動作特徴量の中から、前記認識対象とする上位行動の各々を区別できる第４動作特徴量を前記第２動作特徴量として所定の特徴量選択のアルゴリズムにしたがって選択する処理を含む付記２に記載の行動認識方法。

（付記４）前記上位行動が観測され得る範囲は、所定の参照映像のうち前記上位行動が前記特徴量空間上で観測される区間で得られる第２動作特徴量の最大値および最小値に基づいて設定される付記２に記載の行動認識方法。

（付記５）前記マッピング領域は、前記マッピング領域の境界線を形成する頂点の座標により定義される付記１に記載の行動認識方法。

（付記６）前記更新を実行する処理は、前記プロット位置からマンハッタン距離で前記最小距離に位置する頂点の座標により定義される領域を拡張する処理を含む付記５に記載の行動認識方法。

（付記７）映像のフレームごとに複数の関節の位置を含む骨格情報を抽出し、
前記骨格情報から第１動作特徴量を算出し、
認識対象とする上位行動に関する第２動作特徴量が観測され得る範囲が前記上位行動ごとにマッピングされた複数のマッピング領域を有する特徴量空間に前記第１動作特徴量をプロットすることで、前記特徴量空間に対して前記第１動作特徴量がプロットされた位置であるプロット位置を算出し、
前記複数のマッピング領域それぞれと前記プロット位置との距離のうち最小距離の他の距離に対する乖離度が所定の基準を満たす場合、前記プロット位置から前記最小距離にあるマッピング領域を前記プロット位置に基づいて拡張する更新を実行する、
処理をコンピュータに実行させる行動認識プログラム。

（付記８）前記認識対象とする上位行動ごとに前記上位行動に対応する基本動作の組合せから抽出される第３動作特徴量のうち前記特徴量空間の定義に用いる前記第２動作特徴量を選択し、
前記第２動作特徴量で定義される特徴量空間上に前記上位行動が観測され得る範囲をマッピングする処理を前記コンピュータにさらに実行させる付記７に記載の行動認識プログラム。

（付記９）前記選択する処理は、前記基本動作の組合せから抽出される第３動作特徴量の中から、前記認識対象とする上位行動の各々を区別できる第４動作特徴量を前記第２動作特徴量として所定の特徴量選択のアルゴリズムにしたがって選択する処理を含む付記８に記載の行動認識プログラム。

（付記１０）前記上位行動が観測され得る範囲は、所定の参照映像のうち前記上位行動が前記特徴量空間上で観測される区間で得られる第２動作特徴量の最大値および最小値に基づいて設定される付記８に記載の行動認識プログラム。

（付記１１）前記マッピング領域は、前記マッピング領域の境界線を形成する頂点の座標により定義される付記７に記載の行動認識プログラム。

（付記１２）前記更新を実行する処理は、前記プロット位置からマンハッタン距離で前記最小距離に位置する頂点の座標により定義される領域を拡張する処理を含む付記１１に記載の行動認識プログラム。

（付記１３）映像のフレームごとに複数の関節の位置を含む骨格情報を抽出する抽出部と、
前記骨格情報から第１動作特徴量を算出する第１算出部と、
認識対象とする上位行動に関する第２動作特徴量が観測され得る範囲が前記上位行動ごとにマッピングされた複数のマッピング領域を有する特徴量空間に前記第１動作特徴量をプロットすることで、前記特徴量空間に対して前記第１動作特徴量がプロットされた位置であるプロット位置を算出する第２算出部と、
前記複数のマッピング領域それぞれと前記プロット位置との距離のうち最小距離の他の距離に対する乖離度が所定の基準を満たす場合、前記プロット位置から前記最小距離にあるマッピング領域を前記プロット位置に基づいて拡張する更新を実行する更新部と、
を有する行動認識装置。

（付記１４）前記認識対象とする上位行動ごとに前記上位行動に対応する基本動作の組合せから抽出される第３動作特徴量のうち前記特徴量空間の定義に用いる前記第２動作特徴量を選択する選択部と、
前記第２動作特徴量で定義される特徴量空間上に前記上位行動が観測され得る範囲をマッピングするマッピング部とをさらに有する付記１３に記載の行動認識装置。

（付記１５）前記選択部は、前記基本動作の組合せから抽出される第３動作特徴量の中から、前記認識対象とする上位行動の各々を区別できる第４動作特徴量を前記第２動作特徴量として所定の特徴量選択のアルゴリズムにしたがって選択する付記１４に記載の行動認識装置。

（付記１６）前記上位行動が観測され得る範囲は、所定の参照映像のうち前記上位行動が前記特徴量空間上で観測される区間で得られる第２動作特徴量の最大値および最小値に基づいて設定される付記１４に記載の行動認識装置。

（付記１７）前記マッピング領域は、前記マッピング領域の境界線を形成する頂点の座標により定義される付記１３に記載の行動認識装置。

（付記１８）前記更新部は、前記プロット位置からマンハッタン距離で前記最小距離に位置する頂点の座標により定義される領域を拡張する処理を含む付記１７に記載の行動認識装置。

１０行動認識装置
１１映像取得部
１３オブジェクト認識部
１４基本動作認識部
１５ルール変換部
１５Ａ選択部
１５Ｂマッピング部
１６Ａ第１ルール記憶部
１６Ｂ参照映像記憶部
１７第２ルール記憶部
１８上位行動認識部
１８Ａルール照合部
１８Ｂルール更新部
１８Ｃ認識結果出力部

Claims

映像のフレームごとに複数の関節の位置を含む骨格情報を抽出し、
前記骨格情報から第１動作特徴量を算出し、
認識対象とする上位行動に関する第２動作特徴量が観測され得る範囲が前記上位行動ごとにマッピングされた複数のマッピング領域を有する特徴量空間に前記第１動作特徴量をプロットすることで、前記特徴量空間に対して前記第１動作特徴量がプロットされた位置であるプロット位置を算出し、
前記複数のマッピング領域それぞれと前記プロット位置との距離のうち最小距離の他の距離に対する乖離度が所定の基準を満たす場合、前記プロット位置から前記最小距離にあるマッピング領域を前記プロット位置に基づいて拡張する更新を実行する、
処理をコンピュータが実行する行動認識方法。
前記認識対象とする上位行動ごとに前記上位行動に対応する基本動作の組合せから抽出される第３動作特徴量のうち前記特徴量空間の定義に用いる前記第２動作特徴量を選択し、
前記第２動作特徴量で定義される特徴量空間上に前記上位行動が観測され得る範囲をマッピングする処理を前記コンピュータがさらに実行する請求項１に記載の行動認識方法。
前記選択する処理は、前記基本動作の組合せから抽出される第３動作特徴量の中から、前記認識対象とする上位行動の各々を区別できる第４動作特徴量を前記第２動作特徴量として所定の特徴量選択のアルゴリズムにしたがって選択する処理を含む請求項２に記載の行動認識方法。
前記上位行動が観測され得る範囲は、所定の参照映像のうち前記上位行動が前記特徴量空間上で観測される区間で得られる第２動作特徴量の最大値および最小値に基づいて設定される請求項２または３に記載の行動認識方法。
前記マッピング領域は、前記マッピング領域の境界線を形成する頂点の座標により定義される請求項１～４のいずれか１つに記載の行動認識方法。
前記更新を実行する処理は、前記プロット位置からマンハッタン距離で前記最小距離に位置する頂点の座標により定義される領域を拡張する処理を含む請求項５に記載の行動認識方法。
映像のフレームごとに複数の関節の位置を含む骨格情報を抽出し、
前記骨格情報から第１動作特徴量を算出し、
認識対象とする上位行動に関する第２動作特徴量が観測され得る範囲が前記上位行動ごとにマッピングされた複数のマッピング領域を有する特徴量空間に前記第１動作特徴量をプロットすることで、前記特徴量空間に対して前記第１動作特徴量がプロットされた位置であるプロット位置を算出し、
前記複数のマッピング領域それぞれと前記プロット位置との距離のうち最小距離の他の距離に対する乖離度が所定の基準を満たす場合、前記プロット位置から前記最小距離にあるマッピング領域を前記プロット位置に基づいて拡張する更新を実行する、
処理をコンピュータに実行させる行動認識プログラム。
映像のフレームごとに複数の関節の位置を含む骨格情報を抽出する抽出部と、
前記骨格情報から第１動作特徴量を算出する第１算出部と、
認識対象とする上位行動に関する第２動作特徴量が観測され得る範囲が前記上位行動ごとにマッピングされた複数のマッピング領域を有する特徴量空間に前記第１動作特徴量をプロットすることで、前記特徴量空間に対して前記第１動作特徴量がプロットされた位置であるプロット位置を算出する第２算出部と、
前記複数のマッピング領域それぞれと前記プロット位置との距離のうち最小距離の他の距離に対する乖離度が所定の基準を満たす場合、前記プロット位置から前記最小距離にあるマッピング領域を前記プロット位置に基づいて拡張する更新を実行する更新部と、
を有する行動認識装置。