JP7393526B2

JP7393526B2 - イベントクリップを提供するための、方法、電子装置、サーバシステム、およびプログラム

Info

Publication number: JP7393526B2
Application number: JP2022513272A
Authority: JP
Inventors: ノルド，ジョン・ジョーダン; ベンタース，ジョー・デローン; マリンズ，スコット; コング，リアナ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-09-06
Filing date: 2020-09-04
Publication date: 2023-12-06
Anticipated expiration: 2040-09-04
Also published as: US11895433B2; CN117749971A; US20240146866A1; US20220295008A1; JP2024028748A; EP4026313A1; CN114342357B; KR20220041911A; JP2022546438A; CN114342357A; WO2021046324A1

Description

関連出願
本願は、２０１９年９月６日に提出された米国特許仮出願第６２／８９７２３３号の優先権を主張し、当該出願の全体が参照により本明細書に組み込まれる。

技術分野
本願は、一般的に、電力の強化および帯域幅の節約を提供しながら、目標イベントに関連するビデオクリップを提供するカメラおよび電子支援装置を含むがこれらに限定されない、電子装置に関する。

背景
ストリーミング装置は、ますます普及されている。ストリーミング装置の数が増加するにつれて、ストリーミング需要が増加し、帯域幅の制限が懸念される。例えば、セキュリティカメラおよびストリーミング娯楽サービスを装備している戸建ては、特にこれらの装置が２４時間に高精細度ビデオデータをストリーミングする場合、住宅インターネットサービスプロバイダによって設定された毎月の帯域幅の最大割当量を容易に超えてしまう。

帯域幅の問題に加えて、ストリーミングは、多くの電力を消耗する。多くの電力を消耗するストリーミング装置は、電気請求料金を増加させると共に、高電力予算は、装置のサイズの縮小およびポータブルになる能力を妨げる。一方、電子装置をよりコンパクト且つモバイルに設計すると、連続ビデオストリーミングなどの多くの電力を消耗する動作を継続的にサポートすることが困難である。

連続ストリーミングアプリケーションによって引き起こされた帯域幅および電力の問題に対して提案された解決策は、目的を絞ったストリーミング手法を含む。しかしながら、ストリーミング装置がデータを取得し、ネットワークを介して取得したデータを送信することができるシナリオを制限すると、装置機能の様々なトレードオフが生じてしまう。例えば、帯域幅および電力を節約するために、記録およびストリーミングを最小限に抑えるようにセキュリティカメラを設計することができるが、これによって、カメラの使用を減らすことになり、重要なセキュリティ関連イベントを見逃してしまう危険性がある。

概要
したがって、より効率的、正確且つ直感的な方法で、装置機能への影響を低減すると共に、帯域幅および電力を節約するためのストリーミングシステムおよび／または装置が必要とされている。このようなシステム、装置および方法は、必要に応じて、装置機能を最適化すると共に、特定の装置動作を改善することによって、イベント識別、分類、および／または提示を行うための従来のシステム、装置および方法を補完するまたは置換する。

本明細書に記載された概念は、動的定式の使用を含み、動的定式とは、装置の配置、意図した装置の用途、および装置が経時的に環境を学習することによる適応に基づいて、それ自体を変更するものである。動的定式は、調整可能なパラメータ、例えば、パディング（例えば、目標物体を検出する前後の記録時間）、無活動（例えば、後続の活動を含むようにイベントを継続する代わりに、イベントを終了する前に待機する時間）、最大長（例えば、装置が記録を停止するまでにイベントが継続する時間）、クールオフ（例えば、それを超えるとイベントの記録が停止する物体検出の速度）、および／または物体フィルタおよび優先度（例えば、イベントを記録する基準となる物体の決定）を実装することによって、装置の的を絞った動作（例えば、イベントの的を絞った記録）に使用される。これらの調整可能なパラメータは、（ｉ）装置の位置（例えば、室内、室外、部屋）、（ｉｉ）装置の用途（例えば、装置の視野内にあるもの、およびユーザが見たいもの）、および／または（ｉｉｉ）装置の種類（例えば、有線またはバッテリ駆動）のうち、１つ以上に依存する。

一態様において、方法が開示される。この方法は、画像センサと、１つ以上のプロセッサと、１つ以上のプロセッサによる実行のための命令を記憶するメモリとを備える電子装置が、電子装置のイベント記録プロファイルを取得することを含み、イベント記録プロファイルは、電子装置の設定データに基づき、設定データは、位置種類または電力種類を含み、画像センサからシーンの複数の画像を取得し、電子装置上に記憶することと、シーンの複数の画像のうちの１つ以上に基づいて、トリガイベントを検出することと、トリガイベントの検出に応答して、シーンの複数の画像のうちの１つ以上から目標物体を特定することと、目標物体を含む保存画像からイベントクリップを作成することとを含み、イベントクリップを作成することは、イベント記録プロファイルに基づいてクリップ長を設定することを含み、表示のためにイベントクリップを提供することを含む。

いくつかの実施形態において、クリップ長を設定することは、パディング値、無活動閾値、および／または最大イベント長を設定することを含む。

いくつかの実施形態において、クリップ長を設定することは、パディング値を選択することを含み、パディング値は、検出された目標物体を含む複数の画像のうちの１つ以上の前に取得されたいくつかの画像に対応し、イベントを作成することは、いくつかの画像を検出された目標物体を含む複数の画像に追加することを含む。

いくつかの実施形態において、クリップ長を設定することは、無活動閾値を選択することを含み、無活動閾値は、目標物体が検出されていない取得されたいくつかの画像に対応し、イベントを作成することは、検出された目標物体を含む複数の画像にいくつかの画像を追加することを含む。

いくつかの実施形態において、クリップ長を設定することは、最大イベント長を選択することを含み、最大イベント長は、イベントの最大画像数に対応し、イベントを作成することは、最大画像数に到達すると、イベントを終了することを含む。

いくつかの実施形態において、設定データは、環境の特定の領域に対応する位置種類を含み、イベント記録プロファイルに基づいてイベント長を設定することは、電子装置が配置される環境の特定の領域に基づいて、パディング値、無活動閾値、および／または最大イベント長を選択することを含む。

いくつかの実施形態において、設定データは、電力種類を含み、イベント記録プロファイルに基づいてイベント長を設定することは、電子装置の電力種類が有線であるかまたはバッテリ駆動であるかに基づいて、パディング値、無活動閾値、および／または最大イベント長を選択することを含む。

いくつかの実施形態において、設定データは、物体優先度データを更に含み、イベント記録プロファイルに基づいてイベント長を設定することは、物体優先度データに従って特定された目標物体の優先度に基づいて、パディング値、無活動閾値、および／または最大イベント長を選択することを含む。

いくつかの実施形態において、クリップ長を設定することは、閾値時間内に２つ以上の物体検出を行った後、連続する物体検出の間に待機する時間に対応するクールオフ値を設定することを含む。

いくつかの実施形態において、クリップ長を設定することは、イベント記録プロファイルに関連する値の組み合わせに従って、パディング値、無活動閾値、および最大イベント長を設定することを含む。

いくつかの実施形態において、トリガイベントを検出することは、シーンの複数の画像のうちの２つ以上の分析に基づいて、シーン内のモーションを検出することを含む。

いくつかの実施形態において、トリガイベントを検出することは、シーンの複数の画像のうちの１つ以上の分析に基づいて、シーン内の目標物体を検出することを含む。

いくつかの実施形態において、この方法はイベントクリップを以前に作成されたイベントクリップに合成することによって、複合イベントクリップを形成することをさらに含み、表示のためにイベントクリップを提供することは、表示のために複合イベントクリップを提供することを含む。

別の態様において、電子装置は、１つ以上のプロセッサと、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに請求項１から１３のいずれか一項に記載の方法を実行させる命令を記憶するメモリとを備える。

別の態様において、非一時的なコンピュータ可読記憶媒体は、１つ以上のプロセッサを備える電子装置によって実行されると、１つ以上のプロセッサに請求項１から１３のいずれか一項に記載の方法を実行させる命令を記憶する。

以下の図面と共に、以下の実施形態の説明を参照すれば、記載された様々な実施形態をより良く理解するであろ。なお、全ての図面において、同様の参照番号は、同様の部材を示す。

いくつかの実施形態に従って、例示的な環境を示す図である。いくつかの実施形態に従って、代表的なネットワークアーキテクチャを示すブロック図である。いくつかの実施形態に従って、例示的な動作環境を示すブロック図である。いくつかの実施形態に従って、例示的な電子装置を示すブロック図である。いくつかの実施形態に従って、代表的なサーバシステムを示すブロック図である。いくつかの実施形態に従って、例示的なイベント定式を示すブロック図である。いくつかの実施形態に従って、代表的なクライアント装置を示すブロック図である。いくつかの実施形態に従って、例示的なイベント処理システムを示すブロック図である。いくつかの実施形態に従って、例示的なイベントを示す図である。いくつかの実施形態に従って、例示的な複合イベントを示す図である。いくつかの実施形態に従って、イベントを表示するための例示的なユーザインターフェイスを示す図である。いくつかの実施形態に従って、設定データを取得するための例示的なユーザインターフェイスを示す図である。いくつかの実施形態に従って、例示的なイベント処理プロセスを示す流れ図である。

実施形態の説明
同様の参照番号は、いくつかの図面において同様の部材を示す。

以下、添付の図面に示されている実施形態を詳細に説明する。以下の詳細な説明において、多くの具体的な詳細を記載することによって、記載された様々な実施形態の完全な理解を提供する。しかしながら、これらの具体的な詳細がなくても、記載された様々な実施形態を実施することができることは、当業者には明らかであろう。また、実施形態の特徴を曖昧にしないように、周知の方法、手順、構成要素、回路、およびネットワークは、詳しく説明されない。

カメラ、例えばセキュリティカメラ、ドアベルカメラを備える装置、およびカメラと一体化された支援装置をシーンに設置するまたは配置することによって、これらの装置を用いて、当該シーン（視野とも称される）から視覚入力を収集することができる。いくつかの実施形態において、これらの装置は、ビデオデータ（本明細書ではイベントとも称される）のクリップを記録し、サーバシステム、ハブ、または他のネットワーク接続装置を介して、環境の居住者による閲覧のためにクリップを提供する。いくつかの実施形態において、どのイベントを記録するか、どのイベントを閲覧に提供するか、およびどのようにイベントビデオクリップを合成するかを決定するために使用されるパラメータは、装置の位置、用途および電力種類を含むがこれらに限定されない装置のいくつかの特徴に基づいて修正される。

図１Ａは、いくつかの実施形態に従って、例示的な環境１００を示す。「環境」という用語は、１つ以上のネットワークに接続されるまたは相互に接続される電子装置（１つ以上のサポート機能を実行する装置、例えば、セキュリティカメラ、音声支援装置）を含む任意の空間を指す。例示的な環境は、住宅（例えば、戸建て、アパート、連続住宅、マルチユニットアパート）、ホテル、小売店、事務所ビル、工業用ビル、庭、公園、およびより一般的には任意の生活空間または作業空間を含む。環境は、本明細書において、住宅環境、住宅、または環境と称されてもよい。

また、「ユーザ」、「顧客」、「設置者」、「住宅所有者」、「居住者」、「来客」、「借家人」、「家主」、「修理人」などの用語は、本明細書に記載されたいくつかの特定の状況で行動する人物を言及するのに利用される。しかしながら、これらの言及は、人物やこのような行動を実行しているまたは環境の近くまたは中に存在している人々に関して、本教示の範囲を限定しない。したがって、例えば、「ユーザ」、「顧客」、「購入者」、「設置者」、「加入者」、および「住宅所有者」という用語は、戸建て住宅の場合、戸建ての購入決定を行い、装置（例えば、ネットワーク接続電子装置）を購入し、装置を設置し、装置を設定し、および／または装置を使用する同一の人物を指してもよい。しかしながら、他の場合に、例えば家主－借家人環境の場合に、顧客は、装置を購入する家主であってもよく、設置者は、アパート管理人であってもよく、第１のユーザは、借家人であってもよく、第２のユーザは、遠隔制御機能に関する家主であってもよい。重要なことに、行動を実行する人物の身分は、実施態様のうちの１つ以上によって提供される特定の利点に密接に関連してもよい。以下の説明において、このような身分は、必ずしも本教示の範囲を、特定の身分を有する特定の個人に限定すると解釈されるべきではない。

環境１００は、様々な一体化装置（本明細書において、「接続装置」、「ネットワーク接続装置」、「相互接続装置」、または「スマート」装置とも称される）を備える構造体１５０（例えば、住宅、事務所ビル、車庫、または移動住宅）を含む。図示された構造体１５０は、複数の部屋１５２を含み、複数の部屋１５２は、壁１５４を介して、互いに少なくとも部分的に分割される。壁１５４は、内壁または外壁を含んでもよい。各部屋は、床１５６および天井１５８をさらに含んでもよい。ネットワーク接続装置は、構造体１５０の全体を含まない環境１００、例えばアパート、分譲アパート、または事務所ビルに一体化されてもよい。いくつかの実施形態において、装置は、モバイル装置１０４（例えば、タブレット、ラップトップ、モバイルフォン、スマートフォン）、ディスプレイ装置１０６、メディアキャスティングまたはストリーミング装置１０８、サーモスタット１２２、ホーム保護装置１２４（例えば、煙、火および二酸化炭素検出器）、接続されたドアベル／カメラ１２６、接続されたロックセット１２８、接続されたアラームシステム１３０およびカメラ１３２を含むホームセキュリティ装置（例えば、モーション検出器、窓およびドアのセンサ、および警報器）、接続された壁スイッチ応答機１３６、接続された電気製品１３８、ＷｉＦｉ（登録商標）通信装置１６０（例えば、ハブ、ルータ、エクステンダ）、接続された家庭掃除装置１６８（例えば、真空掃除機または床掃除機）、通信および制御ハブ１８０、および／または電子支援装置１９０（本明細書において音声支援装置および表示支援装置とも称される）のうち、１つ以上を含む。

１つ以上のメディア装置を環境１００に配置することによって、ユーザは、ローカルに記憶されているまたはリモートコンテンツソース（例えば、コンテンツホスト１１４）からストリーミングされているメディアコンテンツにアクセスすることができる。いくつかの実施形態において、メディア装置は、メディアコンテンツを視聴者に直接に出力／表示／再生するためのメディア出力装置１０６と、１つ以上のネットワークを介して受信したメディアコンテンツをメディア出力装置１０６にストリーミングするためのキャスト装置１０８とを含む。メディア出力装置１０６の例は、テレビ（ＴＶ）ディスプレイ装置、音楽プレーヤ、およびコンピュータモニタを含むが、これらに限定されない。キャスト装置１０８の例は、メディアストリーミングボックス、キャスティング装置（例えば、グーグル（登録商標）クロームキャスト装置）、セットトップボックス（ＳＴＢ）、ＤＶＤプレーヤ、およびＴＶボックスを含むが、これらに限定されない。

例示的な環境１００において、メディア出力装置１０６は、複数の場所に配置され、各メディア出力装置１０６は、対応するキャスト装置１０８に接続されるまたは埋め込みキャスティングユニットを含む。メディア出力装置１０６－１は、ＴＶディスプレイを含み、このＴＶディスプレイは、配線を介して、ＤＶＤプレーヤまたはセットトップボックス１０８－１に接続される。メディア出力装置１０６－３は、ネットワーク接続ＴＶ装置を含み、ネットワーク接続ＴＶ装置は、メディアコンテンツをストリーミングして視聴者に表示するための埋め込みキャスティングユニットを含む。メディア出力装置１０６－２は、通常のＴＶディスプレイを含み、このＴＶディスプレイは、ネットワーク接続ＴＶボックス１０８－１（例えば、グーグル（登録商標）ＴＶまたはアップル（登録商標）ＴＶ）に接続される。このようなＴＶボックス１０８－２は、メディアコンテンツホストサーバ１１４から受信したメディアコンテンツをストリーミングし、インターネットベースのコンテンツをメディア出力装置１０６－２上に表示するために、インターネットへのアクセスを提供する。

メディア装置１０６および１０８に加えて、１つ以上の電子支援装置１９０が環境１００に配置される。電子支援装置１９０は、電子支援装置１９０ならびに／またはメディア装置１０６および１０８の様々なメディア再生機能を起動するための音声入力を収集する。いくつかの実施形態において、電子支援装置１９０は、ローカルに記憶されているメディアコンテンツまたはリモートコンテンツソースからストリーミングされているメディアコンテンツを提供するように構成される。いくつかの実施形態において、電子支援装置１９０は、音声によって作動され、メディア装置に近接して、例えばキャスト装置１０８およびメディア出力装置１０６と同じ部屋に配置される。代替的には、いくつかの実施形態において、音声作動電子支援装置（例えば、１９０－１または１９０－３）は、１つ以上の装置を有するがメディア装置を有しない部屋に配置される。代替的には、いくつかの実施形態において、音声作動電子支援装置１９０は、ネットワーク接続電子装置を有しない場所に配置される。これによって、電子支援装置１９０は、メディア装置と通信することができ、ある装置上に表示されているコンテンツを別の装置に（例えば、装置１９０－１から装置１９０－２および／またはメディア装置１０８に）共有することができる。

音声作動電子支援装置１９０は、少なくとも１つのマイクロフォンと、スピーカと、プロセッサと、プロセッサによって実行される少なくとも１つのプログラムを記憶するメモリとを含む。スピーカは、電子支援装置１９０が音声メッセージ（例えば、再生されているメディアコンテンツアイテムに関連するメッセージ、またはユーザと電子支援装置１９０との間の会話の一部としてのメッセージ）を配信することを可能にするように構成される。いくつかの実施形態において、電子支援装置１９０は、ユーザクエリに応答して、スピーカを介して、可聴情報をユーザに提供する。音声メッセージの代わりに、視覚信号を用いて、音声入力の処理状態に関するフィードバック、例えば、装置上で表示されている視覚通知を電子支援装置１９０のユーザに提供することができる。

いくつかの実施形態によれば、電子装置１９０は、サーバシステム１４０を用いて音声認識機能を提供するように構成された音声作動インターフェイス装置である。いくつかの実施形態において、サーバシステム１４０は、クラウドキャストサービスサーバ１１６および／または音声／表示支援サーバ１１２を含む。例えば、いくつかの実施形態において、電子装置１９０は、音楽（例えば、電子支援装置１９０またはディスプレイ装置１０６上で再生されているビデオコンテンツの音声）をユーザに提供すると共に、音声補助サービス（例えば、グーグル（登録商標）アシスタント）へのアイフリーアクセスおよび／またはハンズフリーアクセスを可能にするネットワーク接続スピーカを含む。場合によって、電子装置１９０は、スピーカ装置などの音声インターフェイス装置、またはタッチ検出機能を有するまたは有しないディスプレイスクリーンを含む装置である。

いくつかの実施形態において、電子支援装置１９０は、マイクロフォン、スピーカ、プロセッサ、およびメモリ（例えば、１９０－２および１９０－４）に加えて、一体型ディスプレイスクリーンを含む。このディスプレイスクリーンは、電子支援装置１９０のスピーカを介してブロードキャストすることができる音声情報に加えて、追加の視覚情報（例えば、メディアコンテンツ、メディアコンテンツに関する情報）を提供するように構成される。ユーザが近くに位置し且つユーザの視線が遮られていない場合、ユーザは、電子支援装置のディスプレイスクリーン上で追加の視覚情報を直接に確認することができる。必要に応じて、追加の視覚情報は、音声入力の処理状態に関するフィードバックを電子装置１９０のユーザに提供する。必要に応じて、追加の視覚情報は、ユーザの以前の音声入力（例えば、ユーザクエリ）に応答して提供され、スピーカによってブロードキャストされた音声情報に関連してもよい。いくつかの実施形態において、音声作動電子装置１９０のディスプレイスクリーンは、タッチ感知式ディスプレイスクリーンであり、その表面上のタッチ入力（例えば、タッチ感知式ディスプレイスクリーンを介して提供された命令）を検出するように構成される。代替的には、いくつかの実施形態において、音声作動電子装置１９０のディスプレイスクリーンは、タッチ感知式ディスプレイスクリーンではない。

電子装置１９０からの音声入力を用いて電子装置１９０を制御するおよび／またはキャスト装置１０８を介してメディア出力装置１０６を制御する場合、電子支援装置１９０は、それ自体がディスプレイを有するか否かに関係なく、キャスト対応メディア装置を制御することができる。一例において、電子装置１９０は、遠距離音声アクセス機能を有するスピーカを含み、ネットワーク実装支援サービス（例えば、グーグル（登録商標）アシスタント）の音声インターフェイス装置として機能する。

電子装置１９０は、環境１００内の任意の部屋に配置されてもよい。いくつかの実施形態において、複数の電子支援装置１９０が分散して複数の部屋に配置された場合、電子支援装置１９０は、複数の部屋の各部屋からの音声入力を受信ように同期された音声受信器になる。例えば、第１の電子装置１９０－１は、第２の電子装置１９０－２に向かって送信されたユーザ指示（例えば、「オッケーグーグル、台所の装置上でこのフォトアルバムを表示して」）を受信することができる。

具体的には、いくつかの実施形態において、電子装置１９０は、（例えば、ＷｉＦｉ（登録商標）ネットワークを介して接続された）ネットワーク接続スピーカを備え、このネットワーク接続スピーカは、音声作動パーソナル支援サービス（例えば、グーグル（登録商標）アシスタント）に接続されたマイクロフォンを有する。ユーザは、電子支援装置１９０のマイクロフォンを介してメディア再生要求を発行し、電子支援装置１９０上でおよび／または別の接続されたメディア出力装置１０６上でメディアコンテンツを再生するようにパーソナル支援サービスに要請することができる。例えば、ユーザは、スピーカの近くで「オッケーグーグル、居間のテレビで猫のビデオを再生して」と話すことによって、メディア再生要求を発行することができる。パーソナルアシスタントサービスは、デフォルトまたは指定のメディアアプリケーションを使用して、要求された装置上で要求されたメディアコンテンツを再生することによって、メディア再生要求を実行する。

また、ユーザは、電子支援装置１９０のマイクロフォンを介して、電子支援装置１９０上で既に再生されたおよび／または現在再生されているメディアコンテンツに関する音声要求を行うことができる。例えば、ユーザは、現在再生されているメディアコンテンツアイテムに関連する情報、例えば、このメディアコンテンツの所有権情報または主題を提供するように、電子支援装置に指示することができる。いくつかの実施形態において、リモートコントロールがない場合またはユーザが第２のディスプレイ装置を利用できる場合、音声によって現在表示されているメディアコンテンツの限定字幕（closed caption）をディスプレイ装置上でオンまたはオフにすることができる。したがって、ユーザは、物理的ユーザインターフェイスを有する任意の他の装置を使用せず、アイフリーおよびハンズフリー音声作動電子支援装置１９０を介して、ディスプレイ装置上で字幕をオンにすることができる。

いくつかの実施形態において、電子支援装置１９０は、ディスプレイスクリーンと、１つ以上の内蔵カメラとを含む。カメラは、画像および／またはビデオを取得するように構成される。取得された画像および／またはビデオは、クライアント装置（例えば、許可されたクライアント装置１０４）上で表示するために、サーバシステム１４０に送信（例えば、ストリーミング）される。

いくつかの実施形態において、音声作動電子支援装置１９０は、環境１００の壁１５４、床１５６、または天井１５８上に搭載され、それと一体化され、および／またはそれによって支持されてもよい。一体化装置は、様々な有用な機能を提供するために、ネットワークにおいて互いにシームレスに一体化されるおよび／または中央サーバもしくはクラウドコンピューティングシステムとシームレスに一体化されるインテリジェントなマルチセンシングネットワーク接続装置を含む。いくつかの実施形態において、１つの装置は、キャスト装置１０８および／または出力装置１０６と同じ環境１００の位置に配置され、したがって、キャスト装置１０８および出力装置１０６に近接してまたはそれらに対して既知の距離を有するように配置される。

いくつかの実施形態において、環境１００は、１つ以上のネットワーク接続カメラシステム１３２（本明細書ではカメラ１３２とも称される）を含む。いくつかの実施形態において、カメラ１３２によって取得されたコンテンツは、ユーザからの要求（例えば、「オッケーグーグル、ベビー部屋のモニタを見せて」というユーザ指示）に応じておよび／または環境１００の設定（例えば、夜にまたは侵入者の検出に応答して、特定のカメラ１３２によって取得されたコンテンツを表示する設定）に従って、電子支援装置１９０上で表示される。

いくつかの実施形態において、環境１００は、１つ以上のネットワーク接続サーモスタット１２２、ハザード検出器１２４、ドアベル１２６、ドアロック１２８、アラームシステム１３０、カメラシステム１３２、壁スイッチ１３６、電気製品１３８（例えば、冷蔵庫、ストーブ、オーブン、テレビ、洗濯機、および／または乾燥機）、ライト、ステレオ、インターホンシステム、車庫ドア開閉装置、フロアファン、天井ファン、壁空調装置、プールヒータ、灌漑システム、セキュリティシステム、室内暖房器、窓型エアコン（ＡＣ）ユニット、電動ダクトベントなどを含む。

環境１００は、１つ以上の他の占有センサ（例えば、タッチスクリーン、ＩＲセンサ、周囲光センサおよびモーション検出器）を含む。いくつかの実施形態において、環境１００は、（例えば、各部屋１５２またはその一部に配置された）無線周波数識別（ＲＦＩＤ）リーダを含み、ＲＦＩＤリーダは、居住者の身体に配置されたまたは埋め込まれたＲＦＩＤタグに基づいて、占有を判定する。例えば、ＲＦＩＤリーダは、ネットワーク接続ハザード検出器に一体化されてもよい。

いくつかの実施形態において、検知機能を含むことに加えて、環境１００に含まれた１つ以上の装置は、他の装置、中央サーバ、クラウドコンピューティングシステム、および／またはネットワーク接続にされた他の装置（例えば、クライアント装置１０４、キャスト装置１０８、および／または電子支援装置１９０）との情報共有を含み、データ通信を行うことができる。同様に、いくつかの実施形態において、キャスト装置１０８および電子支援装置１９０の各々は、他のキャスト装置１０８、他の電子支援装置１９０、中央サーバまたはクラウドコンピューティングシステム１４０、および／またはネットワークに接続された他の装置（例えば、クライアント装置１０４）との情報共有を含み、データ通信を行うことができる。データ通信は、特定のカスタムまたは標準の無線ネットワークプロトコル（例えば、IEEE 802.15.4、Ｗｉ－Ｆｉ（登録商標）、ZigBee（登録商標）、6L0WPAN、Thread、Z-Wave（登録商標）、ブルートゥース（登録商標）スマート、ＩＳＡ１００．ｌｌａ、WirelessHART、ＭｉＷｉ）および／または特定のカスタムまたは標準の有線ネットワークプロトコル（例えば、イーサネット（登録商標）、ＨｏｍｅＰｌｕｇ）、または本願の出願日の時点でまだ開発されていない通信プロトコルを含む任意の他の好適な通信プロトコルを使用して行われてもよい。

いくつかの実施形態において、環境１００に含まれたキャスト装置１０８、電子支援装置１９０および他の装置は、無線または有線中継器として機能する。いくつかの実施形態において、キャスト装置１０８のうちの第１のキャスト装置は、無線ルータを介して、キャスト装置１０８のうちの第２のキャスト装置または１つ以上の他の装置と通信する。また、キャスト装置１０８、電子支援装置１９０および１つ以上の他の装置は、インターネット１１０などのネットワークへの接続（例えば、ネットワークインターフェイス１６０）を介して、互いに通信することができる。キャスト装置１０８、電子支援装置１９０および／または１つ以上の他の装置は、インターネット１１０を介して、（本明細書において、中央サーバシステムおよび／またはクラウドコンピューティングシステムとも称される）サーバシステム１４０と通信することができる。必要に応じて、サーバシステム１４０は、環境１００に含まれた１つ以上の装置および／またはユーザに対して表示もしくは提示されているメディアコンテンツに関連する、製造業者、サポート法人、またはサービスプロバイダに関連付けられてもよい。

一般的に、環境１００に含まれた接続電子装置のいずれは、環境１００内のユーザと対話するための様々な機能を有するように構成されてもよい。例えば、電子装置は、１つ以上のマイクロフォン、１つ以上のスピーカ、および／または音声対話機能を有するように構成されてもよい。これによって、ユーザは、マイクロフォンによって受信される音声入力、および、スピーカによってユーザに情報を提示するために再生される可聴出力を介して、電子装置と対話する。同様に、電子装置は、ユーザ入力を受信するためのボタン、スイッチおよび／または他のタッチ応答センサ（例えば、タッチスクリーン、タッチパネル、または容量性若しくは抵抗性タッチセンサ）、および触覚出力をユーザに提供するための触覚機能または他の触覚フィードバック機能を有するように構成されてもよい。また、電子装置は、参照により本明細書に組み込まれ、「音声ユーザインターフェイスの視覚アフォーダンスを行うためのＬＥＤ設計言語」と題された米国特許出願第１５／５９２１２０号に記載されたように、情報をユーザに視覚的に出力するための視覚出力機能、例えばディスプレイパネルおよび／または１つ以上のインジケータライトを有するように構成されてもよい。さらに、環境１００に含まれた電子装置は、参照により本明細書に組み込まれ、「レーダベースのタッチインターフェイスを利用するためのシステム、方法、および装置」と題された米国特許出願第１５／４８１２８９号に記載されたように、電子装置の近くの物体および人物の運動を検出することができる運動センサ、例えばレーダトランシーバまたはＰＩＲ検出器を有するように構成されてもよい。

これらのセンサのいずれかによって受信された入力は、電子装置によっておよび／または電子装置と通信可能に連結されたサーバ（例えば、図１Ａのサーバシステム１４０）によって処理されてもよい。いくつかの実施形態において、電子装置および／またはサーバは、ユーザの入力に対する応答を処理および／または準備し、電子装置は、電子装置の出力機能のうちの１つ以上を介して、その応答を出力する。いくつかの実施形態において、電子装置は、電子装置の１つ以上の出力機能を介して、ユーザ入力に直接に応答しないが、環境１００内の第２の電子装置によってまたは電子装置と通信可能に連結されたサーバによって電子装置に送信された情報を出力する。送信されたこの情報は、電子装置の出力機能によって表示可能／再生可能な任意の種類のものであってもよい。

サーバシステム１４０は、環境１００に含まれた装置、例えば、ビデオカメラ１３２、（内蔵カメラを備える）ドアベル１２６、および電子支援装置１９０によって取得されたデータからのイベント（例えば、モーション、音声、およびセキュリティ）の監視および確認を容易にするためのデータ処理を提供する。いくつかの実施形態において、サーバシステム１４０は、（例えば、電子支援装置１９０、ドアベル／カメラ１２６、またはビデオカメラ１３２によって収集された）ビデオおよび／または音声入力を処理するための音声／表示支援サーバ１１２と、環境１００に含まれた１つ以上の装置上で表示するためのメディアコンテンツを提供するための１つ以上のコンテンツホスト１１４と、分散装置端末に基づいて仮想ユーザドメインを作成するためのクラウドキャストサービスサーバ１１６とを含んでもよい。いくつかの実施形態において、サーバシステム１４０は、仮想ユーザ環境内の分散装置端末の記録を保持するための装置レジストリ１１８を含む。分散型装置端末の例は、環境１００に含まれた電子支援装置１９０、キャスト装置１０８、メディア出力装置１０６、および／または任意の他の装置を含むが、これらに限定されない。いくつかの実施形態において、これらの分散型装置端末は、仮想ユーザドメイン内のユーザアカウントにリンクされる。いくつかの実施形態において、これらの機能およびコンテンツホストの各々は、サーバシステム１４０内の別個のサーバである。いくつかの実施形態において、これらの機能の一部は、サーバシステム１４０に一体化される。

いくつかの実施形態において、ネットワークインターフェイス１６０は、従来のネットワーク装置（例えば、ルータ）を含む。いくつかの実施形態において、環境１００は、ハブ装置１８０をさらに含み、ハブ装置１８０は、ネットワーク１１０に直接にまたはネットワークインターフェイス１６０を介して通信可能に連結される。また、ハブ装置１８０は、環境１００環境１００に含まれた１つ以上の装置に通信可能に連結される。いくつかの実施形態において、環境１００に含まれた１つ以上のネットワーク接続装置は、必要に応じて、１つ以上の無線通信ネットワーク（例えば、ZigBee（登録商標）、Z-Wave、Insteon、ブルートゥース（登録商標）、ＷｉＦｉ（登録商標）および／または他の無線通信ネットワーク）を用いて、ハブ装置１８０と通信する。いくつかの実施形態において、クライアント装置１０４（例えば、モバイルフォン、家庭用コントローラ、ラップトップ、タブレットコンピュータ、ゲームコンソール、または類似の電子装置）上で実行されているアプリケーションを介して、ハブ装置１８０およびハブ装置１８０に連結された装置を制御するまたはそれらと対話することができる。いくつかの実施形態において、このようなアプリケーションのユーザは、ハブ装置またはハブ装置に連結されたネットワーク接続装置の状態情報を確認することができ、ホームネットワークに新たに導入された装置と相互運用するようにハブ装置を構成することができ、新しい装置を作動させることができ、および接続された装置の設定を調整または閲覧することなどを行うことができる。

図１Ｂは、いくつかの実施形態に従って、ネットワーク１０２を含む代表的なネットワークアーキテクチャ１７０を示すブロック図である。

いくつかの実施形態において、環境１００の一体化装置は、本明細書においてまとめて装置１２０と称される、インテリジェントなマルチセンシングネットワーク接続装置（例えば、装置１２２、１２４、１２６、１２８、１３０、１３２、１３６および／または１３８）を含む。これらの装置は、ネットワーク（例えば、図１Ｂの１０２）において互いにシームレスに一体化され、および／または中央サーバもしくはクラウドコンピューティングシステム（例えば、サーバシステム１６４）とシームレスに一体化され、様々な有用な機能を提供する。

いくつかの実施形態において、環境１００内の装置１２０とハブ装置１８０とを組み合わせることによって、ネットワーク１０２内でメッシュネットワークを作成する。いくつかの実施形態において、ネットワーク１０２内の１つ以上の装置１２０は、コントローラとして動作する。追加的におよび／または代替的に、ハブ装置１８０は、コントローラとして動作する。いくつかの実施形態において、コントローラは、他の装置よりも多くの計算能力を有する。いくつかの実施形態において、コントローラは、（例えば、装置１２０、電子装置１９０（図１Ａ）、および／またはサーバシステム１６４からの）入力を処理し、コマンドを（例えば、ネットワーク１０２内の装置１２０に）送信することによって、環境１００の動作を制御する。いくつかの実施形態において、ネットワーク１０２（例えば、メッシュネットワーク）内の装置１２０の一部は、「スポークスマン」ノード（例えば、１２０－１）であり、他の装置は、「低電力」ノード（例えば、１２０－６）である。環境１００内の一部の装置は、バッテリ駆動であるが、他の装置は、環境の壁１５４の後ろの配線（例えば、１２０ボルト線間電圧を有する配線）に接続することによって、規則的且つ信頼可能な電源を有する。規則的且つ信頼可能な電源を有する装置は、「スポークスマン」ノードと称される。これらのノードは、典型的には、環境１００内の様々な他の装置およびサーバシステム１６４との双方向通信を容易にするために、無線プロトコルを使用する機能を備える。いくつかの実施形態において、１つ以上の「スポークスマン」ノードは、コントローラとして動作する。バッテリ駆動される装置は、「低電力」ノードである。これらの低電力ノードは、スポークスマンノードよりも小さくなる傾向があり、典型的には、Zigbee（登録商標）、Z-Wave（登録商標）、6L0WPAN、Thread、ブルートゥース（登録商標）などのごくわずかな電力しか必要としない無線プロトコルのみを使用して通信する。

いくつかの実施形態において、一部の低電力ノードは、双方向通信を行うことができない。これらの低電力ノードは、メッセージを送信することはできるが、「リッスンする」ことはできない。したがって、環境１００内の他の装置、例えば、スポークスマンノードは、これらの低電力ノードに情報を送信することができない。いくつかの実施形態において、一部の低電力ノードは、限定的な双方向通信のみを行うことができる。例えば、他の装置は、一定の期間中に限り、低電力ノードと通信することができる。

上述したように、いくつかの実施形態において、装置は、低電力およびスポークスマンノードとして機能して、環境１００内でメッシュネットワークを作成する。いくつかの実施形態において、環境内の一部の低電力ノードは、検知しているものに関するメッセージを定期的に送信し、環境内の他の低電力ノードは、それ自体のメッセージの送信に加えて、前述のメッセージを転送することによって、メッセージをネットワーク１０２の全体にわたってノード間（すなわち、装置間）に移動させる。いくつかの実施形態において、ＩＥＥＥ８０２．１１などの比較的高電力の通信プロトコルを使用して通信することができるネットワーク１０２内のスポークスマンノードは、ＩＥＥＥ８０２．１５．４などの比較的低電力の通信プロトコルに切り替えられ、これらのメッセージを受信し、これらのメッセージを他の通信プロトコルに変換し、変換されたメッセージを（例えば、比較的高電力の通信プロトコルを使用する）他のスポークスマンノードおよび／またはサーバシステム１６４に送信することができる。したがって、低電力通信プロトコルを使用する低電力ノードは、ネットワーク１０２全体にわたってメッセージを送受信することができ、およびインターネット１１０を介してメッセージをサーバシステム１６４に送受信することができる。いくつかの実施形態において、メッシュネットワークによって、サーバシステム１６４は、家の中の大部分または全ての装置からのデータを定期的に受信することと、データに基づいて推論を行うことと、ネットワーク１０２の内部および外部の装置の状態同期を促進することと、環境内でタスクを行うようにコマンドを１つ以上の装置に送信することとを可能にする。

上述したように、スポークスマンノードおよび一部の低電力ノードは、「リッスンする」ことができる。したがって、ユーザ、他の装置、および／またはサーバシステム１６４は、制御コマンドを低電力ノードに通信することができる。例えば、ユーザは、電子装置１０４（例えば、電話または他のモバイル通信装置）を用いて、インターネットを介して、コマンドをサーバシステム１６４に送信することができ、サーバシステム１６４は、このコマンドをネットワーク１０２内の１つ以上のスポークスマンノードに中継する。スポークスマンノードは、低電力プロトコルを使用して、コマンドをネットワーク１０２内の低電力ノードにおよびサーバシステム１６４からコマンドを直接に受信しなかった他のスポークスマンノードに通信することができる。

いくつかの実施形態において、装置１２０の一例である常夜灯１７０（図１Ａ）は、低電力ノードである。常夜灯１７０は、光源を収容することに加えて、超音波または受動ＩＲセンサなどの占有センサと、部屋の光を測定するためのフォトレジスタまたはシングルピクセルセンサなどの周囲光センサとを収容する。いくつかの実施形態において、常夜灯１７０は、周囲光センサが部屋が暗くなったことを検出したときおよび占有センサがだれかが部屋にいることを検出したときに、光源を作動させるように構成される。他の実施形態において、常夜灯１７０は、単に周囲光センサが部屋が暗くなることを検出したときに光源を作動させるように構成される。いくつかの実施形態において、常夜灯１７０は、占有センサが部屋の中の人物の存在を検出すること一致する瞬間メッセージを含み、部屋の占有および部屋の中の光量に関するメッセージを定期的に送信するための低電力ワイヤレス通信チップ（例えば、ZigBeeチップ）を含む。上述したように、これらのメッセージは、（例えば、メッシュネットワークを使用して）ネットワーク１０２内のノード間（すなわち、装置間）におよびインターネット１１０を介してサーバシステム１６４に無線で送信されてもよい。

低電力ノードの他の例は、ハザード検出器１２４、カメラ１３２、ドアベル１２６などのバッテリ駆動装置を含む。これらのバッテリ駆動装置は、通常、一定且つ信頼できる電力にアクセスできない領域に配置され、必要に応じて、画像センサ、占有／モーションセンサ、周囲光センサ、周囲温度センサ、湿度センサ、煙／火／熱センサ（例えば、熱放射センサ）、一酸化炭素／二酸化炭素センサなどの任意の数および種類のセンサを含む。さらに、これらのバッテリ駆動装置は、例えば上述したメッシュネットワークを用いて、各センサからのメッセージを他の装置および／またはサーバシステム１６４に送信することができる。

スポークスマンノードの例は、配線から給電されるドアベル１２６、サーモスタット１２２、壁スイッチ１３６、および壁プラグ１４２を含む。これらの装置は、信頼できる電源の近くに配置され、信頼できる電源に接続されるため、より多くの電力消費要素、例えば、様々なプロトコルで双方向通信を行うことができる１つ以上の通信チップを含んでもよい。

いくつかの実施形態において、環境１００は、特定の家庭タスクを自律的に実行するように構成されたサービスロボット１６８（図１Ａ）を含む。

図１Ａ～１Ｂを参照して上述したように、いくつかの実施形態において、図１Ａ～１Ｂの環境１００は、ネットワーク１１０に直接にまたはネットワークインターフェイス１６０を介して通信可能に連結されたハブ装置１８０を含む。また、ハブ装置１８０は、少なくとも環境１００に利用可能な無線通信ネットワークを使用する１つ以上の装置に通信可能に連結される。無線通信ネットワークによって使用される通信プロトコルは、ZigBee（登録商標）、Z-Wave（登録商標）、Insteon、EuOcean、Thread、OSIAN、ブルートゥース（登録商標）ローエネルギーなどを含むが、これらに限定されない。いくつかの実施形態において、ハブ装置１８０は、各装置から受信されたデータを、ネットワークインターフェイス１６０またはネットワーク１１０のデータフォーマット要件を満たすように変換するだけでなく、ネットワークインターフェイス１６０またはネットワーク１１０から受信された情報を、特定の装置に関連する各々の通信プロトコルのデータフォーマット要件を満たすように変換する。いくつかの実施形態において、データフォーマット変換に加えて、ハブ装置１８０はさらに、装置から受信されたデータまたはネットワークインターフェイス１６０もしくはネットワーク１１０から受信された情報を予備的に処理する。例えば、ハブ装置１８０は、複数のセンサ／接続された装置（同じ種類および／または異なる種類のセンサ／装置を含む）からの入力を集約し、これらの入力に対してより高いレベルの処理（例えば、全体的な環境の評価、異なるセンサ／装置の間の動作の調整）を実行し、および／または収集された入力およびプログラムされた処理に基づいて命令を異なる装置に提供することができる。なお、いくつかの実施形態において、ネットワークインターフェイス１６０およびハブ装置１８０は、１つのネットワーク装置に一体化されてもよい。本明細書に記載された機能は、装置、代表的な電子装置（例えば、電話または他のモバイル通信装置）上で実行される制御アプリケーション、ハブ装置１８０、およびインターネットまたは他のワイドエリアネットワークを介してハブ装置に連結されたサーバの特定の実装例を表す。この機能および関連する動作の全てまたは一部は、記載されたシステムの任意の要素によって実行されてもよい。例えば、ハブ装置の実装例によって実行されるものとして本明細書に記載された機能の全てまたは一部は、異なるシステムの実施形態において、サーバ、１つ以上の接続装置および／または制御アプリケーション、またはそれらの異なる組み合わせ上で全体的にまたは部分的に実行されてもよい。

図２は、代表的な動作環境２００を示す。この動作環境２００において、（場合によって、「ハブ装置サーバシステム」、「ビデオサーバシステム」、「ハブサーバシステム」と称される）サーバシステム１６４は、ビデオカメラ１３２によって取得されたビデオストリーム内のモーションイベントの監視および確認を容易にするためのデータ処理を提供する。図２に示すように、サーバシステム１６４は、様々な物理位置（例えば、家庭、レストラン、店舗、街路、駐車場、および／または図１の環境１００内）に配置された（カメラ１３２、ドアベル１２６、および／または電子装置１９０を含む）ビデオソース２２２からビデオデータを受信する。各ビデオソース２２２は、１つ以上の確認者アカウントに結び付けられてもよい。サーバシステム１６４は、ビデオソース２２２のビデオ監視データを、確認者アカウントに関連付けられたクライアント装置２０４に提供する。例えば、ポータブル電子装置１０４は、クライアント装置２０４の一例である。

いくつかの実施形態において、プロバイダサーバシステム１６４またはその構成要素は、図１Ａおよび１Ｂを参照して説明したサーバシステムに対応する。いくつかの実施形態において、サーバシステム１６４は、専用ビデオ処理サーバである、または図１Ａおよび１Ｂを参照して説明したように、サーバシステムによって提供される他のサービスから独立して、ビデオ処理サービスをビデオソースおよびクライアント装置２０４に提供するための専用ビデオ処理要素を含む。

いくつかの実施形態において、各ビデオソース２２２は、（イベントおよびビデオクリップを参照して以下でより詳細に説明するように）ビデオを取得し、取得されたビデオを実質的にリアルタイムでまたはクリップごとにサーバシステム１６４に送信するための１つ以上のビデオカメラ１３２を含む。いくつかの実施形態において、１つ以上のビデオソース２２２は、必要に応じて、１つ以上のカメラ１３２とサーバシステム１６４との間の仲介として機能するコントローラ装置（図示せず）を含む。このコントローラ装置は、１つ以上のカメラ１３２からビデオデータを受信し、必要に応じて、ビデオデータに対していくつかの予備処理を実行し、１つ以上のカメラ１３２の代理として実質的にリアルタイムでビデオデータをサーバシステム１６４に送信する。いくつかの実施形態において、各カメラは、取得されたビデオデータに対していくつかの予備処理を実行するためのオンボード処理能力を有し、（予備処理によって取得されたメタデータと共に）処理したビデオデータをコントローラ装置および／またはサーバシステム１６４に送信する。本開示の全ての実施形態は、ビデオソース２２２としてのビデオカメラ１３２を参照して説明される。しかしながら、各実施形態は、カメラを備える環境１００内の任意の他の装置、例えば、ドアベル１２６またはカメラを備える支援装置１９０にも適用されてもよい。

図２に示されるように、いくつかの実施形態によれば、各々のクライアント装置２０４は、クライアント側モジュール２０２を含む。クライアント側モジュール２０２は、１つ以上のネットワーク１１０を介して、サーバシステム１６４上で実行されるサーバ側モジュール２０６と通信する。クライアント側モジュール２０２は、イベントの監視および確認処理、およびサーバ側モジュール２０６との通信を行うクライアント側機能を提供する。サーバ側モジュール２０６は、対応するクライアント装置２０４上で各々常駐する任意の数のクライアント側モジュール２０２に対して、イベントの監視および確認処理を行うサーバ側機能を提供する。また、サーバ側モジュール２０６は、任意の数の制御装置およびカメラ１３２を含む任意の数のビデオソース２２２に対して、ビデオ処理およびカメラ制御を行うサーバ側機能を提供する。

いくつかの実施形態において、サーバ側モジュール２０６は、１つ以上のプロセッサ２１２と、ビデオ記憶データベース２１４と、装置およびアカウントデータベース２１６と、１つ以上のクライアント装置へのＩ／Ｏインターフェイス２１８と、１つ以上のビデオソースへのＩ／Ｏインターフェイス２２２とを含む。１つ以上のクライアントへのＩ／Ｏインターフェイスは、クライアント側入力およびサーバ側モジュール２０６への出力処理を容易にする。データベース２１６は、ビデオ処理サーバに登録された複数の確認者アカウントのプロファイルを記憶する。各ユーザプロファイルは、対応する確認者アカウントのアカウント証明書と、対応する確認者アカウントにリンクされた１つ以上のビデオソースとを含む。１つ以上のビデオソースへのＩ／Ｏインターフェイス２２２は、１つ以上のビデオソース２２２（例えば、１つ以上のカメラ１３２および関連するコントローラ装置からなるグループ）との通信を容易にする。ビデオ記憶データベース２１４は、ビデオソース２２２から受信された生ビデオデータと、イベント監視のデータ処理および各確認者アカウントの確認に使用される様々な種類のメタデータ、例えば、モーションイベント、イベントカテゴリ、イベントカテゴリモデル、イベントフィルタ、およびイベントマスクとを記憶する。

代表的なクライアント装置２０４の例は、ハンドヘルドコンピュータ、ウェアラブルコンピューティング装置、携帯情報端末（ＰＤＡ）、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、セルラーフォーン、モバイルフォン、メディアプレーヤ、ナビゲーション装置、ゲームコンソール、テレビ、リモートコントロール、店頭（ＰＯＳ）端末、車載コンピュータ、電子書籍リーダ、またはこれらのデータ処理装置もしくは他のデータ処理装置の任意の２つ以上の組み合わせを含むが、これらに限定されない。

１つ以上のネットワーク１１０の例は、ローカルエリアネットワーク（ＬＡＮ）およびインターネットなどのワイドエリアネットワーク（ＷＡＮ）を含む。１つ以上のネットワーク１１０は、必要に応じて、イーサネット（登録商標）、ユニバーサルシリアルバス（ＵＳＢ）、ファイアーワイヤ（登録商標）、ロングタームエボリューション（ＬＴＥ）、ＧＳＭ（登録商標）、エンハンストデータＧＳＭ環境（ＥＤＧＥ）、符号分割多元接続（ＣＤＭＡ）、時分割多元接続（ＴＤＭＡ）、ブルートゥース（登録商標）、Ｗｉ－Ｆｉ（登録商標）、ボイスオーバーインターネットプロトコル（ＶｏＩＰ）、Ｗｉ－ＭＡＸ、または任意の他の適切な通信プロトコルなどの様々な有線または無線プロトコルを含む任意の既知のネットワークプロトコルを使用して実装される。

いくつかの実施形態において、サーバシステム１６４は、１つ以上のスタンドアロンデータ処理装置またはコンピュータ分散ネットワーク上で実装される。いくつかの実施形態において、サーバシステム１６４は、様々な仮想装置および／または第三者サービスプロバイダ（例えば、第三者クラウドサービスプロバイダ）のサービスを利用して、サーバシステム１６４の基礎的なコンピューティングリソースおよび／またはインフラストラクチャリソースを提供する。いくつかの実施形態において、サーバシステム１６４は、ハンドヘルドコンピュータ、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、またはこれらのデータ処理装置もしくは他のデータ処理装置のうちの任意の２つ以上の組み合わせを含むが、これらに限定されない。

図２に示すサーバ－クライアント環境２００は、クライアント側部分（例えば、クライアント側モジュール２０２）とサーバ側部分（例えば、サーバ側モジュール２０６）との両方を含む。動作環境２００のクライアント部分とサーバ部分との間の機能の分割は、異なる実施形態では異なってもよい。同様に、ビデオソース２２２とサーバシステム１６４との間の機能の分割は、異なる実施形態では異なってもよい。例えば、いくつかの実施形態において、クライアント側モジュール２０２は、ユーザ側入力および出力処理機能のみを提供し、全ての他のデータ処理機能をバックエンドサーバ（例えば、サーバシステム１６４）に委任するシンクライアントである。同様に、いくつかの実施形態において、各ビデオソース２２２は、ビデオデータ（例えば、ビデオクリップの形態のイベント）を取得し、ビデオデータに対してローカル予備処理を全く実行せずまたは限定的に実行した後、サーバシステム１６４にストリーミングする単純なビデオ取得装置である。サーバシステム１６４の観点から本技術の多くの態様を説明したが、クライアント装置２０４および／またはビデオソース２２２が対応する動作を実行することができることは、創造的な努力なしに当業者には明らかであろう。同様に、クライアント装置またはビデオソースの観点から本技術のいくつかの態様を説明してもよく、ビデオサーバが対応する動作を実行することができることは、創造的な努力なしに当業者には明らかであろう。さらに、本技術のいくつかの態様は、サーバシステム１６４、クライアント装置２０４、およびビデオソース２２２によって協働して実行されてもよい。

なお、サーバシステム１６４、ビデオソース２２２、およびビデオカメラ１３２を含む動作環境２００は、単なる例である。一般的に、動作環境２００の多くの態様は、他の動作環境に適用可能である。この場合、サーバシステムは、他の種類の電子装置（例えば、サーモスタット１２２、ハザード検出器１２４、ドアベル１２６、壁プラグ１４２、電気製品１３８）によって取得されたデータの監視および確認を容易にするためのデータ処理を提供する。

電子装置、クライアント装置、およびサーバシステムは、１つ以上の通信ネットワーク１１０を介して互いに通信する。例示的な環境において、２つ以上の装置（例えば、ネットワークインターフェイス装置１６０、ハブ装置１８０、およびクライアント装置２０４－ｍ）は、有線接続、ＷＬＡＮまたはブルートゥース（登録商標）パーソナルエリアネットワーク（ＰＡＮ）を介して、同じサブネットワーク１１０Ａ内で通信可能に連結され得るように、相互に近接して配置される。ブルートゥース（登録商標）ＰＡＮは、必要に応じて、古典的なブルートゥース（登録商標）技術またはブルートゥース（登録商標）ローエネルギー（Bluetooth Low Energy：ＢＬＥ）技術に基づいて確立される。この環境は、１つ以上の他の無線通信ネットワーク１１０Ｂをさらに含み、ビデオソース２２２－ｎの電子装置のうち、少なくとも一部は、無線通信ネットワーク１１０Ｂを介して、ハブ装置１８０とデータを交換する。代替的には、いくつかの状況において、ビデオソース２２２－ｎの電子装置の一部は、装置１６０、１８０および２０４－ｍを連結する同じサブネットワーク１１０Ａを介して、ネットワークインターフェイス装置１６０と直接に通信する。いくつかの実施形態において（例えば、ネットワーク１１０Ｃの場合）、クライアント装置２０４－ｍとビデオソース２２２－ｎの電子装置との両方は、ネットワークインターフェイス装置１６０またはハブ装置１８０を通さず、ネットワーク１１０を介して直接に通信する。

いくつかの実施形態において、通常動作中に、ネットワークインターフェイス装置１６０およびハブ装置１８０は、互いに通信することによって、ビデオソース２２２～ｎの電子装置とデータを交換するためのネットワークゲートウェイを形成する。上述したように、ネットワークインターフェイス装置１６０およびハブ装置１８０は、必要に応じて、サブネットワーク１１０Ａを介して互いに通信する。

図３は、いくつかの実施形態に従って、環境１００内の例示的な電子装置２２２を示すブロック図である。例えば、電子装置２２２は、セキュリティカメラ１３２、ドアベルカメラ１２６、またはカメラを備える支援装置１９０であってもよい。電子装置２２２は、通常、１つ以上のプロセッサ（ＣＰＵ）３０２と、１つ以上のネットワークインターフェイス３０４と、メモリ３０６と、これらの要素（チップセットとも称される）を相互接続するための１つ以上の通信バス３０８とを含む。電子装置２２２は、画像および／またはビデオを取得するように構成された１つ以上のカメラ３６２を含む。電子装置２２２は、カメラ３６２の状態の視覚指示を表示するように構成された１つ以上の出力装置３１２、例えば、１つ以上のスピーカ、ディスプレイ、および／または１つ以上のインジケータライト（例えば、ＬＥＤ）を含む。いくつかの実施形態において、電子装置２２２は、イベントまたは変化を検出するためのセンサ３６３（例えば、モーションセンサ、レーダセンサ、および／または存在センサ）を含む。いくつかの実施形態において、イベントまたは変化の検出は、カメラ３６２の視野内のモーションの検出によってトリガされる。

電子装置２２２（例えば、支援装置１９０）のいくつかの実装例において、電子装置２２２は、ユーザ入力を容易にするための１つ以上の入力装置３１０、例えば、１つ以上のマイクロホン、音量調節およびプライバシー制御を含む。音量調節は、スピーカの音量レベルを調節するまたは表示支援装置３００をリセットするためのユーザ動作（例えば、ボリュームアップボタンまたはボリュームダウンボタンを押す動作、ボリュームアップボタンおよびボリュームダウンボタンの両方を長時間押す動作）を受け入れるように構成される。プライバシー制御は、表示支援装置のプライバシー設定（例えば、マイクロフォンおよび／またはカメラ３６２を停止するか否か）を制御するためのユーザ動作を受け入れるように構成される。いくつかの実施形態において、プライバシー制御は、電子装置２２２上に配置された物理ボタンである。いくつかの実施形態において、電子装置２２２の入力装置３１０は、ディスプレイパネル上に一体化され、ディスプレイパネル表面上のタッチ入力を検出するように構成されたタッチ検出モジュールを含む。いくつかの実施形態において、電子装置２２２の入力装置３１０は、視野内の画像および／またはビデオストリームを取得するように構成されたカメラモジュールを含む。

いくつかの実施形態において、電子装置２２２は、表示支援装置１９０の周りの所定の領域内のユーザの存在を検出するように構成された存在センサ３６３を含む。いくつかの状況において、表示支援装置１９０は、音声入力の検出および処理を停止するスリープまたはハイバネーションモードで動作し、存在センサが所定の領域内のユーザの存在を検出するまで、スリープまたはハイバネーションモードからウェイクアップしないまたは周囲をリッスンしない（すなわち、環境から収集されたオーディオ信号を処理しない）。存在センサの例は、ユーザの存在を検出するように構成された超音波センサである。

メモリ３０６は、ＤＲＡＭ、ＳＲＡＭ、ＤＤＲＲＡＭ、または他のランダムアクセスソリッドステートメモリ装置などの高速ランダムアクセスメモリを含み、必要に応じて、１つ以上の磁気ディスク記憶装置、１つ以上の光ディスク記憶装置、１つ以上のフラッシュメモリ装置、または１つ以上の他の不揮発性ソリッドステート記憶装置などの不揮発性メモリを含む。メモリ３０６は、必要に応じて、１つ以上のプロセッサ（またはＣＰＵ）３０２から離れて配置される１つ以上の記憶装置を含む。メモリ３０６または代替的にメモリ３０６内の不揮発性メモリは、非一時的なコンピュータ可読記憶媒体を含む。いくつかの実施形態において、メモリ３０６またはメモリ３０６の非一時的なコンピュータ可読記憶媒体は、以下のプログラム、モジュール、およびデータ構造、またはそれらの下位集合もしくは上位集合を記憶する。プログラム、モジュール、およびデータ構造は、
様々な基本的なシステムサービスを処理し、ハードウェア依存タスクを実行するためのプロシージャを含むオペレーティングシステム３１６と、
１つ以上の（有線または無線）ネットワークインターフェイス３０４および１つ以上のネットワーク１１０、例えば、インターネット、他のワイドエリアネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークを介して、電子装置２２２を他の装置（例えば、サーバシステム１６４、クライアント装置１０４、クライアント装置２０４、装置１２０、ハブ装置１８０、および／または他の電子装置２２２）に接続するためのネットワーク通信モジュール３１８と、
ディスプレイ上で情報の提示を可能にする１つ以上の入力装置３１０を介して、入力を受信するための入力／出力制御モジュール３２０とを含み、
この入力／出力制御モジュール３２０は、
電子装置２２２の周りの環境から収集された音声入力または音声メッセージを処理する、またはサーバシステム１６４（音声／表示支援サーバ１１２）による処理のために収集された音声入力または音声メッセージを準備するための音声処理モジュール３２２と、
メディアコンテンツアイテム（例えば、ユーチューブ（登録商標）ビデオクリップ）、ニュース投稿、ソーシャルメディアメッセージ、天気情報、個人写真、音声入力処理の状態、および装置の読取り値を含むがこれらに限定されない追加の視覚情報を表示するための表示支援モジュール３２４と、
電子装置２２２の上面のタッチイベントを検知するためのタッチ検知モジュール３２６とを含み、
上述したプログラム、モジュール、およびデータ構造は、
イベントを検出し、当該イベントに関連するビデオクリップを処理するためのイベント処理モジュール３５０とを含み、
このイベント処理モジュール３５０は、
イベントトリガ（例えば、シーン内のモーションまたは前景物体の存在）を検出するためのトリガ検出モジュール３５０と、
（例えば、物体がイベントの作成をトリガすべきか否かに関する判定の一部として）シーンから検出された物体に対して物体認識分析を実行するための物体認識モジュール３５４と、
イベントを含むフレームおよび／またはイベントの前後の追加のフレームを含むビデオクリップを合成するためのイベント合成モジュール３５６とを含み、合成することは、無活動閾値および最大イベント長などのイベントパラメータを考慮することを含み、
上述したプログラム、モジュール、およびデータ構造は、
カメラ３６２の画像センサから画像フレームを取得し、ビデオストリーム（例えば、連続ビデオストリーム、ビデオクリップ、および／または１つ以上の静止画像）を処理するためのビデオ処理モジュール３５８を含み、処理することは、いくつかの実施形態において、ネットワークを介して送信するために、処理されたビデオデータを圧縮することを含み、
上述したプログラム、モジュール、およびデータ構造は、
電子装置２２２の電力種類（例えば、装置がバッテリによって駆動されているか、または有線電源によって駆動されているか）を検出するための電力検出モジュール３５９と、
データ３３０とを含み、
データ３３０は、
電子装置２２２に関連する情報、例えば、装置の共通設定（例えば、サービス層、装置モデル、記憶容量、処理能力、通信能力）および電子装置２２２にリンクされている仮想ユーザドメイン内のユーザアカウントの情報を記憶するための装置設定３３２と、
イベントを生成するためにイベント処理モジュール３５０によって使用されるパラメータ、例えば、パディング３８２、無活動閾値３８４、最大イベント長３８６、クールオフ閾値３８８、および／または物体フィルタおよび／または優先度３９０を含むイベントプロファイル設定３８０とを含み、
パディング３８２は、プレロール値（例えば、図８および図９のパディングウィンドウ８１４および９１４に示すように、物体または目標オカレンスを検出する前のイベントクリップに含まれる時間、または目標物体またはオカレンスを含む画像フレームの前に取得された画像の数）と、ポストロール値（例えば、図８および図９のパディングウィンドウ８１６および９１６に示すように、検出された目標物体またはオカレンスがカメラのシーンまたは視野に存在していないのイベントクリップに含まれる時間、または目標物体もしくはオカレンスが検出されなくなるまで取得された画像の数）とを含み、
無活動閾値３８４は、例えば、図８の時間Ｄ／Ｅと図９の時間Ｄ／ＦとＩ／Ｊとの間の無活動ウィンドウに示すように、後続の活動を含むようにイベントを継続する代わりに、イベントを終了する前の待機時間、または目標物体もしくはオカレンスが検出されなくなるまで取得された画像の数であり、この画像の数は、イベントを終了する前の待機時間に対応しており、
最大イベント長３８６は、例えば、図８および図９のイベントセグメント８１２および９１２に示すように、目標物体またはオカレンスがカメラのシーンまたは視野内に存在しているか否かにかかわらず、イベントが終了する前のイベント持続時間、または最大イベント長として特定された時間に関連する画像の最大数であり、いくつかの実施形態において、最大イベント長は、パディングウィンドウを含み、いくつかの実施形態において、最大イベント長は、パディングウィンドウを含まない、
クールオフ閾値３８８は、例えば、それを超えるとイベントの記録が停止する物体検出の速度であり、
物体フィルタおよび／または優先度３９０は、例えば、図５の例示的な定式４４２内のイベント優先度リストに示すように、イベントを記録する基準となる物体を決定するためのものであり、
上述したプログラム、モジュール、およびデータ構造は、
カメラ３６２の画像センサによって取得された画像フレームを記憶するための画像バッファ（入力バッファとも称される）３９２と、
電子装置２２２の音声インターフェイス機能に関連する音声信号、音声メッセージ、応答メッセージ、および他のデータを記憶するための音声制御データ３３６と、
表示支援装置を使用することを許可されたユーザの情報、例えば、許可ユーザの画像、音声情報、および指紋情報を記憶するための許可ユーザデータ３３８とを含み、
電子装置２２２に関連する生データまたは処理済みデータ、例えば、カメラ３６２によって取得されたイベントデータおよび／またはビデオデータを選択的に記憶するためのローカルデータストレージ３４０とを含む。

上述した要素の各々は、前述した１つ以上のメモリ装置に記憶されてもよく、上述した機能を実行するための命令セットに対応する。上述したモジュールまたはプログラム（すなわち、命令セット）は、別個のソフトウェアプログラム、プロシージャ、モジュール、またはデータ構造として実装される必要はない。したがって、様々な実施形態において、これらのモジュールを様々なサブセットで組み合わせるまたは再編成することができる。いくつかの実施形態において、メモリ３０６は、必要に応じて、上述したモジュールおよびデータ構造のサブセットを記憶する。また、メモリ３０６は、必要に応じて、上述で説明されていない追加のモジュールおよびデータ構造を記憶する。

いくつかの実施形態において、上述した１つ以上の要素は、サーバシステム（例えば、サーバシステム１６４）に記憶されてもよく、またはこのサーバシステムに実装されてもよい。例えば、イベント処理モジュール３５０は、サーバシステム１６４に格納されてもよい。このような実施形態において、電子装置２２２は、カメラ３６２から取得された画像データを含むビデオストリームをサーバシステム１６４に送信し、イベント処理モジュール３５０は、サーバシステム１６４においてトリガ検出、物体認識、および／またはイベント合成を実行する。前述した１つ以上のプロセスの結果として、サーバシステム１６４は、イベントクリップ（例えば、図７を参照して以下でより詳細に説明されるイベントクリップ７４０）を電子装置２２２に送信し、（例えば、電子装置２２２の出力装置３１２上で）表示する。

図４は、いくつかの実施形態に従って、サーバシステム１６４を示すブロック図である。サーバシステム１６４は、１つ以上のプロセッサ（例えば、ＣＰＵ）４０２と、１つ以上のネットワークインターフェイス４０４と、メモリ４０６と、これらの要素（チップセットとも称される）を相互接続するための１つ以上の通信バス４０８とを含む。メモリ４０６は、ＤＲＡＭ、ＳＲＡＭ、ＤＤＲＳＲＡＭ、または他のランダムアクセスソリッドステートメモリ装置などの高速ランダムアクセスメモリを含み、必要に応じて、１つ以上の磁気ディスク記憶装置、１つ以上の光ディスク記憶装置、１つ以上のフラッシュメモリ装置、または１つ以上の他の不揮発性ソリッドステート記憶装置などの不揮発性メモリを含む。メモリ４０６は、必要に応じて、１つ以上のプロセッサ４０２から離れて配置される１つ以上の記憶装置を含む。メモリ４０６または代替的にメモリ４０６内の不揮発性メモリは、非一時的なコンピュータ可読記憶媒体を含む。いくつかの実施形態において、メモリ４０６またはメモリ４０６の非一時的なコンピュータ可読記憶媒体は、以下のプログラム、モジュール、およびデータ構造、またはそれらの下位集合もしくは上位集合を記憶する。プログラム、モジュール、およびデータ構造は、
様々な基本的なシステムサービスを処理し、ハードウェア依存タスクを実行するためのプロシージャを含むオペレーティングシステム４１０と、
１つ以上の（有線または無線）ネットワークインターフェイス４０４を介して、サーバシステム１６４を他のシステムおよび装置（例えば、１つ以上のネットワーク１１０に接続されたクライアント装置、電子装置およびシステム）に接続するためのネットワーク通信モジュール４１２と、
装置制御、データ処理、およびデータ確認などのサーバ側機能を提供するサーバ側モジュール４１４とを含み、
サーバ側モジュール４１４は、
電子装置からのデータ（例えば、電子装置２２２からのイベントデータ）を受信し、さらなる処理を行うおよびサーバデータベース４２８に記憶するために、受信したデータを準備するように構成されたデータ受信モジュール４１６と、
電子装置（例えば、電子装置２２２）の動作モードを修正するように、サーバ起動御コマンドを生成および送信し、および／または電子装置の動作モードを修正するように、（例えば、クライアント装置２０４およびクライアント装置１０４から）ユーザ起動制御コマンドを受信および転送する（例えば、電子装置２２２の装置設定データ４３８を受信し、設定データ４３８に対応する１つ以上のイベント処理定式４４２を転送する）ように構成された装置制御モジュール４１８と、
電子装置によって提供されたデータを処理し、および／または処理されたデータを準備し、確認用装置（例えば、ユーザによって確認されるクライアント装置２０４）に送信するように構成されたデータ処理モジュール４２０とを含むがこれらに限定されず、データ処理モジュール４２０は、受信されたビデオクリップ（例えば、電子装置２２２から受信され、検出されたイベントに対応するビデオクリップ）から検出された実体および／またはイベント候補を処理する（例えば、分類および／または認識する）ためのビデオ処理モジュール４２２と、ユーザと通信する（例えば、警告、タイムラインイベントなどを送信する、およびユーザの編集およびゾーンの定義などを受信する）ためのユーザインターフェイスモジュール４２４と、環境から検出された人物を分析および／または特定するための実体認識モジュール４２６とを含むがこれらに限定されず、
上述したプログラム、モジュール、およびデータ構造は、サーバデータベース４２８を含み、
サーバデータベース４２８は、
装置およびアカウントデータを格納するための装置およびアカウントデータベース２１６を含み、
この装置およびアカウントデータベース２１６は、
１つ以上の装置（例えば、電子装置２２２）に関連する装置情報４３６と、
装置識別子４４８、設置場所データ４４９ａ、装置用途情報４４９ｂ、および／または装置電力種類データ４４９ｃを含む装置設定データ４３８と、
ユーザアカウント情報、例えば、ユーザプロファイル、リンクされたハブ装置および電子装置の情報および設定（例えば、ハブ装置ＩＤ）、ハブ装置の固有のシークレット、関連ユーザおよびハードウェア特性（例えば、サービス層、サブスクリプション、装置モデル、記憶容量、処理能力）、ユーザインターフェイス設定、データ確認好み設定を含み、ユーザアカウントに関連するアカウントデータ４３２とを含み、電子装置に関連する情報は、１つ以上の装置識別子（例えば、ＭＡＣアドレスおよびＵＵＩＤ）、装置の固有のシークレット、表示されたタイトル、およびビデオ処理サーバに登録された確認者アカウントのプロファイルを含むがこれらに限定されず、各ユーザプロファイルは、対応する確認者アカウントのアカウント証明書と、対応する確認者アカウントにリンクされた１つ以上のビデオソースとを含み、
サーバデータベース４２８は、
ビデオソースから受信したビデオデータ（例えば、１つ以上の電子装置２２２から受信したビデオクリップ）、およびイベント監視のデータ処理および各確認者アカウントの確認に使用される様々な種類のメタデータ、例えば、モーションイベント、イベントカテゴリ、イベントカテゴリモデル、イベントフィルタ、およびイベントマスクを記憶するためのビデオ記憶データベース２１４（図２参照）と、
各ユーザアカウントの各電子装置（例えば、各電子装置２２２）に関連するデータ、データ処理モデル、データ処理結果、および当該データに関連する他のメタデータ（例えば、データ結果の名前、電子装置の位置、作成時間、持続時間、電子装置の設定）を記憶するためのデータストレージ４３０とを含み、当該データおよび／またはハブ装置１８０または装置に関連する処理結果の全部または一部は、（必要に応じて）安全に記憶され、
電子装置（例えば、電子装置２２２）の許可ユーザの情報、例えば、画像、声紋、指紋および信頼レベルを記憶するための許可人物データベース２４２と、
イベント記録およびコンテキスト情報（例えば、接近している訪問者の周囲の状況を記述するコンテキストデータ）などのイベント情報４４０と、
特定の設定データ４３８に対応するイベントパラメータの予め決められたまたはプログラムされた定式（本明細書ではレシピとも称される）、例えば、パディング値４４３ａ、無活動値４４３ｂ、長さ値４４３ｃ、クールオフ値、および／または優先度値４４３ｄの特定の組み合わせを含むイベント定式４４２と、
様々な照明条件においてカメラによって取得された以前の背景画像および／または実体画像などの過去画像４４４と、
（例えば、環境１００内の）実体を特定するおよび／または特徴付ける情報などの実体情報４４６とを含むがこれらに限定されない。

上述した要素の各々は、前述した１つ以上のメモリ装置に記憶されてもよく、上述した機能を実行するための命令セットに対応する。上述したモジュールまたはプログラム（すなわち、命令セット）は、別個のソフトウェアプログラム、プロシージャ、またはモジュールとして実装される必要はない。したがって、様々な実施形態において、これらのモジュールを様々なサブセットで組み合わせるまたは再編成することができる。いくつかの実施形態において、メモリ４０６は、必要に応じて、上述したモジュールおよびデータ構造のサブセットを記憶する。また、メモリ４０６は、必要に応じて、上述していない追加のモジュールおよびデータ構造（例えば、クライアント装置、装置および環境をリンクするためのアカウント管理モジュール）を記憶する。

いくつかの実施形態において、メモリ４０６は、音声／表示支援アプリケーション（図示せず）を含み、この音声／表示支援アプリケーションは、実行されると、音声作動電子装置１９０から受信された音声メッセージの音声処理を準備し、音声メッセージを直接に処理することによって、ユーザ音声コマンドとキャスト装置１０８または別の音声作動電子装置１９０の指示とを抽出し、および／または音声作動電子装置１９０にメディアコンテンツ（オーディオまたはビデオ）を再生させる。

いくつかの実施形態において、サーバシステム１６４は、クラウドキャストサービス（例えば、図１Ａのクラウドキャストサーバ１１６）を含む。いくつかの実施形態において、メモリ４０６は、キャスト装置アプリケーションをさらに含み、このキャスト装置アプリケーションは、実行されると、キャスト装置１０８に関連する装置プロビジョニング、装置制御、およびユーザアカウント管理を実行するためのサーバ側機能を提供する。クラウドキャスト機能のさらなる詳細は、２０１９年１２月７日に提出され、「表示支援装置」と題されたＰＣＴ出願ＰＣＴ／ＵＳ２０１５／６４４４９に記載される。当該出願の全体は、参照により本明細書に組み込まれる。

図５は、いくつかの実施形態に従って、２つの例示的なイベント定式（例えば、図４の定式４４２）を含む。

室外定式５０２は、室外環境に配置される電子装置２２２（例えば、室外セキュリティカメラまたはドアベルカメラである）用のものである。室外定式５０２において、イベントは、初期イベントトリガの前（例えば、モーションが最初に検出される前、またはシーンに進入した目標物体が認識される前）に２秒のビデオでパディングされ、各イベントが完了した後（例えば、モーションが検出されなくなった後）に２秒のビデオでパディングされる。これらのパディング値は、本明細書において、プリロール値およびポストロール値と称されることがある。無活動閾値は、３０秒であり、最大イベント長は、５時間である。また、室外定式は、目標物体／イベントおよびそれらの優先度のリストを含む。いくつかの実施形態において、イベントの特定の部分で２つの物体／イベントを同時に検出した場合、イベントのその部分は、より高い優先度の物体／イベントを用いて標記される。いくつかの実施形態において、閾値より高い優先度を有する物体／イベントのみは、イベントを作成するための基準、および／またはクライアント装置に通知を送信するための基準として使用される。

室内定式５０４は、屋内環境に配置される電子装置２２２（例えば、室内防犯カメラまたはカメラ付き支援装置）用のものである。この例において、屋内で発生するイベントには、追加のポストロールパディング時間（室外定式のわずかに２秒に対して５秒）が与えられる。無活動閾値は、同様に３０秒であるが、最大イベント長は、１時間のみである。また、ペット、ドアノック、ガラス割れ、および乳児泣きなどの物体／イベントが屋内環境に発生しやすく、したがってより関連性が高いであるため、イベント優先度リストには、これらの物体／イベントは、室外定式５０２の物体／イベントの優先度よりも高い優先度が与えられる。

定式５０２および５０４は、例示である。他の値の組み合わせ、他の装置位置および構成は、本明細書に記載された概念の範囲から逸脱することなく、イベント定式に実装されてもよい。いくつかの実施形態において、以下で説明するように、定式４４２は、最新の設定データ、ユーザ好み、および／または装置学習アルゴリズムに基づいて変更するように構成される基準パラメータ値（例えば、図５の例に示されたもの）を含んでもよい。

図６は、いくつかの実施形態に従って、ユーザアカウントに関連する代表的なクライアント装置２０４（図２のクライアント装置２０４および図１のクライアント装置１０４）を示すブロック図である。クライアント装置２０４は、通常、１つ以上のプロセッサ（例えば、ＣＰＵ）６０２と、１つ以上のネットワークインターフェイス６０４と、メモリ６０６と、これらの要素（チップセットと称されることがある）を相互接続するための１つ以上の通信バス６０８とを含む。また、必要に応じて、クライアント装置は、ユーザインターフェイス６１０と、１つ以上のセンサ６９０（例えば、加速度計およびジャイロスコープ）とを含む。ユーザインターフェイス６１０は、メディアコンテンツの提示を可能にする１つ以上の出力装置６１２、例えば、１つ以上のスピーカおよび／または１つ以上の表示装置を含む。ユーザインターフェイス６１０は、１つ以上の入力装置６１４を含み、１つ以上の入力装置６１４は、ユーザ入力を容易にするユーザインターフェイス要素、例えば、キーボード、マウス、音声コマンド入力ユニットまたはマイクロフォン、タッチスクリーンディスプレイ、タッチ感知式入力パッド、ジェスチャ捕捉カメラ、または他の入力ボタンもしくはつまみを含む。さらに、いくつかのクライアント装置は、キーボードを補完するまたは置換するために、マイクロフォンおよび音声認識またはカメラおよびジェスチャ認識を使用する。いくつかの実施形態において、クライアント装置は、画像を取得するための１つ以上のカメラ、スキャナ、またはフォトセンサユニット（図示せず）を含む。必要に応じて、クライアント装置は、クライアント装置の位置（例えば、屋内、室外、または環境内の特定の部屋もしくは領域）を決定するための位置検出要素６１６、例えば、ＧＰＳ（全地球測位衛星）センサまたは他の地理位置受信器を含む。

メモリ６０６は、ＤＲＡＭ、ＳＲＡＭ、ＤＤＲＳＲＡＭ、または他のランダムアクセスソリッドステートメモリ装置などの高速ランダムアクセスメモリを含み、必要に応じて、１つ以上の磁気ディスク記憶装置、１つ以上の光ディスク記憶装置、１つ以上のフラッシュメモリ装置、または１つ以上の他の不揮発性ソリッドステート記憶装置などの不揮発性メモリを含む。メモリ６０６は、必要に応じて、１つ以上のプロセッサ（またはＣＰＵ）６０２から離れて配置される１つ以上の記憶装置を含む。メモリ６０６または代替的にメモリ６０６内の不揮発性メモリは、非一時的なコンピュータ可読記憶媒体を含む。いくつかの実施形態において、メモリ６０６またはメモリ６０６の非一時的なコンピュータ可読記憶媒体は、以下のプログラム、モジュール、およびデータ構造、またはそれらの下位集合もしくは上位集合を記憶する。プログラム、モジュール、およびデータ構造は、
様々な基本的なシステムサービスを処理し、ハードウェア依存タスクを実行するためのプロシージャを含むオペレーティングシステム６１８と、
１つ以上の（有線または無線）ネットワークインターフェイス６０４を介して、クライアント装置２０４を他のシステムおよび装置（例えば、１つ以上のネットワーク１１０に接続されたクライアント装置、電子装置、およびシステム）に接続するためのネットワーク通信モジュール６２０と、
１つ以上の入力装置６１４のうちの１つからの１つ以上のユーザ入力または相互作用を検出し、検出された入力または相互作用を翻訳するための入力処理モジュール６２２と、
装置を制御すること（例えば、コマンドをハブ装置および／または他のクライアント装置もしくは電子装置に送信すること、設定を構成すること、電子装置２２２の設定データを入力すること）を行うため、および装置によって取得されたデータ（例えば、装置状態および設定、取得されたデータ、イベントビデオクリップ、またはハブ装置もしくは他の接続装置に関する他の情報）を確認するために、クライアント装置によって実行される１つ以上のアプリケーション６２３（例えば、ゲーム、ソーシャルネットワークアプリケーション、アプリケーション６２４、および／または他のウェブベースもしくは非ウェブベースのアプリケーション）とを含み、いくつかの実施形態において、ユーザは、アプリケーション６２４を用いて、表示支援装置１９０の設定、例えば、オン／オフモード監視（例えば、ライブビュー、イベント履歴、通知）、ホーム／アウェイアシストおよび活動ゾーンの設定を構成することができる。いくつかの実施形態において、ユーザは、アプリケーション６２４を用いて、ホームを監視するためにカメラ３６２を起動する時間をスケジュールすることができる。いくつかの実施形態において、ユーザは、アプリケーション６２４を介して、画像および／またはビデオを配信する品質、使用される帯域幅、およびマイクロホンの設定を構成することができる。いくつかの実施形態において、アプリケーション６２４は、電子装置２２２を移動させると、活動ゾーン内で何を記録するかまたは何を記録しないかを影響するというユーザ教育（例えば、トレーニングビデオ、マニュアル、ポップアップメッセージ通知）を提供する。いくつかの実施形態において、アプリケーション６２４は、電子装置２２２が移動されると、ゾーンを無効にするかまたはゾーンを調整する。いくつかの実施形態において、電子装置２２２は、移動されると、クラウド（例えば、サーバシステム１６４）に通知を送信するように構成され、
上述したプログラム、モジュール、およびデータ構造は、
１つ以上の装置（例えば、環境１００内の装置１２０および音声作動表示支援装置１９０）の設定、取得データ、および／または他のデータを構成および／または閲覧することができるユーザインターフェイスを提供および表示するためのユーザインターフェイスモジュール６２６と、
装置制御、データ処理、およびデータ確認を行うためのクライアント側機能を提供するクライアント側モジュール６２８とを含み、
クライアント側モジュール６２８は、
ユーザ入力に従って、装置（例えば、電子装置２２２、必要に応じて、他の電子装置）の動作モードを変更するための制御コマンドを生成するための装置制御モジュール６３０と、
人物、物体、動物、およびイベントを検出および／または認識するために、受信したビデオデータ（例えば、イベントビデオクリップ）を閲覧および／または分析するためのビデオ分析モジュール６３２と、
サーバシステム１６４またはビデオソース２２２からのデータを確認するためのユーザインターフェイスを提供するためのデータ確認モジュール６３４とを含み、データ確認モジュール６３４は、イベント（例えば、モーションおよび／または音声イベント）を確認し、必要に応じて、イベントに対するユーザ編集および／または更新を可能にするイベント確認モジュール６３６と、検出された人物および他の実体に関するデータおよび／または画像を確認し、必要に応じて、人物のデータに対するユーザ編集および／または更新を可能にするための人物確認モジュール６３８とを含むが、これらに限定されず、
クライアント側モジュール６２８は、
電子装置２２２および／またはサーバシステム１６４と対話するためのユーザインターフェイスおよび応答オプションを提示するための提示モジュール６４０と、
例えば、電子装置２２２および／またはサーバシステム１６４を介して、遠隔の人物（例えば、環境１００の訪問者）と対話するための遠隔対話モジュール６４２とを含み、
上述したプログラム、モジュール、およびデータ構造は、
ユーザアカウントおよび電子装置に関連するデータを記憶するクライアントデータ６４４を含み、
クライアントデータ６４４は、
クライアント装置上にロードされたユーザアカウントと、ユーザアカウントに関連する（例えば、ビデオソース５０１の）電子装置との両方に関する情報を格納するためのアカウントデータ６４６を含み、このような情報は、キャッシュされたログイン認証情報、ハブ装置識別子（例えば、ＭＡＣアドレスおよびＵＵＩＤ）、電子装置識別子（例えば、ＭＡＣアドレスおよびＵＵＩＤ）、ユーザインターフェイス設定、表示好み、認証トークンおよびタグ、パスワードキーを含み、
（例えば、ビデオソース２２２の）電子装置に関連する生データまたは処理データ、必要に応じて前述した実体データを選択的に格納するためのローカルデータストレージ６４８と、
様々な照明条件下で、カメラによって取得された以前の背景画像および／または実体画像などの以前の画像６５０とを含むがこれらに限定されない。

上述した要素の各々は、前述した１つ以上のメモリ装置に記憶されてもよく、上述した機能を実行するための命令セットに対応する。上述したモジュールまたはプログラム（すなわち、命令セット）は、別個のソフトウェアプログラム、プロシージャ、モジュール、またはデータ構造として実装される必要はない。したがって、様々な実施形態において、これらのモジュールを様々なサブセットで組み合わせるまたは再編成することができる。いくつかの実施形態において、メモリ６０６は、必要に応じて、上述したモジュールおよびデータ構造のサブセットを記憶する。また、メモリ６０６は、必要に応じて、上記で説明されていない追加のモジュールおよびデータ構造を記憶する。

図７は、いくつかの実施形態に従って、イベント処理システム７００を示すブロック図である。図３と同様の特徴は、同様の番号で示され、簡潔のためにその一部をさらに説明しない。いくつかの実施形態において、システム７００は、カメラを備えた電子装置（例えば、電子装置２２２）上で実装される。いくつかの実施形態において、システム７００の様々なモジュール、例えば物体認識モジュール３５４は、サーバシステム（例えば、サーバシステム１６４）に実装される。システム７００は、検出された目標物体に対応するイベントを処理する。本開示において、「イベント」という用語は、居住者にとって興味のあるもの（例えば、人物または物体）を含むまたは興味のあるオカレンス（例えば、モーション）を含むビデオデータ（例えば、ビデオクリップ）の一部を指す。また、「イベント」という用語は、ビデオクリップの基礎であるオカレンス自身（例えば、モーションイベント）を指してもよい。特に指定がない限り、「イベント」、「クリップ」、「イベントクリップ」、および「ビデオクリップ」という用語は、本開示において互換的に使用される。以下、図８および図９を参照して、イベント、エベントの要素および要素の合成をさらに説明する。

再び図７を参照して、カメラ３６２の画像センサは、画像データを取得し、取得した画像データを画像フレームとしてバッファ３９２に格納する。いくつかの実施形態において、このバッファは、環状バッファである。環状バッファとは、最も古いフレームが最新のフレームによって絶えずに書き換えられるため、以前に取得されたフレームの常に最新のログの利用可能性を保証するものである。トリガ検出モジュール３５２は、イベントトリガを検出する。いくつかの実施形態において、トリガを検出することは、（例えば、視野内に移動している物体を示すピクセル値の変化を検出するように後続のフレームを比較することによって、またはモーションセンサ３６３を用いてモーションを検出することによって）カメラの視野内のモーションを検出することを含む。いくつかの実施形態において、トリガを検出することは、（例えば、背景参照画像から現在の画像を減算して前景物体を検出することによって、または存在センサ３６３を用いて存在を検出することによって）カメラの視野の前景における物体の存在を検出することを含む。トリガを検出すると、物体認識モジュール３５４は、当該トリガがイベントを生成するための目標物体またはオカレンスを表すか否かを判断する。いくつかの実施形態において、物体認識モジュール３５４は、（例えば、コンピュータビジョン技術を使用する）物体またはパターン認識プロセスを実行することによって、物体のＩＤ、人物のＩＤ、物体の種類（例えば、人物、動物、車、または荷物）、またはトリガ検出時に処理モジュール３５０に対して未知である物体の属性を検出する。イベント合成モジュール３５６は、イベントプロファイル設定３８０に従って、イベントクリップ７４０（図８および図９を参照して以下で詳細に説明する）を合成する。いくつかの実施形態において、イベントプロファイル設定３８０は、サーバ１６４から受信された定式４４２に基づく。いくつかの実施形態において、サーバは、装置２２２の装置設定データに基づいて定式４４２を選択し、装置設定データの少なくとも一部は、装置の電力種類に基づく。この目的のために、電力検出モジュール３５９は、装置２２２が外部電源７１２またはバッテリ７１４によって駆動されているかを判断する。いくつかの実施形態において、電力検出モジュール３５９は、外部電力バスおよびバッテリ電力バスに接続され、電力検出モジュール３５９は、使用されている電力バスに基づいて電力種類を決定する。いくつかの実施形態において、イベントプロファイル設定３８０に格納された定式は、二種類の電力に対する最適化を含む。したがって、イベント合成モジュール３５６は、電力検出モジュール３５９によって現在検出されている電力種類に従って、イベントクリップを合成する。

いくつかの実施形態において、電力種類情報は、設定プロセス中にユーザによって設定される。いくつかの実施形態において、電力種類は、装置自身（例えば、電力検出モジュール３５９）によって検出され、装置２２２（例えば、イベント処理モジュール３５０）は、検出された電力種類に基づいて、イベントパラメータ３８０を調整する。いくつかの実施形態において、検出された電力種類は、サーバ１６４に送信され、装置制御モジュール４１８によって実行される定式設定プロセスに含まれる。いくつかの実施形態において、サーバ１６４と通信する必要なく、（例えば、電力種類などの設定データの変化に基づいて）イベント記録パラメータ３８０を動的に更新する。これらの実施形態において、様々なイベントプロファイルは、例えば、電力種類の変化の検出時に自動的に調整されるように構成される。例えば、いくつかの実施形態において、装置２２２が抜かれたとき、当該装置は、バッテリ駆動モードに切り替える。これによって、イベント処理モジュールに、省電力のために様々なイベント記録パラメータを変更させる（例えば、無活動閾値およびイベント長設定をより短くする、優先度設定３９０に含まれる目標物体をより少なくする）。

いくつかの実施形態において、イベント記録定式は、バッテリによって駆動されている装置２２２のバッテリ寿命を最適化するようにさらに更新される。例えば、バッテリレベルおよび／または推定バッテリ寿命値が減ると、バッテリ電力をさらに節約するように、無活動閾値および最大イベント長などのイベント記録パラメータを減らしてもよく、クールオフパラメータ（例えば、新しいイベントが処理されるまで待機する時間）を増やしてもよく、イベントに含まれる物体および目標オカレンスの数を減らしてもよい。

いくつかの実施形態において、上述した要素のうちの１つ以上は、サーバシステム（例えば、サーバシステム１６４）に格納されてもよく、またはサーバシステムに実装されてもよい。例えば、イベント処理モジュール３５０（またはイベント処理モジュール３５０に関連するモジュール３５２、３５４、３５６および３８０のうちの１つ以上）は、サーバシステム１６４に格納されてもよい。このような実施形態において、電子装置２２２は、カメラ３６２および／または画像バッファ３９２から取得された画像データを含むビデオストリームをサーバシステム１６４に送信し、イベント処理モジュール３５０は、サーバシステム１６４においてトリガの検出、物体の認識、および／またはイベントの合成を実行する。前述したプロセスのうちの１つ以上の結果としてのイベントクリップ（例えば、イベントクリップ７４０）は、サーバシステム１６４から電子装置２２２に送信され、（例えば、電子装置２２２の出力装置３１２上で）表示される。

図８は、いくつかの実施形態に従って、例示的なイベント８１０を示す。このイベントは、（例えば、図７のイベント処理システム７００によって）電子装置２２２上で処理される。この例のために、装置２２２は、居間に配置される。しかしながら、この例において、装置の正確な位置は、本明細書に記載された概念を限定することを意味していない。システム７００は、装置の居間位置に従って定式８０２を使用する。居間定式８０２は、２秒のプレロールおよび２秒のポストロールを含むパディングパラメータ、３０秒の無活動閾値、および５時間の最大イベント長を指定する。図中のタイミングマーク（Ａ～Ｅ）は、経時的に順次に出現する。時間Ａでは、（例えば、トリガ検出モジュール３５２によって）モーションが検出される。物体認識モジュール３５４は、モーションの識別属性を決定する。時間Ｂにおいて、このモーションは、システム７００に対して既知の人物（ボブ）と認識された人物によって引き起こされたものとして特定される。したがって、システム７００は、検出された物体の識別情報およびイベントに関する他の情報（例えば、「居間でボブを検知した」）でイベントを標記する。このイベントは、イベント時間（例えば、時間Ａで初期トリガを検出してから経過した時間）が最大イベント長に達すまで継続する。時間Ｃではボブが居間から退室し、時間Ｄではモーションがないため、イベントが予備的に終了する。時間Ｄでイベントが予備的に終了すると、無活動カウントが始まる。この例では無活動閾値が３０秒であるため、無活動カウントは、時間Ｄで始まり、３０秒後の時間Ｅで終了する。（時間Ｄと時間Ｅとの間の）３０秒の無活動ウィンドウにトリガが検出されない場合、イベント合成モジュール３５６は、イベントを終了し、パディングパラメータに従ってイベントのビデオクリップを合成する。ビデオクリップは、トリガを検出した時刻Ａの２秒前の時刻Ａ′で開始し、イベントの主体が部屋から退室した時刻Ｄの２秒後の時刻Ｄ′で終了する。２つの２秒ウィンドウ８１４および８１６（時間Ａ′とＡの間のウィンドウ、および時間ＤとＤ′の間のウィンドウ）は、プレロールおよびポストロールのパディング値を表し、イベントのユーザ追加コンテキスト（例えば、ボブが進入する直前の部屋の状態、およびボブが退室した直後の部屋の状態）を示すために有用である。イベント８１０のビデオクリップは、パディングウィンドウ８１４および８１６中に取得された画像フレームからの画像データと、モーションウィンドウ８１２中に取得された画像フレームからの画像データとを含む。

図９は、いくつかの実施形態に従って、例示的な複合イベント９１０を示す。イベントは、居間に配置されている電子装置２２２で処理され、居間定式８０２に従う。図８と同様に、時間Ａでモーションが検出され、時間Ｂでシーン内の物体がボブであると認識され、時間Ｃでボブが部屋から退室し、これによって、時間Ｄで検出されたトリガに関連するオカレンスが終了する。また、図８と同様に、３０秒の無活動閾値カウンタが時間Ｄで始まる。しかしながら、時間Ｆで３０秒の閾値が達する前に、時間Ｅで別のモーショントリガが検出される。このモーションは、時間Ｇで別の既知の人物チャーリに関連するものと決定される。チャーリが時間Ｈで退室し、これによって、時間Ｉで後続のモーションに関連するオカレンスが終了する。別の無活動ウィンドウは、時間Ｉで始まり、３０秒後の時間Ｊで、ウィンドウ中に追加のトリガが検出されないため、終了する。（後続のイベントが最初のイベントの後の無活動ウィンドウ中に始まったため）（無活動閾値に達したことによって）無活動ウィンドウの終了は、両方のイベントのビデオクリップの作成をトリガする。複合イベント９１０のビデオクリップは、パディング値９１４および９１６に従って作成される。したがって、クリップは、（時間Ａでモーションが始まる２秒前の）時間Ａ′で始まり、（時間Ｉでモーションが終了した２秒後の）時間Ｉ′で終了する。重要なことに、複合イベント９１０のビデオクリップは、単一のプレロールウィンドウ９１４および単一のポストロールウィンドウ９１６のみを含み、モーションウィンドウ９１２は、検出された両方のイベントのオカレンス（例えば、ボブおよびチャーリの両方の検出）を含む。したがって、システム７００は、両方のオカレンスを記述する単一のラベル（例えば、「居間でボブおよびチャーリを検知した」）を用いて、複合イベントを標記する。この単一のラベルは、より簡単なユーザインターフェイスの表示を通してより合理的なユーザ体験を提供すると共に、複数のオカレンスからの情報を伝達する。換言すれば、近い時間に発生した複数のイベントを別々のイベント／要素としてディスプレイ上でユーザに伝達するのではなく、全てのオカレンスまたはその一部を要約する複合イベントは、要約しない場合にオカレンスの数に起因して無視される可能性がある大量の情報を表示するためのよりクリーンなアプローチを提供する。

図１０は、イベント（例えば、イベント８１０および９１０）を表示するための例示的なユーザインターフェイスを示す。いくつかの実施形態において、ユーザインターフェイスは、クライアント装置２０４のユーザインターフェイスモジュール６２６によって実装される。

ユーザインターフェイス１００２は、イベントリスト１００４を含む。一部のイベント、例えば（イベント９１０に対応する）イベント１００６は、ビデオベースのものであり、他のイベントは、ビデオベースのものではない。例えば、居住者が（例えば、「何時ですか」）という質問をすることによってまたは（例えば、ジャズ音楽を再生してください）というコマンドを発行することによって支援装置１９０と対話する時に、（例えば、映画を再生することによって）ＴＶ１０８と対話する時に、（例えば、加熱器をオンにすることによって）サーモスタット１２２と対話する時に、または任意の方法で任意の装置と相互作用する時に、イベントを生成してもよい。イベントが画像またはビデオデータ１００６を含む場合、イベントのリスト１００４は、必要に応じて、イベントに関連するスクリーンショットを含むサムネイル１００８（例えば、ボブとチャーリとの両方を含む画像）を含んでもよい。

ユーザが（例えば、入力６１４を介して）イベント１００６を選択すると、ユーザインターフェイス１０２２が表示される。いくつかの実施形態において、ユーザインターフェイス１０２２の一部または全部は、ユーザインターフェイス１００２に含まれる。いくつかの実施形態において、ユーザインターフェイス１０２２は、（図示のように）別個に表示される本明細書に記載された概念の範囲から逸脱することなく、他の組み合わせで両方のユーザインターフェイス内の要素を混合および整合してもよい。ユーザインターフェイス１０２２は、イベントに関連するビデオデータ１０２４を表示する。いくつかの実施形態において、ビデオデータ１０２４は、ビデオ制御（例えば、再生、一時停止）を選択することによって再生することができる。インターフェイスは、イベントの記述１０２６、例えば、要約データ（例えば、「ボブおよびチャーリが検知された」）、時間および位置データ（例えば、３：３２ＰＭ－居間）、および／またはイベントを記述する他の情報を含む。また、インターフェイスは、イベントタイミングを示すイベントの長さの視覚表現１０３０を表示する。いくつかの実施形態において、視覚表現１０３０は、実質的に長方形（ピルと称されることもある）であり、その長さは、イベントの長さに基づく。いくつかの実施形態において、視覚表現１０３０は、ビデオクリップ１０２４が再生するにつれてその長軸に沿って移動する（例えば、スクロールする）。このことは、イベントの全体に対して現在再生されているクリップ１０２４の位置を示す。図面において、これは、クリップ１０３０が既に２秒前進したタイムラインとして示されている。本明細書に記載された概念の範囲から逸脱することなく、イベントの他の視覚表現を実装してもよい。いくつかの実施形態において、インターフェイスは、検出されたイベントに関連する属性１０３２（例えば、物体認識プロセスの結果）を含む。図面において、これらの属性は、シーンから検出された既知の人物のＩＤ（ボブ、チャーリ）、シーンから検出された物体の種類（人物）、およびシーンから検出されたオカレンスの種類（会話）を含む。

図１１は、電子装置２２２の装置設定データ４３８（例えば、図４の位置、用途、および電力データ４４９）を取得するための例示的なユーザインターフェイスを示す。いくつかの実施形態において、ユーザインターフェイスは、クライアント装置２０４のユーザインターフェイスモジュール６２６によって実装される。いくつかの実施形態において、居住者は、環境の装置を構成する時に、設置プロセスの一部として、アプリケーション（例えば、図６のアプリケーション６２４）を使用する。

ユーザインターフェイス１１１０は、アプリケーションに設定するための特定の装置（例えば、電子装置２２２）を追加するように居住者に促す。いくつかの実施形態において、居住者は、特定の装置を特定するために、コード（例えば、ＱＲコード（登録商標））をスキャンするまたは手動でアプリケーションによって使用される情報を入力する。

ユーザインターフェイス１１２０は、装置の用途（例えば、家庭または企業の監視、ベビーモニタとしての役割を示す装置プロファイル）を選択するように居住者に促す。いくつかの実施形態において、選択されたプロファイルは、装置の用途情報４４９ｂ（図４）としてサーバシステム１６４に格納される。

ユーザインターフェイス１１３０は、装置の位置（例えば、設置場所、または装置がポータブル装置、例えばバッテリ駆動の防犯カメラである場合に、動作中に当該装置を設置しようとする場所）を選択するように居住者に促す。いくつかの実施形態において、位置は、位置の種類（例えば、室内、室外）、特定の部屋（例えば、居間、育児室）、および／または領域もしくはゾーン（例えば、入口、廊下）を含む。いくつかの実施形態において、選択された位置データは、装置の位置情報４４９ａ（図４）としてサーバシステム１６４に格納される。

ユーザインターフェイス１１４０は、装置の通知（例えば、検出された物体および／またはオカレンスのうち、居住者がクライアント装置２０４で電子通知を受信したい物体および／またはオカレンス）を選択するように居住者に促す。いくつかの実施形態において、通知は、識別された人物（例えば、既知の人物、未知の人物）、物体の種類（例えば、動物、車両、荷物、人物）、音声オカレンス（例えば、犬吠え、ガラス割れ、乳児泣き、騒音）、または任意の他の種類の物体またはオカレンス（例えば、図５の例示的な定式４４２に含まれるもの）に対応する。いくつかの実施形態において、選択された通知データは、装置の用途情報４４９ｂ（図４）としてサーバシステム１６４に格納される。

図１２は、いくつかの実施形態に従って、イベント処理プロセス１２００を示す流れ図である。このプロセスは、１つ以上のプロセッサ（例えば、ＣＰＵ３０２）と、１つ以上のプロセッサによって実行される１つ以上のプログラムを記憶するメモリ（例えば、メモリ３０６）とを含む電子装置（例えば、電子装置２２２）、１つ以上のプロセッサ（例えば、ＣＰＵ４０２）と、１つ以上のプロセッサによって実行される１つ以上のプログラムを記憶するメモリ（例えば、メモリ４０６）とを含むサーバシステム（例えば、サーバシステム１６４）、および／または１つ以上のプロセッサ（例えば、ＣＰＵ）６０２と、１つ以上のプロセッサによって実行される１つ以上のプログラムを記憶するメモリ（例えば、メモリ６０６）とを含むクライアント装置（例えば、クライアント装置２０４）上で実行されてもよい。いくつかの実施形態において、電子装置、サーバシステム、およびクライアント装置は、１つ以上のプログラムと、１つ以上のプロセッサによってそれぞれ実行される１つ以上のプログラムを記憶するメモリとを含み、１つ以上のプログラムは、プロセス１２００を実行するための命令を含む。いくつかの実施形態において、各非一時的なコンピュータ可読記憶媒体は、対応する１つ以上のプログラムを記憶し、１つ以上のプログラムは、命令を含み、これらの命令は、１つ以上のプロセッサを含む電子装置、１つ以上のプロセッサを含むサーバシステム、および１つ以上のプロセッサを含むクライアント装置によって実行されると、電子装置、サーバシステム、およびクライアント装置にプロセス１２００を実行させる。

クライアント装置２０４が特定の電子装置２２２の設定データ（例えば、位置データ４４９ａ、用途データ４４９ｂ、および／または電力データ４４９ｃのうちの１つ以上）を受信すると、プロセス１２００が開始する（１２０２）。いくつかの実施形態において、設定データは、図１１を参照して上述した１つ以上のインターフェイスを用いて受信される。イベントの位置に基づいて、ユーザが異なる種類のイベント関連データを確認することに興味を有し得ることを認識すると、位置データは、（例えば、ユーザインターフェイス１１３０に対する）装置の設置位置、または装置を用いて監視しようとする位置を指定する。さらに、イベントの種類に基づいて、ユーザが異なる種類のイベント関連データを確認することに興味を有し得ることを認識すると、用途データは、例えば、（例えば、ユーザインターフェイス１１２０に示す）装置プロファイルまたは（例えば、ユーザインターフェイス１１４０に示す）通知選択に基づいて、装置の所定の用途を指定する。例えば、ユーザは、室外セキュリティカメラによって取得されたイベントがカメラの視野内の人物または荷物に関連するオカレンスを含む場合、室外セキュリティカメラからイベントを受信したいことがある。一方、ユーザは、室外セキュリティカメラによって取得されたイベントが騒音または車両に関連するオカレンスを含む場合、室外セキュリティカメラからイベントを受信したくないことがある。同様に、育児室に設置され、ベビーモニタとして使用されている電子装置２２２の場合、ユーザは、乳児の泣きに関連するイベントを受信したいが、車両および荷物などに関連するオカレンスを受信したくない可能性が高い。

クライアント装置２０４は、設定データをサーバ１６４に送信する。サーバ１６４は、（例えば、装置制御モジュール４１８を用いて）設定データ４３８に基づいて、１つ以上のイベント定式４４２を決定し、特定の電子装置２２２に送信する（１２０４）。装置制御モジュール４１８は、設定データに基づいて、イベント定式を決定する。換言すれば、サーバは、装置の位置および意図した用途に基づいて、装置のイベントパラメータ、例えば、パディング、無活動閾値および最大イベント長を決定する。いくつかの実施形態において、定式は、動的なものであり、換言すれば、パラメータは、イベントの種類、検出された物体の種類、イベントの長さ、および／またはイベントを定義または記述する任意の他の属性に基づいて動的に変化する。いくつかの実施形態において、動的定式は、パラメータ４４３を、前述したイベント関連属性に基づいて動的に変化するように構成された初期値に設定する。いくつかの実施形態において、サーバは、１つ以上のイベント定式４４２をイベント記録プロファイルとして電子装置２２２に送信する。いくつかの実施形態において、サーバは、定式４４２を電子装置２２２に個別に送信する。

電子装置２２２は、サーバ１６４からイベント定式を取り込む、受信する、または取得する（１２０６）。いくつかの実施形態において、装置は、サーバから、プロファイル記録パラメータ３８０を含むイベント記録プロファイルを取得する。いくつかの実施形態において、パラメータ３８０は、イベント公式および／または公式を含むイベント記録プロファイルに従って設定される。イベント記録パラメータ３８０は、装置２２２の特定のイベントの記録動作（例えば、特定のイベントの記録）に使用され、パディングパラメータ３８２（例えば、図９の９１４および９１６によって示すように、目標物体を検出する前後の記録時間）と、無活動閾値３８４（例えば、図９の時間ＤおよびＩによって示すように、後続の活動を含むイベントを継続する代わりに、イベントを終了する前の待機時間）と、最大イベント長パラメータ３８６（例えば、装置が記録を停止するまでにイベントの継続時間）と、クールオフパラメータ３８８（例えば、それを超えるとイベントの記録が停止する物体検出の速度）と、および／または物体フィルタおよび優先度設定３９０（例えば、図５の例示的な定式によって示すように、イベントを記録する基準となる物体の決定）とを含む。いくつかの実施形態において、サーバは、電子装置２２２の設定データ４３８、例えば、（ｉ）装置の位置（例えば、室内、室外、部屋）、（ｉｉ）装置の意図した用途（例えば、装置の視野内にあるもの、およびユーザが見たいもの）、および／または（ｉｉｉ）装置の電力種類（例えば、有線またはバッテリ駆動）に基づいて、これらの調整可能なパラメータを設定する。

電子装置２２２は、ビデオストリーム（例えば、カメラ３６２によって撮影されたシーンの複数の画像）を取り込む、受信する、または取得する（１２０８）。いくつかの実施形態において、電子装置２２２は、ビデオストリームの少なくとも一部を装置２２２上で（例えば、バッファ３９２に）ローカルに格納する。装置２２２は、取得されたビデオストリームに基づいて（例えば、トリガ検出モジュール３５２を参照して上記で説明したように、モーションまたは別のトリガを検出することによって得られたシーンの１つ以上の複数の画像に基づいて）トリガイベントを検出する（１２１０）。トリガイベントの検出に応答して、装置２２２は、（例えば、物体認識モジュール３５４を参照して上記で説明したように、１つ以上の物体認識プロセスを実行することによって）シーンの１つ以上の複数の画像から、目標物体またはオカレンスを特定する（１２１２）。装置２２２は、（例えば、イベント合成モジュール３５６を参照して上記で説明したように）イベント記録および処理設定３８０に従って、目標物体を含む画像からイベントクリップを作成する（１２１４）。装置２２２は、表示のためにイベントクリップを提供する。いくつかの実施形態において、表示のためにイベントクリップを提供することは、格納のためにイベントクリップをサーバ１６４またはハブ１８０に送信すること（１２１６）、およびクライアント装置２０４で後で閲覧すること（１２１８）を含む。いくつかの実施形態において、特に装置２２２がディスプレイスクリーンを含む場合、表示のためにイベントクリップを提供することは、イベントクリップをローカルに格納することと、（例えば、ユーザが表示のためにイベントクリップを開くまたは選択することに応答して）装置２２２でイベントクリップを表示することとを含む。

いくつかの実施形態において、ユーザの視点からのイベント検出および処理の質をさらに最適化するために、イベント記録定式は、装置２２２またはサーバ１６４のいずれかにおいて実装された機械学習アルゴリズムに提供される。例えば、いくつかの実施形態において、居住者は、クライアント装置２０４を用いて、１つ以上のイベント（例えば、図１０のイベント１００６）に関するフィードバックを入力する。例示的なフィードバックは、（例えば、居住者によって関係のないまたは興味のないものとして分類されたイベントおよび／またはその基礎をなす物体またはイベントに対する）拒否フィードバック、および／または特定の定式内の１つ以上のイベント記録パラメータを調整する（例えば、特定の種類の物体を検出するためのパディング値を調整する、特定の種類のオカレンスを検出するための最大イベント長値を調整する）ためのカスタマイズフィードバックを含む。いくつかの実施形態において、機械学習モジュールは、居住者のフィードバックに基づいて、特定の種類のイベントおよび装置構成のイベントプロファイル設定３８０を調整する。

本明細書に記載された様々な実施形態の説明に使用された用語は、特定の実施形態のみを説明するためのものであり、限定を意図するもんではない。記載された様々な実施形態の説明および添付の特許請求の範囲に使用された「ａ」、「an」、および「the」という単数形は、文脈上他の意味を明記しない限り、複数形のものを含む。本明細書に使用された「および／または」という用語は、列挙された１つ以上の関連項目の任意の組み合わせおよび可能な組み合わせを指すまたはそれを包含すると理解すべきである。用語「含む」（include）、「含んでいる」（including）、「備える」（comprise）および／または「備えている」（comprising）」は、本明細書に使用された場合、記載された特徴、整数型変数、ステップ、動作、要素、および／またはコンポーネントの存在を指定するが、１つ以上の他の特徴、整数型変数、ステップ、動作、要素、コンポーネント、および／またはそれらの組み合わせの存在または追加を排除しないと理解すべきである。さらに、本明細書において「第１の」、「第２の」などの用語を用いて様々な要素を説明するが、これらの要素は、これらの用語によって限定されない。これらの用語を用いて、１つの要素を別の要素と区別するのみである。

本明細書に使用された「ならば」という用語は、文脈に応じて、「したとき」または「すると」または「判定することに応答して」または「検出することに応答して」または「という判定に従って」を意味すると解釈される。同様に、「判定されれば」または「［所定の条件またはイベントが］検出されれば」という句は、文脈に応じて、「判定すると」または「判定に応答して」または「［述べた条件またはイベントを］検出すると」または「［述べた条件またはイベントを］検出するのに応答して」または「［所定の条件またはイベントが］検出されるという判定に従って」を意味すると解釈される。

説明の目的のために、具体的な実施形態を参照して以上の説明を記載した。しかしながら、例示的な上記の説明は、網羅的であることまたは特許請求の範囲を記載された形態に厳格に限定することを意図していない。上記教示に鑑みて、多くの修正例および変更例が可能である。これらの実施形態は、動作の原理および実用的な用途を最もよく説明するために選択され説明されたものである。これによって、他の当業者は、これらの実施形態を実施することができる。

様々な図面は、特定の順序で複数のロジックステージを示すが、順序に依存しないステージを並べ替えてもよく、他のステージを組み合わせてもよく、または切離してもよい。一部の並べ替えまたはグループ分けを具体的に言及したが、他の並べ替えまたはグループ分けは、当業者には自明であり、そのため、本明細書に記載された順序付けおよびグループ分けは、代替の網羅的な列挙ではない。さらに、ハードウェア、ファームウェア、ソフトウェア、またはその任意の組み合わせでステージを実現可能であることを認識すべきである。

説明の目的のために、具体的な実装例を参照して以上の説明を記載した。しかしながら、例示的な上記の説明は、網羅的であることまたは特許請求の範囲を記載された形態に厳格に限定することを意図していない。上記教示に鑑みて、多くの修正例および変更例が可能である。実装例は、特許請求の範囲の基礎をなす原則およびそれらの実践的な適用例を最良に説明するために選択される。これによって、他の当業者は、意図した特定の用途に適するような様々な修正例と共に実装例を最良に使用することができる。

Claims

方法であって、
電子装置のイベント記録プロファイルを受信することを含み、前記イベント記録プロファイルは、前記電子装置の設定データに基づき、前記設定データは、位置種類または電力種類を含み、
前記電子装置の１つ以上の画像センサによって取得されたシーンの複数の画像を受信することと、
前記複数の画像のうちの少なくとも１つに基づいて、トリガイベントを検出することと、
前記トリガイベントの検出に応答して、前記複数の画像のうちの少なくとも１つから目標物体を特定することと、
前記目標物体を含む前記複数の画像のうちの１つ以上からイベントクリップを作成することとを含み、前記イベントクリップを作成することは、前記イベント記録プロファイルに基づいて前記イベントクリップの長さを設定することを含み、
表示のために前記イベントクリップを提供することを含み、
前位置種類は、環境の構造体の特定の領域に対応し、
前記イベントクリップの長さを設定することは、前記電子装置が配置される前記環境の前記構造体の前記特定の領域に基づいて、パディング値、無活動閾値、および最大イベント長のうち少なくとも１つを選択することを含む、方法。
方法であって、
電子装置のイベント記録プロファイルを受信することを含み、前記イベント記録プロファイルは、前記電子装置の設定データに基づき、前記設定データは、位置種類または電力種類を含み、
前記電子装置の１つ以上の画像センサによって取得されたシーンの複数の画像を受信することと、
前記複数の画像のうちの少なくとも１つに基づいて、トリガイベントを検出することと、
前記トリガイベントの検出に応答して、前記複数の画像のうちの少なくとも１つから目標物体を特定することと、
前記目標物体を含む前記複数の画像のうちの１つ以上からイベントクリップを作成することとを含み、前記イベントクリップを作成することは、前記イベント記録プロファイルに基づいて前記イベントクリップの長さを設定することを含み、
表示のために前記イベントクリップを提供することを含み、
前記イベントクリップの長さを設定することは、前記電子装置の前記電力種類が有線であるかまたはバッテリ駆動であるかに基づいて、パディング値、無活動閾値、および最大イベント長のうち少なくとも１つを選択することを含む、方法。
方法であって、
電子装置のイベント記録プロファイルを受信することを含み、前記イベント記録プロファイルは、前記電子装置の設定データに基づき、前記設定データは、位置種類または電力種類を含み、
前記電子装置の１つ以上の画像センサによって取得されたシーンの複数の画像を受信することと、
前記複数の画像のうちの少なくとも１つに基づいて、トリガイベントを検出することと、
前記トリガイベントの検出に応答して、前記複数の画像のうちの少なくとも１つから目標物体を特定することと、
前記目標物体を含む前記複数の画像のうちの１つ以上からイベントクリップを作成することとを含み、前記イベントクリップを作成することは、前記イベント記録プロファイルに基づいて前記イベントクリップの長さを設定することを含み、
表示のために前記イベントクリップを提供することを含み、
前記設定データは、物体優先度データを更に含み、
前記イベントクリップの長さを設定することは、前記物体優先度データに従って特定された前記目標物体の優先度に基づいて、パディング値、無活動閾値、および最大イベント長のうち少なくとも１つを選択することを含む、方法。
方法であって、
電子装置のイベント記録プロファイルを受信することを含み、前記イベント記録プロファイルは、前記電子装置の設定データに基づき、前記設定データは、位置種類または電力種類を含み、
前記電子装置の１つ以上の画像センサによって取得されたシーンの複数の画像を受信することと、
前記複数の画像のうちの少なくとも１つに基づいて、トリガイベントを検出することと、
前記トリガイベントの検出に応答して、前記複数の画像のうちの少なくとも１つから目標物体を特定することと、
前記目標物体を含む前記複数の画像のうちの１つ以上からイベントクリップを作成することとを含み、前記イベントクリップを作成することは、前記イベント記録プロファイルに基づいて前記イベントクリップの長さを設定することを含み、
表示のために前記イベントクリップを提供することを含み、
前記イベントクリップの長さを設定することは、閾値時間内に２つ以上の物体検出を行った後、連続する物体検出の間に待機する時間に対応するクールオフ値を設定することを含む、方法。
前記イベントクリップの長さを設定することは、パディング値、無活動閾値、および最大イベント長のうち少なくとも１つを設定することを含む、請求項４に記載の方法。
前記イベントクリップの長さを設定することは、パディング値を選択することを含み、
前記イベントクリップを作成することは、前記複数の画像のうち１つ以上に当該複数の画像のうち１つ以上より前の画像を追加することを含み、
追加される前記画像の数は、前記パディング値に対応する時間に対応する、請求項１～請求項５のいずれか一項に記載の方法。
前記イベントクリップの長さを設定することは、無活動閾値を選択することを含み、
前記無活動閾値は、目標物体が検出されなくなった時間に対応し、
前記イベントクリップを作成することは、検出された前記目標物体が検出されなくなった場合に、前記無活動閾値に対応する時間だけ待機した後、前記イベントクリップの作成を終了することを含む、請求項１～請求項６のいずれか一項に記載の方法。
前記イベントクリップの長さを設定することは、最大イベント長を選択することを含み、
前記最大イベント長は、前記イベントクリップの最大の時間に対応し、
前記イベントクリップを作成することは、前記目標物体の特定から前記最大イベント長に対応する時間が経過したことに応じて、前記イベントクリップの作成を終了することを含む、請求項１～請求項７のいずれか一項に記載の方法。
前記イベントクリップの長さを設定することは、前記イベント記録プロファイルに関連する値の組み合わせに従って、前記パディング値、前記無活動閾値、および前記最大イベント長のうち少なくとも１つを設定することを含む、請求項１～請求項３および請求項５のいずれか一項に記載の方法。
前記トリガイベントを検出することは、前記複数の画像のうちの少なくとも１つの分析に基づいて、前記シーン内のモーションを検出することを含む、請求項１～請求項９のいずれか一項に記載の方法。
前記トリガイベントを検出することは、前記複数の画像のうちの少なくとも１つの分析に基づいて、前記シーン内の前記目標物体を検出することを含む、請求項１～請求項１０のいずれか一項に記載の方法。
前記イベントクリップを以前に作成されたイベントクリップに合成することによって、複合イベントクリップを形成することをさらに含み、
表示のために前記イベントクリップを提供することは、表示のために前記複合イベントクリップを提供することを含む、請求項１～請求項１１のいずれか一項に記載の方法。
１つ以上のプロセッサと、
前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに請求項１～請求項１２のいずれか一項に記載の前記方法を実行させる命令を記憶するメモリとを備える、電子装置。
１つ以上のプロセッサと、
前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに請求項１～請求項１２のいずれか一項に記載の前記方法を実行させる命令を記憶するメモリとを備える、サーバシステム。
１つ以上のプロセッサを備える電子装置によって実行されると、前記１つ以上のプロセッサに請求項１～請求項１２のいずれか一項に記載の前記方法を実行させる命令を含む、プログラム。