JP6500625B2

JP6500625B2 - 検知装置、検知システム、検知方法及びプログラム

Info

Publication number: JP6500625B2
Application number: JP2015121246A
Authority: JP
Inventors: 健士岩本
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2015-06-16
Filing date: 2015-06-16
Publication date: 2019-04-17
Anticipated expiration: 2035-06-16
Also published as: JP2017011321A

Description

本発明は、検知装置、検知システム、検知方法及びプログラムに関する。

一般的に、画像認識によりユーザの顔をトラッキングする技術がカメラなどで使用されている。
また、近時、音をトリガに、その音を発した音源（例えば、発声したユーザ）をトラッキングする技術もカメラなどで使用されている（例えば、特許文献１など）。

特開平９−１３５４３２号公報

ところで、カメラでユーザのしゃべる様子などをリアルタイムで撮影するような場合、上述したトラッキングの技術だとユーザが既にしゃべり始めた後の様子を撮影してしまうことがある。すなわち、音の発声をトリガとするトラッキングではユーザがしゃべり始める瞬間の撮影を逃してしまうことがある。
このようなことから、ユーザの発声タイミングを事前に検知する技術が望まれている。

そこで、本発明は、上述した事情に鑑みてなされたものであり、ユーザの発声タイミングを事前に検知することを目的とする。

上記目的を達成するため、本発明の１つの観点によれば、
ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、前記ユーザの発声に先立つ喉の震えを検知する検知手段と、
前記検知手段の検知結果に基づき、所定処理を実行する実行手段と、
を備えたことを特徴とする検知装置を提供するものである。

本発明によれば、ユーザの発声タイミングを事前に検知することができる。

実施形態に係る検知システムの利用例を示す図である。実施形態に係る検知装置の構成を示すブロック図である。発声前後の喉の震えの大きさの経時的変化の一例を示す波形図である。図３の波形図をフーリエ変換した図である。実施形態に係る追尾装置の構成を示すブロック図である。追尾用テーブルの一例を示す図である。検知処理のフローチャートの一例を示す図である。追尾処理のフローチャートの一例を示す図である。（Ａ）及び（Ｂ）は、追尾前のユーザ位置の例を示す図である。追尾後のユーザ位置の例を示す図である。実施形態に係る撮影システムの別の利用例を示す図である。追尾用テーブルの別例を示す図である。変形例１に係る検知装置の構成を示すブロック図である。変形例２に係る追尾装置の構成を示すブロック図である。変形例３に係る検知システムの利用例を示す図である。変形例３に係る録音装置の構成を示すブロック図である。変形例４に係る検知装置の構成を示すブロック図である。

以下、本発明の実施形態について図面を参照して説明する。
図１は、本発明の実施形態に係る検知システム１０の構成を示す図である。この検知システム１０は、検知装置（センシングデバイス）１００と、追尾装置（Ｗｅｂカメラ）２００と、から構成される。検知装置１００は、ウェアラブル装置であってユーザに装着される。この実施形態においては、ユーザの発声前の喉の震えを検知する関係上、検知装置１００は首に着ける装身具であって、例えば、ネックレスである。

この検知システム１０の基本となる技術的思想は、検知装置１００においてユーザの発声前の喉の震えを検知する点にある。検知の手法は任意だが、この実施形態では一例として、ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換（フーリエ変換）して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、喉の震えを検知する。
この検知の後、検知装置１００は、ユーザＩＤを無線送信する。次に、追尾装置２００は、受信したユーザＩＤのユーザを追尾する。以上が自動追尾の流れである。

なお、この実施形態においては、理解を容易にするために、ユーザは一人である場合を例にとって説明する。また、ユーザは追尾装置２００の画角内に収まる、すなわちフレームアウトしていない場合を例にとって説明する。
また、追尾装置２００が写す映像はリアルタイムにＰＣ(Personal Computer)３００に転送され、そのＰＣ３００のディスプレイ３０１にライブビューが表示されている前提で説明する。また、図１のユーザはユーザＡと称して説明し、ユーザＡを特段特定する必要がなければ上位概念としてユーザと称して説明する。

さて、以下では、検知システム１０を構成する各装置（検知装置１００、追尾装置２００）について順に説明する。

まず、図２を参照しながら、検知装置１００の構成について説明する。この検知装置１００は、ジャイロセンサ１１０、制御部１２０、記憶部１３０及び無線通信Ｉ／Ｆ（インタフェース）１４０を備える。

ジャイロセンサ１１０は、回転角（ピッチ、ヨー、ロール）を検知するための３軸ジャイロセンサである。すなわち、ジャイロセンサ１１０は、検知装置１００の静止状態からの傾きを検知可能であって、この実施形態においては、喉の震えに応じて検知装置１００が傾いた際の角度を検知する。

制御部１２０は、例えばＣＰＵ（Central Processing Unit）やＲＯＭ（Read Only Memory）、ＲＡＭ(Random Access Memory)などにより構成される。制御部１２０は、ＲＯＭに記憶されたプログラムに従って制御することにより、各部（検知部１２１、特定部１２２、送信部１２３）の機能を実現する。なお、制御部１２０のハードウェアは、ＣＰＵ等に限らず、ネックレスの大きさに合わせて小型のＩＣ(Integrated Circuit)等で構成してもよいことはもちろんである。

記憶部１３０は、不揮発性メモリ（例えば、フラッシュメモリなど）から構成され、発声前波形１３１を記憶する。発声前波形１３１は、ユーザの発声前の喉の震えを検知するために予め学習された波形である。具体的には、図３に示す発声前後の喉の震えの大きさの経時的変化を示す波形をフーリエ変換して、図４に示す周波数波形にしたものが発声前波形１３１となる。

図３の波形は、横軸が時間（ｔ）、縦軸が喉の震えの大きさ（ｄＢ）、を示し、発声前の期間（ｔ２−ｔ１）においては喉の震えの大きさが発声後に比べて小さい。なお、喉の震えの大きさは、音圧に比例するので単位はｄＢとなる。この図３の波形をフーリエ変換すると、図４に示す発声前波形１３１（周波数波形）が得られる。図４の発声前波形１３１は、横軸が周波数（Ｈｚ）、縦軸が音圧の（喉の震えの）大きさ（ｄＢ）、を示す。図中に示すように、発声前においては特定の周波数帯域Ｔ（Ｔ１からＴ２の帯域）に亘って、大きさ（ｄＢ）が発声後の大きさに比べて小さい特徴波形が得られる。この特徴波形は、発声前の周波数の特徴を示す。

この予め学習しておいた発声前波形１３１の特徴波形の有無をモニタリングすることでユーザの発声前の喉の震えを検知する。なお、記憶部１３０は、発声前波形１３１以外に、自装置（検知装置１００）の装置ＩＤを記憶する。この実施形態においては、検知装置１００はユーザに身に着けられ、ユーザと一対一に紐付いているので、装置ＩＤは実質的にユーザＩＤともいえる。以下では、図１のユーザＡのユーザＩＤを「Ａ」として説明する。なお、記憶部１３０は、装置ＩＤに代えてユーザＩＤを直接記憶してもよいことはもちろんである。

さて、図２に戻って、無線通信Ｉ／Ｆ１４０は、外部装置と無線通信を行うための通信インタフェースである。この実施形態においては、無線通信として、Bluetooth（登録商標）による近距離無線通信を用いる。特に、検知装置１００の電池寿命の観点から、低消費電力であるＢＬＥ（Bluetooth Low Energy）による近距離無線通信が好適である。

次に、制御部１２０の機能について説明する。
制御部１２０は機能として、検知部１２１と特定部１２２と送信部１２３を備える。

検知部１２１は、ユーザの発声に先立つ生理的な挙動（この実施形態においては、一例として、発声前の喉の震え）を検知する。具体的には、検知部１２１は、ジャイロセンサ１１０によってリアルタイムに検知する実測値（喉の震えの大きさの実測値）をフーリエ変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、を比較することで、発声前の喉の震えを検知する。

次に、特定部１２２は、検知部１２１の検知結果に基づき、所定処理を実行する。この実施形態では、特定部１２２は、所定処理として、検知部１２１が発声前の喉の震えを検知すると、発声までにかかる時間を示す時間情報を特定する。具体的には、特定部１２２は、図３に示した喉が震える発声前の期間ｔ２−ｔ１（秒）を、時間情報として特定する。例えば、時間情報は、０．５秒である。なお、この時間情報の値は、検知部１２１が検知するまでにかかった時間に基づいて補正してもよい。例えば、検知に０．１秒要した場合は、補正後の時間情報は０．４（０．５−０．１）秒となる。なお、特定部１２２は、実行手段として機能とする。

次に、送信部１２３は、検知部１２１が発声前の喉の震えを検知すると、ユーザのユーザＩＤと、特定部１２２が特定した時間情報と、を無線通信Ｉ／Ｆ１４０を介してＢＬＥに基づき無線送信する。この実施形態において、送信部１２３は、ユーザＡのユーザＩＤＡと、発声までにかかる時間を示す時間情報（例えば、０．５秒）と、を無線送信する。

以上、検知装置１００の構成について説明した。以下では、追尾装置２００の構成について説明する。この追尾装置２００は、無線通信Ｉ／Ｆ２１０、制御部２２０、撮像部２３０、記憶部２４０、サーボモータ２５０、操作部２６０、外部Ｉ／Ｆ（インタフェース）２７０及びマイク２８０を備える。

無線通信Ｉ／Ｆ２１０は、外部装置（この実施形態においては検知装置１００）と無線通信を行うための通信インタフェースである。
制御部２２０は、例えばＣＰＵやＲＯＭ、ＲＡＭなどにより構成される。制御部２２０は、ＲＯＭに記憶されたプログラムに従って制御することにより、各部（受信部２２１、追尾部２２２、実行部２２３）の機能を実現する。

撮像部２３０は、被写体を撮影するためのＣＣＤ（Charge Coupled Device)やＣＭＯＳ（Complementary Metal Oxide Semiconductor)などのイメージセンサと、光学系（レンズ、絞り、シャッタなど）と、を備えたカメラである。

記憶部２４０は、不揮発性メモリなどから構成され、録画された動画や音声、後述する追尾用テーブルなどを記憶する。
サーボモータ２５０は、サーボ機構によって位置・速度制御を行うモータである。このサーボモータ２５０により、追尾装置２００の撮像部２３０は、上下左右に回動可能である。
操作部２６０は、電源ボタンなどの各種ボタンによって構成される。

外部Ｉ／Ｆ２７０は、ＵＳＢ（Universal Serial Bus）コネクタなどから構成される。外部Ｉ／Ｆ２７０は、ＵＳＢケーブルを介して、外部装置であるＰＣ３００へ撮影中の映像をリアルタイムで転送する。
マイク２８０は、外部音声を収音する音声入力部である。

次に、制御部２２０の機能について説明する。
制御部２２０は、機能として受信部２２１、追尾部２２２、実行部２２３を備える。

受信部２２１は、検知装置１００の送信部１２３から無線送信されたユーザＩＤと時間情報とを受信する。この実施形態において、受信部２２１は、無線送信されたユーザＩＤＡと時間情報とを受信する。

追尾部２２２は、受信部２２１が受信したユーザＩＤのユーザを追尾する。この実施形態において、追尾部２２２は、ユーザＩＤＡのユーザＡを追尾する。追尾の手法は任意であるが、この実施形態では一例として、顔画像を用いたマッチングによりユーザを追尾する。この場合、図６の追尾用テーブルが示すように、予め、ユーザＩＤとユーザの顔画像とを対応付けて記憶しておく。例えば、ユーザＩＤＡのユーザＡの顔画像Ａ１をマッチングに用いるテンプレート画像として対応付けて記憶しておく。

ここで、追尾部２２２は、追尾用テーブルを参照して、ユーザＩＤＡに対応付けられた顔画像Ａ１を特定する。そして、追尾部２２２は、顔画像Ａ１を用い、撮像部２３０によってユーザＡの顔を認識後、その撮像部２３０の向きがユーザＡの顔の方向になるようにサーボモータ２５０を制御して、ユーザＡを追尾する。

実行部２２３は、時間情報が示す発声までにかかる時間に基づいて、その発声のタイミングで追尾部２２２が追尾中のユーザに関連する所定処理を実行する。実行部２２３は、所定処理の一例として、発声のタイミングでユーザＡを被写体とする動画の録画を開始するようにする。これにより、ＰＣ３００のディスプレイ３０１に映るライブビューにおいて、追尾中のユーザＡに対する動画の録画が開始される。なお、録画された動画は追尾装置２００の記憶部２４０に記憶されても、ＰＣ３００の記憶部に記憶されてもよい。

以上、図２乃至図６を参照しながら検知システム１０を構成する各装置（検知装置１００、追尾装置２００）について説明した。以下では、各装置が行う処理について順に説明する。

まず、図７を参照しながら検知装置１００が行う検知処理について説明する。この検知処理は、検知装置１００を装着するユーザがジャイロセンサ１１０の電源をＯＮすることを契機として開始される。なお、以下では適宜ユーザＡを例にとって説明する。

まず、検知部１２１は、生理的な挙動を検知したか否か判定する（ステップＳ１１）。具体的には、検知部１２１は、ユーザＡの喉の震えを、上述した要領で、ユーザＡの喉の震えの大きさの経時的変化を示す波形を周波数変換（フーリエ変換）して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて検知する。

検知部１２１は、生理的な挙動を検知するまで待機し（ステップＳ１１；Ｎｏ）、生理的な挙動、すなわちユーザＡの喉の震えを検知すると（ステップＳ１１；Ｙｅｓ）、ステップＳ１２に進む。

ステップＳ１２において、特定部１２２は、発声までにかかる時間を特定する。具体的には、特定部１２２は、上述した要領で、図３に示した波形において喉が震える期間ｔ２−ｔ１（秒）を、時間情報として特定する。

次に、送信部１２３は、ユーザＩＤと特定した時間情報とを無線送信する（ステップＳ１３）。具体的には、送信部１２３は、上述した要領で、ユーザＡのユーザＩＤＡと、特定部１２２が特定した時間情報と、を無線通信Ｉ／Ｆ１４０を介してＢＬＥに基づき無線送信する。ステップＳ１３の後、検知処理を終了する。
検知装置１００は、以上の検知処理を、生理的な挙動を検知する都度、反復して実行する。

さて、次に、図８を参照しながら、追尾装置２００が行う追尾処理について説明する。この追尾処理は、受信部２２１がユーザＩＤと時間情報を受信するまで待機しておき（ステップＳ２１；Ｎｏ）、ユーザＩＤと時間情報とを受信すると（ステップＳ２１；Ｙｅｓ）、開始する。
ユーザＩＤと時間情報を受信すると、追尾部２２２は、ユーザＩＤのユーザを追尾する（ステップＳ２２）。具体的には、追尾部２２２は、上述した要領で、追尾用テーブルからユーザＩＤＡに対応する顔画像Ａ１を特定し、その特定した顔画像Ａ１に基づいて、ユーザＡを追尾する。

ここで、追尾前のユーザＡの位置が、ＰＣ３００のディスプレイ３０１において図９の（Ａ）又は（Ｂ）の位置だったとする。この場合、追尾部２２２は、図１０に示すように、ユーザＡがディスプレイ３０１の中央において所定の大きさになるように、サーボモータ２５０及び撮像部２３０の光学系を制御する。このように、追尾部２２２は、ユーザＡの発声前において、ユーザＡの動きを追尾（トラッキング）する。

次に、実行部２２３は、発声のタイミングで所定処理を実行する（ステップＳ２３）。具体的には、実行部２２３は、上述した要領で、時間情報が示す発声までにかかる時間に基づいて、発声のタイミングでユーザＡを被写体とする動画の録画を開始するようにする。ステップＳ２３の後、追尾処理を終了する。なお、この追尾処理終了後も、追尾部２２２は、ユーザＡを追尾するようにする。

以上、この実施形態における検知システム１０によれば、検知装置１００はユーザの発声に先立つ喉の震えを検知すると、そのユーザのユーザＩＤを無線送信し、一方で、ユーザＩＤを受信した追尾装置２００は、そのユーザＩＤのユーザを追尾するようにしている。このため、ユーザの発声タイミングに遅れてトラッキングを開始するようなことがない。したがって、ユーザがしゃべり始める瞬間の録画を逃してしまうといった事態を避けることができる。
また、検知装置１００は、学習しておいた発声前波形１３１における特徴波形と、リアルタイムに周波数変換して得られる周波数波形と、を比較することでユーザの喉の震えを検知する。このため、精度よく発声前の生理的な挙動を検知することができる。

なお、この実施形態においては、ユーザの発声タイミングで動画の録画を開始するようにしたが、これに限られない。例えば、ユーザの発声タイミングでユーザの声を録音するようにしてもよい。これによれば、ユーザＡが発声した後に録音を開始するといった事態を避けることができ、ユーザのしゃべる瞬間を逃さずに録音することができる。

また、ユーザの発声タイミングでユーザに応じた撮影モードに切り替えるようにしてもよい。例えば、予めユーザＡが追尾装置２００の追尾用テーブルに、ユーザＩＤＡと撮影モードとを対応付ける設定をしておく。これによれば、ユーザＡの発声タイミングでユーザＡが所望する撮影モード（例えば、ユーザＡの顔を明るく滑らかにする画像補正を施すメイクアップモード）に切り替えることができる。したがって、ユーザ個人の趣味嗜好に応じたカスタマイズを行うことができるので、ユーザの満足度を向上することができる。

また、上述した実施形態においては、ユーザが一人である場合を例にとって説明したが、これに限られない。以下では、ユーザが複数いる場合の検知システム１０の利用例を、図１１を参照しながら説明する。

図１１は、複数人（ユーザＡ〜Ｃの３人）で会議などのライブチャットをする場面を想定している。ユーザＡ及びユーザＢは同一ロケーション、ユーザＣはリモートロケーションにおり、インターネット等を介して検知システム１０を利用したライブチャットを行う場面である。ユーザＣのＰＣ４００にはリアルタイムで追尾装置２００Ａが撮影する映像が映っている。

ここで、ユーザＡとユーザＢが交互にしゃべったとする。この場合、ユーザＡの発声に先立つ喉の震えを検知装置１００Ａが検知してユーザＩＤＡを無線送信する。すると、追尾装置２００ＡはユーザＩＤＡを受信してユーザＩＤＡのユーザＡの追尾を行う。このため、ユーザＣは、ＰＣ４００のディスプレイにおいてユーザＡがしゃべり始める瞬間を逃さず見ることができる。

同様に、検知装置１００ＢがユーザＢの発声に先立つ喉の震えを検知すると、ユーザＩＤＢを無線送信する。すると、追尾装置２００ＡはユーザＩＤＢを受信してユーザＩＤＢのユーザＢの追尾を行う。このため、ユーザＣは、同様に、ＰＣ４００のディスプレイにおいてユーザＢがしゃべり始める瞬間を逃さず見ることができる。
この利用例によれば、会議などのライブチャットにおいて、複数のユーザが互いのしゃべり始める瞬間を逃さず見ることができるので、会話の齟齬を減らすことができる。このように、検知システム１０は、複数人で使用する場合に好適である。なお、図１１の例の場合、発声タイミングにおいて所定処理（上述した実施形態において動画録画を開始するなど）を実行するのは必須ではない。

この図１１の例に限らず、例えば、テレビのライブショー等で出演者がそれぞれ検知装置１００を着けていれば、追尾装置２００たるビデオカメラを自動で出演者がしゃべり始める前から追尾させて、しゃべる瞬間を撮影するといった使用が可能である。

また、上述した実施形態において追尾装置２００は、追尾用テーブルを参照して顔画像を特定した後、フェイストラッキングによりユーザを追尾するようにしたが、これに限られない。例えば、図１２に示すように、追尾用テーブルにネックレスの形状画像を記憶しておき、このネックレスの形状画像に基づいて追尾を行ってもよい。

この場合、検知装置１００毎にネックレスの形状を異ならせる。例えば、検知装置１００Ａの形状を楕円形状Ａ２、検知装置１００Ｂの形状を星形Ｂ２、検知装置１００Ｃの形状をハート型Ｃ２、といった具合に異ならせる。ここで、追尾装置２００の受信部２２１がユーザＩＤＡを受信したとする。すると、追尾部２２２は、ネックレスの楕円形状Ａ２を追尾用テーブルを参照して特定し、Ａ２をトラッキングすることでユーザＡを追尾する。
これによれば、ユーザＡの顔が半分フレームアウトしたとしてもネックレスが映っている限りユーザＡをトラッキングできるとともに、顔画像とあわせて追尾を行えば追尾精度を上げることができる。

以上で実施形態の説明を終了するが、上記実施形態は一例であり、検知装置１００や追尾装置２００の構成や各装置が行う処理の内容などが上記実施形態で説明したものに限られないことはもちろんである。

（変形例１）
上述した実施形態においてはユーザが追尾装置２００の画角内に入っている場合、すなわちフレームアウトしていない場合を前提に説明した。しかし、実際にはユーザがフレームアウトする場合も想定される。そこで、この変形例１においては、ユーザがフレームアウトした場合に備えた検知システムについて説明する。図１３に変形例１に係る検知装置１００’の構成を示す。この検知装置１００’は、上述した実施形態の検知装置１００と比べて、ＧＰＳ（Global Positioning System）１１１を備えた点、特定部１２２が位置特定を行う点、が異なる。以下ではこの異なる点を中心に説明する。

ＧＰＳ１１１は、緯度経度などの位置情報を取得するＧＰＳ受信機である。
特定部１２２は、検知部１２１がユーザの喉の震えを検知すると、ユーザの位置情報をＧＰＳ１１１に基づいて特定する。例えば、特定部１２２は、図１のユーザＡの緯度Ｘ、経度ＹをＧＰＳ１１１に基づいて特定する。送信部１２３は、ユーザＩＤＡと、特定した位置情報と、を無線送信する。

一方、追尾装置２００の追尾部２２２は、ユーザの位置情報に基づいて、撮像部２３０の向きを制御してそのユーザを探索後、その探索したユーザを追尾する。例えば、追尾部２２２は、ユーザＡがフレームアウトしている場合、受信した位置情報に基づいて、撮像部２３０の向きを位置情報が示す緯度経度に向けてユーザＡを探索する。探索後、追尾部２２２は、ユーザＡの顔画像Ａ１に基づいて、ユーザＡを追尾する。

以上、この変形例１によれば、ユーザがフレームアウトした場合であっても、位置情報に基づいてユーザを探索して追尾することができる。したがって、追尾精度を向上させることができる。なお、特定部１２２は、発声までにかかる時間を示す時間情報の特定に加えて、位置情報の特定を行ってもよい。これによれば、ユーザを探索して追尾しつつ、発声タイミングで所定処理を実行することができる。

なお、上記変形例１では、ユーザが一人である場合を例にとって説明したが、これに限られない。例えば、会議などにおいて複数のユーザがいる場合に、変形例１に係る検知装置１００’を適用してもよい。この場合、複数のユーザ（例えば、ユーザＡ〜Ｃ）それぞれが検知装置１００’を着けて、発声前に位置情報とユーザＩＤとを無線送信するようにする。これによれば、追尾装置２００は、各ユーザがフレームアウトしていても位置情報に基づいて各ユーザを探索後、発声前に追尾を開始することができる。

（変形例２）
上述した変形例１においては、ユーザがフレームアウトした場合に備えて、検知装置１００’が位置情報を特定して無線送信するようにしたが、これに限られない。この変形例２においては、追尾装置２００’が発声前のユーザ位置を推定して探索する点について説明する。図１４に変形例２に係る追尾装置２００’を示す。この追尾装置２００’は、推定部２２４を備えた点が上述した実施形態の追尾装置２００と異なる。以下ではこの異なる点を中心に説明する。

推定部２２４は、受信部２２１が受信したユーザＩＤの受信信号強度（ＲＳＳＩ：Received Signal Strength Indicator）と、そのユーザＩＤが無線送信された方向と、に基づいて、そのユーザＩＤのユーザの位置情報を推定する。具体的には、推定部２２４は、受信信号強度から、検知装置１００を着けたユーザＡまでの距離を推定する。この推定は、追尾装置２００’がＲＳＳＩ値と距離とを対応付けたテーブルを予め記憶しておき、そのテーブルを利用して行えばよい。

同時に、推定部２２４は、受信部２２１がユーザＩＤを受信した方向から送信源である検知装置１００の方向を推定する。方向推定の手法は任意だが、例えば、電波の到来方向を指向性アンテナ等で探知すればよい。

これにより、推定部２２４は、検知装置１００を着けたユーザＡまでの距離と方向を推定することができる。そして、追尾部２２２は、推定された方向にサーボモータ２５０を制御して撮像部２３０を向けるとともに、推定された距離に応じて光学系を制御して（ズームイン、ズームアウト等して）、ユーザＡを探索する。探索後、追尾部２２２は、そのユーザＡを追尾する。

以上、この変形例２によれば、ユーザがフレームアウトした場合であっても、追尾装置２００’が推定した位置情報に基づいてユーザを探索して追尾することができる。したがって、追尾精度を向上させることができることに加えて、検知装置１００からユーザの位置情報を送信する必要がないので処理負荷を抑えることができる。

（変形例３）
上述した実施形態及び各変形例においては、追尾装置２００（Ｗｅｂカメラ）が発声前のユーザを追尾する場合を例にとって説明したが、これに限られない。例えば、追尾装置２００に代えて、録音装置５００（ＩＣレコーダー）を用いてもよい。この場合の検知システム２０を図１５に示す。
なお、録音装置も音を追尾するのであるから、録音装置は追尾装置の一形態である。

検知システム２０は、図中に示すように、検知装置１００と録音装置５００とから構成される。この検知装置１００の構成は、上述した実施形態と同じである。一方、録音装置５００は、上述した実施形態の追尾装置２００と比べて追尾に係る構成（追尾部２２２、実行部２２３、撮像部２３０、サーボモータ２５０）を除外して、新たに録音部２２５を設けた点が異なる。そこで、以下ではこの異なる点を中心に説明する。なお、図１５は、ユーザが自身の声を録音する場面を想定している。

まず、検知装置１００の検知部１２１は、ユーザＡの発声に先立つ喉の震えを検知したとする。すると、特定部１２２は、ユーザＡの発声までにかかる時間を示す時間情報を特定する。そして、送信部１２３は、特定した時間情報を無線送信する。
一方で、録音装置５００の受信部２２１は、送信部１２３から無線送信された時間情報を受信する。そして、録音部２２５は、受信部２２１が受信した時間情報が示す発声までにかかる時間に基づいて、発声のタイミングでユーザＡの声の録音を開始する。具体的には、録音部２２５は、発声のタイミングでマイク２８０をＯＮにしてユーザＡの声を収音して記憶部２４０に記憶する。その後、録音部２２５は、マイク２８０からの音声信号が途絶えて所定時間経過するとマイク２８０をＯＦＦする。

このように、図１５の検知システム２０では、ユーザＡがしゃべる前に、マイク２８０がＯＮして自動録音することができる。この場合、検知装置１００が喉の震えをトリガに発声までにかかる時間情報を録音装置５００に送信し、録音装置５００はその時間情報に基づいて、発声のタイミングで録音を開始する。このため、ユーザＡがしゃべり始めた後に録音を開始するようなことがない。また、自動でマイクのＯＮ・ＯＦＦをするので、ユーザＡは特に録音を意識することなく自身の声を漏れなく録音することができる。この変形例３に係る検知システム２０は、今後のトレンドである人の音声などのデータを自動記録するライフログのツールとして好適である。

なお、検知システム２０は、上記図１５の例に限らず、様々な場面に応用することができる。例えば、録音装置５００がＩＣレコーダではなくスマートフォンだった場合に、検索エンジン（例えば、グーグル（登録商標）など）を用いて音声検索をする場面を想定する。
この場合、ユーザは、音声検索を開始するための開始指示をしなくとも、ユーザの発声に先立ってスマートフォンのマイクが自動でＯＮになる。すなわち、ユーザが着けた検知装置１００がユーザの喉の震えを検知して、発声までにかかる時間情報を無線送信する。そして、スマートフォンが受信した時間情報に基づいて、ユーザの発声のタイミングでマイクを自動でＯＮにしてユーザの声の録音を開始する。
従って、本変形例の録音装置５００は、ＩＣレコーダやスマートフォンなどのボイスレコーダに適用すると好適である。

このように、検知システム２０の別例によれば、ユーザが音声検索前に毎回マイクをＯＮする必要がないので、ユーザにかかる負担を軽減することができる。なお、上述した実施形態に係る検知システム１０と変形例３に係る検知システム２０とは、検知装置１００がユーザの発声に先立つ生理的な挙動（喉の震え）を検知する点、受信側装置（追尾装置２００又は録音装置５００）がユーザの発声前に所定動作（追尾又は録音）を行う点、で共通の技術的特徴を有することを念のため付言する。つまり、検知システム１０と検知システム２０は単一性があることを念のため付言する。

（変形例４）
なお、上述した実施形態及び各変形例においては、検知装置１００がユーザの発声タイミングを検知する前提で説明したが、これに限られない。例えば、検知装置１００（ネックレス）は、ジャイロセンサ１１０でユーザの喉が震え始めたことを検知すると、即座に検知した信号を送信して、受信側装置（追尾装置２００又は録音装置５００）でユーザの発声タイミングを検知してもよい。なお、受信側装置は、送信側の検知装置１００の信号に基づいて、ユーザの発声タイミングを検知するので検知装置ともいえる。すなわち、この変形例４において追尾装置２００又は録音装置５００は、実質的に検知装置として機能する。

ここで、変形例４に係る検知装置１００”を図１７に示す。図１７に示す検知装置１００”は、実施形態に係る追尾装置２００と比べて、検知部２９０を備えた点及び記憶部２４０が発声前波形２４１を備えた点が異なる。以下では、この異なる点を中心に説明する。

まず、送信側の検知装置１００は、上記信号にジャイロセンサ１１０で検知した喉の震えの大きさの実測値を含めて送信する。一方、受信側の検知装置１００”の受信部２２１は、喉が震えたことを示す信号を受信する。

次に、検知部２９０は、その信号に含まれる実測値をフーリエ変換して周波数波形を得ると、その得られた周波数波形の周波数とその大きさとからユーザが発声前か否か判定する。すなわち、周波数波形の周波数が、特徴波形が示す発声前の周波数帯域内であり、かつ、周波数波形の大きさが特徴波形の大きさと同じであれば、ユーザが発声前であると判定する。そして、検知部２９０は、発声までにかかる時間（ｔ２−ｔ１）秒を特定して、発声のタイミングを検知する。
そして、実行部２２３は、検知部２９０が検知した発声のタイミングで所定処理（例えば、ユーザを被写体とする動画の録画又はユーザの音声の録音の開始）を実行する。

以上、変形例４に係る検知装置１００”によれば、送信側のウェアラブルな検知装置１００の構成を簡素化することができる。このため、検知装置１００の処理負荷を軽減するとともに、検知装置１００を小型化することができる。
なお、検知装置１００”の実行部２２３は、受信部２２１が喉が震えたことを示す信号を受信すると、撮影又は録音のスタンバイを行ってもよい。撮影のスタンバイとしては、例えば、追尾部２２２がユーザをトラッキングするなどである。録音のスタンバイとしては、例えば、マイク２８０のスイッチをＯＮするなどである。

なお、上述した実施形態及び各変形例においては、生理的な挙動が喉の震えであることを前提に説明したが、これに限られない。例えば、検知装置１００は、喉の震えに代えて発声前の肺の動きを検知してもよい。この場合、検知装置１００はネックレスではなく、例えば、肺の動きを検知できるように胸付近に装着可能なバンド等で構成すればよい。

また、この発明の検知システム１０を構成する検知装置１００と追尾装置２００の各機能は、通常のＰＣ等のコンピュータによっても実施することができる。
具体的には、上記実施形態では、各装置が行う各処理（検知処理、追尾処理）のプログラムが、各装置の制御部１２０、２２０のＲＯＭに予め記憶されているものとして説明した。しかし、各処理のプログラムを、フレキシブルディスク、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＤＶＤ（Digital Versatile Disc）及びＭＯ（Magneto-Optical Disc）等のコンピュータ読み取り可能な記録媒体に格納して配布し、そのプログラムをコンピュータにインストールすることにより、上述の各部の機能を実現することができるコンピュータを構成してもよい。

以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。

（付記１）
ユーザの発声に先立つ生理的な挙動を検知する検知手段と、
前記検知手段の検知結果に基づき、所定処理を実行する実行手段と、
を備えたことを特徴とする検知装置。

（付記２）
前記検知手段は、前記ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、前記ユーザの発声に先立つ喉の震えを検知する、
ことを特徴とする付記１に記載の検知装置。

（付記３）
前記実行手段は、前記所定処理として、前記ユーザのユーザ識別情報、該ユーザの発声までにかかる時間を示す時間情報又は該ユーザの位置情報のうち、何れか１つの情報を出力する、
ことを特徴とする付記１又は２に記載の検知装置。

（付記４）
ユーザの発声に先立つ生理的な挙動を示す信号を受信する受信手段と、
前記受信手段が受信した信号に基づいて所定処理を実行する実行手段と、
を備えたことを特徴とする検知装置。

（付記５）
前記実行手段は、前記所定処理として、撮影又は録音のスタンバイを行う、
ことを特徴とする付記４に記載の検知装置。

（付記６）
前記受信手段が受信した信号に基づいて、前記ユーザの発声のタイミングを検知する検知手段を備え、
前記実行手段は、前記所定処理として、前記検知手段が検知した発声のタイミングで所定処理を実行する、
ことを特徴とする付記４に記載の検知装置。

（付記７）
ユーザの発声に先立つ生理的な挙動を検知する検知手段と、
前記検知手段が前記生理的な挙動を検知すると、前記ユーザのユーザ識別情報を送信する送信手段と、を備えた検知装置と、
前記送信手段から送信されたユーザ識別情報を受信する受信手段と、
前記受信手段が受信したユーザ識別情報のユーザを追尾する追尾手段と、を備えた追尾装置と、
を備えたことを特徴とする検知システム。

（付記８）
前記検知手段は、前記ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、前記ユーザの発声に先立つ喉の震えを検知する、
ことを特徴とする付記７に記載の検知システム。

（付記９）
前記追尾手段は、撮像手段によって前記ユーザの顔又は該ユーザが装着する前記検知装置の形状を認識後、該撮像手段の向きが前記顔又は前記形状の方向になるように制御して該ユーザを追尾する、
ことを特徴とする付記７又は８に記載の検知システム。

（付記１０）
前記検知装置は、さらに、
前記検知手段が前記生理的な挙動を検知すると、前記発声までにかかる時間を示す時間情報を特定する時間特定手段を備え、
前記送信手段は、前記ユーザ識別情報に加え、前記時間情報を送信し、
前記追尾装置は、さらに、
前記時間情報が示す発声までにかかる時間に基づいて、該発声のタイミングで前記追尾手段が追尾中のユーザに関連する所定処理を実行する実行手段を備えた、
ことを特徴とする付記７乃至９の何れか一つに記載の検知システム。

（付記１１）
前記実行手段は、前記所定処理として、前記発声のタイミングで前記ユーザを被写体とする動画の録画又は該ユーザの声の録音を開始する、
ことを特徴とする付記１０に記載の検知システム。

（付記１２）
前記実行手段は、前記所定処理として、前記発声のタイミングで前記ユーザに応じた撮影モードに切り替える、
ことを特徴とする付記１０に記載の検知システム。

（付記１３）
前記検知装置は、さらに、
前記検知手段が前記生理的な挙動を検知すると、前記ユーザの位置情報を特定する位置特定手段を備え、
前記送信手段は、前記ユーザ識別情報に加え、前記ユーザの位置情報を送信し、
前記追尾手段は、前記ユーザの位置情報に基づいて、撮像手段の向きを制御して該ユーザを探索後、該探索したユーザを追尾する、
ことを特徴とする付記７乃至１２の何れか一つに記載の検知システム。

（付記１４）
前記追尾装置は、さらに、
前記受信手段が受信したユーザ識別情報の受信信号強度と、該ユーザ識別情報が送信された方向と、に基づいて、該ユーザ識別情報のユーザの位置情報を推定する推定手段を備え、
前記追尾手段は、前記ユーザの位置情報に基づいて、撮像手段の向きを制御して該ユーザを探索後、該探索したユーザを追尾する、
ことを特徴とする付記７乃至１２の何れか一つに記載の検知システム。

（付記１５）
前記検知装置は、前記ユーザが身体に装着するウェアラブル装置である、
ことを特徴とする付記７乃至１４の何れか一つに記載の検知システム。

（付記１６）
ユーザの発声に先立つ生理的な挙動を検知する検知手段と、
前記検知手段が前記生理的な挙動を検知すると、前記発声までにかかる時間を示す時間情報を特定する時間特定手段と、
前記時間特定手段が特定した前記時間情報を送信する送信手段と、を備えた検知装置と、
前記送信手段から送信された時間情報を受信する受信手段と、
前記受信手段が受信した前記時間情報が示す発声までにかかる時間に基づいて、該発声のタイミングで前記ユーザの声の録音を開始する録音手段と、を備えた録音装置と、
を備えたことを特徴とする検知システム。

（付記１７）
ユーザの発声に先立つ生理的な挙動を検知する検知ステップと、
前記検知ステップの検知結果に基づき、所定処理を実行する実行ステップと、
を備えたことを特徴とする検知方法。

（付記１８）
コンピュータを、
ユーザの発声に先立つ生理的な挙動を検知する検知手段、
前記検知手段の検知結果に基づき、所定処理を実行する実行手段、
として機能させるためのプログラム。

１０，２０…検知システム、１００，１００Ａ〜Ｃ，１００’，１００”…検知装置、１１０…ジャイロセンサ、１１１…ＧＰＳ、１２０，２２０…制御部、１２１，２９０…検知部、１２２…特定部、１２３…送信部、１３０，２４０…記憶部、１３１，２４１…発声前波形、１４０，２１０…無線通信Ｉ／Ｆ、２００，２００Ａ，２００Ｂ，２００’…追尾装置、２２１…受信部、２２２…追尾部、２２３…実行部、２２４…推定部、２２５…録音部、２３０…撮像部、２５０…サーボモータ、２６０…操作部、２７０…外部Ｉ／Ｆ、２８０…マイク、３００，４００…ＰＣ、３０１…ディスプレイ、５００…録音装置

Claims

ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、前記ユーザの発声に先立つ喉の震えを検知する検知手段と、
前記検知手段の検知結果に基づき、所定処理を実行する実行手段と、
を備えたことを特徴とする検知装置。
前記実行手段は、前記所定処理として、前記ユーザのユーザ識別情報、該ユーザの発声までにかかる時間を示す時間情報又は該ユーザの位置情報のうち、何れか１つの情報を出力する、
ことを特徴とする請求項１に記載の検知装置。
ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、前記ユーザの発声のタイミングを検知する検知手段と、
前記検知手段が検知した発声のタイミングで所定処理を実行する実行手段と、
を備えたことを特徴とする検知装置。
前記実行手段は、前記所定処理として、撮影又は録音のスタンバイを行う、
ことを特徴とする請求項３に記載の検知装置。
ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、前記ユーザの発声に先立つ喉の震えを検知する検知手段と、
前記検知手段が前記ユーザの発声に先立つ喉の震えを検知すると、前記ユーザのユーザ識別情報を送信する送信手段と、を備えた検知装置と、
前記送信手段から送信されたユーザ識別情報を受信する受信手段と、
前記受信手段が受信したユーザ識別情報のユーザを追尾する追尾手段と、を備えた追尾装置と、
を備えたことを特徴とする検知システム。
前記追尾手段は、撮像手段によって前記ユーザの顔又は該ユーザが装着する前記検知装置の形状を認識後、該撮像手段の向きが前記顔又は前記形状の方向になるように制御して該ユーザを追尾する、
ことを特徴とする請求項５に記載の検知システム。
前記検知装置は、さらに、
前記検知手段が前記喉の震えを検知すると、前記発声までにかかる時間を示す時間情報を特定する時間特定手段を備え、
前記送信手段は、前記ユーザ識別情報に加え、前記時間情報を送信し、
前記追尾装置は、さらに、
前記時間情報が示す発声までにかかる時間に基づいて、該発声のタイミングで前記追尾手段が追尾中のユーザに関連する所定処理を実行する実行手段を備えた、
ことを特徴とする請求項５又は６に記載の検知システム。
前記実行手段は、前記所定処理として、前記発声のタイミングで前記ユーザを被写体とする動画の録画又は該ユーザの声の録音を開始する、
ことを特徴とする請求項７に記載の検知システム。
前記実行手段は、前記所定処理として、前記発声のタイミングで前記ユーザに応じた撮影モードに切り替える、
ことを特徴とする請求項７に記載の検知システム。
前記検知装置は、さらに、
前記検知手段が前記ユーザの発声に先立つ喉の震えを検知すると、前記ユーザの位置情報を特定する位置特定手段を備え、
前記送信手段は、前記ユーザ識別情報に加え、前記ユーザの位置情報を送信し、
前記追尾手段は、前記ユーザの位置情報に基づいて、撮像手段の向きを制御して該ユーザを探索後、該探索したユーザを追尾する、
ことを特徴とする請求項５乃至９の何れか一項に記載の検知システム。
前記追尾装置は、さらに、
前記受信手段が受信したユーザ識別情報の受信信号強度と、該ユーザ識別情報が送信された方向と、に基づいて、該ユーザ識別情報のユーザの位置情報を推定する推定手段を備え、
前記追尾手段は、前記ユーザの位置情報に基づいて、撮像手段の向きを制御して該ユーザを探索後、該探索したユーザを追尾する、
ことを特徴とする請求項５乃至９の何れか一項に記載の検知システム。
前記検知装置は、前記ユーザが身体に装着するウェアラブル装置である、
ことを特徴とする請求項５乃至１１の何れか一項に記載の検知システム。
ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、前記ユーザの発声に先立つ喉の震えを検知する検知手段と、
前記検知手段が前記ユーザの発声に先立つ喉の震えを検知すると、前記発声までにかかる時間を示す時間情報を特定する時間特定手段と、
前記時間特定手段が特定した前記時間情報を送信する送信手段と、を備えた検知装置と、
前記送信手段から送信された時間情報を受信する受信手段と、
前記受信手段が受信した前記時間情報が示す発声までにかかる時間に基づいて、該発声のタイミングで前記ユーザの声の録音を開始する録音手段と、を備えた録音装置と、
を備えたことを特徴とする検知システム。
ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、前記ユーザの発声に先立つ喉の震えを検知する検知ステップと、
前記検知ステップの検知結果に基づき、所定処理を実行する実行ステップと、
を備えたことを特徴とする検知方法。
コンピュータを、
ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、前記ユーザの発声に先立つ喉の震えを検知する検知手段、
前記検知手段の検知結果に基づき、所定処理を実行する実行手段、
として機能させるためのプログラム。