JP6500625B2 - 検知装置、検知システム、検知方法及びプログラム - Google Patents

検知装置、検知システム、検知方法及びプログラム Download PDF

Info

Publication number
JP6500625B2
JP6500625B2 JP2015121246A JP2015121246A JP6500625B2 JP 6500625 B2 JP6500625 B2 JP 6500625B2 JP 2015121246 A JP2015121246 A JP 2015121246A JP 2015121246 A JP2015121246 A JP 2015121246A JP 6500625 B2 JP6500625 B2 JP 6500625B2
Authority
JP
Japan
Prior art keywords
user
detection
utterance
unit
tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015121246A
Other languages
English (en)
Other versions
JP2017011321A (ja
Inventor
健士 岩本
健士 岩本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2015121246A priority Critical patent/JP6500625B2/ja
Publication of JP2017011321A publication Critical patent/JP2017011321A/ja
Application granted granted Critical
Publication of JP6500625B2 publication Critical patent/JP6500625B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)

Description

本発明は、検知装置、検知システム、検知方法及びプログラムに関する。
一般的に、画像認識によりユーザの顔をトラッキングする技術がカメラなどで使用されている。
また、近時、音をトリガに、その音を発した音源(例えば、発声したユーザ)をトラッキングする技術もカメラなどで使用されている(例えば、特許文献1など)。
特開平9−135432号公報
ところで、カメラでユーザのしゃべる様子などをリアルタイムで撮影するような場合、上述したトラッキングの技術だとユーザが既にしゃべり始めた後の様子を撮影してしまうことがある。すなわち、音の発声をトリガとするトラッキングではユーザがしゃべり始める瞬間の撮影を逃してしまうことがある。
このようなことから、ユーザの発声タイミングを事前に検知する技術が望まれている。
そこで、本発明は、上述した事情に鑑みてなされたものであり、ユーザの発声タイミングを事前に検知することを目的とする。
上記目的を達成するため、本発明の1つの観点によれば、
ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、前記ユーザの発声に先立つ喉の震えを検知する検知手段と、
前記検知手段の検知結果に基づき、所定処理を実行する実行手段と、
を備えたことを特徴とする検知装置を提供するものである。
本発明によれば、ユーザの発声タイミングを事前に検知することができる。
実施形態に係る検知システムの利用例を示す図である。 実施形態に係る検知装置の構成を示すブロック図である。 発声前後の喉の震えの大きさの経時的変化の一例を示す波形図である。 図3の波形図をフーリエ変換した図である。 実施形態に係る追尾装置の構成を示すブロック図である。 追尾用テーブルの一例を示す図である。 検知処理のフローチャートの一例を示す図である。 追尾処理のフローチャートの一例を示す図である。 (A)及び(B)は、追尾前のユーザ位置の例を示す図である。 追尾後のユーザ位置の例を示す図である。 実施形態に係る撮影システムの別の利用例を示す図である。 追尾用テーブルの別例を示す図である。 変形例1に係る検知装置の構成を示すブロック図である。 変形例2に係る追尾装置の構成を示すブロック図である。 変形例3に係る検知システムの利用例を示す図である。 変形例3に係る録音装置の構成を示すブロック図である。 変形例4に係る検知装置の構成を示すブロック図である。
以下、本発明の実施形態について図面を参照して説明する。
図1は、本発明の実施形態に係る検知システム10の構成を示す図である。この検知システム10は、検知装置(センシングデバイス)100と、追尾装置(Webカメラ)200と、から構成される。検知装置100は、ウェアラブル装置であってユーザに装着される。この実施形態においては、ユーザの発声前の喉の震えを検知する関係上、検知装置100は首に着ける装身具であって、例えば、ネックレスである。
この検知システム10の基本となる技術的思想は、検知装置100においてユーザの発声前の喉の震えを検知する点にある。検知の手法は任意だが、この実施形態では一例として、ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換(フーリエ変換)して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、喉の震えを検知する。
この検知の後、検知装置100は、ユーザIDを無線送信する。次に、追尾装置200は、受信したユーザIDのユーザを追尾する。以上が自動追尾の流れである。
なお、この実施形態においては、理解を容易にするために、ユーザは一人である場合を例にとって説明する。また、ユーザは追尾装置200の画角内に収まる、すなわちフレームアウトしていない場合を例にとって説明する。
また、追尾装置200が写す映像はリアルタイムにPC(Personal Computer)300に転送され、そのPC300のディスプレイ301にライブビューが表示されている前提で説明する。また、図1のユーザはユーザAと称して説明し、ユーザAを特段特定する必要がなければ上位概念としてユーザと称して説明する。
さて、以下では、検知システム10を構成する各装置(検知装置100、追尾装置200)について順に説明する。
まず、図2を参照しながら、検知装置100の構成について説明する。この検知装置100は、ジャイロセンサ110、制御部120、記憶部130及び無線通信I/F(インタフェース)140を備える。
ジャイロセンサ110は、回転角(ピッチ、ヨー、ロール)を検知するための3軸ジャイロセンサである。すなわち、ジャイロセンサ110は、検知装置100の静止状態からの傾きを検知可能であって、この実施形態においては、喉の震えに応じて検知装置100が傾いた際の角度を検知する。
制御部120は、例えばCPU(Central Processing Unit)やROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。制御部120は、ROMに記憶されたプログラムに従って制御することにより、各部(検知部121、特定部122、送信部123)の機能を実現する。なお、制御部120のハードウェアは、CPU等に限らず、ネックレスの大きさに合わせて小型のIC(Integrated Circuit)等で構成してもよいことはもちろんである。
記憶部130は、不揮発性メモリ(例えば、フラッシュメモリなど)から構成され、発声前波形131を記憶する。発声前波形131は、ユーザの発声前の喉の震えを検知するために予め学習された波形である。具体的には、図3に示す発声前後の喉の震えの大きさの経時的変化を示す波形をフーリエ変換して、図4に示す周波数波形にしたものが発声前波形131となる。
図3の波形は、横軸が時間(t)、縦軸が喉の震えの大きさ(dB)、を示し、発声前の期間(t2−t1)においては喉の震えの大きさが発声後に比べて小さい。なお、喉の震えの大きさは、音圧に比例するので単位はdBとなる。この図3の波形をフーリエ変換すると、図4に示す発声前波形131(周波数波形)が得られる。図4の発声前波形131は、横軸が周波数(Hz)、縦軸が音圧の(喉の震えの)大きさ(dB)、を示す。図中に示すように、発声前においては特定の周波数帯域T(T1からT2の帯域)に亘って、大きさ(dB)が発声後の大きさに比べて小さい特徴波形が得られる。この特徴波形は、発声前の周波数の特徴を示す。
この予め学習しておいた発声前波形131の特徴波形の有無をモニタリングすることでユーザの発声前の喉の震えを検知する。なお、記憶部130は、発声前波形131以外に、自装置(検知装置100)の装置IDを記憶する。この実施形態においては、検知装置100はユーザに身に着けられ、ユーザと一対一に紐付いているので、装置IDは実質的にユーザIDともいえる。以下では、図1のユーザAのユーザIDを「A」として説明する。なお、記憶部130は、装置IDに代えてユーザIDを直接記憶してもよいことはもちろんである。
さて、図2に戻って、無線通信I/F140は、外部装置と無線通信を行うための通信インタフェースである。この実施形態においては、無線通信として、Bluetooth(登録商標)による近距離無線通信を用いる。特に、検知装置100の電池寿命の観点から、低消費電力であるBLE(Bluetooth Low Energy)による近距離無線通信が好適である。
次に、制御部120の機能について説明する。
制御部120は機能として、検知部121と特定部122と送信部123を備える。
検知部121は、ユーザの発声に先立つ生理的な挙動(この実施形態においては、一例として、発声前の喉の震え)を検知する。具体的には、検知部121は、ジャイロセンサ110によってリアルタイムに検知する実測値(喉の震えの大きさの実測値)をフーリエ変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、を比較することで、発声前の喉の震えを検知する。
次に、特定部122は、検知部121の検知結果に基づき、所定処理を実行する。この実施形態では、特定部122は、所定処理として、検知部121が発声前の喉の震えを検知すると、発声までにかかる時間を示す時間情報を特定する。具体的には、特定部122は、図3に示した喉が震える発声前の期間t2−t1(秒)を、時間情報として特定する。例えば、時間情報は、0.5秒である。なお、この時間情報の値は、検知部121が検知するまでにかかった時間に基づいて補正してもよい。例えば、検知に0.1秒要した場合は、補正後の時間情報は0.4(0.5−0.1)秒となる。なお、特定部122は、実行手段として機能とする。
次に、送信部123は、検知部121が発声前の喉の震えを検知すると、ユーザのユーザIDと、特定部122が特定した時間情報と、を無線通信I/F140を介してBLEに基づき無線送信する。この実施形態において、送信部123は、ユーザAのユーザIDAと、発声までにかかる時間を示す時間情報(例えば、0.5秒)と、を無線送信する。
以上、検知装置100の構成について説明した。以下では、追尾装置200の構成について説明する。この追尾装置200は、無線通信I/F210、制御部220、撮像部230、記憶部240、サーボモータ250、操作部260、外部I/F(インタフェース)270及びマイク280を備える。
無線通信I/F210は、外部装置(この実施形態においては検知装置100)と無線通信を行うための通信インタフェースである。
制御部220は、例えばCPUやROM、RAMなどにより構成される。制御部220は、ROMに記憶されたプログラムに従って制御することにより、各部(受信部221、追尾部222、実行部223)の機能を実現する。
撮像部230は、被写体を撮影するためのCCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)などのイメージセンサと、光学系(レンズ、絞り、シャッタなど)と、を備えたカメラである。
記憶部240は、不揮発性メモリなどから構成され、録画された動画や音声、後述する追尾用テーブルなどを記憶する。
サーボモータ250は、サーボ機構によって位置・速度制御を行うモータである。このサーボモータ250により、追尾装置200の撮像部230は、上下左右に回動可能である。
操作部260は、電源ボタンなどの各種ボタンによって構成される。
外部I/F270は、USB(Universal Serial Bus)コネクタなどから構成される。外部I/F270は、USBケーブルを介して、外部装置であるPC300へ撮影中の映像をリアルタイムで転送する。
マイク280は、外部音声を収音する音声入力部である。
次に、制御部220の機能について説明する。
制御部220は、機能として受信部221、追尾部222、実行部223を備える。
受信部221は、検知装置100の送信部123から無線送信されたユーザIDと時間情報とを受信する。この実施形態において、受信部221は、無線送信されたユーザIDAと時間情報とを受信する。
追尾部222は、受信部221が受信したユーザIDのユーザを追尾する。この実施形態において、追尾部222は、ユーザIDAのユーザAを追尾する。追尾の手法は任意であるが、この実施形態では一例として、顔画像を用いたマッチングによりユーザを追尾する。この場合、図6の追尾用テーブルが示すように、予め、ユーザIDとユーザの顔画像とを対応付けて記憶しておく。例えば、ユーザIDAのユーザAの顔画像A1をマッチングに用いるテンプレート画像として対応付けて記憶しておく。
ここで、追尾部222は、追尾用テーブルを参照して、ユーザIDAに対応付けられた顔画像A1を特定する。そして、追尾部222は、顔画像A1を用い、撮像部230によってユーザAの顔を認識後、その撮像部230の向きがユーザAの顔の方向になるようにサーボモータ250を制御して、ユーザAを追尾する。
実行部223は、時間情報が示す発声までにかかる時間に基づいて、その発声のタイミングで追尾部222が追尾中のユーザに関連する所定処理を実行する。実行部223は、所定処理の一例として、発声のタイミングでユーザAを被写体とする動画の録画を開始するようにする。これにより、PC300のディスプレイ301に映るライブビューにおいて、追尾中のユーザAに対する動画の録画が開始される。なお、録画された動画は追尾装置200の記憶部240に記憶されても、PC300の記憶部に記憶されてもよい。
以上、図2乃至図6を参照しながら検知システム10を構成する各装置(検知装置100、追尾装置200)について説明した。以下では、各装置が行う処理について順に説明する。
まず、図7を参照しながら検知装置100が行う検知処理について説明する。この検知処理は、検知装置100を装着するユーザがジャイロセンサ110の電源をONすることを契機として開始される。なお、以下では適宜ユーザAを例にとって説明する。
まず、検知部121は、生理的な挙動を検知したか否か判定する(ステップS11)。具体的には、検知部121は、ユーザAの喉の震えを、上述した要領で、ユーザAの喉の震えの大きさの経時的変化を示す波形を周波数変換(フーリエ変換)して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて検知する。
検知部121は、生理的な挙動を検知するまで待機し(ステップS11;No)、生理的な挙動、すなわちユーザAの喉の震えを検知すると(ステップS11;Yes)、ステップS12に進む。
ステップS12において、特定部122は、発声までにかかる時間を特定する。具体的には、特定部122は、上述した要領で、図3に示した波形において喉が震える期間t2−t1(秒)を、時間情報として特定する。
次に、送信部123は、ユーザIDと特定した時間情報とを無線送信する(ステップS13)。具体的には、送信部123は、上述した要領で、ユーザAのユーザIDAと、特定部122が特定した時間情報と、を無線通信I/F140を介してBLEに基づき無線送信する。ステップS13の後、検知処理を終了する。
検知装置100は、以上の検知処理を、生理的な挙動を検知する都度、反復して実行する。
さて、次に、図8を参照しながら、追尾装置200が行う追尾処理について説明する。この追尾処理は、受信部221がユーザIDと時間情報を受信するまで待機しておき(ステップS21;No)、ユーザIDと時間情報とを受信すると(ステップS21;Yes)、開始する。
ユーザIDと時間情報を受信すると、追尾部222は、ユーザIDのユーザを追尾する(ステップS22)。具体的には、追尾部222は、上述した要領で、追尾用テーブルからユーザIDAに対応する顔画像A1を特定し、その特定した顔画像A1に基づいて、ユーザAを追尾する。
ここで、追尾前のユーザAの位置が、PC300のディスプレイ301において図9の(A)又は(B)の位置だったとする。この場合、追尾部222は、図10に示すように、ユーザAがディスプレイ301の中央において所定の大きさになるように、サーボモータ250及び撮像部230の光学系を制御する。このように、追尾部222は、ユーザAの発声前において、ユーザAの動きを追尾(トラッキング)する。
次に、実行部223は、発声のタイミングで所定処理を実行する(ステップS23)。具体的には、実行部223は、上述した要領で、時間情報が示す発声までにかかる時間に基づいて、発声のタイミングでユーザAを被写体とする動画の録画を開始するようにする。ステップS23の後、追尾処理を終了する。なお、この追尾処理終了後も、追尾部222は、ユーザAを追尾するようにする。
以上、この実施形態における検知システム10によれば、検知装置100はユーザの発声に先立つ喉の震えを検知すると、そのユーザのユーザIDを無線送信し、一方で、ユーザIDを受信した追尾装置200は、そのユーザIDのユーザを追尾するようにしている。このため、ユーザの発声タイミングに遅れてトラッキングを開始するようなことがない。したがって、ユーザがしゃべり始める瞬間の録画を逃してしまうといった事態を避けることができる。
また、検知装置100は、学習しておいた発声前波形131における特徴波形と、リアルタイムに周波数変換して得られる周波数波形と、を比較することでユーザの喉の震えを検知する。このため、精度よく発声前の生理的な挙動を検知することができる。
なお、この実施形態においては、ユーザの発声タイミングで動画の録画を開始するようにしたが、これに限られない。例えば、ユーザの発声タイミングでユーザの声を録音するようにしてもよい。これによれば、ユーザAが発声した後に録音を開始するといった事態を避けることができ、ユーザのしゃべる瞬間を逃さずに録音することができる。
また、ユーザの発声タイミングでユーザに応じた撮影モードに切り替えるようにしてもよい。例えば、予めユーザAが追尾装置200の追尾用テーブルに、ユーザIDAと撮影モードとを対応付ける設定をしておく。これによれば、ユーザAの発声タイミングでユーザAが所望する撮影モード(例えば、ユーザAの顔を明るく滑らかにする画像補正を施すメイクアップモード)に切り替えることができる。したがって、ユーザ個人の趣味嗜好に応じたカスタマイズを行うことができるので、ユーザの満足度を向上することができる。
また、上述した実施形態においては、ユーザが一人である場合を例にとって説明したが、これに限られない。以下では、ユーザが複数いる場合の検知システム10の利用例を、図11を参照しながら説明する。
図11は、複数人(ユーザA〜Cの3人)で会議などのライブチャットをする場面を想定している。ユーザA及びユーザBは同一ロケーション、ユーザCはリモートロケーションにおり、インターネット等を介して検知システム10を利用したライブチャットを行う場面である。ユーザCのPC400にはリアルタイムで追尾装置200Aが撮影する映像が映っている。
ここで、ユーザAとユーザBが交互にしゃべったとする。この場合、ユーザAの発声に先立つ喉の震えを検知装置100Aが検知してユーザIDAを無線送信する。すると、追尾装置200AはユーザIDAを受信してユーザIDAのユーザAの追尾を行う。このため、ユーザCは、PC400のディスプレイにおいてユーザAがしゃべり始める瞬間を逃さず見ることができる。
同様に、検知装置100BがユーザBの発声に先立つ喉の震えを検知すると、ユーザIDBを無線送信する。すると、追尾装置200AはユーザIDBを受信してユーザIDBのユーザBの追尾を行う。このため、ユーザCは、同様に、PC400のディスプレイにおいてユーザBがしゃべり始める瞬間を逃さず見ることができる。
この利用例によれば、会議などのライブチャットにおいて、複数のユーザが互いのしゃべり始める瞬間を逃さず見ることができるので、会話の齟齬を減らすことができる。このように、検知システム10は、複数人で使用する場合に好適である。なお、図11の例の場合、発声タイミングにおいて所定処理(上述した実施形態において動画録画を開始するなど)を実行するのは必須ではない。
この図11の例に限らず、例えば、テレビのライブショー等で出演者がそれぞれ検知装置100を着けていれば、追尾装置200たるビデオカメラを自動で出演者がしゃべり始める前から追尾させて、しゃべる瞬間を撮影するといった使用が可能である。
また、上述した実施形態において追尾装置200は、追尾用テーブルを参照して顔画像を特定した後、フェイストラッキングによりユーザを追尾するようにしたが、これに限られない。例えば、図12に示すように、追尾用テーブルにネックレスの形状画像を記憶しておき、このネックレスの形状画像に基づいて追尾を行ってもよい。
この場合、検知装置100毎にネックレスの形状を異ならせる。例えば、検知装置100Aの形状を楕円形状A2、検知装置100Bの形状を星形B2、検知装置100Cの形状をハート型C2、といった具合に異ならせる。ここで、追尾装置200の受信部221がユーザIDAを受信したとする。すると、追尾部222は、ネックレスの楕円形状A2を追尾用テーブルを参照して特定し、A2をトラッキングすることでユーザAを追尾する。
これによれば、ユーザAの顔が半分フレームアウトしたとしてもネックレスが映っている限りユーザAをトラッキングできるとともに、顔画像とあわせて追尾を行えば追尾精度を上げることができる。
以上で実施形態の説明を終了するが、上記実施形態は一例であり、検知装置100や追尾装置200の構成や各装置が行う処理の内容などが上記実施形態で説明したものに限られないことはもちろんである。
(変形例1)
上述した実施形態においてはユーザが追尾装置200の画角内に入っている場合、すなわちフレームアウトしていない場合を前提に説明した。しかし、実際にはユーザがフレームアウトする場合も想定される。そこで、この変形例1においては、ユーザがフレームアウトした場合に備えた検知システムについて説明する。図13に変形例1に係る検知装置100’の構成を示す。この検知装置100’は、上述した実施形態の検知装置100と比べて、GPS(Global Positioning System)111を備えた点、特定部122が位置特定を行う点、が異なる。以下ではこの異なる点を中心に説明する。
GPS111は、緯度経度などの位置情報を取得するGPS受信機である。
特定部122は、検知部121がユーザの喉の震えを検知すると、ユーザの位置情報をGPS111に基づいて特定する。例えば、特定部122は、図1のユーザAの緯度X、経度YをGPS111に基づいて特定する。送信部123は、ユーザIDAと、特定した位置情報と、を無線送信する。
一方、追尾装置200の追尾部222は、ユーザの位置情報に基づいて、撮像部230の向きを制御してそのユーザを探索後、その探索したユーザを追尾する。例えば、追尾部222は、ユーザAがフレームアウトしている場合、受信した位置情報に基づいて、撮像部230の向きを位置情報が示す緯度経度に向けてユーザAを探索する。探索後、追尾部222は、ユーザAの顔画像A1に基づいて、ユーザAを追尾する。
以上、この変形例1によれば、ユーザがフレームアウトした場合であっても、位置情報に基づいてユーザを探索して追尾することができる。したがって、追尾精度を向上させることができる。なお、特定部122は、発声までにかかる時間を示す時間情報の特定に加えて、位置情報の特定を行ってもよい。これによれば、ユーザを探索して追尾しつつ、発声タイミングで所定処理を実行することができる。
なお、上記変形例1では、ユーザが一人である場合を例にとって説明したが、これに限られない。例えば、会議などにおいて複数のユーザがいる場合に、変形例1に係る検知装置100’を適用してもよい。この場合、複数のユーザ(例えば、ユーザA〜C)それぞれが検知装置100’を着けて、発声前に位置情報とユーザIDとを無線送信するようにする。これによれば、追尾装置200は、各ユーザがフレームアウトしていても位置情報に基づいて各ユーザを探索後、発声前に追尾を開始することができる。
(変形例2)
上述した変形例1においては、ユーザがフレームアウトした場合に備えて、検知装置100’が位置情報を特定して無線送信するようにしたが、これに限られない。この変形例2においては、追尾装置200’が発声前のユーザ位置を推定して探索する点について説明する。図14に変形例2に係る追尾装置200’を示す。この追尾装置200’は、推定部224を備えた点が上述した実施形態の追尾装置200と異なる。以下ではこの異なる点を中心に説明する。
推定部224は、受信部221が受信したユーザIDの受信信号強度(RSSI:Received Signal Strength Indicator)と、そのユーザIDが無線送信された方向と、に基づいて、そのユーザIDのユーザの位置情報を推定する。具体的には、推定部224は、受信信号強度から、検知装置100を着けたユーザAまでの距離を推定する。この推定は、追尾装置200’がRSSI値と距離とを対応付けたテーブルを予め記憶しておき、そのテーブルを利用して行えばよい。
同時に、推定部224は、受信部221がユーザIDを受信した方向から送信源である検知装置100の方向を推定する。方向推定の手法は任意だが、例えば、電波の到来方向を指向性アンテナ等で探知すればよい。
これにより、推定部224は、検知装置100を着けたユーザAまでの距離と方向を推定することができる。そして、追尾部222は、推定された方向にサーボモータ250を制御して撮像部230を向けるとともに、推定された距離に応じて光学系を制御して(ズームイン、ズームアウト等して)、ユーザAを探索する。探索後、追尾部222は、そのユーザAを追尾する。
以上、この変形例2によれば、ユーザがフレームアウトした場合であっても、追尾装置200’が推定した位置情報に基づいてユーザを探索して追尾することができる。したがって、追尾精度を向上させることができることに加えて、検知装置100からユーザの位置情報を送信する必要がないので処理負荷を抑えることができる。
(変形例3)
上述した実施形態及び各変形例においては、追尾装置200(Webカメラ)が発声前のユーザを追尾する場合を例にとって説明したが、これに限られない。例えば、追尾装置200に代えて、録音装置500(ICレコーダー)を用いてもよい。この場合の検知システム20を図15に示す。
なお、録音装置も音を追尾するのであるから、録音装置は追尾装置の一形態である。
検知システム20は、図中に示すように、検知装置100と録音装置500とから構成される。この検知装置100の構成は、上述した実施形態と同じである。一方、録音装置500は、上述した実施形態の追尾装置200と比べて追尾に係る構成(追尾部222、実行部223、撮像部230、サーボモータ250)を除外して、新たに録音部225を設けた点が異なる。そこで、以下ではこの異なる点を中心に説明する。なお、図15は、ユーザが自身の声を録音する場面を想定している。
まず、検知装置100の検知部121は、ユーザAの発声に先立つ喉の震えを検知したとする。すると、特定部122は、ユーザAの発声までにかかる時間を示す時間情報を特定する。そして、送信部123は、特定した時間情報を無線送信する。
一方で、録音装置500の受信部221は、送信部123から無線送信された時間情報を受信する。そして、録音部225は、受信部221が受信した時間情報が示す発声までにかかる時間に基づいて、発声のタイミングでユーザAの声の録音を開始する。具体的には、録音部225は、発声のタイミングでマイク280をONにしてユーザAの声を収音して記憶部240に記憶する。その後、録音部225は、マイク280からの音声信号が途絶えて所定時間経過するとマイク280をOFFする。
このように、図15の検知システム20では、ユーザAがしゃべる前に、マイク280がONして自動録音することができる。この場合、検知装置100が喉の震えをトリガに発声までにかかる時間情報を録音装置500に送信し、録音装置500はその時間情報に基づいて、発声のタイミングで録音を開始する。このため、ユーザAがしゃべり始めた後に録音を開始するようなことがない。また、自動でマイクのON・OFFをするので、ユーザAは特に録音を意識することなく自身の声を漏れなく録音することができる。この変形例3に係る検知システム20は、今後のトレンドである人の音声などのデータを自動記録するライフログのツールとして好適である。
なお、検知システム20は、上記図15の例に限らず、様々な場面に応用することができる。例えば、録音装置500がICレコーダではなくスマートフォンだった場合に、検索エンジン(例えば、グーグル(登録商標)など)を用いて音声検索をする場面を想定する。
この場合、ユーザは、音声検索を開始するための開始指示をしなくとも、ユーザの発声に先立ってスマートフォンのマイクが自動でONになる。すなわち、ユーザが着けた検知装置100がユーザの喉の震えを検知して、発声までにかかる時間情報を無線送信する。そして、スマートフォンが受信した時間情報に基づいて、ユーザの発声のタイミングでマイクを自動でONにしてユーザの声の録音を開始する。
従って、本変形例の録音装置500は、ICレコーダやスマートフォンなどのボイスレコーダに適用すると好適である。
このように、検知システム20の別例によれば、ユーザが音声検索前に毎回マイクをONする必要がないので、ユーザにかかる負担を軽減することができる。なお、上述した実施形態に係る検知システム10と変形例3に係る検知システム20とは、検知装置100がユーザの発声に先立つ生理的な挙動(喉の震え)を検知する点、受信側装置(追尾装置200又は録音装置500)がユーザの発声前に所定動作(追尾又は録音)を行う点、で共通の技術的特徴を有することを念のため付言する。つまり、検知システム10と検知システム20は単一性があることを念のため付言する。
(変形例4)
なお、上述した実施形態及び各変形例においては、検知装置100がユーザの発声タイミングを検知する前提で説明したが、これに限られない。例えば、検知装置100(ネックレス)は、ジャイロセンサ110でユーザの喉が震え始めたことを検知すると、即座に検知した信号を送信して、受信側装置(追尾装置200又は録音装置500)でユーザの発声タイミングを検知してもよい。なお、受信側装置は、送信側の検知装置100の信号に基づいて、ユーザの発声タイミングを検知するので検知装置ともいえる。すなわち、この変形例4において追尾装置200又は録音装置500は、実質的に検知装置として機能する。
ここで、変形例4に係る検知装置100”を図17に示す。図17に示す検知装置100”は、実施形態に係る追尾装置200と比べて、検知部290を備えた点及び記憶部240が発声前波形241を備えた点が異なる。以下では、この異なる点を中心に説明する。
まず、送信側の検知装置100は、上記信号にジャイロセンサ110で検知した喉の震えの大きさの実測値を含めて送信する。一方、受信側の検知装置100”の受信部221は、喉が震えたことを示す信号を受信する。
次に、検知部290は、その信号に含まれる実測値をフーリエ変換して周波数波形を得ると、その得られた周波数波形の周波数とその大きさとからユーザが発声前か否か判定する。すなわち、周波数波形の周波数が、特徴波形が示す発声前の周波数帯域内であり、かつ、周波数波形の大きさが特徴波形の大きさと同じであれば、ユーザが発声前であると判定する。そして、検知部290は、発声までにかかる時間(t2−t1)秒を特定して、発声のタイミングを検知する。
そして、実行部223は、検知部290が検知した発声のタイミングで所定処理(例えば、ユーザを被写体とする動画の録画又はユーザの音声の録音の開始)を実行する。
以上、変形例4に係る検知装置100”によれば、送信側のウェアラブルな検知装置100の構成を簡素化することができる。このため、検知装置100の処理負荷を軽減するとともに、検知装置100を小型化することができる。
なお、検知装置100”の実行部223は、受信部221が喉が震えたことを示す信号を受信すると、撮影又は録音のスタンバイを行ってもよい。撮影のスタンバイとしては、例えば、追尾部222がユーザをトラッキングするなどである。録音のスタンバイとしては、例えば、マイク280のスイッチをONするなどである。
なお、上述した実施形態及び各変形例においては、生理的な挙動が喉の震えであることを前提に説明したが、これに限られない。例えば、検知装置100は、喉の震えに代えて発声前の肺の動きを検知してもよい。この場合、検知装置100はネックレスではなく、例えば、肺の動きを検知できるように胸付近に装着可能なバンド等で構成すればよい。
また、この発明の検知システム10を構成する検知装置100と追尾装置200の各機能は、通常のPC等のコンピュータによっても実施することができる。
具体的には、上記実施形態では、各装置が行う各処理(検知処理、追尾処理)のプログラムが、各装置の制御部120、220のROMに予め記憶されているものとして説明した。しかし、各処理のプログラムを、フレキシブルディスク、CD−ROM(Compact Disc Read Only Memory)、DVD(Digital Versatile Disc)及びMO(Magneto-Optical Disc)等のコンピュータ読み取り可能な記録媒体に格納して配布し、そのプログラムをコンピュータにインストールすることにより、上述の各部の機能を実現することができるコンピュータを構成してもよい。
以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
(付記1)
ユーザの発声に先立つ生理的な挙動を検知する検知手段と、
前記検知手段の検知結果に基づき、所定処理を実行する実行手段と、
を備えたことを特徴とする検知装置。
(付記2)
前記検知手段は、前記ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、前記ユーザの発声に先立つ喉の震えを検知する、
ことを特徴とする付記1に記載の検知装置。
(付記3)
前記実行手段は、前記所定処理として、前記ユーザのユーザ識別情報、該ユーザの発声までにかかる時間を示す時間情報又は該ユーザの位置情報のうち、何れか1つの情報を出力する、
ことを特徴とする付記1又は2に記載の検知装置。
(付記4)
ユーザの発声に先立つ生理的な挙動を示す信号を受信する受信手段と、
前記受信手段が受信した信号に基づいて所定処理を実行する実行手段と、
を備えたことを特徴とする検知装置。
(付記5)
前記実行手段は、前記所定処理として、撮影又は録音のスタンバイを行う、
ことを特徴とする付記4に記載の検知装置。
(付記6)
前記受信手段が受信した信号に基づいて、前記ユーザの発声のタイミングを検知する検知手段を備え、
前記実行手段は、前記所定処理として、前記検知手段が検知した発声のタイミングで所定処理を実行する、
ことを特徴とする付記4に記載の検知装置。
(付記7)
ユーザの発声に先立つ生理的な挙動を検知する検知手段と、
前記検知手段が前記生理的な挙動を検知すると、前記ユーザのユーザ識別情報を送信する送信手段と、を備えた検知装置と、
前記送信手段から送信されたユーザ識別情報を受信する受信手段と、
前記受信手段が受信したユーザ識別情報のユーザを追尾する追尾手段と、を備えた追尾装置と、
を備えたことを特徴とする検知システム。
(付記8)
前記検知手段は、前記ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、前記ユーザの発声に先立つ喉の震えを検知する、
ことを特徴とする付記7に記載の検知システム。
(付記9)
前記追尾手段は、撮像手段によって前記ユーザの顔又は該ユーザが装着する前記検知装置の形状を認識後、該撮像手段の向きが前記顔又は前記形状の方向になるように制御して該ユーザを追尾する、
ことを特徴とする付記7又は8に記載の検知システム。
(付記10)
前記検知装置は、さらに、
前記検知手段が前記生理的な挙動を検知すると、前記発声までにかかる時間を示す時間情報を特定する時間特定手段を備え、
前記送信手段は、前記ユーザ識別情報に加え、前記時間情報を送信し、
前記追尾装置は、さらに、
前記時間情報が示す発声までにかかる時間に基づいて、該発声のタイミングで前記追尾手段が追尾中のユーザに関連する所定処理を実行する実行手段を備えた、
ことを特徴とする付記7乃至9の何れか一つに記載の検知システム。
(付記11)
前記実行手段は、前記所定処理として、前記発声のタイミングで前記ユーザを被写体とする動画の録画又は該ユーザの声の録音を開始する、
ことを特徴とする付記10に記載の検知システム。
(付記12)
前記実行手段は、前記所定処理として、前記発声のタイミングで前記ユーザに応じた撮影モードに切り替える、
ことを特徴とする付記10に記載の検知システム。
(付記13)
前記検知装置は、さらに、
前記検知手段が前記生理的な挙動を検知すると、前記ユーザの位置情報を特定する位置特定手段を備え、
前記送信手段は、前記ユーザ識別情報に加え、前記ユーザの位置情報を送信し、
前記追尾手段は、前記ユーザの位置情報に基づいて、撮像手段の向きを制御して該ユーザを探索後、該探索したユーザを追尾する、
ことを特徴とする付記7乃至12の何れか一つに記載の検知システム。
(付記14)
前記追尾装置は、さらに、
前記受信手段が受信したユーザ識別情報の受信信号強度と、該ユーザ識別情報が送信された方向と、に基づいて、該ユーザ識別情報のユーザの位置情報を推定する推定手段を備え、
前記追尾手段は、前記ユーザの位置情報に基づいて、撮像手段の向きを制御して該ユーザを探索後、該探索したユーザを追尾する、
ことを特徴とする付記7乃至12の何れか一つに記載の検知システム。
(付記15)
前記検知装置は、前記ユーザが身体に装着するウェアラブル装置である、
ことを特徴とする付記7乃至14の何れか一つに記載の検知システム。
(付記16)
ユーザの発声に先立つ生理的な挙動を検知する検知手段と、
前記検知手段が前記生理的な挙動を検知すると、前記発声までにかかる時間を示す時間情報を特定する時間特定手段と、
前記時間特定手段が特定した前記時間情報を送信する送信手段と、を備えた検知装置と、
前記送信手段から送信された時間情報を受信する受信手段と、
前記受信手段が受信した前記時間情報が示す発声までにかかる時間に基づいて、該発声のタイミングで前記ユーザの声の録音を開始する録音手段と、を備えた録音装置と、
を備えたことを特徴とする検知システム。
(付記17)
ユーザの発声に先立つ生理的な挙動を検知する検知ステップと、
前記検知ステップの検知結果に基づき、所定処理を実行する実行ステップと、
を備えたことを特徴とする検知方法。
(付記18)
コンピュータを、
ユーザの発声に先立つ生理的な挙動を検知する検知手段、
前記検知手段の検知結果に基づき、所定処理を実行する実行手段、
として機能させるためのプログラム。
10,20…検知システム、100,100A〜C,100’,100”…検知装置、110…ジャイロセンサ、111…GPS、120,220…制御部、121,290…検知部、122…特定部、123…送信部、130,240…記憶部、131,241…発声前波形、140,210…無線通信I/F、200,200A,200B,200’…追尾装置、221…受信部、222…追尾部、223…実行部、224…推定部、225…録音部、230…撮像部、250…サーボモータ、260…操作部、270…外部I/F、280…マイク、300,400…PC、301…ディスプレイ、500…録音装置

Claims (15)

  1. ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、前記ユーザの発声に先立つ喉の震えを検知する検知手段と、
    前記検知手段の検知結果に基づき、所定処理を実行する実行手段と、
    を備えたことを特徴とする検知装置。
  2. 前記実行手段は、前記所定処理として、前記ユーザのユーザ識別情報、該ユーザの発声までにかかる時間を示す時間情報又は該ユーザの位置情報のうち、何れか1つの情報を出力する、
    ことを特徴とする請求項1に記載の検知装置。
  3. ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、前記ユーザの発声のタイミングを検知する検知手段と、
    前記検知手段が検知した発声のタイミングで所定処理を実行する実行手段と、
    を備えたことを特徴とする検知装置。
  4. 前記実行手段は、前記所定処理として、撮影又は録音のスタンバイを行う、
    とを特徴とする請求項3に記載の検知装置。
  5. ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、前記ユーザの発声に先立つ喉の震えを検知する検知手段と、
    前記検知手段が前記ユーザの発声に先立つ喉の震えを検知すると、前記ユーザのユーザ識別情報を送信する送信手段と、を備えた検知装置と、
    前記送信手段から送信されたユーザ識別情報を受信する受信手段と、
    前記受信手段が受信したユーザ識別情報のユーザを追尾する追尾手段と、を備えた追尾装置と、
    を備えたことを特徴とする検知システム。
  6. 前記追尾手段は、撮像手段によって前記ユーザの顔又は該ユーザが装着する前記検知装置の形状を認識後、該撮像手段の向きが前記顔又は前記形状の方向になるように制御して該ユーザを追尾する、
    ことを特徴とする請求項に記載の検知システム
  7. 前記検知装置は、さらに、
    前記検知手段が前記喉の震えを検知すると、前記発声までにかかる時間を示す時間情報を特定する時間特定手段を備え、
    前記送信手段は、前記ユーザ識別情報に加え、前記時間情報を送信し、
    前記追尾装置は、さらに、
    前記時間情報が示す発声までにかかる時間に基づいて、該発声のタイミングで前記追尾手段が追尾中のユーザに関連する所定処理を実行する実行手段を備えた、
    とを特徴とする請求項5又は6に記載の検知システム。
  8. 前記実行手段は、前記所定処理として、前記発声のタイミングで前記ユーザを被写体とする動画の録画又は該ユーザの声の録音を開始する、
    ことを特徴とする請求項7に記載の検知システム。
  9. 前記実行手段は、前記所定処理として、前記発声のタイミングで前記ユーザに応じた撮影モードに切り替える、
    ことを特徴とする請求項7に記載の検知システム。
  10. 前記検知装置は、さらに、
    前記検知手段が前記ユーザの発声に先立つ喉の震えを検知すると、前記ユーザの位置情報を特定する位置特定手段を備え、
    前記送信手段は、前記ユーザ識別情報に加え、前記ユーザの位置情報を送信し、
    前記追尾手段は、前記ユーザの位置情報に基づいて、撮像手段の向きを制御して該ユーザを探索後、該探索したユーザを追尾する、
    ことを特徴とする請求項乃至9の何れか一項に記載の検知システム。
  11. 前記追尾装置は、さらに、
    前記受信手段が受信したユーザ識別情報の受信信号強度と、該ユーザ識別情報が送信された方向と、に基づいて、該ユーザ識別情報のユーザの位置情報を推定する推定手段を備え、
    前記追尾手段は、前記ユーザの位置情報に基づいて、撮像手段の向きを制御して該ユーザを探索後、該探索したユーザを追尾する、
    ことを特徴とする請求項5乃至9の何れか一項に記載の検知システム。
  12. 前記検知装置は、前記ユーザが身体に装着するウェアラブル装置である、
    ことを特徴とする請求項5乃至11の何れか一項に記載の検知システム。
  13. ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、前記ユーザの発声に先立つ喉の震えを検知する検知手段と、
    前記検知手段が前記ユーザの発声に先立つ喉の震えを検知すると、前記発声までにかかる時間を示す時間情報を特定する時間特定手段と、
    前記時間特定手段が特定した前記時間情報を送信する送信手段と、を備えた検知装置と、
    前記送信手段から送信された時間情報を受信する受信手段と、
    前記受信手段が受信した前記時間情報が示す発声までにかかる時間に基づいて、該発声のタイミングで前記ユーザの声の録音を開始する録音手段と、を備えた録音装置と、
    を備えたことを特徴とする検知システム。
  14. ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、前記ユーザの発声に先立つ喉の震えを検知する検知ステップと、
    前記検知ステップの検知結果に基づき、所定処理を実行する実行ステップと、
    を備えたことを特徴とする検知方法。
  15. コンピュータを、
    ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、前記ユーザの発声に先立つ喉の震えを検知する検知手段、
    前記検知手段の検知結果に基づき、所定処理を実行する実行手段、
    として機能させるためのプログラム。
JP2015121246A 2015-06-16 2015-06-16 検知装置、検知システム、検知方法及びプログラム Active JP6500625B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015121246A JP6500625B2 (ja) 2015-06-16 2015-06-16 検知装置、検知システム、検知方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015121246A JP6500625B2 (ja) 2015-06-16 2015-06-16 検知装置、検知システム、検知方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2017011321A JP2017011321A (ja) 2017-01-12
JP6500625B2 true JP6500625B2 (ja) 2019-04-17

Family

ID=57763799

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015121246A Active JP6500625B2 (ja) 2015-06-16 2015-06-16 検知装置、検知システム、検知方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6500625B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2473195C (en) * 2003-07-29 2014-02-04 Microsoft Corporation Head mounted multi-sensory audio input system
JP4713111B2 (ja) * 2003-09-19 2011-06-29 株式会社エヌ・ティ・ティ・ドコモ 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法

Also Published As

Publication number Publication date
JP2017011321A (ja) 2017-01-12

Similar Documents

Publication Publication Date Title
US11729487B2 (en) Image pickup apparatus and control method therefor
US11250247B2 (en) Information processing device, information processing system, and program
CN104092936A (zh) 自动对焦方法及装置
KR20170023699A (ko) 동영상 촬영 방법, 그 장치, 프로그램 및 기록매체
US20230362472A1 (en) Image pickup apparatus and control method therefor
JP7233162B2 (ja) 撮像装置及びその制御方法、プログラム、記憶媒体
EP3186599B1 (en) Feedback provision system
JP7267686B2 (ja) 撮像装置及びその制御方法
US20220368825A1 (en) Image capturing apparatus, method for controlling the same, and storage medium
US20230005471A1 (en) Responding to a user query based on captured images and audio
JP2019040005A (ja) 読み上げシステム及び読み上げ方法
US11996093B2 (en) Information processing apparatus and information processing method
JP2009177480A (ja) 撮影装置
JP2009239346A (ja) 撮影装置
JP6950793B2 (ja) 電子機器およびプログラム
CN107087208B (zh) 一种全景视频播放方法、***及存储装置
CN105447199B (zh) 音频信息获取方法及装置
JP6500625B2 (ja) 検知装置、検知システム、検知方法及びプログラム
JP2019095523A (ja) ロボットおよびロボット制御方法
JP2018099416A (ja) 運動解析装置、運動解析方法及びプログラム
JP7199808B2 (ja) 撮像装置およびその制御方法
JP2016082356A (ja) 電子機器およびプログラム
WO2015105075A1 (ja) 情報処理装置及び電子機器
JP2021111960A (ja) 撮像装置、撮像装置の制御方法、プログラム
JP5712599B2 (ja) 撮像装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180416

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190304

R150 Certificate of patent or registration of utility model

Ref document number: 6500625

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150