JP7118456B2

JP7118456B2 - 首掛け型装置

Info

Publication number: JP7118456B2
Application number: JP2020102702A
Authority: JP
Inventors: 真人藤野
Original assignee: Fairy Devices Inc
Current assignee: Fairy Devices Inc
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2022-08-16
Anticipated expiration: 2039-11-15
Also published as: JP2021082802A

Description

本発明は、ユーザの首元に装着される首掛け型装置に関する。

近年、ユーザの身体の任意箇所に装着して、ユーザの状態やその周囲の環境の状態をセンシングすることのできるウェアラブルデバイスが注目を集めている。ウェアラブルデバイスとしては、例えばユーザの腕や、目元、耳元、首元、あるいはユーザが着用している衣服等に装着可能なものなど、様々な形態のものが知られている。このようなウェアラブルデバイスで収集したユーザの情報を解析することで、装着者やその他の者にとって有用な情報を取得することができる。

また、ウェアラブルデバイスの一種として、ユーザの首元に装着して装着者又はその対話者の発した音声を録音することのできる装置が知られている（特許文献１）。この特許文献１には、ユーザに装着される装着部を備え、この装着部が、ビームフォーミングのための音声データを取得する音声取得部（マイク）を少なくとも３つ有する音声処理システムが開示されている。また、特許文献１に記載のシステムでは、撮像部を備えており、ユーザに装着された状態で前方を撮像可能に構成されている。また、特許文献１では、撮像部により撮像された撮像画像の画像認識結果により、他の話者の存在及び位置を特定したり、ユーザの顔の向きを推定し、その位置や向きに応じて音声取得部の指向性の向きを制御することも提案されている。

特開２０１９－１３４４４１号公報

ところで、ウェアラブルデバイスの設計では、連続して装着可能な時間を長時間確保するためにバッテリーの容量を出来るだけ大きくすることが好ましいとされているが、装置の小型化や装着性の観点からバッテリーのサイズや形状に制限がある。この点、特許文献１に記載のシステムでは、装着ユニット自体が湾曲した形状を有し得るため、バッテリーも曲面状の曲面バッテリーであることが望ましいとされている。

また、リチウムイオンバッテリーなどの容量の大きい蓄電池は少なからず発熱するものであるため、人体に接触するウェアラブルデバイスにおいてはバッテリーを配置する箇所にも気を配る必要がある。特に首掛け型のウェアラブルは、温度変化に敏感な首元に装着されるものであるため、大容量のバッテリーを搭載した場合にバッテリーから生じた熱の排熱が効率的に行われていないと、装着者に対して不快感を与えることとなり、長時間連続して装着し続けることが難しくなることが懸念される。

また、特許文献１に記載のシステムのように、湾曲した形状のユニットに局面バッテリーを搭載する場合、そのユニットの形状に適合した特殊な形状のバッテリーを製造することが求められ、一般に流通している汎用的な形状のバッテリーを使用することできない。この場合、バッテリーのコストが割高となるため、システムの販売価格が高くなるという問題もある。

そこで、本発明は、バッテリー等の電子部品が適所に配置された首掛け型装置を提供することを主たる目的とする。

本発明の発明者は、上記目的を達成する手段について鋭意検討した結果、基本的に、首掛け型装置のバッテリーと装着者の首元の間に電子部品が搭載された回路基板を介在させることにより、バッテリーから生じた熱が装着者に伝わりにくくなるという知見を得た。そして、本発明者は、上記知見に基づけば上記目的を達成できることに想到し、本発明を完成させた。具体的に説明すると、本発明は以下の構成を有する。

本発明は、ユーザの首元に装着される首掛け型装置に関する。本発明に係る首掛け型装置は、バッテリーと、当該バッテリーから電力の供給を受けて駆動する電子部品が搭載された回路基板（プリント基板）と、当該バッテリー及び当該回路基板が収納される筐体を備える。そして、回路基板は、装着時においてバッテリーと装着者の首元の間に位置するように、筐体内に配置されている。

上記構成のように、装着者の首元とバッテリーとの間に回路基板を配置することで、バッテリーから生じた熱が装着者に伝わりにくくなるため、首掛け型装置を長時間使用しやすくなる。また、バッテリーの熱暴走などの異常事態が万が一発生した場合であっても、回路基板が装着者の首元を守る障壁となり得るため、首掛け型装置の安全性を向上させることができる。

本発明に係る首掛け型装置において、筐体は、装着者の首元を挟んだ位置に配置可能な第１腕部及び第２腕部と、これらの第１腕部と第２腕部とを装着者の首裏に相当する位置にて連結する平坦な本体部を有することが好ましい。また、この本体部にバッテリーと回路基板とが収納されていることが好ましい。なお、平坦な本体部とは、平面状（非曲面状）のバッテリーと回路基板を収納可能な程度な平坦性を有していればよく、装着者の首裏の形状に合せて緩やかな曲面となっている場合も、ここにいう「平坦」に含まれる。このように、第１腕部と第２腕部の間に比較的平坦な本体部を設けることで、一般に流通している汎用的な平面状のバッテリーを、首掛け型装置の電源として搭載することが可能である。これにより、曲面バッテリー等の特殊な形状のバッテリーを使用する必要がなくなることから、装置の製造コストを抑えることができる。

本発明に係る首掛け型装置は、さらに、装着者の首裏に相当する位置に近接センサをさらに備えることが好ましい。このように、装着者の首裏に相当する位置に近接センサを設けることで、首掛け型装置が装着されているか否かを効率的に判断できる。例えば、近接センサにより物体の近接が検知されたときに、首掛け型装置あるいはそれに搭載された電子部品の電源をオンにすればよい。

本発明に係る首掛け型装置は、さらに、第１腕部及び第２腕部のそれぞれに１箇所以上（好ましくは２箇所以上）設けられた集音部を備えることが好ましい。このように、第１腕部及び第２腕部にそれぞれ集音部を設けることで、装着者が発した音声を効果的に収集することができる。

本発明に係る首掛け型装置は、さらに、装着者の首裏に相当する位置に放音部を備えることが好ましい。なお、放音部は、空気を媒介にして音波（空気振動）を装着者に伝達する一般的なスピーカであってもよいし、骨振動により音を装着者に伝達する骨伝導スピーカであってもよい。また、放音部から出力される音は、装着者の後方に向かってほぼ水平方向に放出されることとしてもよいし、ほぼ鉛直上方向（又は下方向）に放出されてもよい。放音部が一般的なスピーカであることを想定した場合、放音部を装着者の首裏に相当する位置に設けることで、この放音部から出力された音が、装着者の正面前方に存在する対話者に届きにくくなる。これにより、対話者が、装着者自身が発した音声と首掛け型装置の放音部から発せられた音とを混同するような事態を防止できる。また、首掛け型装置の第１腕部及び／又は第２腕部に集音部が設けられている形態において、放音部を装着者の首裏に相当する位置に設けておくことで、放音部と集音部との物理的な距離を最大限離すことができる。すなわち、集音部にて装着者や対話者の音声を集音している状態において、放音部から音が出力されると、収録される装着者等の音声に放音部からの音が混入する場合がある。このように装着者等の音声に放音部からの音が混入した場合に、エコーキャンセル処理などによってそれを完全に取り除くことは困難である。このため、装着者等の音声に放音部からの音が混入することを可能な限り回避するために、上記の通り装着者の首裏に相当する位置に放音部を設けて、集音部との物理的な距離をとることが好ましい。

本発明に係る首掛け型装置は、さらに、第１腕部に設けられた撮像部と第２腕部に設けられた非接触型のセンサ部の両方又はいずれか一方をさらに備えることが好ましい。撮像部を第１腕部に備え付けることで、装着者の前方を効果的に撮影できる。また、非接触型のセンサ部を第２腕部に備え付けることで、例えば撮像部あるいはその他電子部品のオン／オフを操作しやすくなる。

本発明によれば、バッテリー等の電子部品が適所に配置された首掛け型装置を提供することができる。

図１は、首掛け型装置の実施形態を示した斜視図である。図２は、首掛け型装置を装着した状態を模式的に示した側面図である。図３は、集音部が設けられる位置を模式的に示した断面図である。図４は、本体部内に収納されたバッテリー、回路基板、及び各種電子部品の位置関係を模式的に示した断面図である。図５は、首掛け型装置の機能構成例を示したブロック図である。図６は、装着者と対話者の音声を取得するビームフォーミング処理を模式的に示している。

以下、図面を用いて本発明を実施するための形態について説明する。本発明は、以下に説明する形態に限定されるものではなく、以下の形態から当業者が自明な範囲で適宜変更したものも含む。

図１は、本発明に係る首掛け型装置１００の一実施形態を示している。また、図２は、首掛け型装置１００を装着した状態を示している。図１に示されるように、首掛け型装置１００を構成する筐体は、左腕部１０、右腕部２０、及び本体部３０を備える。左腕部１０と右腕部２０は、それぞれ本体部３０の左端と右端から前方に向かって延出しており、首掛け型装置１００は、平面視したときに装置全体として略Ｕ字をなす構造となっている。首掛け型装置１００を装着する際には、図２に示されるように、本体部３０を装着者の首裏に接触させ、左腕部１０と右腕部２０を装着者の首横から胸部側に向かって垂らすようにして、装置全体を首元に引っ掛ければよい。首掛け型装置１００の筐体内には、各種の電子部品が格納されている。

左腕部１０と右腕部２０には、それぞれ複数の集音部（マイク）４１～４５が設けられている。集音部４１～４５は、主に装着者とその対話者の音声を取得することを目的として配置されている。図１に示されるように、左腕部１０に第１集音部４１と第２集音部４２を設け、右腕部２０に第３集音部４３と第４集音部４４を設けることが好ましい。また、任意の要素として、左腕部１０と右腕部２０に、一又は複数の集音部を追加で設けることとしてもよい。図１に示した例では、左腕部１０に、上記第１集音部４１及び第２集音部４２に加えて、第５集音部４５を設けることとしている。これらの集音部４１～４５によって取得した音信号は、本体部３０内に設けられた制御部８０（図５参照）へ伝達されて所定の解析処理が行われる。なお、後述するとおり、本体部３０には、このような制御部８０を含む電子回路やバッテリーなどの制御系が内装されている。

集音部４１～４５は、それぞれ左腕部１０と右腕部２０の前方（装着者の胸部側）に設けられている。具体的には、一般的な成人男性（首囲３５～３７ｃｍ）の首元に首掛け型装置１００を装着することを想定した場合に、少なくとも第１集音部４１から第４集音部４４が、装着者の首よりも前方（胸部側）に位置するように設計されていることが好ましい。首掛け型装置１００は、装着者と対話者の音声を同時に集音することを想定したものであり、各集音部４１～４４を装着者の首の前方側に配置することで、装着者の音声だけでなく、その対話者の音声を適切に取得することができる。また、各集音部４１～４４を装着者の首の前方側に配置すると、装着者の背部側に立つ者の音声が装着者の身体によって遮られて、集音部４１～４４には直接届きにくくなる。装着者の背部側に立つ者は装着者と対話している者ではないと推定されるため、このような者の音声を遮ることで、集音部４１～４４の物理的な配置によって雑音を抑制できる。

また、第１集音部４１から第４集音部４４は、左右対称となるように、それぞれ左腕部１０と右腕部２０に配置されている。すなわち、第１集音部４１と第２集音部４２を繋ぐ線分、第３集音部４３と第４集音部４４を繋ぐ線分、第１集音部４１と第３集音部４３を繋ぐ線分、及び第２集音部４２と第４集音部４４を繋ぐ線分からなる四角形状が線対称形となる。具体的に、本実施形態においては、第１集音部４１と第３集音部４３を繋ぐ線分が短辺となる台形状をなしている。ただし、上記四角形は台形状に限られず、長方形や正方形となるように各集音部４１～４４を配置することもできる。

左腕部１０には、さらに撮像部６０が設けられている。具体的には、左腕部１０の先端面１２に撮像部６０が設けられており、この撮像部６０によって装着者の正面側の静止画像や動画像を撮影することができる。撮像部６０によって取得された画像は、本体部３０内の制御部８０に伝達され、画像データとして記憶される。また、撮像部６０によって取得された画像をインターネットでサーバ装置へ送信することとしてもよい。また、詳しくは後述するとおり、撮像部６０が取得した画像から対話者の口元の位置を特定して、その口元から発せられた音声を強調する処理（ビームフォーミング処理）を行うことも可能である。

右腕部２０には、さらに非接触型のセンサ部７０が設けられている。センサ部７０は、主に首掛け型装置１００の正面側における装着者の手の動きを検知することを目的として、右腕部２０の先端面２２に配置されている。センサ部７０の検知情報は、撮像部６０の起動や、撮影の開始、停止など、主に撮像部６０の制御に利用される。例えば、センサ部７０は、装着者の手などの物体がそのセンサ部７０に近接したことを検知して撮像部６０を制御することとしてもよいし、あるいはセンサ部７０の検知範囲内で装着者が所定のジェスチャーを行ったことを検知して撮像部６０を制御することとしてもよい。なお、本実施形態において、左腕部１０の先端面１２に撮像部６０を配置し、右腕部２０の先端面２２にセンサ部７０を配置することとしているが、撮像部６０とセンサ部７０の位置を入れ替えることも可能である。

また、センサ部７０での検知情報を、撮像部６０、集音部４１～４５、及び／又は制御部８０（メインＣＰＵ）の起動に利用することも可能である。例えば、センサ部７０、集音部４１～４５、及び制御部８０が常時起動し、撮像部６０が停止している状態において、センサ部７０にて特定のジェスチャーを検知したときに撮像部６０を起動させることができる（条件１）。なお、この条件１では、集音部４１～４５が特定の音声を検出したときに撮像部６０を起動させることも可能である。あるいは、センサ部７０及び集音部４１～４５が常時起動し、制御部８０及び撮像部６０が停止している状態において、センサ部７０にて特定のジェスチャーを検知したときに制御部８０と撮像部６０のうちの任意のものを起動させることができる（条件２）。この条件２においても、集音部４１～４５が特定の音声を検出したときに制御部８０及び撮像部６０を起動させることが可能である。あるいは、センサ部７０のみが常時起動し、集音部４１～４５、制御部８０、及び撮像部６０が停止している状態において、センサ部７０にて特定のジェスチャーを検知したときに集音部４１～４５、制御部８０、撮像部６０のうちの任意のものを起動させることができる（条件３）。上記条件１～条件３は、条件３＞条件２＞条件１の順に消費電力の削減効果が大いといえる。

図２の側面図に示されるように、本実施形態では、装着時に左腕部１０の先端面１２（及び右腕部２０の先端面２２）が鉛直になることを理想として、首掛け型装置１００の筐体が設計されている。つまり、首掛け型装置１００は、左腕部１０と右腕部２０が首裏から胸部の鎖骨前付近に向かってやや垂れ下がるように装着され、その鎖骨前辺りに左腕部１０と右腕部２０の先端面１２，２２が位置する。このとき、先端面１２，２２が鉛直方向に対してほぼ平行（±１０度以内）になることが好ましい。

また、上記のように先端面１２，２２を鉛直に立てるために、各腕部１０，２０の先端面１２，２２は、それぞれの下縁１３，２３に対して傾斜した面となっている。図２では、先端面１２，２２と下縁１３，２３のなす角（先端面の傾斜角）を符号θ_１で示している。なお、図２において、直線Ｓは先端面１２，２２と平行な直線を示し、符号Ｌは各腕部１０，２０の下縁１３，２３の延長線を示している。ここで、先端面１２，２２の傾斜角θ_１は、鋭角であり、例えば４０～８５度であることが好ましく、５０～８０度又は６０～８０度であることが特に好ましい。このように、先端面１２，２２を各腕部１０，２０の下縁１３，２３に対して傾斜させることで、装着時に先端面１２，２２が鉛直となりやすい。このため、各先端面１２，２２に設けられた撮像部６０とセンサ部７０によって、装着者の正面側の領域を効率よく撮影あるいは検知することができる。

また、図２において、直線Ａは撮像部６０の光軸を示している。光軸（主軸）とは、撮像部６０のレンズの中心を通る対称軸である。図２に示されるように、装着時において左腕部１０の先端面１２が鉛直になっていると仮定した場合に、撮像部６０の光軸Ａは、ほぼ水平（±１０度）となることが好ましい。このように、首掛け型装置１００の装着状態において撮像部６０の光軸Ａがほぼ水平となることにより、装着者が正面を向いている場合の視線と撮像部６０の光軸Ａがほぼ平行となるため、撮像部６０によって撮像された画像が、装着者が実際に視認している景色に近いものとなる。より具体的に説明すると、図２では、左腕部の先端面１２と撮像部６０の光軸Ａのなす角を符号θ_２で示している。この光軸Ａの傾斜角θ_２は、７５～１１５度又は８０～１００度であることが好ましく、８５～９５度又は９０度であることが特に好ましい。

また、図２において、直線Ａ´は撮像部６０の光軸の別例を示している。図２に示されるように、装着時において左腕部１０の先端面１２が鉛直になっていると仮定した場合に、撮像部６０の光軸Ａ´は、水平（図２中の直線Ａに相当）に対して上向きに傾斜していることが好ましい。前述の通り、装着時において各腕部１０，２０の先端面１２，２２は装着者の鎖骨前付近に位置することになるが、撮像部６０の光軸Ａ´を上向きとすることで、対話者の顔や口元を撮影しやすくなる。また、予め撮像部の光軸Ａ´を水平に対して上向きに傾けておくことで、装着者に無理な体勢をとることを強いることなく垂直方向上側の空間を撮影することができるようになる。より具体的に説明すると、図２では、左腕部の先端面１２と撮像部６０の光軸Ａ´のなす角（光軸の傾斜角）を符号θ_３で示している。この光軸Ａ´の傾斜角θ_３は、装着時において上向きになるように、３０～８５度であることが好ましく、４０～８０度又は５０～８０度であることが特に好ましい。

また、図２に示されるように、各腕部１０，２０は、その下縁１３，２３と上縁１４，２４の延長線が共に下向であり、地面方向を指している。このため、装着者に対峙した対話者は、左腕部１０の先端面１２に設けられた撮像部６０によって自身の顔を撮影されている印象を受けにくくなる。このように、撮像部６０によって対話者の顔や口元を撮影する場合であっても、対話者に対して不快感を与えにくくしている。他方で、前述したとおり、本実施形態では、装着時に左腕部１０の先端面１２がほぼ鉛直に立ち、この先端面１２に配置された撮像部６０の光軸が上向きになるように設計している。このため、対話者は自身の顔を撮影されている印象を受けにくいものの、実際には撮像部６０によってその対話者の顔や口元を効果的に撮影することができる。

図３は、集音部４１～４５が設けられた部位における左腕部１０と右腕部２０の断面形状を模式的に表したものである。図３に示されるように、好ましい実施形態において、左腕部１０と右腕部２０は、集音部４１～４５が設けられた部位の断面形状が略菱形となる。左腕部１０と右腕部２０は、装着者の頭部（より具体的には装着者の口）に向かって面する傾斜面１０ａ，２０ａをそれぞれ有する。つまり、各傾斜面１０ａ，２０ａに対して垂直な垂線が、装着者の頭部の方を向くこととなる。そして、各集音部４１～４５は、この左腕部１０と右腕部２０の傾斜面１０ａ，２０ａに設けられている。このように傾斜面１０ａ，２０ａに集音部４１～４５を配置することで、装着者の口から発せられた音声が直線的に各集音部４１～４５に到達しやすくなる。また、図３に示されるように、例えば装着者の周囲で発生した風雑音などが各集音部４１～４５に直接入りにくくなるため、このような雑音を物理的に抑制できる。なお、図３に示した例では、左腕部１０と右腕部２０の断面形状を菱形状としたが、これに限られず、三角形状や五角形状、その他の多角形状など、装着者の頭部に対向する傾斜面１０ａ，２０ａを持つ形状とすることも可能である。

上記した左腕部１０と右腕部は、装着者の首裏に当接する位置に設けられた本体部３０によって連結されている。この本体部３０には、プロセッサやバッテリーなどの電子部品が内装されている。本体部３０を構成する筐体は、図１に示されるように、ほぼ平坦な形状となっており、平面状（板状）の回路基板やバッテリーを格納することができる。また、本体部３０は、左腕部１０及び右腕部２０よりも下方に向かって延出する下垂部３１を有する。本体部３０に下垂部３１を設けることで、制御系回路を内装するための空間を確保している。また、本体部３０には制御系回路が集中して搭載されている。このため、首掛け型装置１００の全重量を１００％とした場合に、本体部３０の重量は４０～８０％又は５０％～７０％を占める。このような重量の大きい本体部３０を装着者の首裏に配置することで、装着時における安定性が向上する。また、装着者の体幹に近い位置に重量の大きい本体部３０を配置することで、装置全体の重量が装着者に与える負荷を軽減できる。

図４は、本体部３０の縦方向断面図であり、本体部３０内に格納されている電子部品の位置関係を模式的に表している。図４中の左側は、装着者の首元に接する首掛け型装置１００の内側であり、図４中の右側は、装着者の首元には直接接しない首掛け型装置１００の外側である。図４に示されるように、本体部３０を構成する筐体（本体部筐体３２）内には、少なくとも平面状の回路基板８５と平面状のバッテリー９０が格納されている。また、回路基板８５には、バッテリー９０からの電力供給を受けて駆動する様々な電子部品が搭載されている。回路基板８５に搭載される電子部品の一例は、図４に示された近接センサ８３と放音部３４（スピーカ）である。なお、その他に、回路基板８５には、ＣＰＵ等の制御装置、メモリやストレージ等の記憶装置、通信装置、各種のセンサ装置を電気的に接続することができる。

図４に示されるように、本実施形態において、バッテリー９０は回路基板８５よりも外側に配置される。つまり、首掛け型装置１００の装着状態において、装着者の首裏とバッテリー９０の間に回路基板８５が介在することとなる。回路基板８５（プリント基板）は、樹脂やガラス、テフロン（登録商標）などの絶縁体で構成された基板の表層やその内部に導電性の配線が形成されたものであり、その配線によって絶縁基板上に搭載された各種電子部品を電気的に接続する。回路基板８５は、柔軟性のないリジッド基板、柔軟性のあるフレキシブル基板、あるいはそれらを複合したもののいずれであってもよい。また、回路基板８５は、片面のみに配線パターンが形成された片面基板、両面に配線パターンが形成された両面基板、あるいは絶縁基板を複数層に亘って積層した各層を電気的に接続した多層基板のいずれであってもよい。回路基板８５としては、その他公知の構成を採用することができる。リチウムイオンバッテリー等によって構成されたバッテリー９０は少なからず発熱するものであるが、装着者の首裏とバッテリー９０の間に回路基板８５を配置しておくことで、バッテリー９０から生じた熱が装着者に伝わりにくくなり、首掛け型装置１００の装着感の向上が見込まれる。

また、本体部３０の内側（装着者側）には近接センサ８３が設けられている。近接センサ８３は、例えば回路基板８５の内側の面に搭載しておけばよい。近接センサ８３は、物体の接近を検出するためのものであり、首掛け型装置１００が装着者の首元に装着されると、その首元の接近を検出することとなる。このため、近接センサ８３が物体の近接を検出している状態にあるときに、各集音部４１～４５、撮像部６０、及びセンサ部７０などの機器をオン（駆動状態）とし、近接センサ８３が物体の近接を検出していない状態にあるときには、これらの機器をオフ（スリープ状態）、もしくは起動できない状態とすればよい。これにより、バッテリー９０の電力消費を効率的に抑えることができる。また、近接センサ８３が物体の近接を検出していない状態にあるとき、撮像部６０と集音部４１～４５を起動できなくすることによって、非装着時に意図的あるいは非意図的にデータが記録されてしまうことを防ぐという効果も期待できる。なお、近接センサ９０としては公知のものを用いることができるが、光学式のものが用いられる場合には、近接センサ９０の検出光を透過するために、本体部筐体３２に検出光を透過する透過部３２ａを設けるとよい。

また、本体部３０の外側（装着者の反対側）には放音部８４（スピーカ）が設けられている。放音部８４は、例えば回路基板８５の外側の面に搭載しておけばよい。図４に示されるように、本実施形態において、放音部８４は、本体部３０の外側に向かって音を出力するように配置されている。すなわち、本体部筐体３２の外側の面にグリル３２ｂ（孔部）が形成されており、このグリル３２ｂを通じて放音部８４から出力された音（音波）が本体部筐体３２の外部へ放出されるようになっている。このように、装着者の首裏から真後ろに向かって音を放出することで、この放音部８４から出力された音が、装着者の正面前方に存在する対話者に直接的に届きにくくなる。これにより、対話者が、装着者自身が発した音声と首掛け型装置の放音部から発せられた音とを混同する事態を防止できる。また、本実施形態では、左腕部１０と右腕部２０に集音部４１～４５が設けられているが、放音部８４を装着者の首裏に相当する位置に設けておくことで、放音部８４と集音部４１～４５との物理的な距離を最大限離すことができる。すなわち、各集音部４１～４５にて装着者や対話者の音声を集音している状態において、放音部８４から何らかの音が出力されると、収録される装着者等の音声に放音部８４からの音（自己出力音）が混入する場合がある。自己出力音が収録音声に混入すると音声認識を妨害することになるため、この自己出力音をエコーキャンセル処理などによって取り除く必要がある。しかし、実際は筐体振動などの影響を受け、エコーキャンセル処理を行ったとしても、完全に自己出力音を取り除くことは困難である。このため、装着者等の音声に混入される自己出力音の音量を最小化するために、上記の通り装着者の首裏に相当する位置に放音部８４を設けて、集音部との物理的な距離をとることが好ましい。なお、本体部筐体３２の内側の面にグリル３２ｂを設けるとともに、回路基板８５の内側に放音部８４を設けておき、本体部３０の内側に向かって音を放出する構成を採用することもできる。ただし、この場合、放音部８４から放出された音が装着者の首元で遮られることとなり、音が籠もったように聞こえると想定される。

また、放音部８４は、装着者の首後方の中央に相当する位置ではなく、左右どちらかに偏った位置に設置されていることが好ましい。その理由は、放音部８４が、首裏中央にある場合と比較して、左右どちらかの耳に近くなるためである。このように、放音部８４を、本体部３０のほぼ中央ではなく、左右どちらかに偏った位置に配置することで、出力音の音量を小さくした場合であっても、装着者が出力音を左右どちらかの耳で明瞭に聞き取ることができる。また、出力音の音量が小さくなれば、この出力音が対話者に届きにくくなるため、対話者としても、装着者の音声と放音部８４の出力音とが混同することを回避できる。

なお、グリル３２ｂは、放音部８４から出力された音を通過させるだけでなく、バッテリー９０から生じた熱を大気中に排熱する機能を担う。グリル３２ｂを本体部筐体３２の外側の面に形成しておくことにより、グリル３２ｂを通じて排出された熱が装着者に直接届きにくくなるため、装着者に対して不快感を与えずに効率的に排熱することができる。

また、首掛け型装置１００の構造的特徴として、左腕部１０と右腕部２０は、本体部３０との連結部位の近傍にフレキシブル部１１，２１を有する。フレキシブル部１１，２１は、ゴムやシリコーンなどの可撓性材料で形成されている。このため、首掛け型装置１００の装着時に、左腕部１０及び右腕部２０が装着者の首元や肩上にフィットしやすくなる。なお、フレキシブル部１１，２１にも、各集音部４１～４５と操作部５０を制御部８０に接続する配線が挿通されている。

図５は、首掛け型装置１００の機能構成を示したブロック図である。図５に示されるように、首掛け型装置１００は、第１集音部４１から第５集音部４５、操作部５０、撮像部６０、センサ部７０、制御部８０、記憶部８１、通信部８２、近接センサ８３、放音部８４、及びバッテリー９０を有する。左腕部１０には、第１集音部４１、第２集音部４２、第５集音部４５、操作部５０、及び撮像部６０が配置され、右腕部２０には、第３集音部４３、第４集音部４４、及びセンサ部７０が配置され、本体部３０には、制御部８０、記憶部８１、通信部８２、近接センサ８３、放音部８４、及びバッテリー９０が配置されている。なお、首掛け型装置１００は、図５に示した機能構成に加えて、ジャイロセンサ、加速度センサ、地磁気センサ、又はＧＰＳセンサなどのセンサ類など、一般的な携帯型情報端末に搭載されているモジュール機器を適宜搭載することができる。

各集音部４１～４５としては、ダイナミックマイクやコンデンサマイク、ＭＥＭＳ(Micro-Electrical-Mechanical Systems)マイクなど、公知のマイクロホンを採用すればよい。集音部４１～４５は、音を電気信号に変換し、その電気信号をアンプ回路によって増幅した上で、Ａ／Ｄ変換回路によってデジタル情報に変換して制御部８０へと出力する。本発明の首掛け型装置１００は、装着者の音声だけでなく、その周囲に存在する一又は複数の対話者の音声を取得することを目的の一つとしている。このため、装着者周囲で発生した音を広く集音できるように、各集音部４１～４５としては、全指向性（無指向性）のマイクロホンを採用することが好ましい。

操作部５０は、装着者による操作の入力を受け付ける。操作部５０としては、公知のスイッチ回路又はタッチパネルなどを採用することができる。操作部５０は、例えば音声入力の開始又は停止を指示する操作や、装置の電源のＯＮ又はＯＦＦを指示する操作、スピーカの音量の上げ下げを指示する操作、その他首掛け型装置１００の機能の実現に必要な操作を受け付ける。操作部５０を介して入力された情報は制御部８０へと伝達される。

撮像部６０は、静止画像又は動画像の画像データを取得する。撮像部６０としては一般的なデジタルカメラを採用すればよい。撮像部６０は、例えば、撮影レンズ、メカシャッター、シャッタードライバ、ＣＣＤイメージセンサユニットなどの光電変換素子、光電変換素子から電荷量を読み出し画像データを生成するデジタルシグナルプロセッサ（ＤＳＰ）、及びＩＣメモリで構成される。また、撮像部６０は、撮影レンズから被写体までの距離を測定するオートフォーカスセンサ（ＡＦセンサ）と、このＡＦセンサが検出した距離に応じて撮影レンズの焦点距離を調整するための機構とを備えることが好ましい。ＡＦセンサの種類は特に限定されないが、位相差センサやコントラストセンサといった公知のパッシブ方式のものを用いればよい。また、ＡＦセンサとして、赤外線や超音波を被写体に向けてその反射光や反射波を受信するアクティブ方式のセンサを用いることもできる。撮像部６０によって取得された画像データは、制御部８０へと供給されて記憶部８１に記憶され、所定の画像解析処理が行われたり、あるいは通信部８２を介してインターネット経由でサーバ装置へと送信される。

また、撮像部６０は、いわゆる広角レンズを備えるものであることが好ましい。具体的には、撮像部６０の垂直方向画角は、１００～１８０度であることが好ましく、１１０～１６０度又は１２０～１５０度であることが特に好ましい。このように、撮像部６０の垂直方向画角を広角とすることで、少なくとも対話者の頭部から胸部を広く撮影することができ、場合によっては対話者の全身を撮影することも可能となる。また、撮像部６０の水平方向画角は特に制限されないが、１００～１６０度程度の広角のものを採用することが好ましい。

また、撮像部６０は、一般的に消費電力が大きいものであるため、必要な場合に限り起動し、それ以外の場合においてはスリープ状態となっていることが好ましい。具体的には、センサ部７０又は近接センサ８３の検知情報に基づいて、撮像部６０の起動や、撮影の開始又は停止が制御されるが、撮影停止後一定時間が経過した場合には、撮像部６０を再びスリープ状態とすればよい。

センサ部７０は、装着者の手指などの物体の動きを検知するための非接触型の検知装置である。センサ部７０の例は、近接センサ又はジェスチャーセンサである。近接センサは、例えば装着者の手指が所定範囲まで近接したことを検知する。近接センサとしては、光学式、超音波式、磁気式、静電容量式、又は温感式などの公知のものを採用できる。ジェスチャーセンサは、例えば装着者の手指の動作や形を検知する。ジェスチャーセンサの例は光学式センサであり、赤外発光ＬＥＤから対象物に向けて光を照射し、その反射光の変化を受光素子で捉えることで対象物の動作や形を検出する。センサ部７０による検知情報は、制御部８０へと伝達され、主に撮像部６０の制御に利用される。また、センサ部７０による検知情報に基づいて、各集音部４１～４５の制御を行うことも可能である。センサ部７０は、一般的に消費電力が小さいものであるため、首掛け型装置１００の電源がＯＮになっている間は常時起動していることが好ましい。また、近接センサ８３により首掛け型装置１００の装着が検出されたときに、センサ部７０を起動させることとしてもよい。

制御部８０は、首掛け型装置１００が備える他の要素を制御する演算処理を行う。制御部８０としては、ＣＰＵなどのプロセッサを利用することができる。制御部８０は、基本的に、記憶部８１に記憶されているプログラムを読み出し、このプログラムに従って所定の演算処理を実行する。また、制御部８０は、プログラムに従った演算結果を記憶部８１に適宜書き込んだり読み出したりすることができる。詳しくは後述するが、制御部８０は、主に撮像部６０の制御処理やビームフォーミング処理を行うための音声解析部８０ａ、音声処理部８０ｂ、入力解析部８０ｃ、撮像制御部８０ｄ、及び画像解析部８０ｅを有する。これらの要素８０ａ～８０ｅは、基本的にソフトウェア上の機能として実現される。ただし、これらの要素はハードウェアの回路として実現されるものであってもよい。

記憶部８１は、制御部８０での演算処理等に用いられる情報やその演算結果を記憶するための要素である。具体的に説明すると、記憶部８１は、汎用的な携帯型の情報通信端末を、本発明に係る音声入力装置として機能させるプログラムを記憶している。ユーザからの指示によりこのプログラムが起動されると、制御部８０によってプログラムに従った処理が実行される。記憶部８１のストレージ機能は、例えばＨＤＤ及びＳＤＤといった不揮発性メモリによって実現できる。また、記憶部８１は、制御部８０による演算処理の途中経過などを書き込む又は読み出すためのメモリとしての機能を有していてもよい。記憶部８１のメモリ機能は、ＲＡＭやＤＲＡＭといった揮発性メモリにより実現できる。また、記憶部８１には、それを所持するユーザ固有のＩＤ情報が記憶されていてもよい。また、記憶部８１には、首掛け型装置１００のネットワーク上の識別情報であるＩＰアドレスが記憶されていてもよい。

また、記憶部８１には、制御部８０によるビームフォーミング処理で利用する学習済みモデルが記憶されていてもよい。学習済みモデルは、例えばクラウド上のサーバ装置においてディープラーニングや強化学習等の機械学習を行うことにより得られた推論モデルである。具体的に説明すると、ビームフォーミング処理では、複数の集音部で取得した音データを解析して、その音を発生した音源の位置又は方向を特定する。このとき、例えば、サーバ装置にある音源の位置情報とその音源から発生した音を複数の集音部で取得したデータとのデータセット（教師データ）を多数蓄積し、これらの教師データ用いた機械学習を実施して学習済みモデルを予め作成しておく。そして、個別の首掛け型装置１００において複数の集音部により音データを取得したときに、この学習済みモデルを参照することで、音源の位置又は方向を効率良く特定することができる。また、首掛け型装置１００は、サーバ装置と通信することによりこの学習済みモデルを随時アップデートすることもできる。

通信部８２は、クラウド上のサーバ装置又は別の首掛け型装置と無線通信するための要素である。通信部８２は、インターネットを介してサーバ装置や別の首掛け型装置と通信を行うために、例えば、３Ｇ（W-CDMA）、４Ｇ（LTE／LTE-Advanced）、５Ｇといった公知の移動通信規格や、Wi-Fi（登録商標）等の無線ＬＡＮ方式で無線通信するための通信モジュールを採用すればよい。また、通信部８２は、別の首掛け型装置と直接的に通信を行うために、Bluetooth（登録商標）やＮＦＣ等の方式の近接無線通信用の通信モジュールを採用することもできる。

近接センサ８３は、主に首掛け型装置１００（特に本体部３０）と装着者の接近を検知するために用いられる。近接センサ８３としては、前述のように光学式、超音波式、磁気式、静電容量式、又は温感式などの公知のものを採用できる。近接センサ８３は、本体部３０の内側に配置され、装着者の首元が所定範囲内に接近したことを検出する。近接センサ８３によって装着者の首元の接近が検出された場合、各集音部４１～４５、撮像部６０、センサ部７０、及び／又は放音部８４を起動することができる。

放音部８４は、電気信号を物理的振動（すなわち音）に変換する音響装置である。放音部８４の例は、空気振動により音を装着者に伝達する一般的なスピーカである。この場合、前述したように、放音部８４を本体部３０の外側（装着者と反対側）に設けて、装着者の首裏から離れる方向（水平方向後方）又は首裏に沿う方向（鉛直方向上方）に向かって音を放出するように構成することが好ましい。また、放音部８４としては、装着者の骨を振動させることにより音を装着者に伝達する骨伝導スピーカであってもよい。この場合、放音部８４を本体部３０の内側（装着者側）に設けて、骨伝導スピーカが装着者の首裏の骨（頚椎）に接触するように構成すればよい。

バッテリー９０は、首掛け型装置１００に含まれる各種電子部品に対して電力を供給する電池である。バッテリー９０としては、充電可能な蓄電池が用いられる。バッテリー９０は、リチウムイオン電池、リチウムポリマー電池、アルカリ蓄電池、ニッケルカドミウム電池、ニッケル水素電池、又は鉛蓄電池など公知のものを採用すればよい。前述したとおり、バッテリー９０は、本体部筐体３２内において、バッテリー９０と装着者の首裏の間に回路基板８５を介在するように配置される。

続いて、図６を参照して、ビームフォーミング処理について具体的に説明する。ユーザが図１に示した実施形態の首掛け型装置１００を装着すると、図６（ａ）及び図６（ｂ）に示されるように、装着者の首元の胸部側に少なくとも４つの集音部４１～４４が位置することとなる。なお、第５集音部４５は補助的に集音を行うものであり必須の要素ではないため、ここでの説明は割愛する。本実施形態において、第１集音部４１から第４集音部４４はいずれも全指向性のマイクロホンであり、常時、主に装着者の口から発せられた音声を集音するとともに、その他の装着者周囲の環境音を集音している。なお、消費電力低減のため、各集音部４１～４４及び制御部８０を停止させておき、センサ部７０にて特定のジェスチャー等を検知したとき、これらの集音部４１～４４及び制御部８０を起動させることとしてもよい。環境音には、装着者の周囲に位置する対話者の音声が含まれる。装着者及び／又は対話者が音声を発すると、各集音部４１～４４によって音声データが取得される。各集音部４１～４４は、それぞれの音声データを制御部８０へと出力する。

制御部８０の音声解析部８０ａは、各集音部４１～４４で取得した音声データを解析する処理を行う。具体的には、音声解析部８０ａは、各集音部４１～４４の音声データに基づいて、その音声が発せられた音源の空間上の位置又は方向を特定する。例えば、機械学習済みの学習済みモデルが首掛け型装置１００にインストールされている場合、音声解析部８０ａは、その学習済みモデルを参照して各集音部４１～４４の音声データから音源の位置又は方向を特定できる。あるいは、各集音部４１間の距離は既知であるため、音声解析部８０ａは、音声が各集音部４１～４４に到達した時間差に基づいて、各集音部４１～４４から音源までの距離を求め、その距離から三角測量法により音源の空間位置又は方向を特定することとしてもよい。

また、音声解析部８０ａは、上記処理により特定した音源の位置又は方向が、装着者の口又は対話者の口と推定される位置又は方向と一致するか否かを判断する。例えば、首掛け型装置１００と装着者の口の位置関係や首掛け型装置１００と対話者の口の位置関係は予め想定可能であるため、その想定される範囲内に音源が位置している場合に、その音源を装着者又は対話者の口であると判断すればよい。また、首掛け型装置１００に対して著しく下方、上方、又は後方に音源が位置している場合、その音源は装着者又は対話者の口ではないと判断できる。

次に、制御部８０の音声処理部８０ｂは、音声解析部８０ａが特定した音源の位置又は方向に基づいて、音声データに含まれる音成分を強調又は抑圧する処理を行う。具体的には、音源の位置又は方向が装着者又は対話者の口と推定される位置又は方向と一致する場合、その音源から発せられた音成分を強調する。他方で、音源の位置又は方向が装着者又は対話者の口と一致しない場合、その音源から発せられた音成分は雑音であるとみなして、その音成分を抑圧すればよい。このように、本発明では、複数の全指向性のマイクロホンを用いて全方位の音データを取得し、制御部８０のソフトウェア上の音声処理によって特定の音成分と強調又は抑圧するビームフォーミング処理を行う。これにより、装着者の音声と対話者の音声を同時に取得し、必要に応じてその音声の音成分を強調することが可能となる。

また、図６（ｂ）に示されるように、対話者の音声を取得する場合には、撮像部６０を起動させて対話者を撮影することが好ましい。具体的に説明すると、装着者は、非接触型のセンサ部７０の検知範囲内で自身の手指によって所定のジェスチャーを行う。ジェスチャーには、手指で所定の動作を行うことや、手指で所定の形を作ることが含まれる。センサ部７０が手指の動作を検知すると、制御部８０の入力解析部８０ｃは、センサ部７０の検知情報を解析して、装着者の手指のジェスチャーが予め設定されているものに一致するかどうかを判断する。例えば、撮像部６０を起動させるためのジェスチャーや、撮像部６０によって撮影を開始するためのジェスチャー、撮影を停止させるためのジェスチャーなど、撮像部６０の制御に関する所定のジェスチャーが予め設定されているため、入力解析部８０ｃは、センサ部７０の検知情報に基づいて、装着者のジェスチャーが上記した所定のものに一致するかどうかを判断することとなる。

次に、制御部８０の撮像制御部８０ｄは、入力解析部８０ｃの解析結果に基づいて撮像部６０を制御する。例えば、装着者のジェスチャーが撮像部６０起動用のジェスチャーに一致すると入力解析部８０ｃが判断した場合、撮像制御部８０ｄは撮像部６０を起動させる。また、撮像部６０の起動後、装着者のジェスチャーが撮影開始用のジェスチャーに一致すると入力解析部８０ｃが判断した場合、撮像制御部８０ｄは画像の撮影を開始するように撮像部６０を制御する。さらに、撮影の開始後、装着者のジェスチャーが撮影停止用のジェスチャーに一致すると入力解析部８０ｃが判断した場合、撮像制御部８０ｄは画像の撮影を停止するように撮像部６０を制御する。なお、撮像制御部８０ｄは、撮影停止後一定時間を経過した段階で撮像部６０を再びスリープ状態とすることとしてもよい。

制御部８０の画像解析部８０ｅは、撮像部６０によって取得した静止画像又は動画像の画像データを解析する。例えば、画像解析部８０ｅは、画像データに解析することにより、首掛け型装置１００から対話者の口までの距離や両者の位置関係を特定することができる。また、画像解析部８０ｅは、画像データに基づいて、対話者の口が開いているか否か、あるいは対話者の口が開閉しているか否かを解析することにより、対話者が発声しているか否かを特定することも可能である。画像解析部８０ｅによる解析結果は、上述したビームフォーミング処理に利用される。具体的には、各集音部４１～４４によって集音した音声データの解析結果に加えて、撮像部６０による画像データの解析結果を利用すれば、対話者の口の空間上の位置や方向を特定する処理の精度を高めることができる。また、画像データに含まれる対話者の口の動作を解析して、その対話者が発声していることを特定することで、その対話者の口から発せられた音声を強調する処理の精度を高めることができる。

音声処理部８０ｂによる処理後の音声データと、撮像部６０によって取得された画像データは、記憶部８１に記憶される。また、制御部８０は、処理後の音声データと画像データを、通信部８２を介してクラウド上のサーバ装置や別の首掛け型装置１００に送信することもできる。サーバ装置は、首掛け型装置１００から受信した音声データに基づいて、音声のテキスト化処理や、翻訳処理、統計処理、その他の任意の言語処理を行うこともできる。また、撮像部６０によって取得された画像データを利用して、上記言語処理の精度を高めることともできる。また、サーバ装置は、首掛け型装置１００から受信した音声データと画像データを機械学習用の教師データとして利用して、学習済みモデルの精度を向上させることも可能である。また、首掛け型装置１００間で音声データを送受信し合うことにより装着者間で遠隔通話を行うこととしてもよい。その際に、首掛け型装置１００同士で近接無線通信を介して直接音声データを送受信することしてもよいし、サーバ装置を介してインターネット経由で首掛け型装置１００同士で音声データを送受信することとしてもよい。

本願明細書では、主に、首掛け型装置１００が、機能構成として音声解析部８０ａ、音声処理部８０ｂ、及び画像解析部８０ｅを備えており、ローカルでビームフォーミング処理を実行する実施形態について説明した。ただし、音声解析部８０ａ、音声処理部８０ｂ、及び画像解析部８０ｅのいずれか又は全ての機能を、首掛け型装置１００にインターネットで接続されたクラウド上のサーバ装置に分担させることもできる。この場合、例えば、首掛け型装置１００が各集音部４１～４５で取得した音声データをサーバ装置に送信し、サーバ装置が音源の位置又は方向を特定したり、装着者又は対話者の音声を強調してそれ以外の雑音を抑制する音声処理を行ったりしてもよい。また、撮像部６０によって取得した画像データを首掛け型装置１００からサーバ装置に送信し、サーバ装置において当該画像データの解析処理を行うこととしてもよい。この場合、首掛け型装置１００とサーバ装置によって音声処理システムが構築されることとなる。

以上、本願明細書では、本発明の内容を表現するために、図面を参照しながら本発明の実施形態の説明を行った。ただし、本発明は、上記実施形態に限定されるものではなく、本願明細書に記載された事項に基づいて当業者が自明な変更形態や改良形態を包含するものである。

また、センサ部７０による検知情報に基づいて、撮像部６０による撮影方法を制御することも可能である。具体的には、撮像部６０の撮影方法としては、例えば静止画の撮影、動画の撮影、スローモーション撮影、パノラマ撮影、タイムラプス撮影、タイマー撮影などが挙げられる。センサ部７０が手指の動作を検知すると、制御部８０の入力解析部８０ｃは、センサ部７０の検知情報を解析して、装着者の手指のジェスチャーが予め設定されているものに一致するかどうかを判断する。例えば、撮像部６０を撮影方法には、それぞれ固有のジェスチャーが設定されており、入力解析部８０ｃは、センサ部７０の検知情報に基づいて、装着者のジェスチャーが予め設定されたジェスチャーに一致するかどうかを判断することとなる。撮像制御部８０ｄは、入力解析部８０ｃの解析結果に基づいて撮像部６０による撮影方法を制御する。例えば、装着者のジェスチャーが静止画撮影用のジェスチャーに一致すると入力解析部８０ｃが判断した場合、撮像制御部８０ｄは撮像部６０を制御して静止画の撮影を行う。あるいは、装着者のジェスチャーが動画撮影用のジェスチャーに一致すると入力解析部８０ｃが判断した場合、撮像制御部８０ｄは撮像部６０を制御して動画の撮影を行う。このように、装着者のジェスチャーに応じて撮像部６０による撮影方法を指定することができる。

また、前述した実施形態では、センサ部７０による検知情報に基づいて主に撮像部６０を制御することとしたが、センサ部７０による検知情報に基づいて各集音部４１～４５を制御することも可能である。例えば、集音部４１～４５による集音の開始又は停止に関する固有のジェスチャーが予め設定されており、入力解析部８０ｃは、センサ部７０の検知情報に基づいて、装着者のジェスチャーが予め設定されたジェスチャーに一致するかどうかを判断する。そして、集音の開始又は停止に関するジェスチャーが検出された場合に、当該ジェスチャーの検知情報に応じて各集音部４１～４５によって集音を開始したり停止したりすればよい。

また、前述した実施形態では、主にセンサ部７０による検知情報に基づいて撮像部６０を制御することとしたが、各集音部４１～４５に入力された音声情報に基づいて撮像部６０を制御することも可能である。具体的には、音声解析部８０ａが、集音部４１～４５が取得した音声を解析する。つまり、装着者又は対話者の音声認識を行い、その音声が撮像部６０の制御に関するものであるか否かを判断する。その後、撮像制御部８０ｄが、その音声の解析結果に基づいて撮像部６０を制御する。例えば、撮影開始に関する所定の音声が集音部４１～４５に入力された場合には、撮像制御部８０ｄは、撮像部６０を起動させて撮影を開始する。また、撮像部６０による撮影方法を指定する所定の音声が集音部４１～４５に入力された場合には、撮像制御部８０ｄは、撮像部６０を制御して指定された撮影方法を実行する。また、センサ部７０による検知情報に基づいて集音部４１～４５を起動させた後、集音部４１～４５に入力された音声情報に基づいて撮像部６０を制御することも可能である。

また、撮像部６０によって撮像された画像に応じて、センサ部７０の入力情報に基づく制御命令の内容が変化させることも可能である。具体的に説明すると、まず、画像解析部８０eは、撮像部６０によって取得された画像を解析する。例えば、画像に含まれる特徴点に基づいて、画像解析部８０ａは、人物が写った画像であるのか、特定の被写体（人工物や自然物など）が写った画像であるのか、あるいはその画像が撮像された状況（撮影場所や撮影時間、天候など）を特定する。なお、画像に含まれる人物については、その性別や年齢を分類することとしてもよいし、個人を特定することとしてもよい。

次に、画像の種類（人物、被写体、状況の種別）に応じて、人の手指によるジェスチャーに基づく制御命令のパターンが記憶部８１記憶されている。このとき、同じジェスチャーであっても、画像の種類によって制御命令が異なることとしてもよい。具体的には、ある同一のジェスチャーであっても、画像に人物が写っている場合には、その人物の顔をフォーカスする制御命令となったり、画像に特徴的な自然物が写っている場合には、その自然物の周囲をパノラマ撮影する制御命令となる。また、画像に写っている人物の性別や年齢、被写体が人工物であるか自然物であるか、あるいは画像の撮影場所や時間、天候などを画像から検出して、ジェスチャーの意味内容を異ならせることもできる。そして、入力解析部８０ｃは、画像解析部８０ｅの画像解析結果を参照して、センサ部７０によって検出されたジェスチャーについて、その画像解析結果に対応する意味内容を特定して、首掛け型装置１００に入力される制御命令を生成する。このように、画像の内容に応じてジェスチャーの意味内容を変化させることで、画像の撮影状況や目的に応じて、様々なバリエーションの制御命令をジェスチャーによって装置に入力することが可能となる。

１０…左腕部１１…フレキシブル部
１２…先端面１３…下面
１４…上面２０…右腕部
２１…フレキシブル部２２…先端面
２３…下面２４…上面
３０…本体部３１…下垂部
３２…本体部筐体３２ａ…透過部
３２ｂ…グリル４１…第１集音部
４２…第２集音部４３…第３集音部
４４…第４集音部４５…第５集音部
５０…操作部６０…撮像部
７０…センサ部８０…制御部
８０ａ…音声解析部８０ｂ…音声処理部
８０ｃ…入力解析部８０ｄ…撮像制御部
８０ｅ…画像解析部８１…記憶部
８２…通信部８３…近接センサ
８４…放音部９０…バッテリー
１００…首掛け型装置

Claims

装着者の首元に装着される首掛け型装置であって、
首元を挟んだ位置に配置可能な第１腕部及び第２腕部と、
前記第１腕部と前記第２腕部とを前記装着者の首裏に相当する位置にて連結する本体部と、
前記第１腕部と前記第２腕部の両方又はいずれか一方に設けられた集音部と、
前記本体部に設けられた放音部と、を備え、
前記本体部は、前記装着者側とは反対側の面に前記放音部から出力された音を外部へ放出するための穴部が形成されている
首掛け型装置。
前記放音部は、装着者の首裏から離れる方向に向かって音を放出するように構成されている
請求項１に記載に首掛け型装置。
前記装着者の首裏に相当する位置に近接センサをさらに備え、
前記近接センサが物体を検出していない状態にあるときには前記集音部が起動しないように構成されている
請求項１又は請求項２に記載の首掛け型装置。