以下、図面を用いて本発明を実施するための形態について説明する。本発明は、以下に説明する形態に限定されるものではなく、以下の形態から当業者が自明な範囲で適宜変更したものも含む。
図1は、本発明に係る首掛け型装置100の一実施形態を示している。また、図2は、首掛け型装置100を装着した状態を示している。図1に示されるように、首掛け型装置100を構成する筐体は、左腕部10、右腕部20、及び本体部30を備える。左腕部10と右腕部20は、それぞれ本体部30の左端と右端から前方に向かって延出しており、首掛け型装置100は、平面視したときに装置全体として略U字をなす構造となっている。首掛け型装置100を装着する際には、図2に示されるように、本体部30を装着者の首裏に接触させ、左腕部10と右腕部20を装着者の首横から胸部側に向かって垂らすようにして、装置全体を首元に引っ掛ければよい。首掛け型装置100の筐体内には、各種の電子部品が格納されている。
左腕部10と右腕部20には、それぞれ複数の集音部(マイク)41~45が設けられている。集音部41~45は、主に装着者とその対話者の音声を取得することを目的として配置されている。図1に示されるように、左腕部10に第1集音部41と第2集音部42を設け、右腕部20に第3集音部43と第4集音部44を設けることが好ましい。また、任意の要素として、左腕部10と右腕部20に、一又は複数の集音部を追加で設けることとしてもよい。図1に示した例では、左腕部10に、上記第1集音部41及び第2集音部42に加えて、第5集音部45を設けることとしている。これらの集音部41~45によって取得した音信号は、本体部30内に設けられた制御部80(図5参照)へ伝達されて所定の解析処理が行われる。なお、後述するとおり、本体部30には、このような制御部80を含む電子回路やバッテリーなどの制御系が内装されている。
集音部41~45は、それぞれ左腕部10と右腕部20の前方(装着者の胸部側)に設けられている。具体的には、一般的な成人男性(首囲35~37cm)の首元に首掛け型装置100を装着することを想定した場合に、少なくとも第1集音部41から第4集音部44が、装着者の首よりも前方(胸部側)に位置するように設計されていることが好ましい。首掛け型装置100は、装着者と対話者の音声を同時に集音することを想定したものであり、各集音部41~44を装着者の首の前方側に配置することで、装着者の音声だけでなく、その対話者の音声を適切に取得することができる。また、各集音部41~44を装着者の首の前方側に配置すると、装着者の背部側に立つ者の音声が装着者の身体によって遮られて、集音部41~44には直接届きにくくなる。装着者の背部側に立つ者は装着者と対話している者ではないと推定されるため、このような者の音声を遮ることで、集音部41~44の物理的な配置によって雑音を抑制できる。
また、第1集音部41から第4集音部44は、左右対称となるように、それぞれ左腕部10と右腕部20に配置されている。すなわち、第1集音部41と第2集音部42を繋ぐ線分、第3集音部43と第4集音部44を繋ぐ線分、第1集音部41と第3集音部43を繋ぐ線分、及び第2集音部42と第4集音部44を繋ぐ線分からなる四角形状が線対称形となる。具体的に、本実施形態においては、第1集音部41と第3集音部43を繋ぐ線分が短辺となる台形状をなしている。ただし、上記四角形は台形状に限られず、長方形や正方形となるように各集音部41~44を配置することもできる。
左腕部10には、さらに撮像部60が設けられている。具体的には、左腕部10の先端面12に撮像部60が設けられており、この撮像部60によって装着者の正面側の静止画像や動画像を撮影することができる。撮像部60によって取得された画像は、本体部30内の制御部80に伝達され、画像データとして記憶される。また、撮像部60によって取得された画像をインターネットでサーバ装置へ送信することとしてもよい。また、詳しくは後述するとおり、撮像部60が取得した画像から対話者の口元の位置を特定して、その口元から発せられた音声を強調する処理(ビームフォーミング処理)を行うことも可能である。
右腕部20には、さらに非接触型のセンサ部70が設けられている。センサ部70は、主に首掛け型装置100の正面側における装着者の手の動きを検知することを目的として、右腕部20の先端面22に配置されている。センサ部70の検知情報は、撮像部60の起動や、撮影の開始、停止など、主に撮像部60の制御に利用される。例えば、センサ部70は、装着者の手などの物体がそのセンサ部70に近接したことを検知して撮像部60を制御することとしてもよいし、あるいはセンサ部70の検知範囲内で装着者が所定のジェスチャーを行ったことを検知して撮像部60を制御することとしてもよい。なお、本実施形態において、左腕部10の先端面12に撮像部60を配置し、右腕部20の先端面22にセンサ部70を配置することとしているが、撮像部60とセンサ部70の位置を入れ替えることも可能である。
また、センサ部70での検知情報を、撮像部60、集音部41~45、及び/又は制御部80(メインCPU)の起動に利用することも可能である。例えば、センサ部70、集音部41~45、及び制御部80が常時起動し、撮像部60が停止している状態において、センサ部70にて特定のジェスチャーを検知したときに撮像部60を起動させることができる(条件1)。なお、この条件1では、集音部41~45が特定の音声を検出したときに撮像部60を起動させることも可能である。あるいは、センサ部70及び集音部41~45が常時起動し、制御部80及び撮像部60が停止している状態において、センサ部70にて特定のジェスチャーを検知したときに制御部80と撮像部60のうちの任意のものを起動させることができる(条件2)。この条件2においても、集音部41~45が特定の音声を検出したときに制御部80及び撮像部60を起動させることが可能である。あるいは、センサ部70のみが常時起動し、集音部41~45、制御部80、及び撮像部60が停止している状態において、センサ部70にて特定のジェスチャーを検知したときに集音部41~45、制御部80、撮像部60のうちの任意のものを起動させることができる(条件3)。上記条件1~条件3は、条件3>条件2>条件1の順に消費電力の削減効果が大いといえる。
図2の側面図に示されるように、本実施形態では、装着時に左腕部10の先端面12(及び右腕部20の先端面22)が鉛直になることを理想として、首掛け型装置100の筐体が設計されている。つまり、首掛け型装置100は、左腕部10と右腕部20が首裏から胸部の鎖骨前付近に向かってやや垂れ下がるように装着され、その鎖骨前辺りに左腕部10と右腕部20の先端面12,22が位置する。このとき、先端面12,22が鉛直方向に対してほぼ平行(±10度以内)になることが好ましい。
また、上記のように先端面12,22を鉛直に立てるために、各腕部10,20の先端面12,22は、それぞれの下縁13,23に対して傾斜した面となっている。図2では、先端面12,22と下縁13,23のなす角(先端面の傾斜角)を符号θ1で示している。なお、図2において、直線Sは先端面12,22と平行な直線を示し、符号Lは各腕部10,20の下縁13,23の延長線を示している。ここで、先端面12,22の傾斜角θ1は、鋭角であり、例えば40~85度であることが好ましく、50~80度又は60~80度であることが特に好ましい。このように、先端面12,22を各腕部10,20の下縁13,23に対して傾斜させることで、装着時に先端面12,22が鉛直となりやすい。このため、各先端面12,22に設けられた撮像部60とセンサ部70によって、装着者の正面側の領域を効率よく撮影あるいは検知することができる。
また、図2において、直線Aは撮像部60の光軸を示している。光軸(主軸)とは、撮像部60のレンズの中心を通る対称軸である。図2に示されるように、装着時において左腕部10の先端面12が鉛直になっていると仮定した場合に、撮像部60の光軸Aは、ほぼ水平(±10度)となることが好ましい。このように、首掛け型装置100の装着状態において撮像部60の光軸Aがほぼ水平となることにより、装着者が正面を向いている場合の視線と撮像部60の光軸Aがほぼ平行となるため、撮像部60によって撮像された画像が、装着者が実際に視認している景色に近いものとなる。より具体的に説明すると、図2では、左腕部の先端面12と撮像部60の光軸Aのなす角を符号θ2で示している。この光軸Aの傾斜角θ2は、75~115度又は80~100度であることが好ましく、85~95度又は90度であることが特に好ましい。
また、図2において、直線A´は撮像部60の光軸の別例を示している。図2に示されるように、装着時において左腕部10の先端面12が鉛直になっていると仮定した場合に、撮像部60の光軸A´は、水平(図2中の直線Aに相当)に対して上向きに傾斜していることが好ましい。前述の通り、装着時において各腕部10,20の先端面12,22は装着者の鎖骨前付近に位置することになるが、撮像部60の光軸A´を上向きとすることで、対話者の顔や口元を撮影しやすくなる。また、予め撮像部の光軸A´を水平に対して上向きに傾けておくことで、装着者に無理な体勢をとることを強いることなく垂直方向上側の空間を撮影することができるようになる。より具体的に説明すると、図2では、左腕部の先端面12と撮像部60の光軸A´のなす角(光軸の傾斜角)を符号θ3で示している。この光軸A´の傾斜角θ3は、装着時において上向きになるように、30~85度であることが好ましく、40~80度又は50~80度であることが特に好ましい。
また、図2に示されるように、各腕部10,20は、その下縁13,23と上縁14,24の延長線が共に下向であり、地面方向を指している。このため、装着者に対峙した対話者は、左腕部10の先端面12に設けられた撮像部60によって自身の顔を撮影されている印象を受けにくくなる。このように、撮像部60によって対話者の顔や口元を撮影する場合であっても、対話者に対して不快感を与えにくくしている。他方で、前述したとおり、本実施形態では、装着時に左腕部10の先端面12がほぼ鉛直に立ち、この先端面12に配置された撮像部60の光軸が上向きになるように設計している。このため、対話者は自身の顔を撮影されている印象を受けにくいものの、実際には撮像部60によってその対話者の顔や口元を効果的に撮影することができる。
図3は、集音部41~45が設けられた部位における左腕部10と右腕部20の断面形状を模式的に表したものである。図3に示されるように、好ましい実施形態において、左腕部10と右腕部20は、集音部41~45が設けられた部位の断面形状が略菱形となる。左腕部10と右腕部20は、装着者の頭部(より具体的には装着者の口)に向かって面する傾斜面10a,20aをそれぞれ有する。つまり、各傾斜面10a,20aに対して垂直な垂線が、装着者の頭部の方を向くこととなる。そして、各集音部41~45は、この左腕部10と右腕部20の傾斜面10a,20aに設けられている。このように傾斜面10a,20aに集音部41~45を配置することで、装着者の口から発せられた音声が直線的に各集音部41~45に到達しやすくなる。また、図3に示されるように、例えば装着者の周囲で発生した風雑音などが各集音部41~45に直接入りにくくなるため、このような雑音を物理的に抑制できる。なお、図3に示した例では、左腕部10と右腕部20の断面形状を菱形状としたが、これに限られず、三角形状や五角形状、その他の多角形状など、装着者の頭部に対向する傾斜面10a,20aを持つ形状とすることも可能である。
上記した左腕部10と右腕部は、装着者の首裏に当接する位置に設けられた本体部30によって連結されている。この本体部30には、プロセッサやバッテリーなどの電子部品が内装されている。本体部30を構成する筐体は、図1に示されるように、ほぼ平坦な形状となっており、平面状(板状)の回路基板やバッテリーを格納することができる。また、本体部30は、左腕部10及び右腕部20よりも下方に向かって延出する下垂部31を有する。本体部30に下垂部31を設けることで、制御系回路を内装するための空間を確保している。また、本体部30には制御系回路が集中して搭載されている。このため、首掛け型装置100の全重量を100%とした場合に、本体部30の重量は40~80%又は50%~70%を占める。このような重量の大きい本体部30を装着者の首裏に配置することで、装着時における安定性が向上する。また、装着者の体幹に近い位置に重量の大きい本体部30を配置することで、装置全体の重量が装着者に与える負荷を軽減できる。
図4は、本体部30の縦方向断面図であり、本体部30内に格納されている電子部品の位置関係を模式的に表している。図4中の左側は、装着者の首元に接する首掛け型装置100の内側であり、図4中の右側は、装着者の首元には直接接しない首掛け型装置100の外側である。図4に示されるように、本体部30を構成する筐体(本体部筐体32)内には、少なくとも平面状の回路基板85と平面状のバッテリー90が格納されている。また、回路基板85には、バッテリー90からの電力供給を受けて駆動する様々な電子部品が搭載されている。回路基板85に搭載される電子部品の一例は、図4に示された近接センサ83と放音部34(スピーカ)である。なお、その他に、回路基板85には、CPU等の制御装置、メモリやストレージ等の記憶装置、通信装置、各種のセンサ装置を電気的に接続することができる。
図4に示されるように、本実施形態において、バッテリー90は回路基板85よりも外側に配置される。つまり、首掛け型装置100の装着状態において、装着者の首裏とバッテリー90の間に回路基板85が介在することとなる。回路基板85(プリント基板)は、樹脂やガラス、テフロン(登録商標)などの絶縁体で構成された基板の表層やその内部に導電性の配線が形成されたものであり、その配線によって絶縁基板上に搭載された各種電子部品を電気的に接続する。回路基板85は、柔軟性のないリジッド基板、柔軟性のあるフレキシブル基板、あるいはそれらを複合したもののいずれであってもよい。また、回路基板85は、片面のみに配線パターンが形成された片面基板、両面に配線パターンが形成された両面基板、あるいは絶縁基板を複数層に亘って積層した各層を電気的に接続した多層基板のいずれであってもよい。回路基板85としては、その他公知の構成を採用することができる。リチウムイオンバッテリー等によって構成されたバッテリー90は少なからず発熱するものであるが、装着者の首裏とバッテリー90の間に回路基板85を配置しておくことで、バッテリー90から生じた熱が装着者に伝わりにくくなり、首掛け型装置100の装着感の向上が見込まれる。
また、本体部30の内側(装着者側)には近接センサ83が設けられている。近接センサ83は、例えば回路基板85の内側の面に搭載しておけばよい。近接センサ83は、物体の接近を検出するためのものであり、首掛け型装置100が装着者の首元に装着されると、その首元の接近を検出することとなる。このため、近接センサ83が物体の近接を検出している状態にあるときに、各集音部41~45、撮像部60、及びセンサ部70などの機器をオン(駆動状態)とし、近接センサ83が物体の近接を検出していない状態にあるときには、これらの機器をオフ(スリープ状態)、もしくは起動できない状態とすればよい。これにより、バッテリー90の電力消費を効率的に抑えることができる。また、近接センサ83が物体の近接を検出していない状態にあるとき、撮像部60と集音部41~45を起動できなくすることによって、非装着時に意図的あるいは非意図的にデータが記録されてしまうことを防ぐという効果も期待できる。なお、近接センサ90としては公知のものを用いることができるが、光学式のものが用いられる場合には、近接センサ90の検出光を透過するために、本体部筐体32に検出光を透過する透過部32aを設けるとよい。
また、本体部30の外側(装着者の反対側)には放音部84(スピーカ)が設けられている。放音部84は、例えば回路基板85の外側の面に搭載しておけばよい。図4に示されるように、本実施形態において、放音部84は、本体部30の外側に向かって音を出力するように配置されている。すなわち、本体部筐体32の外側の面にグリル32b(孔部)が形成されており、このグリル32bを通じて放音部84から出力された音(音波)が本体部筐体32の外部へ放出されるようになっている。このように、装着者の首裏から真後ろに向かって音を放出することで、この放音部84から出力された音が、装着者の正面前方に存在する対話者に直接的に届きにくくなる。これにより、対話者が、装着者自身が発した音声と首掛け型装置の放音部から発せられた音とを混同する事態を防止できる。また、本実施形態では、左腕部10と右腕部20に集音部41~45が設けられているが、放音部84を装着者の首裏に相当する位置に設けておくことで、放音部84と集音部41~45との物理的な距離を最大限離すことができる。すなわち、各集音部41~45にて装着者や対話者の音声を集音している状態において、放音部84から何らかの音が出力されると、収録される装着者等の音声に放音部84からの音(自己出力音)が混入する場合がある。自己出力音が収録音声に混入すると音声認識を妨害することになるため、この自己出力音をエコーキャンセル処理などによって取り除く必要がある。しかし、実際は筐体振動などの影響を受け、エコーキャンセル処理を行ったとしても、完全に自己出力音を取り除くことは困難である。このため、装着者等の音声に混入される自己出力音の音量を最小化するために、上記の通り装着者の首裏に相当する位置に放音部84を設けて、集音部との物理的な距離をとることが好ましい。なお、本体部筐体32の内側の面にグリル32bを設けるとともに、回路基板85の内側に放音部84を設けておき、本体部30の内側に向かって音を放出する構成を採用することもできる。ただし、この場合、放音部84から放出された音が装着者の首元で遮られることとなり、音が籠もったように聞こえると想定される。
また、放音部84は、装着者の首後方の中央に相当する位置ではなく、左右どちらかに偏った位置に設置されていることが好ましい。その理由は、放音部84が、首裏中央にある場合と比較して、左右どちらかの耳に近くなるためである。このように、放音部84を、本体部30のほぼ中央ではなく、左右どちらかに偏った位置に配置することで、出力音の音量を小さくした場合であっても、装着者が出力音を左右どちらかの耳で明瞭に聞き取ることができる。また、出力音の音量が小さくなれば、この出力音が対話者に届きにくくなるため、対話者としても、装着者の音声と放音部84の出力音とが混同することを回避できる。
なお、グリル32bは、放音部84から出力された音を通過させるだけでなく、バッテリー90から生じた熱を大気中に排熱する機能を担う。グリル32bを本体部筐体32の外側の面に形成しておくことにより、グリル32bを通じて排出された熱が装着者に直接届きにくくなるため、装着者に対して不快感を与えずに効率的に排熱することができる。
また、首掛け型装置100の構造的特徴として、左腕部10と右腕部20は、本体部30との連結部位の近傍にフレキシブル部11,21を有する。フレキシブル部11,21は、ゴムやシリコーンなどの可撓性材料で形成されている。このため、首掛け型装置100の装着時に、左腕部10及び右腕部20が装着者の首元や肩上にフィットしやすくなる。なお、フレキシブル部11,21にも、各集音部41~45と操作部50を制御部80に接続する配線が挿通されている。
図5は、首掛け型装置100の機能構成を示したブロック図である。図5に示されるように、首掛け型装置100は、第1集音部41から第5集音部45、操作部50、撮像部60、センサ部70、制御部80、記憶部81、通信部82、近接センサ83、放音部84、及びバッテリー90を有する。左腕部10には、第1集音部41、第2集音部42、第5集音部45、操作部50、及び撮像部60が配置され、右腕部20には、第3集音部43、第4集音部44、及びセンサ部70が配置され、本体部30には、制御部80、記憶部81、通信部82、近接センサ83、放音部84、及びバッテリー90が配置されている。なお、首掛け型装置100は、図5に示した機能構成に加えて、ジャイロセンサ、加速度センサ、地磁気センサ、又はGPSセンサなどのセンサ類など、一般的な携帯型情報端末に搭載されているモジュール機器を適宜搭載することができる。
各集音部41~45としては、ダイナミックマイクやコンデンサマイク、MEMS(Micro-Electrical-Mechanical Systems)マイクなど、公知のマイクロホンを採用すればよい。集音部41~45は、音を電気信号に変換し、その電気信号をアンプ回路によって増幅した上で、A/D変換回路によってデジタル情報に変換して制御部80へと出力する。本発明の首掛け型装置100は、装着者の音声だけでなく、その周囲に存在する一又は複数の対話者の音声を取得することを目的の一つとしている。このため、装着者周囲で発生した音を広く集音できるように、各集音部41~45としては、全指向性(無指向性)のマイクロホンを採用することが好ましい。
操作部50は、装着者による操作の入力を受け付ける。操作部50としては、公知のスイッチ回路又はタッチパネルなどを採用することができる。操作部50は、例えば音声入力の開始又は停止を指示する操作や、装置の電源のON又はOFFを指示する操作、スピーカの音量の上げ下げを指示する操作、その他首掛け型装置100の機能の実現に必要な操作を受け付ける。操作部50を介して入力された情報は制御部80へと伝達される。
撮像部60は、静止画像又は動画像の画像データを取得する。撮像部60としては一般的なデジタルカメラを採用すればよい。撮像部60は、例えば、撮影レンズ、メカシャッター、シャッタードライバ、CCDイメージセンサユニットなどの光電変換素子、光電変換素子から電荷量を読み出し画像データを生成するデジタルシグナルプロセッサ(DSP)、及びICメモリで構成される。また、撮像部60は、撮影レンズから被写体までの距離を測定するオートフォーカスセンサ(AFセンサ)と、このAFセンサが検出した距離に応じて撮影レンズの焦点距離を調整するための機構とを備えることが好ましい。AFセンサの種類は特に限定されないが、位相差センサやコントラストセンサといった公知のパッシブ方式のものを用いればよい。また、AFセンサとして、赤外線や超音波を被写体に向けてその反射光や反射波を受信するアクティブ方式のセンサを用いることもできる。撮像部60によって取得された画像データは、制御部80へと供給されて記憶部81に記憶され、所定の画像解析処理が行われたり、あるいは通信部82を介してインターネット経由でサーバ装置へと送信される。
また、撮像部60は、いわゆる広角レンズを備えるものであることが好ましい。具体的には、撮像部60の垂直方向画角は、100~180度であることが好ましく、110~160度又は120~150度であることが特に好ましい。このように、撮像部60の垂直方向画角を広角とすることで、少なくとも対話者の頭部から胸部を広く撮影することができ、場合によっては対話者の全身を撮影することも可能となる。また、撮像部60の水平方向画角は特に制限されないが、100~160度程度の広角のものを採用することが好ましい。
また、撮像部60は、一般的に消費電力が大きいものであるため、必要な場合に限り起動し、それ以外の場合においてはスリープ状態となっていることが好ましい。具体的には、センサ部70又は近接センサ83の検知情報に基づいて、撮像部60の起動や、撮影の開始又は停止が制御されるが、撮影停止後一定時間が経過した場合には、撮像部60を再びスリープ状態とすればよい。
センサ部70は、装着者の手指などの物体の動きを検知するための非接触型の検知装置である。センサ部70の例は、近接センサ又はジェスチャーセンサである。近接センサは、例えば装着者の手指が所定範囲まで近接したことを検知する。近接センサとしては、光学式、超音波式、磁気式、静電容量式、又は温感式などの公知のものを採用できる。ジェスチャーセンサは、例えば装着者の手指の動作や形を検知する。ジェスチャーセンサの例は光学式センサであり、赤外発光LEDから対象物に向けて光を照射し、その反射光の変化を受光素子で捉えることで対象物の動作や形を検出する。センサ部70による検知情報は、制御部80へと伝達され、主に撮像部60の制御に利用される。また、センサ部70による検知情報に基づいて、各集音部41~45の制御を行うことも可能である。センサ部70は、一般的に消費電力が小さいものであるため、首掛け型装置100の電源がONになっている間は常時起動していることが好ましい。また、近接センサ83により首掛け型装置100の装着が検出されたときに、センサ部70を起動させることとしてもよい。
制御部80は、首掛け型装置100が備える他の要素を制御する演算処理を行う。制御部80としては、CPUなどのプロセッサを利用することができる。制御部80は、基本的に、記憶部81に記憶されているプログラムを読み出し、このプログラムに従って所定の演算処理を実行する。また、制御部80は、プログラムに従った演算結果を記憶部81に適宜書き込んだり読み出したりすることができる。詳しくは後述するが、制御部80は、主に撮像部60の制御処理やビームフォーミング処理を行うための音声解析部80a、音声処理部80b、入力解析部80c、撮像制御部80d、及び画像解析部80eを有する。これらの要素80a~80eは、基本的にソフトウェア上の機能として実現される。ただし、これらの要素はハードウェアの回路として実現されるものであってもよい。
記憶部81は、制御部80での演算処理等に用いられる情報やその演算結果を記憶するための要素である。具体的に説明すると、記憶部81は、汎用的な携帯型の情報通信端末を、本発明に係る音声入力装置として機能させるプログラムを記憶している。ユーザからの指示によりこのプログラムが起動されると、制御部80によってプログラムに従った処理が実行される。記憶部81のストレージ機能は、例えばHDD及びSDDといった不揮発性メモリによって実現できる。また、記憶部81は、制御部80による演算処理の途中経過などを書き込む又は読み出すためのメモリとしての機能を有していてもよい。記憶部81のメモリ機能は、RAMやDRAMといった揮発性メモリにより実現できる。また、記憶部81には、それを所持するユーザ固有のID情報が記憶されていてもよい。また、記憶部81には、首掛け型装置100のネットワーク上の識別情報であるIPアドレスが記憶されていてもよい。
また、記憶部81には、制御部80によるビームフォーミング処理で利用する学習済みモデルが記憶されていてもよい。学習済みモデルは、例えばクラウド上のサーバ装置においてディープラーニングや強化学習等の機械学習を行うことにより得られた推論モデルである。具体的に説明すると、ビームフォーミング処理では、複数の集音部で取得した音データを解析して、その音を発生した音源の位置又は方向を特定する。このとき、例えば、サーバ装置にある音源の位置情報とその音源から発生した音を複数の集音部で取得したデータとのデータセット(教師データ)を多数蓄積し、これらの教師データ用いた機械学習を実施して学習済みモデルを予め作成しておく。そして、個別の首掛け型装置100において複数の集音部により音データを取得したときに、この学習済みモデルを参照することで、音源の位置又は方向を効率良く特定することができる。また、首掛け型装置100は、サーバ装置と通信することによりこの学習済みモデルを随時アップデートすることもできる。
通信部82は、クラウド上のサーバ装置又は別の首掛け型装置と無線通信するための要素である。通信部82は、インターネットを介してサーバ装置や別の首掛け型装置と通信を行うために、例えば、3G(W-CDMA)、4G(LTE/LTE-Advanced)、5Gといった公知の移動通信規格や、Wi-Fi(登録商標)等の無線LAN方式で無線通信するための通信モジュールを採用すればよい。また、通信部82は、別の首掛け型装置と直接的に通信を行うために、Bluetooth(登録商標)やNFC等の方式の近接無線通信用の通信モジュールを採用することもできる。
近接センサ83は、主に首掛け型装置100(特に本体部30)と装着者の接近を検知するために用いられる。近接センサ83としては、前述のように光学式、超音波式、磁気式、静電容量式、又は温感式などの公知のものを採用できる。近接センサ83は、本体部30の内側に配置され、装着者の首元が所定範囲内に接近したことを検出する。近接センサ83によって装着者の首元の接近が検出された場合、各集音部41~45、撮像部60、センサ部70、及び/又は放音部84を起動することができる。
放音部84は、電気信号を物理的振動(すなわち音)に変換する音響装置である。放音部84の例は、空気振動により音を装着者に伝達する一般的なスピーカである。この場合、前述したように、放音部84を本体部30の外側(装着者と反対側)に設けて、装着者の首裏から離れる方向(水平方向後方)又は首裏に沿う方向(鉛直方向上方)に向かって音を放出するように構成することが好ましい。また、放音部84としては、装着者の骨を振動させることにより音を装着者に伝達する骨伝導スピーカであってもよい。この場合、放音部84を本体部30の内側(装着者側)に設けて、骨伝導スピーカが装着者の首裏の骨(頚椎)に接触するように構成すればよい。
バッテリー90は、首掛け型装置100に含まれる各種電子部品に対して電力を供給する電池である。バッテリー90としては、充電可能な蓄電池が用いられる。バッテリー90は、リチウムイオン電池、リチウムポリマー電池、アルカリ蓄電池、ニッケルカドミウム電池、ニッケル水素電池、又は鉛蓄電池など公知のものを採用すればよい。前述したとおり、バッテリー90は、本体部筐体32内において、バッテリー90と装着者の首裏の間に回路基板85を介在するように配置される。
続いて、図6を参照して、ビームフォーミング処理について具体的に説明する。ユーザが図1に示した実施形態の首掛け型装置100を装着すると、図6(a)及び図6(b)に示されるように、装着者の首元の胸部側に少なくとも4つの集音部41~44が位置することとなる。なお、第5集音部45は補助的に集音を行うものであり必須の要素ではないため、ここでの説明は割愛する。本実施形態において、第1集音部41から第4集音部44はいずれも全指向性のマイクロホンであり、常時、主に装着者の口から発せられた音声を集音するとともに、その他の装着者周囲の環境音を集音している。なお、消費電力低減のため、各集音部41~44及び制御部80を停止させておき、センサ部70にて特定のジェスチャー等を検知したとき、これらの集音部41~44及び制御部80を起動させることとしてもよい。環境音には、装着者の周囲に位置する対話者の音声が含まれる。装着者及び/又は対話者が音声を発すると、各集音部41~44によって音声データが取得される。各集音部41~44は、それぞれの音声データを制御部80へと出力する。
制御部80の音声解析部80aは、各集音部41~44で取得した音声データを解析する処理を行う。具体的には、音声解析部80aは、各集音部41~44の音声データに基づいて、その音声が発せられた音源の空間上の位置又は方向を特定する。例えば、機械学習済みの学習済みモデルが首掛け型装置100にインストールされている場合、音声解析部80aは、その学習済みモデルを参照して各集音部41~44の音声データから音源の位置又は方向を特定できる。あるいは、各集音部41間の距離は既知であるため、音声解析部80aは、音声が各集音部41~44に到達した時間差に基づいて、各集音部41~44から音源までの距離を求め、その距離から三角測量法により音源の空間位置又は方向を特定することとしてもよい。
また、音声解析部80aは、上記処理により特定した音源の位置又は方向が、装着者の口又は対話者の口と推定される位置又は方向と一致するか否かを判断する。例えば、首掛け型装置100と装着者の口の位置関係や首掛け型装置100と対話者の口の位置関係は予め想定可能であるため、その想定される範囲内に音源が位置している場合に、その音源を装着者又は対話者の口であると判断すればよい。また、首掛け型装置100に対して著しく下方、上方、又は後方に音源が位置している場合、その音源は装着者又は対話者の口ではないと判断できる。
次に、制御部80の音声処理部80bは、音声解析部80aが特定した音源の位置又は方向に基づいて、音声データに含まれる音成分を強調又は抑圧する処理を行う。具体的には、音源の位置又は方向が装着者又は対話者の口と推定される位置又は方向と一致する場合、その音源から発せられた音成分を強調する。他方で、音源の位置又は方向が装着者又は対話者の口と一致しない場合、その音源から発せられた音成分は雑音であるとみなして、その音成分を抑圧すればよい。このように、本発明では、複数の全指向性のマイクロホンを用いて全方位の音データを取得し、制御部80のソフトウェア上の音声処理によって特定の音成分と強調又は抑圧するビームフォーミング処理を行う。これにより、装着者の音声と対話者の音声を同時に取得し、必要に応じてその音声の音成分を強調することが可能となる。
また、図6(b)に示されるように、対話者の音声を取得する場合には、撮像部60を起動させて対話者を撮影することが好ましい。具体的に説明すると、装着者は、非接触型のセンサ部70の検知範囲内で自身の手指によって所定のジェスチャーを行う。ジェスチャーには、手指で所定の動作を行うことや、手指で所定の形を作ることが含まれる。センサ部70が手指の動作を検知すると、制御部80の入力解析部80cは、センサ部70の検知情報を解析して、装着者の手指のジェスチャーが予め設定されているものに一致するかどうかを判断する。例えば、撮像部60を起動させるためのジェスチャーや、撮像部60によって撮影を開始するためのジェスチャー、撮影を停止させるためのジェスチャーなど、撮像部60の制御に関する所定のジェスチャーが予め設定されているため、入力解析部80cは、センサ部70の検知情報に基づいて、装着者のジェスチャーが上記した所定のものに一致するかどうかを判断することとなる。
次に、制御部80の撮像制御部80dは、入力解析部80cの解析結果に基づいて撮像部60を制御する。例えば、装着者のジェスチャーが撮像部60起動用のジェスチャーに一致すると入力解析部80cが判断した場合、撮像制御部80dは撮像部60を起動させる。また、撮像部60の起動後、装着者のジェスチャーが撮影開始用のジェスチャーに一致すると入力解析部80cが判断した場合、撮像制御部80dは画像の撮影を開始するように撮像部60を制御する。さらに、撮影の開始後、装着者のジェスチャーが撮影停止用のジェスチャーに一致すると入力解析部80cが判断した場合、撮像制御部80dは画像の撮影を停止するように撮像部60を制御する。なお、撮像制御部80dは、撮影停止後一定時間を経過した段階で撮像部60を再びスリープ状態とすることとしてもよい。
制御部80の画像解析部80eは、撮像部60によって取得した静止画像又は動画像の画像データを解析する。例えば、画像解析部80eは、画像データに解析することにより、首掛け型装置100から対話者の口までの距離や両者の位置関係を特定することができる。また、画像解析部80eは、画像データに基づいて、対話者の口が開いているか否か、あるいは対話者の口が開閉しているか否かを解析することにより、対話者が発声しているか否かを特定することも可能である。画像解析部80eによる解析結果は、上述したビームフォーミング処理に利用される。具体的には、各集音部41~44によって集音した音声データの解析結果に加えて、撮像部60による画像データの解析結果を利用すれば、対話者の口の空間上の位置や方向を特定する処理の精度を高めることができる。また、画像データに含まれる対話者の口の動作を解析して、その対話者が発声していることを特定することで、その対話者の口から発せられた音声を強調する処理の精度を高めることができる。
音声処理部80bによる処理後の音声データと、撮像部60によって取得された画像データは、記憶部81に記憶される。また、制御部80は、処理後の音声データと画像データを、通信部82を介してクラウド上のサーバ装置や別の首掛け型装置100に送信することもできる。サーバ装置は、首掛け型装置100から受信した音声データに基づいて、音声のテキスト化処理や、翻訳処理、統計処理、その他の任意の言語処理を行うこともできる。また、撮像部60によって取得された画像データを利用して、上記言語処理の精度を高めることともできる。また、サーバ装置は、首掛け型装置100から受信した音声データと画像データを機械学習用の教師データとして利用して、学習済みモデルの精度を向上させることも可能である。また、首掛け型装置100間で音声データを送受信し合うことにより装着者間で遠隔通話を行うこととしてもよい。その際に、首掛け型装置100同士で近接無線通信を介して直接音声データを送受信することしてもよいし、サーバ装置を介してインターネット経由で首掛け型装置100同士で音声データを送受信することとしてもよい。
本願明細書では、主に、首掛け型装置100が、機能構成として音声解析部80a、音声処理部80b、及び画像解析部80eを備えており、ローカルでビームフォーミング処理を実行する実施形態について説明した。ただし、音声解析部80a、音声処理部80b、及び画像解析部80eのいずれか又は全ての機能を、首掛け型装置100にインターネットで接続されたクラウド上のサーバ装置に分担させることもできる。この場合、例えば、首掛け型装置100が各集音部41~45で取得した音声データをサーバ装置に送信し、サーバ装置が音源の位置又は方向を特定したり、装着者又は対話者の音声を強調してそれ以外の雑音を抑制する音声処理を行ったりしてもよい。また、撮像部60によって取得した画像データを首掛け型装置100からサーバ装置に送信し、サーバ装置において当該画像データの解析処理を行うこととしてもよい。この場合、首掛け型装置100とサーバ装置によって音声処理システムが構築されることとなる。
以上、本願明細書では、本発明の内容を表現するために、図面を参照しながら本発明の実施形態の説明を行った。ただし、本発明は、上記実施形態に限定されるものではなく、本願明細書に記載された事項に基づいて当業者が自明な変更形態や改良形態を包含するものである。
また、センサ部70による検知情報に基づいて、撮像部60による撮影方法を制御することも可能である。具体的には、撮像部60の撮影方法としては、例えば静止画の撮影、動画の撮影、スローモーション撮影、パノラマ撮影、タイムラプス撮影、タイマー撮影などが挙げられる。センサ部70が手指の動作を検知すると、制御部80の入力解析部80cは、センサ部70の検知情報を解析して、装着者の手指のジェスチャーが予め設定されているものに一致するかどうかを判断する。例えば、撮像部60を撮影方法には、それぞれ固有のジェスチャーが設定されており、入力解析部80cは、センサ部70の検知情報に基づいて、装着者のジェスチャーが予め設定されたジェスチャーに一致するかどうかを判断することとなる。撮像制御部80dは、入力解析部80cの解析結果に基づいて撮像部60による撮影方法を制御する。例えば、装着者のジェスチャーが静止画撮影用のジェスチャーに一致すると入力解析部80cが判断した場合、撮像制御部80dは撮像部60を制御して静止画の撮影を行う。あるいは、装着者のジェスチャーが動画撮影用のジェスチャーに一致すると入力解析部80cが判断した場合、撮像制御部80dは撮像部60を制御して動画の撮影を行う。このように、装着者のジェスチャーに応じて撮像部60による撮影方法を指定することができる。
また、前述した実施形態では、センサ部70による検知情報に基づいて主に撮像部60を制御することとしたが、センサ部70による検知情報に基づいて各集音部41~45を制御することも可能である。例えば、集音部41~45による集音の開始又は停止に関する固有のジェスチャーが予め設定されており、入力解析部80cは、センサ部70の検知情報に基づいて、装着者のジェスチャーが予め設定されたジェスチャーに一致するかどうかを判断する。そして、集音の開始又は停止に関するジェスチャーが検出された場合に、当該ジェスチャーの検知情報に応じて各集音部41~45によって集音を開始したり停止したりすればよい。
また、前述した実施形態では、主にセンサ部70による検知情報に基づいて撮像部60を制御することとしたが、各集音部41~45に入力された音声情報に基づいて撮像部60を制御することも可能である。具体的には、音声解析部80aが、集音部41~45が取得した音声を解析する。つまり、装着者又は対話者の音声認識を行い、その音声が撮像部60の制御に関するものであるか否かを判断する。その後、撮像制御部80dが、その音声の解析結果に基づいて撮像部60を制御する。例えば、撮影開始に関する所定の音声が集音部41~45に入力された場合には、撮像制御部80dは、撮像部60を起動させて撮影を開始する。また、撮像部60による撮影方法を指定する所定の音声が集音部41~45に入力された場合には、撮像制御部80dは、撮像部60を制御して指定された撮影方法を実行する。また、センサ部70による検知情報に基づいて集音部41~45を起動させた後、集音部41~45に入力された音声情報に基づいて撮像部60を制御することも可能である。
また、撮像部60によって撮像された画像に応じて、センサ部70の入力情報に基づく制御命令の内容が変化させることも可能である。具体的に説明すると、まず、画像解析部80eは、撮像部60によって取得された画像を解析する。例えば、画像に含まれる特徴点に基づいて、画像解析部80aは、人物が写った画像であるのか、特定の被写体(人工物や自然物など)が写った画像であるのか、あるいはその画像が撮像された状況(撮影場所や撮影時間、天候など)を特定する。なお、画像に含まれる人物については、その性別や年齢を分類することとしてもよいし、個人を特定することとしてもよい。
次に、画像の種類(人物、被写体、状況の種別)に応じて、人の手指によるジェスチャーに基づく制御命令のパターンが記憶部81記憶されている。このとき、同じジェスチャーであっても、画像の種類によって制御命令が異なることとしてもよい。具体的には、ある同一のジェスチャーであっても、画像に人物が写っている場合には、その人物の顔をフォーカスする制御命令となったり、画像に特徴的な自然物が写っている場合には、その自然物の周囲をパノラマ撮影する制御命令となる。また、画像に写っている人物の性別や年齢、被写体が人工物であるか自然物であるか、あるいは画像の撮影場所や時間、天候などを画像から検出して、ジェスチャーの意味内容を異ならせることもできる。そして、入力解析部80cは、画像解析部80eの画像解析結果を参照して、センサ部70によって検出されたジェスチャーについて、その画像解析結果に対応する意味内容を特定して、首掛け型装置100に入力される制御命令を生成する。このように、画像の内容に応じてジェスチャーの意味内容を変化させることで、画像の撮影状況や目的に応じて、様々なバリエーションの制御命令をジェスチャーによって装置に入力することが可能となる。