JP6786139B1

JP6786139B1 - 音声入力装置

Info

Publication number: JP6786139B1
Application number: JP2020116321A
Authority: JP
Inventors: 真人藤野; 雄一郎竹崎
Original assignee: Fairy Devices Inc
Current assignee: Fairy Devices Inc
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-11-18
Anticipated expiration: 2040-07-06
Also published as: EP4178220A1; JP2022014137A; US20230290369A1; CN115868176A; WO2022009626A1

Abstract

【課題】装着者及び二人の対話者を含む会話の音声をも適切に取得することが可能な音声入力装置を提供する。【解決手段】音声入力装置１００は、対象音源を挟んだ位置に配置可能な第１腕部１０及び第２腕部２０と、第１腕部１０及び第２腕部２０のそれぞれに３箇所以上（合計６箇所以上）設けられた複数の集音部４１〜４６を備える。【選択図】図１

Description

本発明は、音声入力装置に関する。より具体的に説明すると、本発明は、装着者の首元に装着可能であり、装着者及びその対話者の音声の取得に適した首掛け型の装置に関するものである。

近年、ユーザの身体の任意箇所に装着して、ユーザの状態やその周囲の環境の状態をセンシングすることのできるウェアラブルデバイスが注目を集めている。ウェアラブルデバイスとしては、例えばユーザの腕や、目元、耳元、首元、あるいはユーザが着用している衣服等に装着可能なものなど、様々な形態のものが知られている。このようなウェアラブルデバイスで収集したユーザの情報を解析することで、装着者やその他の者にとって有用な情報を取得することができる。

また、ウェアラブルデバイスの一種として、ユーザの首元に装着して装着者又はその対話者の発した音声を録音することのできる装置が知られている（特許文献１，特許文献２）。この特許文献１には、ユーザに装着される装着部を備え、この装着部が、ビームフォーミングのための音声データを取得する音声取得部（マイク）を少なくとも３つ有する音声処理システムが開示されている。また、特許文献１に記載のシステムでは、装着者の口を挟むように設けられた左右の腕部のそれぞれに音声取得部を設けることとしている。特に特許文献１では、左側の腕部に３つの音声取得部を配置し、右側の腕部に１つの音声取得部を配置することが好ましい実施形態であると提案されている。さらに、特許文献１では、地面の方向から到来する雑音（ロードノイズ）を抑圧するために、４つの音声取得部のうちの１つを装着者の足側を向くように配置することが好ましいとされている。

また、特許文献２には、ユーザの首元に装着されるウェアラブルデバイスであって、左右の腕部のそれぞれに２箇所ずつ（合計４箇所）設けられた音声取得部（マイクロホンアレイ）有する装置が記載されている。この特許文献２の装置では、マイクロホンアレイによって、装着者と対面する対話者の口のから到来する音声を取得することが開示されている。

特開２０１９−１３４４４１号公報米国特許出願公開第２０１９／０１３８６０３号明細書

ところで、特許文献１のシステムは、装着者の口元の周囲に複数のマイクが配置されているため、その装着者が発した音声をビームフォーミング処理によって抽出することができる。しかしながら、このシステムでは、一方の腕部にマイクが３箇所設けられているのに対して、他方の腕部にはマイクが１箇所しか設けられていないため、装着者の周囲で発生した音（環境音や対話者の音声など）を適切に取得することのできる範囲は装着者の左右どちらかの領域に偏在することとなる。つまり、ビームフォーミング処理によって特定音（装着者や対話者の音声など）を強調したり、あるいはその他の雑音を抑圧するためには、少なくとも３つのマイクに特定音が直線的に到達する必要がある。このとき、例えば、装着者の右側で特定音が発生した場合には、右側の腕部に設けられた３箇所のマイクに特定音が直線的に到達することになるが、装着者の左側で特定音が発生した場合、左側の腕部にはマイクが１箇所しか設けられていないことから、特定音の発生位置によっては音が装着者の首などによって遮られてしまい、３箇所以上のマイクに直線的に特定音が到達することが困難となる。この場合、装着者の左側で発生した音に対しては適切にビームフォーミング処理を行うことができない可能性が高い。このように、特許文献１のシステムは、複数のマイクを偏在配置することを前提としたものであり、装着者の口から発せられた音声を取得することは可能であるものの、その他周囲の環境音を取得することに適した設計とはなっていない。

また、特許文献２の装置は、左右の腕部のそれぞれに２箇所ずつ（合計４箇所）のマイクが設けられているため、特許文献１のシステムと比べて、装着者及び対話者から発せられた音声に対してより効果的にビームフォーミング処理を行うことができるものと考えられる。しかしながら、特許文献２の装置では、装着者と一人の対話者とで会話が行われることまでしか想定されていない。具体的には、特許文献２の装置は、装着者及び二人の対話者の合計３名での会話に対して、それぞれの者が発した音声に対して個別にビームフォーミング処理を行うことが困難である。すなわち、ビームフォーミング処理を適切に行うには、１つの音源に対して少なくとも３箇所のマイクによって音を取得し、各マイクで取得した音成分から当該音源の空間上の位置を特定して、当該音源からの音成分を強調したり、あるいはそれ以外の音成分を抑圧する必要がある。ここで、装着者に対面する対話者が二人いて、この二人の対話者が同時に発声したことを想定した場合、特許文献２の装置のようにマイクが４箇所しか設けられていないと、少なくとも２箇所のマイクについては、それによって取得した音成分から二人の対話者から発せられた音成分を分離しなければ、二名の対話者の音源位置を正確に特定できないことになる。このため、装着者及び二人の対話者を含む会話シーンでは、特許文献２の装置は、適切なビームフォーミング処理が実行できない場合があるという問題があった。また、装着者の左後方又は右後方に対話者が居ることを想定した場合、特許文献２の装置のようにマイクが４箇所しか設けられていないと、装着者の頭部が障害となって、３箇所のマイクに対話者の音声が直線的に到達しない場合がある。このため、装着者の後方にはビームフォーミングを行うことがでない範囲（非可聴範囲）が広く存在することとなるという問題もある。

そこで、本発明は、装着者及び二人の対話者を含む会話の音声をも適切に取得することができる音声入力装置を提供することを主な目的とする。

本発明の発明者らは、従来発明が抱える問題の解決手段について鋭意検討した結果、対象音源を挟んだ位置に配置される２つの腕部のそれぞれに集音部（マイク）を３箇所以上ずつ（合計６箇所以上）配置することで、装着者及び二人の対話者を含む会話の音声を同時に取得できるようになるという知見を得た。そして、本発明者らは、上記知見に基づけば従来発明の問題を解決できることに想到し、本発明を完成させた。具体的に説明すると、本発明は以下の構成を有する。

本発明は、音声入力装置に関する。本発明に係る音声入力装置は、２つの腕部と複数の集音部を備える。２つの腕部は、対象音源を挟んだ位置に配置可能に構成されている。対象音源の例は、装着者の口である。集音部は、２つの腕部のそれぞれに３箇所以上設けられる。具体的には、集音部は、一方の腕部に３箇所以上、他方の腕部に３２箇所以上設けられている。なお、集音部は、各腕部に４箇所以上ずつ又は５箇所以上ずつ設けられていてもよい。本発明に係る音声入力装置の好ましい実施形態は、ユーザの首元に装着される首掛け型の装置である。ただし、音声入力装置は、対象音源（装着者の口）を挟んだ位置に配置可能な腕部を有するものであれば、眼鏡型や耳掛け型などの別の形態とすることもできる。

上記構成のように、２つの腕部にそれぞれ３箇所以上の集音部を設けることで、腕部に挟まれた対象音源（例えば装着者の口）から発生した音だけでなく、対象音源の周囲で発生した音も同時に取得することが可能となる。特に、装着者と対面する二人の対話者の同時に発話した場合であっても、一方の腕部の３箇所の集音部で取得した音声に基づいて第１の対話者の音声成分を強調し、他方の腕部の３箇所の集音部で取得した音声に基づいて第２の対話者の音声成分を強調することができる。このため、装着者及び二人の対話者の合計３名で会話する場合であっても、全員の音声に対して適切な音声処理を実行することが可能となる。また、２つの腕部に３箇所以上ずつ集音部を設けておくことで、１つの腕部上の集音部によって対話者の音声を取得することができるため、装着者の左後方又は右後方に対話者が居る場合でも、その対話者の音声に対してビームフォーミング処理を行うことができる。すなわち、本発明の構成によれば、装着者の後方に存在するビームフォーミング処理ができない範囲（非可聴範囲）を少なくすることが可能である。

本発明に係る音声入力装置は、音声解析部をさらに備えることが好ましい。音声解析部は、各集音部によって取得された音に基づいて、その音が発せられた音源の空間上の位置又は方向を特定する。音声解析部は、各集音部によって取得された音の取得時間の差を求めて、その取得時間の差に基づいて、その音の音源の位置又は方向を特定してもよい。また、音声解析部は、機械学習後の学習済みモデルを参照して、各集音部によって取得された音の音源の空間上の位置又は方向を特定することもできる。これにより、各集音部によって取得した音の音源の位置又は方向に応じて、その音を強調したり抑圧したりするといったいわゆるビームフォーミング処理を行うことができる。

本発明に係る音声入力装置は、首掛け型の装置であり、装着者の口を対象音源とすることが好ましい。装着者及びその対話者の音声を録音するためには、首掛け型の装置を利用することが好適である。

本発明に係る音声入力装置において、音声解析部は、第１腕部に設けられた３つ以上の集音部によって取得した音に基づいて特定した音源が、装着者の第１腕部側にいる第１の対話者の口と一致するか否かを判断するとともに、第２腕部に設けられた３つ以上の集音部によって取得した音に基づいて特定した音源が、装着者の第２腕部側にいる第２の対話者の口と一致するか否かを判断することが好ましい。これにより、第１の対話者の音声については、第１腕部の３つ以上の集音部によって録音して音声強調を行い、第２の対話者の音声については、第２腕部の３つ以上のマイクで録音して音声強調を行うことができる。このように、第１腕部上の集音部と第２腕部上の集音部を独立して利用することで、第１の対話者と第２の対話者が同時に発話した場合に、各話者の音声成分の分離性能を高めることが可能となる。

本発明に係る音声入力装置は、音声処理部をさらに備えることが好ましい。音声処理部は、音声解析部が特定した音源の位置又は方向に基づいて、集音部で取得した音声データに含まれる音成分を強調又は抑圧する処理を行う。あるいは、音声処理部は、音声解析部が特定した音源の位置又は方向に基づいて、集音部で取得した音声データに含まれる音成分を強調する処理と抑圧する処理を同時に行うこととしてもよい。例えば、装着者の第１腕部上の集音部で取得した音声データに対しては、その第１腕部上の集音部で取得した音成分に基づいて第１の対話者の音声成分を強調すると同時に、第２腕部上の集音部で取得した音成分を利用して、第１の対話者の音声成分以外の成分（主に第２の対話者の音声成分）を抑圧する。同様に、装着者の第２腕部上の集音部で取得した音声データに対しては、その第２腕部上の集音部で取得した音成分に基づいて第２の対話者の音声成分を強調すると同時に、第１腕部上の集音部で取得した音成分を利用して、第２の対話者の音声成分以外の成分（主に第１の対話者の音声成分）を抑圧する。このように、第１腕部上の集音部と第２腕部上の集音部を独立利用して、第１の対話者と第２の対話者の音声成分を強調したり抑圧したりすることが可能である。

本発明に係る音声入力装置は、首掛け型の装置であって、装着者の首裏に相当する位置に、一又は複数の集音部をさらに備えることとしてもよい。このように、装着者の首裏に相当する位置に集音部を設けておくことで、装着者の背部側の音も適切に集音することができる。特に、左右の腕部のそれぞれに３箇所ずつ集音部を設けておくことに加えて、装着者の首裏にさらに集音部を設けておくことで、装着者の背部側の音源に対してもビームフォーミングを行うことができる。装着者の首裏に設ける追加の集音部は、１つでもよいし、２つ以上でもよい。また、装着者の首裏に設けた追加の集音部のみによって、装着者の背部側の音源に対してビームフォーミングを行うために、この集音部を３つ以上設けることとしてもよい。

本発明によれば、装着者及び二人の対話者を含む会話の音声をも適切に取得することが可能な音声入力装置を提供することができる。

図１は、首掛け型の音声入力装置の一例を示した斜視図である。図２は、音声入力装置を装着した状態を模式的に示した側面図である。図３は、音声入力装置の機能構成例を示したブロック図である。図４は、装着者と１人の対話者の音声を取得するビームフォーミング処理を模式的に示している。図５は、装着者と１人の対話者の音声を取得するビームフォーミング処理を模式的に示している。図６は、装着者と２人の対話者の音声を取得するビームフォーミング処理を模式的に示している。図７は、装着者と２人の対話者の音声を取得するビームフォーミング処理の例を示したフロー図である。

以下、図面を用いて本発明を実施するための形態について説明する。本発明は、以下に説明する形態に限定されるものではなく、以下の形態から当業者が自明な範囲で適宜変更したものも含む。

図１は、本発明に係る音声入力装置の一実施形態として、首掛け型装置１００を示している。また、図２は、首掛け型装置１００を装着した状態を示している。図１に示されるように、首掛け型装置１００を構成する筐体は、左腕部１０、右腕部２０、及び本体部３０を備える。左腕部１０と右腕部２０は、それぞれ本体部３０の左端と右端から前方に向かって延出しており、首掛け型装置１００は、平面視したときに装置全体として略Ｕ字をなす構造となっている。首掛け型装置１００を装着する際には、図２に示されるように、本体部３０を装着者の首裏に接触させ、左腕部１０と右腕部２０を装着者の首横から胸部側に向かって垂らすようにして、装置全体を首元に引っ掛ければよい。首掛け型装置１００の筐体内には、各種の電子部品が格納されている。

左腕部１０と右腕部２０には、それぞれ複数の集音部（マイク）４１〜４６が設けられている。集音部４１〜４６は、主に装着者とその対話者の音声を取得することを目的として配置されている。図１に示されるように、左腕部１０には第１集音部４１、第２集音部４２、及び第３集音部４３が設けられ、右腕部２０には第４集音部４４、第５集音部４５、及び第６集音部４６が設けられている。なお、任意の要素として、左腕部１０と右腕部２０に、一又は複数の集音部を追加で設けることもできる。さらに、左腕部１０と右腕部２０の間に位置する本体部３０に、任意の追加的要素として、第７集音部４７を設けることとしてもよい。この第７集音部４７は、装着者の首裏に相当する位置に設けられており、装着者の背部からの音声を取得することを目的として配置されている。これらの集音部４１〜４７によって取得した音信号は、本体部３０内に設けられた制御部８０（図３参照）へ伝達されて所定の解析処理が行われる。なお、本体部３０には、このような制御部８０を含む電子回路やバッテリーなどの制御系回路が内装されている。

第１集音部４１から第６集音部４６は、それぞれ左腕部１０と右腕部２０の前方（装着者の胸部側）に設けられている。具体的には、一般的な成人男性（首囲３５〜３７ｃｍ）の首元に首掛け型装置１００を装着することを想定した場合に、少なくとも第１集音部４１から第６集音部４６が、装着者の首よりも前方（胸部側）に位置するように設計されていることが好ましい。首掛け型装置１００は、装着者と対話者の音声を同時に集音することを想定したものであり、各集音部４１〜４６を装着者の首の前方側に配置することで、装着者の音声だけでなく、その対話者の音声を適切に取得することができる。また、左腕部１０上の第１集音部４１から第３の集音部４３と右腕部２０上の第４集音部４４から第６集音部４６は、左右対称となるように配置されていることが好ましい。具体的には、第１集音部４１と第４集音部４４、第２集音部４２と第５集音部４５、及び第３集音部４３と第６集音部４６は、それぞれ線対称位置に配置される。

左腕部１０には、さらに撮像部６０が設けられている。具体的には、左腕部１０の先端面１２に撮像部６０が設けられており、この撮像部６０によって装着者の正面側の静止画像や動画像を撮影することができる。撮像部６０によって取得された画像は、本体部３０内の制御部８０に伝達され、画像データとして記憶される。また、撮像部６０によって取得された画像をインターネットでサーバ装置へ送信することとしてもよい。撮像部６０が取得した画像から対話者の口元の位置を特定して、その口元から発せられた音声を強調する処理（ビームフォーミング処理）を行うことも可能である。

右腕部２０には、さらに非接触型のセンサ部７０が設けられている。センサ部７０は、主に首掛け型装置１００の正面側における装着者の手の動きを検知することを目的として、右腕部２０の先端面２２に配置されている。センサ部７０の検知情報は、撮像部６０の起動や、撮影の開始、停止など、主に撮像部６０の制御に利用される。例えば、センサ部７０は、装着者の手などの物体がそのセンサ部７０に近接したことを検知して撮像部６０を制御することとしてもよいし、あるいはセンサ部７０の検知範囲内で装着者が所定のジェスチャーを行ったことを検知して撮像部６０を制御することとしてもよい。なお、本実施形態において、左腕部１０の先端面１２に撮像部６０を配置し、右腕部２０の先端面２２にセンサ部７０を配置することとしているが、撮像部６０とセンサ部７０の位置を入れ替えることも可能である。

また、センサ部７０での検知情報を、撮像部６０、集音部４１〜４７、及び／又は制御部８０（メインＣＰＵ）の起動に利用することも可能である。例えば、センサ部７０、集音部４１〜４７、及び制御部８０が常時起動し、撮像部６０が停止している状態において、センサ部７０にて特定のジェスチャーを検知したときに撮像部６０を起動させることができる（条件１）。なお、この条件１では、集音部４１〜４７が特定の音声を検出したときに撮像部６０を起動させることも可能である。あるいは、センサ部７０及び集音部４１〜４７が常時起動し、制御部８０及び撮像部６０が停止している状態において、センサ部７０にて特定のジェスチャーを検知したときに制御部８０と撮像部６０のうちの任意のものを起動させることができる（条件２）。この条件２においても、集音部４１〜４７が特定の音声を検出したときに制御部８０及び撮像部６０を起動させることが可能である。あるいは、センサ部７０のみが常時起動し、集音部４１〜４７、制御部８０、及び撮像部６０が停止している状態において、センサ部７０にて特定のジェスチャーを検知したときに集音部４１〜４７、制御部８０、撮像部６０のうちの任意のものを起動させることができる（条件３）。上記条件１〜条件３は、条件３＞条件２＞条件１の順に消費電力の削減効果が大いといえる。

上記した左腕部１０と右腕部２０は、首元を挟んだ位置に配置可能である。この左腕部１０と右腕部２０は、装着者の首裏に当接する位置に設けられた本体部３０によって連結されている。この本体部３０には、プロセッサやバッテリーなどの電子部品（制御系回路）が内装されている。本体部３０を構成する筐体は、図１に示されるように、ほぼ平坦な形状となっており、平面状（板状）の回路基板やバッテリーを格納することができる。また、本体部３０は、左腕部１０及び右腕部２０よりも下方に向かって延出する下垂部３１を有する。本体部３０に下垂部３１を設けることで、制御系回路を内装するための空間を確保している。また、本体部３０には制御系回路が集中して搭載されている。この制御系回路には、バッテリーと、バッテリーから電力の供給を受けて駆動するプロセッサなどの各種電子部品が搭載された回路基板とが含まれる。このため、首掛け型装置１００の全重量を１００％とした場合に、本体部３０の重量は４０〜８０％又は５０％〜７０％を占める。このような重量の大きい本体部３０を装着者の首裏に配置することで、装着時における安定性が向上する。また、装着者の体幹に近い位置に重量の大きい本体部３０を配置することで、装置全体の重量が装着者に与える負荷を軽減できる。

また、本体部３０の内側（装着者側）には近接センサ８３が設けられている。近接センサ８３は、例えば回路基板８５の内側の面に搭載しておけばよい。近接センサ８３は、物体の接近を検出するためのものであり、首掛け型装置１００が装着者の首元に装着されると、その首元の接近を検出することとなる。このため、近接センサ８３が物体の近接を検出している状態にあるときに、各集音部４１〜４７、撮像部６０、及びセンサ部７０などの機器をオン（駆動状態）とし、近接センサ８３が物体の近接を検出していない状態にあるときには、これらの機器をオフ（スリープ状態）、もしくは起動できない状態とすればよい。これにより、バッテリー９０の電力消費を効率的に抑えることができる。また、近接センサ８３が物体の近接を検出していない状態にあるとき、撮像部６０と集音部４１〜４７を起動できなくすることによって、非装着時に意図的あるいは非意図的にデータが記録されてしまうことを防ぐという効果も期待できる。なお、近接センサ９０としては公知のものを用いることができるが、光学式のものが用いられる場合には、近接センサ９０の検出光を透過するために、本体部筐体３２に検出光を透過する透過部３２ａを設けるとよい。

なお、第１集音部４１から第６集音部４６と、任意追加的要素である第７集音部４７とは、別々に制御されていてもよい。すなわち、第７集音部４７は、装着者の背部方向からの音声を取得することを目的として設けられたものであり、装着者の前方からの音声をこの第７集音部４７で取得する必要はない。そこで、通常のシーンでは、まず第１集音部４１から第６集音部４６を起動しておけば、第７集音部４７を起動する必要はない。他方で、第１集音部４１から第６集音部４６によって装着者の背部方向からの音声を検出した場合、あるいはこれらの集音部４１〜４６によって適切にビームフォーミングができない音声を検出した場合に、第７集音部４７を起動させる。このように第７集音部４７については、第１集音部４１から第６集音部４６から独立してオン／オフを制御することで、消費電力を抑えつつ、効率的にこの第７集音部４７を利用することができる。

また、本体部３０の外側（装着者の反対側）には放音部８４（スピーカ）が設けられている。放音部８４は、例えば回路基板８５の外側の面に搭載しておけばよい。図２に示されるように、本実施形態において、放音部８４は、本体部３０の外側に向かって音を出力するように配置されている。このように、装着者の首裏から真後ろに向かって音を放出することで、この放音部８４から出力された音が、装着者の正面前方に存在する対話者に直接的に届きにくくなる。これにより、対話者が、装着者自身が発した音声と首掛け型装置の放音部から発せられた音とを混同する事態を防止できる。また、本実施形態では、左腕部１０と右腕部２０に第１集音部４１から第６集音部４６が設けられているが、放音部８４を装着者の首裏に相当する位置に設けておくことで、放音部８４と集音部４１〜４６との物理的な距離を最大限離すことができる。すなわち、各集音部４１〜４６にて装着者や対話者の音声を集音している状態において、放音部８４から何らかの音が出力されると、収録される装着者等の音声に放音部８４からの音（自己出力音）が混入する場合がある。自己出力音が収録音声に混入すると音声認識を妨害することになるため、この自己出力音をエコーキャンセル処理などによって取り除く必要がある。しかし、実際は筐体振動などの影響を受け、エコーキャンセル処理を行ったとしても、完全に自己出力音を取り除くことは困難である。このため、装着者等の音声に混入される自己出力音の音量を最小化するために、上記の通り装着者の首裏に相当する位置に放音部８４を設けて、集音部との物理的な距離をとることが好ましい。

また、放音部８４は、装着者の首後方の中央に相当する位置ではなく、左右どちらかに偏った位置に設置されていることが好ましい。その理由は、放音部８４が、首裏中央にある場合と比較して、左右どちらかの耳に近くなるためである。このように、放音部８４を、本体部３０のほぼ中央ではなく、左右どちらかに偏った位置に配置することで、出力音の音量を小さくした場合であっても、装着者が出力音を左右どちらかの耳で明瞭に聞き取ることができる。また、出力音の音量が小さくなれば、この出力音が対話者に届きにくくなるため、対話者としても、装着者の音声と放音部８４の出力音とが混同することを回避できる。

また、首掛け型装置１００の構造的特徴として、左腕部１０と右腕部２０は、本体部３０との連結部位の近傍にフレキシブル部１１，２１を有する。フレキシブル部１１，２１は、ゴムやシリコーンなどの可撓性材料で形成されている。このため、首掛け型装置１００の装着時に、左腕部１０及び右腕部２０が装着者の首元や肩上にフィットしやすくなる。なお、フレキシブル部１１，２１にも、第１集音部４１から第６集音部４６と操作部５０を制御部８０に接続する配線が挿通されている。

図３は、首掛け型装置１００の機能構成を示したブロック図である。図３に示されるように、首掛け型装置１００は、第１集音部４１から第７集音部４７、操作部５０、撮像部６０、センサ部７０、制御部８０、記憶部８１、通信部８２、近接センサ８３、放音部８４、及びバッテリー９０を有する。本実施形態において、左腕部１０には、第１集音部４１、第２集音部４２、第３集音部４３、操作部５０、及び撮像部６０が配置されている。また、右腕部２０には、第４集音部４４、第５集音部４５、第６集音部４６、及びセンサ部７０が配置されている。また、本体部３０には、制御部８０、記憶部８１、通信部８２、近接センサ８３、放音部８４、第７集音部４７、及びバッテリー９０が配置されている。なお、首掛け型装置１００は、図３に示した機能構成に加えて、ジャイロセンサ、加速度センサ、地磁気センサ、又はＧＰＳセンサなどのセンサ類など、一般的な携帯型情報端末に搭載されているモジュール機器を適宜搭載することができる。

各集音部４１〜４７としては、ダイナミックマイクやコンデンサマイク、ＭＥＭＳ(Micro-Electrical-Mechanical Systems)マイクなど、公知のマイクロホンを採用すればよい。集音部４１〜４７は、音を電気信号に変換し、その電気信号をアンプ回路によって増幅した上で、Ａ／Ｄ変換回路によってデジタル情報に変換して制御部８０へと出力する。本発明の首掛け型装置１００は、装着者の音声だけでなく、その周囲に存在する一又は複数の対話者の音声を取得することを目的の一つとしている。このため、装着者周囲で発生した音を広く集音できるように、各集音部４１〜４７としては、全指向性（無指向性）のマイクロホンを採用することが好ましい。

操作部５０は、装着者による操作の入力を受け付ける。操作部５０としては、公知のスイッチ回路又はタッチパネルなどを採用することができる。操作部５０は、例えば音声入力の開始又は停止を指示する操作や、装置の電源のＯＮ又はＯＦＦを指示する操作、スピーカの音量の上げ下げを指示する操作、その他首掛け型装置１００の機能の実現に必要な操作を受け付ける。操作部５０を介して入力された情報は制御部８０へと伝達される。

撮像部６０は、静止画像又は動画像の画像データを取得する。撮像部６０としては一般的なデジタルカメラを採用すればよい。撮像部６０は、例えば、撮影レンズ、メカシャッター、シャッタードライバ、ＣＣＤイメージセンサユニットなどの光電変換素子、光電変換素子から電荷量を読み出し画像データを生成するデジタルシグナルプロセッサ（ＤＳＰ）、及びＩＣメモリで構成される。また、撮像部６０は、撮影レンズから被写体までの距離を測定するオートフォーカスセンサ（ＡＦセンサ）と、このＡＦセンサが検出した距離に応じて撮影レンズの焦点距離を調整するための機構とを備えることが好ましい。ＡＦセンサの種類は特に限定されないが、位相差センサやコントラストセンサといった公知のパッシブ方式のものを用いればよい。また、ＡＦセンサとして、赤外線や超音波を被写体に向けてその反射光や反射波を受信するアクティブ方式のセンサを用いることもできる。撮像部６０によって取得された画像データは、制御部８０へと供給されて記憶部８１に記憶され、所定の画像解析処理が行われたり、あるいは通信部８２を介してインターネット経由でサーバ装置へと送信される。

また、撮像部６０は、いわゆる広角レンズを備えるものであることが好ましい。具体的には、撮像部６０の垂直方向画角は、１００〜１８０度であることが好ましく、１１０〜１６０度又は１２０〜１５０度であることが特に好ましい。このように、撮像部６０の垂直方向画角を広角とすることで、少なくとも対話者の頭部から胸部を広く撮影することができ、場合によっては対話者の全身を撮影することも可能となる。また、撮像部６０の水平方向画角は特に制限されないが、１００〜１６０度程度の広角のものを採用することが好ましい。

また、撮像部６０は、一般的に消費電力が大きいものであるため、必要な場合に限り起動し、それ以外の場合においてはスリープ状態となっていることが好ましい。具体的には、センサ部７０又は近接センサ８３の検知情報に基づいて、撮像部６０の起動や、撮影の開始又は停止が制御されるが、撮影停止後一定時間が経過した場合には、撮像部６０を再びスリープ状態とすればよい。

センサ部７０は、装着者の手指などの物体の動きを検知するための非接触型の検知装置である。センサ部７０の例は、近接センサ又はジェスチャーセンサである。近接センサは、例えば装着者の手指が所定範囲まで近接したことを検知する。近接センサとしては、光学式、超音波式、磁気式、静電容量式、又は温感式などの公知のものを採用できる。ジェスチャーセンサは、例えば装着者の手指の動作や形を検知する。ジェスチャーセンサの例は光学式センサであり、赤外発光ＬＥＤから対象物に向けて光を照射し、その反射光の変化を受光素子で捉えることで対象物の動作や形を検出する。センサ部７０による検知情報は、制御部８０へと伝達され、主に撮像部６０の制御に利用される。また、センサ部７０による検知情報に基づいて、各集音部４１〜４７の制御を行うことも可能である。センサ部７０は、一般的に消費電力が小さいものであるため、首掛け型装置１００の電源がＯＮになっている間は常時起動していることが好ましい。また、近接センサ８３により首掛け型装置１００の装着が検出されたときに、センサ部７０を起動させることとしてもよい。

制御部８０は、首掛け型装置１００が備える他の要素を制御する演算処理を行う。制御部８０としては、ＣＰＵなどのプロセッサを利用することができる。制御部８０は、基本的に、記憶部８１に記憶されているプログラムを読み出し、このプログラムに従って所定の演算処理を実行する。また、制御部８０は、プログラムに従った演算結果を記憶部８１に適宜書き込んだり読み出したりすることができる。詳しくは後述するが、制御部８０は、主に撮像部６０の制御処理やビームフォーミング処理を行うための音声解析部８０ａ、音声処理部８０ｂ、入力解析部８０ｃ、撮像制御部８０ｄ、及び画像解析部８０ｅを有する。これらの要素８０ａ〜８０ｅは、基本的にソフトウェア上の機能として実現される。ただし、これらの要素はハードウェアの回路として実現されるものであってもよい。

記憶部８１は、制御部８０での演算処理等に用いられる情報やその演算結果を記憶するための要素である。具体的に説明すると、記憶部８１は、汎用的な携帯型の情報通信端末を、本発明に係る音声入力装置として機能させるプログラムを記憶している。ユーザからの指示によりこのプログラムが起動されると、制御部８０によってプログラムに従った処理が実行される。記憶部８１のストレージ機能は、例えばＨＤＤ及びＳＤＤといった不揮発性メモリによって実現できる。また、記憶部８１は、制御部８０による演算処理の途中経過などを書き込む又は読み出すためのメモリとしての機能を有していてもよい。記憶部８１のメモリ機能は、ＲＡＭやＤＲＡＭといった揮発性メモリにより実現できる。また、記憶部８１には、それを所持するユーザ固有のＩＤ情報が記憶されていてもよい。また、記憶部８１には、首掛け型装置１００のネットワーク上の識別情報であるＩＰアドレスが記憶されていてもよい。

また、記憶部８１には、制御部８０によるビームフォーミング処理で利用する学習済みモデルが記憶されていてもよい。学習済みモデルは、例えばクラウド上のサーバ装置においてディープラーニングや強化学習等の機械学習を行うことにより得られた推論モデルである。具体的に説明すると、ビームフォーミング処理では、複数の集音部で取得した音データを解析して、その音を発生した音源の位置又は方向を特定する。このとき、例えば、サーバ装置にある音源の位置情報とその音源から発生した音を複数の集音部で取得したデータとのデータセット（教師データ）を多数蓄積し、これらの教師データ用いた機械学習を実施して学習済みモデルを予め作成しておく。そして、個別の首掛け型装置１００において複数の集音部により音データを取得したときに、この学習済みモデルを参照することで、音源の位置又は方向を効率良く特定することができる。また、首掛け型装置１００は、サーバ装置と通信することによりこの学習済みモデルを随時アップデートすることもできる。

通信部８２は、クラウド上のサーバ装置又は別の首掛け型装置と無線通信するための要素である。通信部８２は、インターネットを介してサーバ装置や別の首掛け型装置と通信を行うために、例えば、３Ｇ（W-CDMA）、４Ｇ（LTE／LTE-Advanced）、５Ｇといった公知の移動通信規格や、Wi-Fi（登録商標）等の無線ＬＡＮ方式で無線通信するための通信モジュールを採用すればよい。また、通信部８２は、別の首掛け型装置と直接的に通信を行うために、Bluetooth（登録商標）やＮＦＣ等の方式の近接無線通信用の通信モジュールを採用することもできる。

近接センサ８３は、主に首掛け型装置１００（特に本体部３０）と装着者の接近を検知するために用いられる。近接センサ８３としては、前述のように光学式、超音波式、磁気式、静電容量式、又は温感式などの公知のものを採用できる。近接センサ８３は、本体部３０の内側に配置され、装着者の首元が所定範囲内に接近したことを検出する。近接センサ８３によって装着者の首元の接近が検出された場合、各集音部４１〜４７、撮像部６０、センサ部７０、及び／又は放音部８４を起動することができる。なお、前述の通り、近接センサ８３によって装着者の首元の接近が検出された場合に、まず第１集音部４１から第６集音部４６のみを起動させることとし、装着者の背部方向からの音声が検出されるまで第７集音部４７についてはオフの状態としておくことも可能である。

放音部８４は、電気信号を物理的振動（すなわち音）に変換する音響装置である。放音部８４の例は、空気振動により音を装着者に伝達する一般的なスピーカである。この場合、前述したように、放音部８４を本体部３０の外側（装着者と反対側）に設けて、装着者の首裏から離れる方向（水平方向後方）又は首裏に沿う方向（鉛直方向上方）に向かって音を放出するように構成することが好ましい。また、放音部８４としては、装着者の骨を振動させることにより音を装着者に伝達する骨伝導スピーカであってもよい。この場合、放音部８４を本体部３０の内側（装着者側）に設けて、骨伝導スピーカが装着者の首裏の骨（頚椎）に接触するように構成すればよい。

バッテリー９０は、首掛け型装置１００に含まれる各種電子部品に対して電力を供給する電池である。バッテリー９０としては、充電可能な蓄電池が用いられる。バッテリー９０は、リチウムイオン電池、リチウムポリマー電池、アルカリ蓄電池、ニッケルカドミウム電池、ニッケル水素電池、又は鉛蓄電池など公知のものを採用すればよい。バッテリー９０は、本体部３０の筐体内において、バッテリー９０と装着者の首裏の間に回路基板を介在するように配置される。

続いて、図４から図６を参照して、ビームフォーミング処理の基本概念について具体的に説明する。ユーザが図１に示した実施形態の首掛け型装置１００を装着すると、図４（ａ）及び図４（ｂ）に示されるように、装着者の首元の胸部側に６つの集音部４１〜４６が位置することとなる。第１集音部４１から第６集音部４６はいずれも全指向性のマイクロホンであり、常時、主に装着者の口から発せられた音声を集音するとともに、その他の装着者周囲の環境音を集音している。環境音には、装着者の周囲に位置する対話者の音声が含まれる。装着者及び／又は対話者が音声を発すると、各集音部４１〜４６によって音声データが取得される。各集音部４１〜４６は、それぞれの音声データを制御部８０へと出力する。

制御部８０の音声解析部８０ａは、各集音部４１〜４６で取得した音声データを解析する処理を行う。具体的には、音声解析部８０ａは、各集音部４１〜４６の音声データに基づいて、その音声が発せられた音源の空間上の位置又は方向を特定する。例えば、機械学習済みの学習済みモデルが首掛け型装置１００にインストールされている場合、音声解析部８０ａは、その学習済みモデルを参照して各集音部４１〜４６の音声データから音源の位置又は方向を特定できる。あるいは、各集音部４１〜４６間の距離は既知であるため、音声解析部８０ａは、音声が各集音部４１〜４６に到達した時間差に基づいて、各集音部４１〜４６から音源までの距離を求め、その距離から三角測量法により音源の空間位置又は方向を特定することとしてもよい。三角測量法によれば、少なくとも３箇所の集音部から音源までの距離が特定できれば、その音源の空間位置又は方向を特定できる。このため、左腕部１０上の第１集音部４１から第３集音部４３が取得した音声データのみからでも音源の位置等を特定でき、同様に右腕部２０上の第４集音部４４から第６集音部４６が取得した音声データのみからでも音源の位置等を特定できる。

また、音声解析部８０ａは、上記処理により特定した音源の位置又は方向が、装着者の口又は対話者の口と推定される位置又は方向と一致するか否かを判断する。例えば、首掛け型装置１００と装着者の口の位置関係や首掛け型装置１００と対話者の口の位置関係は予め想定可能であるため、その想定される範囲内に音源が位置している場合に、その音源を装着者又は対話者の口であると判断すればよい。また、首掛け型装置１００に対して著しく下方、上方、又は後方に音源が位置している場合、その音源は装着者又は対話者の口ではないと判断できる。

次に、制御部８０の音声処理部８０ｂは、音声解析部８０ａが特定した音源の位置又は方向に基づいて、音声データに含まれる音成分を強調又は抑圧する処理を行う。具体的には、音源の位置又は方向が装着者又は対話者の口と推定される位置又は方向と一致する場合、その音源から発せられた音成分を強調する。他方で、音源の位置又は方向が装着者又は対話者の口と一致しない場合、その音源から発せられた音成分は雑音であるとみなして、その音成分を抑圧すればよい。このように、本発明では、複数の全指向性のマイクロホンを用いて全方位の音データを取得し、制御部８０のソフトウェア上の音声処理によって特定の音成分と強調又は抑圧するビームフォーミング処理を行う。これにより、装着者の音声と対話者の音声を同時に取得し、必要に応じてその音声の音成分を強調することが可能となる。

続いて、図５を参照して、対話者の音声を適切にビームフォーミング可能な範囲について説明する。図５（ａ）に示されるように、装着者の正面側に対話者が位置している場合、対話者が発した音声は、首掛け型装置１００に搭載された６つの集音部４１〜４６の全てに直線的に到達する。この場合、前述したとおり、対話者が発した音声を強調するビームフォーミング処理を行うことができる。また、図５（ａ）に示したように、例えば、装着者の右側に対話者が位置している場合、この右側の対話者が発声した音声に対しては、少なくとも首掛け型装置１００の右腕部２０に設けられた３つの集音部４４〜４６で音声を取得することができれば、ビームフォーミング処理を行うことができる。装着者の左側に対話者が位置している場合も同様である。このように、本発明では、左腕部１０及び右腕部２０にそれぞれ３箇所ずつ集音部４１〜４６が設けられているため、装着者の左右に存在する対話者の音声に対しては、左腕部１０上の集音部４１〜４３のみ又は右腕部２０上の集音部４４〜４６のみであっても対処可能である。

また、図５（ｂ）に示されるように、装着者の左右の後方に対話者が位置している場合でも、左腕部１０上の集音部４１〜４３又は右腕部２０上の集音部４４〜４６のうちの３つ以上の集音部によって、その対話者の音声を取得できればビームフォーミング処理が可能である。さらに、本発明の好ましい実施形態では、装着者の首裏に相当する位置に第７集音部４７が設けられている。このため、装着者のほぼ真後ろに対話者が位置している場合であっても、対話者が発した音声が、第１集音部４１から第６集音部４６のうちの少なくとも２つ（例えば第３集音部４３，第６集音部４６）と第７集音部４７とに直線的に到達すれば、これら３つ以上の集音部によってビームフォーミング処理を行うことが可能となる。このため、左腕部１０と右腕部２０のそれぞれに３箇所ずつ集音部４１〜４６が設けられ、さらに追加的に本体部３０に第７集音部４７が設けられた形態では、装着者の周囲全方向（約３６０度）に対してビームフォーミングを行うことが可能となる。この場合ビームフォーミングが行えない死角領域は存在しない。

このように、適切にビームフォーミング処理を行うためには３つ以上の集音部に対話者の音声が直線的に到達することが必要となる。このような制約を考慮すると、首掛け型装置１００の左右の腕部１０，２０のそれぞれに３箇所ずつ（合計６箇所）集音部を設置した構成とすれば、対話者の音声を適切にビームフォーミングできる可聴範囲を、装着者の後方を除く広い範囲に広げることができる。具体的には、左右の腕部１０，２０のそれぞれに３箇所ずつ集音部４１〜４６を設置することで、ビームフォーミング可能な可聴範囲は、装着者の眼前からおよそ２６０度以上、好ましくは３２０度以上にまで広げることが可能となる。このように、装着者の左右両側をほぼ完全に可聴範囲とすることができる。このため、装着者と対面して会話している対話者だけでなく、装着者と横並びになって会話している対話者の音声も適切に取得することができる。また、上記集音部４１〜４６に加えて、本体部３０に第７集音部４７を設けることで、左右の腕部１０，２０の集音部４１〜４６だけでは対応できない領域（特に装着者の背部）に対してもビームフォーミングが可能となる。

続いて、図６を参照して、首掛け型装置１００の装着者と、首掛け型装置を装着していない二人の対話者との合計３名で会話する場合について説明する。図６に示した例では、便宜的に、平面視において、会話に参加する３人が正三角形の各頂点に位置しており、３人の相対位置は変化しないものとする。ただし、時間の経過に伴って３人の相対位置が変化する場合でも、定期的に各話者の音声から位置を特定して、各話者の変化後の位置を追跡すればよい。また、図６では、「装着者」から見みて、左腕部１０側に位置する対話者と「第１の対話者」、右腕部２０側に位置する対話者と「第２の対話者」としている。

このように、三者にて会話を行う場合、第１の対話者と第２の対話者が同時に発話することが想定される。この場合のビームフォーミング処理の一例を、図７に示している。すなわち、本発明に係る首掛け型装置１００では、まず、音声解析部８０ａは、左腕部１０上の第１集音部４１から第３集音部４３によって取得した第１音声データを利用して、第１の対話者の音声の音源の位置又は方向を特定する（Ｓ１）。また、音声処理部８０ｂは、第１音声データに対して、特定された第１の対話者の音声成分を強調する処理を行う（Ｓ２）。同様に、音声解析部８０ａは、右腕部２０上の第４集音部４４から第６集音部４６によって取得した第２音声データを利用して、第２の対話者の音声の音源の位置又は方向を特定する（Ｓ１）。また、音声処理部８０ｂは、第２音声データに対して、特定された第２の対話者の音声成分を強調する処理を行う（Ｓ２）。このように、三者にて会話を行う場合は、左腕部１０上の３つの集音部４１〜４３と右腕部２０上の３つの集音部４４〜４６を独立して利用し、左腕部１０上の集音部４１〜４３によって取得された第１音声データと、右腕部２０上の集音部４４〜４６で取得された第２音声データとを分離した上で、各音声データに対して音声処理を行うことが好ましい。

さらに、本発明に係る首掛け型装置１００では、上記した音声強調処理と共に、それぞれ交差する音成分の抑圧処理を行うことができる。すなわち、左腕部１０上の集音部４１〜４３によって取得した第１音声データは、前述の通り第１の対話者の音声成分が強調されているが、それ以外にも第２の対話者の音声成分などが含まれている。他方で、第２の対話者の音声成分は、右腕部２０上の集音部４〜４３によって取得した第２音声データにおいて強調処理がすでに済んでいる。そこで、音声処理部８０ｂは、図７に示されるように、第２音声データにおいて強調された第２の対話者の音声成分を利用して、第１音声データにおける第２の対話者の音声成分を抑圧する（Ｓ３）。同様に、音声処理部８０ｂは、第１音声データにおいて強調された第１の対話者の音声成分を利用して、第２音声データにおける第１の対話者の音声成分を抑圧する（Ｓ３）。これにより、左腕部１０上の集音部４１〜４３によって取得された第１音声データは、第１の対話者の音声成分が強調されるとともに、第２の対話者の音声成分が抑圧されたものとなる。また、右腕部２０上の集音部４４〜４６によって取得された第２音声データは、第２の対話者の音声成分が強調されるとともに、第１の対話者の音声成分が抑圧されたものとなる。このように、左腕部１０の集音部４１〜４３と右腕部２０の集音部４４〜４６を独立して利用することで、第１の対話者と第２の対話者が同時に発話した場合であっても、各話者の音声成分の分離性能を高めることができる。

なお、音声成分を抑圧する信号処理は、適宜公知の処理方法を利用することができるが、最も単純にはスペクトルの減算処理を行えばよい。例えば、第１の対話者の強調された音声から、第２の対話者の強調された音声を時間周波数領域で減算し、その減算結果を最終結果とする。ただし単純なスペクトル減算処理の場合には、ミュージカルノイズと呼ばれる副作用が知られており、この副作用を低減することができる他の処理も併用することが可能である。ミュージカルノイズの低減処理は、一般的には、参照信号付きノイズ抑圧処理と呼ばれる分野の処理であり、例えばＭＭＳＥ（Minimum Mean-Square-Error）法やＭＡＰ（Maximum a Posteriori）法などが知られている。その他、いわゆるエコーキャンセル処理に含まれる「適応フィルタ」を用いた処理を利用することも可能である。例えば、ＭＭＳＥ法やＭＡＰ法を利用する場合、左腕部１０の集音部４１〜４３で取得した３ｃｈの第１音声データと、右腕部３０の集音部４４〜４６で取得した３ｃｈの第２音声データに対して、それぞれ音声強調処理を行って、それぞれから１ｃｈの参照信号を得た後に、参照信号間の抑圧処理を行って、第１の対話者と第２の対話者の音声成分が分離された最終結果を得る。また、「適応フィルタ」を用いた処理を利用する場合には、左腕部１０の集音部４１〜４３で取得した３ｃｈの第１音声データと、右腕部３０の集音部４４〜４６で取得した３ｃｈの第２音声データに対して、それぞれ音声強調処理を行って、それぞれから１ｃｈの参照信号を得る。その後、元の３ｃｈの音声データに対して各チャネルの適用フィルタを掛けて、元の３ｃｈの音声データから、異なる対話者由来の音声成分を除いた新しい３ｃｈの音声データを生成する。そして、この新しい音声データに対して音声強調処理を行って、第１の対話者と第２の対話者の音声成分が分離された１ｃｈの最終結果を得ればよい。

また、対話者の音声を取得する場合には、撮像部６０を起動させて対話者を撮影することが好ましい。具体的に説明すると、装着者は、非接触型のセンサ部７０の検知範囲内で自身の手指によって所定のジェスチャーを行う。ジェスチャーには、手指で所定の動作を行うことや、手指で所定の形を作ることが含まれる。センサ部７０が手指の動作を検知すると、制御部８０の入力解析部８０ｃは、センサ部７０の検知情報を解析して、装着者の手指のジェスチャーが予め設定されているものに一致するかどうかを判断する。例えば、撮像部６０を起動させるためのジェスチャーや、撮像部６０によって撮影を開始するためのジェスチャー、撮影を停止させるためのジェスチャーなど、撮像部６０の制御に関する所定のジェスチャーが予め設定されているため、入力解析部８０ｃは、センサ部７０の検知情報に基づいて、装着者のジェスチャーが上記した所定のものに一致するかどうかを判断することとなる。

次に、制御部８０の撮像制御部８０ｄは、入力解析部８０ｃの解析結果に基づいて撮像部６０を制御する。例えば、装着者のジェスチャーが撮像部６０起動用のジェスチャーに一致すると入力解析部８０ｃが判断した場合、撮像制御部８０ｄは撮像部６０を起動させる。また、撮像部６０の起動後、装着者のジェスチャーが撮影開始用のジェスチャーに一致すると入力解析部８０ｃが判断した場合、撮像制御部８０ｄは画像の撮影を開始するように撮像部６０を制御する。さらに、撮影の開始後、装着者のジェスチャーが撮影停止用のジェスチャーに一致すると入力解析部８０ｃが判断した場合、撮像制御部８０ｄは画像の撮影を停止するように撮像部６０を制御する。なお、撮像制御部８０ｄは、撮影停止後一定時間を経過した段階で撮像部６０を再びスリープ状態とすることとしてもよい。

制御部８０の画像解析部８０ｅは、撮像部６０によって取得した静止画像又は動画像の画像データを解析する。例えば、画像解析部８０ｅは、画像データに解析することにより、首掛け型装置１００から対話者の口までの距離や両者の位置関係を特定することができる。また、画像解析部８０ｅは、画像データに基づいて、対話者の口が開いているか否か、あるいは対話者の口が開閉しているか否かを解析することにより、対話者が発声しているか否かを特定することも可能である。画像解析部８０ｅによる解析結果は、上述したビームフォーミング処理に利用される。具体的には、各集音部４１〜４７によって集音した音声データの解析結果に加えて、撮像部６０による画像データの解析結果を利用すれば、対話者の口の空間上の位置や方向を特定する処理の精度を高めることができる。また、画像データに含まれる対話者の口の動作を解析して、その対話者が発声していることを特定することで、その対話者の口から発せられた音声を強調する処理の精度を高めることができる。

音声処理部８０ｂによる処理後の音声データと、撮像部６０によって取得された画像データは、記憶部８１に記憶される。また、制御部８０は、処理後の音声データと画像データを、通信部８２を介してクラウド上のサーバ装置や別の首掛け型装置１００に送信することもできる。サーバ装置は、首掛け型装置１００から受信した音声データに基づいて、音声のテキスト化処理や、翻訳処理、統計処理、その他の任意の言語処理を行うこともできる。また、撮像部６０によって取得された画像データを利用して、上記言語処理の精度を高めることともできる。また、サーバ装置は、首掛け型装置１００から受信した音声データと画像データを機械学習用の教師データとして利用して、学習済みモデルの精度を向上させることも可能である。また、首掛け型装置１００間で音声データを送受信し合うことにより装着者間で遠隔通話を行うこととしてもよい。その際に、首掛け型装置１００同士で近接無線通信を介して直接音声データを送受信することしてもよいし、サーバ装置を介してインターネット経由で首掛け型装置１００同士で音声データを送受信することとしてもよい。

本願明細書では、主に、首掛け型装置１００が、機能構成として音声解析部８０ａ、音声処理部８０ｂ、及び画像解析部８０ｅを備えており、ローカルでビームフォーミング処理を実行する実施形態について説明した。ただし、音声解析部８０ａ、音声処理部８０ｂ、及び画像解析部８０ｅのいずれか又は全ての機能を、首掛け型装置１００にインターネットで接続されたクラウド上のサーバ装置に分担させることもできる。この場合、例えば、首掛け型装置１００が各集音部４１〜４７で取得した音声データをサーバ装置に送信し、サーバ装置が音源の位置又は方向を特定したり、装着者又は対話者の音声を強調してそれ以外の雑音を抑制する音声処理を行ったりしてもよい。また、撮像部６０によって取得した画像データを首掛け型装置１００からサーバ装置に送信し、サーバ装置において当該画像データの解析処理を行うこととしてもよい。この場合、首掛け型装置１００とサーバ装置によって音声処理システムが構築されることとなる。

以上、本願明細書では、本発明の内容を表現するために、図面を参照しながら本発明の実施形態の説明を行った。ただし、本発明は、上記実施形態に限定されるものではなく、本願明細書に記載された事項に基づいて当業者が自明な変更形態や改良形態を包含するものである。

また、センサ部７０による検知情報に基づいて、撮像部６０による撮影方法を制御することも可能である。具体的には、撮像部６０の撮影方法としては、例えば静止画の撮影、動画の撮影、スローモーション撮影、パノラマ撮影、タイムラプス撮影、タイマー撮影などが挙げられる。センサ部７０が手指の動作を検知すると、制御部８０の入力解析部８０ｃは、センサ部７０の検知情報を解析して、装着者の手指のジェスチャーが予め設定されているものに一致するかどうかを判断する。例えば、撮像部６０を撮影方法には、それぞれ固有のジェスチャーが設定されており、入力解析部８０ｃは、センサ部７０の検知情報に基づいて、装着者のジェスチャーが予め設定されたジェスチャーに一致するかどうかを判断することとなる。撮像制御部８０ｄは、入力解析部８０ｃの解析結果に基づいて撮像部６０による撮影方法を制御する。例えば、装着者のジェスチャーが静止画撮影用のジェスチャーに一致すると入力解析部８０ｃが判断した場合、撮像制御部８０ｄは撮像部６０を制御して静止画の撮影を行う。あるいは、装着者のジェスチャーが動画撮影用のジェスチャーに一致すると入力解析部８０ｃが判断した場合、撮像制御部８０ｄは撮像部６０を制御して動画の撮影を行う。このように、装着者のジェスチャーに応じて撮像部６０による撮影方法を指定することができる。

また、前述した実施形態では、センサ部７０による検知情報に基づいて主に撮像部６０を制御することとしたが、センサ部７０による検知情報に基づいて各集音部４１〜４７を制御することも可能である。例えば、集音部４１〜４７による集音の開始又は停止に関する固有のジェスチャーが予め設定されており、入力解析部８０ｃは、センサ部７０の検知情報に基づいて、装着者のジェスチャーが予め設定されたジェスチャーに一致するかどうかを判断する。そして、集音の開始又は停止に関するジェスチャーが検出された場合に、当該ジェスチャーの検知情報に応じて各集音部４１〜４７によって集音を開始したり停止したりすればよい。

また、前述した実施形態では、主にセンサ部７０による検知情報に基づいて撮像部６０を制御することとしたが、各集音部４１〜４７に入力された音声情報に基づいて撮像部６０を制御することも可能である。具体的には、音声解析部８０ａが、集音部４１〜４７が取得した音声を解析する。つまり、装着者又は対話者の音声認識を行い、その音声が撮像部６０の制御に関するものであるか否かを判断する。その後、撮像制御部８０ｄが、その音声の解析結果に基づいて撮像部６０を制御する。例えば、撮影開始に関する所定の音声が集音部４１〜４７に入力された場合には、撮像制御部８０ｄは、撮像部６０を起動させて撮影を開始する。また、撮像部６０による撮影方法を指定する所定の音声が集音部４１〜４７に入力された場合には、撮像制御部８０ｄは、撮像部６０を制御して指定された撮影方法を実行する。また、センサ部７０による検知情報に基づいて集音部４１〜４７を起動させた後、集音部４１〜４７に入力された音声情報に基づいて撮像部６０を制御することも可能である。

また、撮像部６０によって撮像された画像に応じて、センサ部７０の入力情報に基づく制御命令の内容が変化させることも可能である。具体的に説明すると、まず、画像解析部８０ｅは、撮像部６０によって取得された画像を解析する。例えば、画像に含まれる特徴点に基づいて、画像解析部８０ａは、人物が写った画像であるのか、特定の被写体（人工物や自然物など）が写った画像であるのか、あるいはその画像が撮像された状況（撮影場所や撮影時間、天候など）を特定する。なお、画像に含まれる人物については、その性別や年齢を分類することとしてもよいし、個人を特定することとしてもよい。

次に、画像の種類（人物、被写体、状況の種別）に応じて、人の手指によるジェスチャーに基づく制御命令のパターンが記憶部８１記憶されている。このとき、同じジェスチャーであっても、画像の種類によって制御命令が異なることとしてもよい。具体的には、ある同一のジェスチャーであっても、画像に人物が写っている場合には、その人物の顔をフォーカスする制御命令となったり、画像に特徴的な自然物が写っている場合には、その自然物の周囲をパノラマ撮影する制御命令となる。また、画像に写っている人物の性別や年齢、被写体が人工物であるか自然物であるか、あるいは画像の撮影場所や時間、天候などを画像から検出して、ジェスチャーの意味内容を異ならせることもできる。そして、入力解析部８０ｃは、画像解析部８０ｅの画像解析結果を参照して、センサ部７０によって検出されたジェスチャーについて、その画像解析結果に対応する意味内容を特定して、首掛け型装置１００に入力される制御命令を生成する。このように、画像の内容に応じてジェスチャーの意味内容を変化させることで、画像の撮影状況や目的に応じて、様々なバリエーションの制御命令をジェスチャーによって装置に入力することが可能となる。

１０…左腕部（第１腕部）１１…フレキシブル部
１２…先端面１３…下面
１４…上面２０…右腕部（第２腕部）
２１…フレキシブル部２２…先端面
２３…下面２４…上面
３０…本体部３１…下垂部
３２…本体部筐体３２ａ…透過部
３２ｂ…グリル４１…第１集音部
４２…第２集音部４３…第３集音部
４４…第４集音部４５…第５集音部
４６…第６集音部４７…第７集音部
５０…操作部６０…撮像部
７０…センサ部８０…制御部
８０ａ…音声解析部８０ｂ…音声処理部
８０ｃ…入力解析部８０ｄ…撮像制御部
８０ｅ…画像解析部８１…記憶部
８２…通信部８３…近接センサ
８４…放音部９０…バッテリー
１００…首掛け型装置（音声入力装置）

Claims

対象音源を挟んだ位置に配置可能な第１腕部及び第２腕部と、
前記第１腕部及び第２腕部のそれぞれに３箇所以上設けられた複数の集音部と、
各集音部によって取得された音に基づいて、その音が発せられた音源の空間上の位置又は方向を特定する音声解析部を備え、
前記音声解析部は、前記第１腕部に設けられた前記集音部によって取得した音と、前記第２腕部に設けられた集音部によって取得した音とで、それぞれ別々の音源の空間上の位置又は方向を特定する
音声入力装置。
前記音声入力装置は、首掛け型の装置であり、
前記対象音源は、前記音声入力装置の装着者の口である
請求項１に記載の音声入力装置。
前記音声解析部は、前記第１腕部に設けられた前記集音部によって取得した音に基づいて特定した音源が、前記装着者の前記第１腕部側にいる第１の対話者の口と一致するか否かを判断するとともに、前記第２腕部に設けられた前記集音部によって取得した音に基づいて特定した音源が、前記装着者の前記第２腕部側にいる第２の対話者の口と一致するか否かを判断する
請求項２に記載の音声入力装置。
前記音声解析部が特定した音源の位置又は方向に基づいて、前記集音部で取得した音声データに含まれる音成分を強調又は抑圧する処理を行う音声処理部を、さらに備える
請求項１から請求項３のいずれかに記載の音声入力装置。
前記音声処理部は、前記音声解析部が特定した音源の位置又は方向に基づいて、前記集音部で取得した音声データに含まれる音成分を強調する処理と抑圧する処理を同時に行う
請求項４に記載の音声入力装置。
前記音声入力装置は、首掛け型の装置であり、
装着者の首裏に相当する位置に、一又は複数のさらに集音部を備える
請求項１から請求項５のいずれかに記載の音声入力装置。