JP6786139B1 - 音声入力装置 - Google Patents

音声入力装置 Download PDF

Info

Publication number
JP6786139B1
JP6786139B1 JP2020116321A JP2020116321A JP6786139B1 JP 6786139 B1 JP6786139 B1 JP 6786139B1 JP 2020116321 A JP2020116321 A JP 2020116321A JP 2020116321 A JP2020116321 A JP 2020116321A JP 6786139 B1 JP6786139 B1 JP 6786139B1
Authority
JP
Japan
Prior art keywords
sound
unit
voice
wearer
sound collecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020116321A
Other languages
English (en)
Other versions
JP2022014137A (ja
Inventor
真人 藤野
真人 藤野
雄一郎 竹崎
雄一郎 竹崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fairy Devices Inc
Original Assignee
Fairy Devices Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fairy Devices Inc filed Critical Fairy Devices Inc
Priority to JP2020116321A priority Critical patent/JP6786139B1/ja
Application granted granted Critical
Publication of JP6786139B1 publication Critical patent/JP6786139B1/ja
Priority to EP21837976.6A priority patent/EP4178220A1/en
Priority to CN202180049798.7A priority patent/CN115868176A/zh
Priority to US18/014,752 priority patent/US20230290369A1/en
Priority to PCT/JP2021/022813 priority patent/WO2022009626A1/ja
Publication of JP2022014137A publication Critical patent/JP2022014137A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • H04R5/0335Earpiece support, e.g. headbands or neckrests
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/02Details casings, cabinets or mounting therein for transducers covered by H04R1/02 but not provided for in any of its subgroups
    • H04R2201/028Structural combinations of loudspeakers with built-in power amplifiers, e.g. in the same acoustic enclosure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/03Aspects of the reduction of energy consumption in hearing devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/07Use of position data from wide-area or local-area positioning systems in hearing devices, e.g. program or information selection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Otolaryngology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)

Abstract

【課題】装着者及び二人の対話者を含む会話の音声をも適切に取得することが可能な音声入力装置を提供する。【解決手段】音声入力装置100は、対象音源を挟んだ位置に配置可能な第1腕部10及び第2腕部20と、第1腕部10及び第2腕部20のそれぞれに3箇所以上(合計6箇所以上)設けられた複数の集音部41〜46を備える。【選択図】図1

Description

本発明は、音声入力装置に関する。より具体的に説明すると、本発明は、装着者の首元に装着可能であり、装着者及びその対話者の音声の取得に適した首掛け型の装置に関するものである。
近年、ユーザの身体の任意箇所に装着して、ユーザの状態やその周囲の環境の状態をセンシングすることのできるウェアラブルデバイスが注目を集めている。ウェアラブルデバイスとしては、例えばユーザの腕や、目元、耳元、首元、あるいはユーザが着用している衣服等に装着可能なものなど、様々な形態のものが知られている。このようなウェアラブルデバイスで収集したユーザの情報を解析することで、装着者やその他の者にとって有用な情報を取得することができる。
また、ウェアラブルデバイスの一種として、ユーザの首元に装着して装着者又はその対話者の発した音声を録音することのできる装置が知られている(特許文献1,特許文献2)。この特許文献1には、ユーザに装着される装着部を備え、この装着部が、ビームフォーミングのための音声データを取得する音声取得部(マイク)を少なくとも3つ有する音声処理システムが開示されている。また、特許文献1に記載のシステムでは、装着者の口を挟むように設けられた左右の腕部のそれぞれに音声取得部を設けることとしている。特に特許文献1では、左側の腕部に3つの音声取得部を配置し、右側の腕部に1つの音声取得部を配置することが好ましい実施形態であると提案されている。さらに、特許文献1では、地面の方向から到来する雑音(ロードノイズ)を抑圧するために、4つの音声取得部のうちの1つを装着者の足側を向くように配置することが好ましいとされている。
また、特許文献2には、ユーザの首元に装着されるウェアラブルデバイスであって、左右の腕部のそれぞれに2箇所ずつ(合計4箇所)設けられた音声取得部(マイクロホンアレイ)有する装置が記載されている。この特許文献2の装置では、マイクロホンアレイによって、装着者と対面する対話者の口のから到来する音声を取得することが開示されている。
特開2019−134441号公報 米国特許出願公開第2019/0138603号明細書
ところで、特許文献1のシステムは、装着者の口元の周囲に複数のマイクが配置されているため、その装着者が発した音声をビームフォーミング処理によって抽出することができる。しかしながら、このシステムでは、一方の腕部にマイクが3箇所設けられているのに対して、他方の腕部にはマイクが1箇所しか設けられていないため、装着者の周囲で発生した音(環境音や対話者の音声など)を適切に取得することのできる範囲は装着者の左右どちらかの領域に偏在することとなる。つまり、ビームフォーミング処理によって特定音(装着者や対話者の音声など)を強調したり、あるいはその他の雑音を抑圧するためには、少なくとも3つのマイクに特定音が直線的に到達する必要がある。このとき、例えば、装着者の右側で特定音が発生した場合には、右側の腕部に設けられた3箇所のマイクに特定音が直線的に到達することになるが、装着者の左側で特定音が発生した場合、左側の腕部にはマイクが1箇所しか設けられていないことから、特定音の発生位置によっては音が装着者の首などによって遮られてしまい、3箇所以上のマイクに直線的に特定音が到達することが困難となる。この場合、装着者の左側で発生した音に対しては適切にビームフォーミング処理を行うことができない可能性が高い。このように、特許文献1のシステムは、複数のマイクを偏在配置することを前提としたものであり、装着者の口から発せられた音声を取得することは可能であるものの、その他周囲の環境音を取得することに適した設計とはなっていない。
また、特許文献2の装置は、左右の腕部のそれぞれに2箇所ずつ(合計4箇所)のマイクが設けられているため、特許文献1のシステムと比べて、装着者及び対話者から発せられた音声に対してより効果的にビームフォーミング処理を行うことができるものと考えられる。しかしながら、特許文献2の装置では、装着者と一人の対話者とで会話が行われることまでしか想定されていない。具体的には、特許文献2の装置は、装着者及び二人の対話者の合計3名での会話に対して、それぞれの者が発した音声に対して個別にビームフォーミング処理を行うことが困難である。すなわち、ビームフォーミング処理を適切に行うには、1つの音源に対して少なくとも3箇所のマイクによって音を取得し、各マイクで取得した音成分から当該音源の空間上の位置を特定して、当該音源からの音成分を強調したり、あるいはそれ以外の音成分を抑圧する必要がある。ここで、装着者に対面する対話者が二人いて、この二人の対話者が同時に発声したことを想定した場合、特許文献2の装置のようにマイクが4箇所しか設けられていないと、少なくとも2箇所のマイクについては、それによって取得した音成分から二人の対話者から発せられた音成分を分離しなければ、二名の対話者の音源位置を正確に特定できないことになる。このため、装着者及び二人の対話者を含む会話シーンでは、特許文献2の装置は、適切なビームフォーミング処理が実行できない場合があるという問題があった。また、装着者の左後方又は右後方に対話者が居ることを想定した場合、特許文献2の装置のようにマイクが4箇所しか設けられていないと、装着者の頭部が障害となって、3箇所のマイクに対話者の音声が直線的に到達しない場合がある。このため、装着者の後方にはビームフォーミングを行うことがでない範囲(非可聴範囲)が広く存在することとなるという問題もある。
そこで、本発明は、装着者及び二人の対話者を含む会話の音声をも適切に取得することができる音声入力装置を提供することを主な目的とする。
本発明の発明者らは、従来発明が抱える問題の解決手段について鋭意検討した結果、対象音源を挟んだ位置に配置される2つの腕部のそれぞれに集音部(マイク)を3箇所以上ずつ(合計6箇所以上)配置することで、装着者及び二人の対話者を含む会話の音声を同時に取得できるようになるという知見を得た。そして、本発明者らは、上記知見に基づけば従来発明の問題を解決できることに想到し、本発明を完成させた。具体的に説明すると、本発明は以下の構成を有する。
本発明は、音声入力装置に関する。本発明に係る音声入力装置は、2つの腕部と複数の集音部を備える。2つの腕部は、対象音源を挟んだ位置に配置可能に構成されている。対象音源の例は、装着者の口である。集音部は、2つの腕部のそれぞれに3箇所以上設けられる。具体的には、集音部は、一方の腕部に3箇所以上、他方の腕部に32箇所以上設けられている。なお、集音部は、各腕部に4箇所以上ずつ又は5箇所以上ずつ設けられていてもよい。本発明に係る音声入力装置の好ましい実施形態は、ユーザの首元に装着される首掛け型の装置である。ただし、音声入力装置は、対象音源(装着者の口)を挟んだ位置に配置可能な腕部を有するものであれば、眼鏡型や耳掛け型などの別の形態とすることもできる。
上記構成のように、2つの腕部にそれぞれ3箇所以上の集音部を設けることで、腕部に挟まれた対象音源(例えば装着者の口)から発生した音だけでなく、対象音源の周囲で発生した音も同時に取得することが可能となる。特に、装着者と対面する二人の対話者の同時に発話した場合であっても、一方の腕部の3箇所の集音部で取得した音声に基づいて第1の対話者の音声成分を強調し、他方の腕部の3箇所の集音部で取得した音声に基づいて第2の対話者の音声成分を強調することができる。このため、装着者及び二人の対話者の合計3名で会話する場合であっても、全員の音声に対して適切な音声処理を実行することが可能となる。また、2つの腕部に3箇所以上ずつ集音部を設けておくことで、1つの腕部上の集音部によって対話者の音声を取得することができるため、装着者の左後方又は右後方に対話者が居る場合でも、その対話者の音声に対してビームフォーミング処理を行うことができる。すなわち、本発明の構成によれば、装着者の後方に存在するビームフォーミング処理ができない範囲(非可聴範囲)を少なくすることが可能である。
本発明に係る音声入力装置は、音声解析部をさらに備えることが好ましい。音声解析部は、各集音部によって取得された音に基づいて、その音が発せられた音源の空間上の位置又は方向を特定する。音声解析部は、各集音部によって取得された音の取得時間の差を求めて、その取得時間の差に基づいて、その音の音源の位置又は方向を特定してもよい。また、音声解析部は、機械学習後の学習済みモデルを参照して、各集音部によって取得された音の音源の空間上の位置又は方向を特定することもできる。これにより、各集音部によって取得した音の音源の位置又は方向に応じて、その音を強調したり抑圧したりするといったいわゆるビームフォーミング処理を行うことができる。
本発明に係る音声入力装置は、首掛け型の装置であり、装着者の口を対象音源とすることが好ましい。装着者及びその対話者の音声を録音するためには、首掛け型の装置を利用することが好適である。
本発明に係る音声入力装置において、音声解析部は、第1腕部に設けられた3つ以上の集音部によって取得した音に基づいて特定した音源が、装着者の第1腕部側にいる第1の対話者の口と一致するか否かを判断するとともに、第2腕部に設けられた3つ以上の集音部によって取得した音に基づいて特定した音源が、装着者の第2腕部側にいる第2の対話者の口と一致するか否かを判断することが好ましい。これにより、第1の対話者の音声については、第1腕部の3つ以上の集音部によって録音して音声強調を行い、第2の対話者の音声については、第2腕部の3つ以上のマイクで録音して音声強調を行うことができる。このように、第1腕部上の集音部と第2腕部上の集音部を独立して利用することで、第1の対話者と第2の対話者が同時に発話した場合に、各話者の音声成分の分離性能を高めることが可能となる。
本発明に係る音声入力装置は、音声処理部をさらに備えることが好ましい。音声処理部は、音声解析部が特定した音源の位置又は方向に基づいて、集音部で取得した音声データに含まれる音成分を強調又は抑圧する処理を行う。あるいは、音声処理部は、音声解析部が特定した音源の位置又は方向に基づいて、集音部で取得した音声データに含まれる音成分を強調する処理と抑圧する処理を同時に行うこととしてもよい。例えば、装着者の第1腕部上の集音部で取得した音声データに対しては、その第1腕部上の集音部で取得した音成分に基づいて第1の対話者の音声成分を強調すると同時に、第2腕部上の集音部で取得した音成分を利用して、第1の対話者の音声成分以外の成分(主に第2の対話者の音声成分)を抑圧する。同様に、装着者の第2腕部上の集音部で取得した音声データに対しては、その第2腕部上の集音部で取得した音成分に基づいて第2の対話者の音声成分を強調すると同時に、第1腕部上の集音部で取得した音成分を利用して、第2の対話者の音声成分以外の成分(主に第1の対話者の音声成分)を抑圧する。このように、第1腕部上の集音部と第2腕部上の集音部を独立利用して、第1の対話者と第2の対話者の音声成分を強調したり抑圧したりすることが可能である。
本発明に係る音声入力装置は、首掛け型の装置であって、装着者の首裏に相当する位置に、一又は複数の集音部をさらに備えることとしてもよい。このように、装着者の首裏に相当する位置に集音部を設けておくことで、装着者の背部側の音も適切に集音することができる。特に、左右の腕部のそれぞれに3箇所ずつ集音部を設けておくことに加えて、装着者の首裏にさらに集音部を設けておくことで、装着者の背部側の音源に対してもビームフォーミングを行うことができる。装着者の首裏に設ける追加の集音部は、1つでもよいし、2つ以上でもよい。また、装着者の首裏に設けた追加の集音部のみによって、装着者の背部側の音源に対してビームフォーミングを行うために、この集音部を3つ以上設けることとしてもよい。
本発明によれば、装着者及び二人の対話者を含む会話の音声をも適切に取得することが可能な音声入力装置を提供することができる。
図1は、首掛け型の音声入力装置の一例を示した斜視図である。 図2は、音声入力装置を装着した状態を模式的に示した側面図である。 図3は、音声入力装置の機能構成例を示したブロック図である。 図4は、装着者と1人の対話者の音声を取得するビームフォーミング処理を模式的に示している。 図5は、装着者と1人の対話者の音声を取得するビームフォーミング処理を模式的に示している。 図6は、装着者と2人の対話者の音声を取得するビームフォーミング処理を模式的に示している。 図7は、装着者と2人の対話者の音声を取得するビームフォーミング処理の例を示したフロー図である。
以下、図面を用いて本発明を実施するための形態について説明する。本発明は、以下に説明する形態に限定されるものではなく、以下の形態から当業者が自明な範囲で適宜変更したものも含む。
図1は、本発明に係る音声入力装置の一実施形態として、首掛け型装置100を示している。また、図2は、首掛け型装置100を装着した状態を示している。図1に示されるように、首掛け型装置100を構成する筐体は、左腕部10、右腕部20、及び本体部30を備える。左腕部10と右腕部20は、それぞれ本体部30の左端と右端から前方に向かって延出しており、首掛け型装置100は、平面視したときに装置全体として略U字をなす構造となっている。首掛け型装置100を装着する際には、図2に示されるように、本体部30を装着者の首裏に接触させ、左腕部10と右腕部20を装着者の首横から胸部側に向かって垂らすようにして、装置全体を首元に引っ掛ければよい。首掛け型装置100の筐体内には、各種の電子部品が格納されている。
左腕部10と右腕部20には、それぞれ複数の集音部(マイク)41〜46が設けられている。集音部41〜46は、主に装着者とその対話者の音声を取得することを目的として配置されている。図1に示されるように、左腕部10には第1集音部41、第2集音部42、及び第3集音部43が設けられ、右腕部20には第4集音部44、第5集音部45、及び第6集音部46が設けられている。なお、任意の要素として、左腕部10と右腕部20に、一又は複数の集音部を追加で設けることもできる。さらに、左腕部10と右腕部20の間に位置する本体部30に、任意の追加的要素として、第7集音部47を設けることとしてもよい。この第7集音部47は、装着者の首裏に相当する位置に設けられており、装着者の背部からの音声を取得することを目的として配置されている。これらの集音部41〜47によって取得した音信号は、本体部30内に設けられた制御部80(図3参照)へ伝達されて所定の解析処理が行われる。なお、本体部30には、このような制御部80を含む電子回路やバッテリーなどの制御系回路が内装されている。
第1集音部41から第6集音部46は、それぞれ左腕部10と右腕部20の前方(装着者の胸部側)に設けられている。具体的には、一般的な成人男性(首囲35〜37cm)の首元に首掛け型装置100を装着することを想定した場合に、少なくとも第1集音部41から第6集音部46が、装着者の首よりも前方(胸部側)に位置するように設計されていることが好ましい。首掛け型装置100は、装着者と対話者の音声を同時に集音することを想定したものであり、各集音部41〜46を装着者の首の前方側に配置することで、装着者の音声だけでなく、その対話者の音声を適切に取得することができる。また、左腕部10上の第1集音部41から第3の集音部43と右腕部20上の第4集音部44から第6集音部46は、左右対称となるように配置されていることが好ましい。具体的には、第1集音部41と第4集音部44、第2集音部42と第5集音部45、及び第3集音部43と第6集音部46は、それぞれ線対称位置に配置される。
左腕部10には、さらに撮像部60が設けられている。具体的には、左腕部10の先端面12に撮像部60が設けられており、この撮像部60によって装着者の正面側の静止画像や動画像を撮影することができる。撮像部60によって取得された画像は、本体部30内の制御部80に伝達され、画像データとして記憶される。また、撮像部60によって取得された画像をインターネットでサーバ装置へ送信することとしてもよい。撮像部60が取得した画像から対話者の口元の位置を特定して、その口元から発せられた音声を強調する処理(ビームフォーミング処理)を行うことも可能である。
右腕部20には、さらに非接触型のセンサ部70が設けられている。センサ部70は、主に首掛け型装置100の正面側における装着者の手の動きを検知することを目的として、右腕部20の先端面22に配置されている。センサ部70の検知情報は、撮像部60の起動や、撮影の開始、停止など、主に撮像部60の制御に利用される。例えば、センサ部70は、装着者の手などの物体がそのセンサ部70に近接したことを検知して撮像部60を制御することとしてもよいし、あるいはセンサ部70の検知範囲内で装着者が所定のジェスチャーを行ったことを検知して撮像部60を制御することとしてもよい。なお、本実施形態において、左腕部10の先端面12に撮像部60を配置し、右腕部20の先端面22にセンサ部70を配置することとしているが、撮像部60とセンサ部70の位置を入れ替えることも可能である。
また、センサ部70での検知情報を、撮像部60、集音部41〜47、及び/又は制御部80(メインCPU)の起動に利用することも可能である。例えば、センサ部70、集音部41〜47、及び制御部80が常時起動し、撮像部60が停止している状態において、センサ部70にて特定のジェスチャーを検知したときに撮像部60を起動させることができる(条件1)。なお、この条件1では、集音部41〜47が特定の音声を検出したときに撮像部60を起動させることも可能である。あるいは、センサ部70及び集音部41〜47が常時起動し、制御部80及び撮像部60が停止している状態において、センサ部70にて特定のジェスチャーを検知したときに制御部80と撮像部60のうちの任意のものを起動させることができる(条件2)。この条件2においても、集音部41〜47が特定の音声を検出したときに制御部80及び撮像部60を起動させることが可能である。あるいは、センサ部70のみが常時起動し、集音部41〜47、制御部80、及び撮像部60が停止している状態において、センサ部70にて特定のジェスチャーを検知したときに集音部41〜47、制御部80、撮像部60のうちの任意のものを起動させることができる(条件3)。上記条件1〜条件3は、条件3>条件2>条件1の順に消費電力の削減効果が大いといえる。
上記した左腕部10と右腕部20は、首元を挟んだ位置に配置可能である。この左腕部10と右腕部20は、装着者の首裏に当接する位置に設けられた本体部30によって連結されている。この本体部30には、プロセッサやバッテリーなどの電子部品(制御系回路)が内装されている。本体部30を構成する筐体は、図1に示されるように、ほぼ平坦な形状となっており、平面状(板状)の回路基板やバッテリーを格納することができる。また、本体部30は、左腕部10及び右腕部20よりも下方に向かって延出する下垂部31を有する。本体部30に下垂部31を設けることで、制御系回路を内装するための空間を確保している。また、本体部30には制御系回路が集中して搭載されている。この制御系回路には、バッテリーと、バッテリーから電力の供給を受けて駆動するプロセッサなどの各種電子部品が搭載された回路基板とが含まれる。このため、首掛け型装置100の全重量を100%とした場合に、本体部30の重量は40〜80%又は50%〜70%を占める。このような重量の大きい本体部30を装着者の首裏に配置することで、装着時における安定性が向上する。また、装着者の体幹に近い位置に重量の大きい本体部30を配置することで、装置全体の重量が装着者に与える負荷を軽減できる。
また、本体部30の内側(装着者側)には近接センサ83が設けられている。近接センサ83は、例えば回路基板85の内側の面に搭載しておけばよい。近接センサ83は、物体の接近を検出するためのものであり、首掛け型装置100が装着者の首元に装着されると、その首元の接近を検出することとなる。このため、近接センサ83が物体の近接を検出している状態にあるときに、各集音部41〜47、撮像部60、及びセンサ部70などの機器をオン(駆動状態)とし、近接センサ83が物体の近接を検出していない状態にあるときには、これらの機器をオフ(スリープ状態)、もしくは起動できない状態とすればよい。これにより、バッテリー90の電力消費を効率的に抑えることができる。また、近接センサ83が物体の近接を検出していない状態にあるとき、撮像部60と集音部41〜47を起動できなくすることによって、非装着時に意図的あるいは非意図的にデータが記録されてしまうことを防ぐという効果も期待できる。なお、近接センサ90としては公知のものを用いることができるが、光学式のものが用いられる場合には、近接センサ90の検出光を透過するために、本体部筐体32に検出光を透過する透過部32aを設けるとよい。
なお、第1集音部41から第6集音部46と、任意追加的要素である第7集音部47とは、別々に制御されていてもよい。すなわち、第7集音部47は、装着者の背部方向からの音声を取得することを目的として設けられたものであり、装着者の前方からの音声をこの第7集音部47で取得する必要はない。そこで、通常のシーンでは、まず第1集音部41から第6集音部46を起動しておけば、第7集音部47を起動する必要はない。他方で、第1集音部41から第6集音部46によって装着者の背部方向からの音声を検出した場合、あるいはこれらの集音部41〜46によって適切にビームフォーミングができない音声を検出した場合に、第7集音部47を起動させる。このように第7集音部47については、第1集音部41から第6集音部46から独立してオン/オフを制御することで、消費電力を抑えつつ、効率的にこの第7集音部47を利用することができる。
また、本体部30の外側(装着者の反対側)には放音部84(スピーカ)が設けられている。放音部84は、例えば回路基板85の外側の面に搭載しておけばよい。図2に示されるように、本実施形態において、放音部84は、本体部30の外側に向かって音を出力するように配置されている。このように、装着者の首裏から真後ろに向かって音を放出することで、この放音部84から出力された音が、装着者の正面前方に存在する対話者に直接的に届きにくくなる。これにより、対話者が、装着者自身が発した音声と首掛け型装置の放音部から発せられた音とを混同する事態を防止できる。また、本実施形態では、左腕部10と右腕部20に第1集音部41から第6集音部46が設けられているが、放音部84を装着者の首裏に相当する位置に設けておくことで、放音部84と集音部41〜46との物理的な距離を最大限離すことができる。すなわち、各集音部41〜46にて装着者や対話者の音声を集音している状態において、放音部84から何らかの音が出力されると、収録される装着者等の音声に放音部84からの音(自己出力音)が混入する場合がある。自己出力音が収録音声に混入すると音声認識を妨害することになるため、この自己出力音をエコーキャンセル処理などによって取り除く必要がある。しかし、実際は筐体振動などの影響を受け、エコーキャンセル処理を行ったとしても、完全に自己出力音を取り除くことは困難である。このため、装着者等の音声に混入される自己出力音の音量を最小化するために、上記の通り装着者の首裏に相当する位置に放音部84を設けて、集音部との物理的な距離をとることが好ましい。
また、放音部84は、装着者の首後方の中央に相当する位置ではなく、左右どちらかに偏った位置に設置されていることが好ましい。その理由は、放音部84が、首裏中央にある場合と比較して、左右どちらかの耳に近くなるためである。このように、放音部84を、本体部30のほぼ中央ではなく、左右どちらかに偏った位置に配置することで、出力音の音量を小さくした場合であっても、装着者が出力音を左右どちらかの耳で明瞭に聞き取ることができる。また、出力音の音量が小さくなれば、この出力音が対話者に届きにくくなるため、対話者としても、装着者の音声と放音部84の出力音とが混同することを回避できる。
また、首掛け型装置100の構造的特徴として、左腕部10と右腕部20は、本体部30との連結部位の近傍にフレキシブル部11,21を有する。フレキシブル部11,21は、ゴムやシリコーンなどの可撓性材料で形成されている。このため、首掛け型装置100の装着時に、左腕部10及び右腕部20が装着者の首元や肩上にフィットしやすくなる。なお、フレキシブル部11,21にも、第1集音部41から第6集音部46と操作部50を制御部80に接続する配線が挿通されている。
図3は、首掛け型装置100の機能構成を示したブロック図である。図3に示されるように、首掛け型装置100は、第1集音部41から第7集音部47、操作部50、撮像部60、センサ部70、制御部80、記憶部81、通信部82、近接センサ83、放音部84、及びバッテリー90を有する。本実施形態において、左腕部10には、第1集音部41、第2集音部42、第3集音部43、操作部50、及び撮像部60が配置されている。また、右腕部20には、第4集音部44、第5集音部45、第6集音部46、及びセンサ部70が配置されている。また、本体部30には、制御部80、記憶部81、通信部82、近接センサ83、放音部84、第7集音部47、及びバッテリー90が配置されている。なお、首掛け型装置100は、図3に示した機能構成に加えて、ジャイロセンサ、加速度センサ、地磁気センサ、又はGPSセンサなどのセンサ類など、一般的な携帯型情報端末に搭載されているモジュール機器を適宜搭載することができる。
各集音部41〜47としては、ダイナミックマイクやコンデンサマイク、MEMS(Micro-Electrical-Mechanical Systems)マイクなど、公知のマイクロホンを採用すればよい。集音部41〜47は、音を電気信号に変換し、その電気信号をアンプ回路によって増幅した上で、A/D変換回路によってデジタル情報に変換して制御部80へと出力する。本発明の首掛け型装置100は、装着者の音声だけでなく、その周囲に存在する一又は複数の対話者の音声を取得することを目的の一つとしている。このため、装着者周囲で発生した音を広く集音できるように、各集音部41〜47としては、全指向性(無指向性)のマイクロホンを採用することが好ましい。
操作部50は、装着者による操作の入力を受け付ける。操作部50としては、公知のスイッチ回路又はタッチパネルなどを採用することができる。操作部50は、例えば音声入力の開始又は停止を指示する操作や、装置の電源のON又はOFFを指示する操作、スピーカの音量の上げ下げを指示する操作、その他首掛け型装置100の機能の実現に必要な操作を受け付ける。操作部50を介して入力された情報は制御部80へと伝達される。
撮像部60は、静止画像又は動画像の画像データを取得する。撮像部60としては一般的なデジタルカメラを採用すればよい。撮像部60は、例えば、撮影レンズ、メカシャッター、シャッタードライバ、CCDイメージセンサユニットなどの光電変換素子、光電変換素子から電荷量を読み出し画像データを生成するデジタルシグナルプロセッサ(DSP)、及びICメモリで構成される。また、撮像部60は、撮影レンズから被写体までの距離を測定するオートフォーカスセンサ(AFセンサ)と、このAFセンサが検出した距離に応じて撮影レンズの焦点距離を調整するための機構とを備えることが好ましい。AFセンサの種類は特に限定されないが、位相差センサやコントラストセンサといった公知のパッシブ方式のものを用いればよい。また、AFセンサとして、赤外線や超音波を被写体に向けてその反射光や反射波を受信するアクティブ方式のセンサを用いることもできる。撮像部60によって取得された画像データは、制御部80へと供給されて記憶部81に記憶され、所定の画像解析処理が行われたり、あるいは通信部82を介してインターネット経由でサーバ装置へと送信される。
また、撮像部60は、いわゆる広角レンズを備えるものであることが好ましい。具体的には、撮像部60の垂直方向画角は、100〜180度であることが好ましく、110〜160度又は120〜150度であることが特に好ましい。このように、撮像部60の垂直方向画角を広角とすることで、少なくとも対話者の頭部から胸部を広く撮影することができ、場合によっては対話者の全身を撮影することも可能となる。また、撮像部60の水平方向画角は特に制限されないが、100〜160度程度の広角のものを採用することが好ましい。
また、撮像部60は、一般的に消費電力が大きいものであるため、必要な場合に限り起動し、それ以外の場合においてはスリープ状態となっていることが好ましい。具体的には、センサ部70又は近接センサ83の検知情報に基づいて、撮像部60の起動や、撮影の開始又は停止が制御されるが、撮影停止後一定時間が経過した場合には、撮像部60を再びスリープ状態とすればよい。
センサ部70は、装着者の手指などの物体の動きを検知するための非接触型の検知装置である。センサ部70の例は、近接センサ又はジェスチャーセンサである。近接センサは、例えば装着者の手指が所定範囲まで近接したことを検知する。近接センサとしては、光学式、超音波式、磁気式、静電容量式、又は温感式などの公知のものを採用できる。ジェスチャーセンサは、例えば装着者の手指の動作や形を検知する。ジェスチャーセンサの例は光学式センサであり、赤外発光LEDから対象物に向けて光を照射し、その反射光の変化を受光素子で捉えることで対象物の動作や形を検出する。センサ部70による検知情報は、制御部80へと伝達され、主に撮像部60の制御に利用される。また、センサ部70による検知情報に基づいて、各集音部41〜47の制御を行うことも可能である。センサ部70は、一般的に消費電力が小さいものであるため、首掛け型装置100の電源がONになっている間は常時起動していることが好ましい。また、近接センサ83により首掛け型装置100の装着が検出されたときに、センサ部70を起動させることとしてもよい。
制御部80は、首掛け型装置100が備える他の要素を制御する演算処理を行う。制御部80としては、CPUなどのプロセッサを利用することができる。制御部80は、基本的に、記憶部81に記憶されているプログラムを読み出し、このプログラムに従って所定の演算処理を実行する。また、制御部80は、プログラムに従った演算結果を記憶部81に適宜書き込んだり読み出したりすることができる。詳しくは後述するが、制御部80は、主に撮像部60の制御処理やビームフォーミング処理を行うための音声解析部80a、音声処理部80b、入力解析部80c、撮像制御部80d、及び画像解析部80eを有する。これらの要素80a〜80eは、基本的にソフトウェア上の機能として実現される。ただし、これらの要素はハードウェアの回路として実現されるものであってもよい。
記憶部81は、制御部80での演算処理等に用いられる情報やその演算結果を記憶するための要素である。具体的に説明すると、記憶部81は、汎用的な携帯型の情報通信端末を、本発明に係る音声入力装置として機能させるプログラムを記憶している。ユーザからの指示によりこのプログラムが起動されると、制御部80によってプログラムに従った処理が実行される。記憶部81のストレージ機能は、例えばHDD及びSDDといった不揮発性メモリによって実現できる。また、記憶部81は、制御部80による演算処理の途中経過などを書き込む又は読み出すためのメモリとしての機能を有していてもよい。記憶部81のメモリ機能は、RAMやDRAMといった揮発性メモリにより実現できる。また、記憶部81には、それを所持するユーザ固有のID情報が記憶されていてもよい。また、記憶部81には、首掛け型装置100のネットワーク上の識別情報であるIPアドレスが記憶されていてもよい。
また、記憶部81には、制御部80によるビームフォーミング処理で利用する学習済みモデルが記憶されていてもよい。学習済みモデルは、例えばクラウド上のサーバ装置においてディープラーニングや強化学習等の機械学習を行うことにより得られた推論モデルである。具体的に説明すると、ビームフォーミング処理では、複数の集音部で取得した音データを解析して、その音を発生した音源の位置又は方向を特定する。このとき、例えば、サーバ装置にある音源の位置情報とその音源から発生した音を複数の集音部で取得したデータとのデータセット(教師データ)を多数蓄積し、これらの教師データ用いた機械学習を実施して学習済みモデルを予め作成しておく。そして、個別の首掛け型装置100において複数の集音部により音データを取得したときに、この学習済みモデルを参照することで、音源の位置又は方向を効率良く特定することができる。また、首掛け型装置100は、サーバ装置と通信することによりこの学習済みモデルを随時アップデートすることもできる。
通信部82は、クラウド上のサーバ装置又は別の首掛け型装置と無線通信するための要素である。通信部82は、インターネットを介してサーバ装置や別の首掛け型装置と通信を行うために、例えば、3G(W-CDMA)、4G(LTE/LTE-Advanced)、5Gといった公知の移動通信規格や、Wi-Fi(登録商標)等の無線LAN方式で無線通信するための通信モジュールを採用すればよい。また、通信部82は、別の首掛け型装置と直接的に通信を行うために、Bluetooth(登録商標)やNFC等の方式の近接無線通信用の通信モジュールを採用することもできる。
近接センサ83は、主に首掛け型装置100(特に本体部30)と装着者の接近を検知するために用いられる。近接センサ83としては、前述のように光学式、超音波式、磁気式、静電容量式、又は温感式などの公知のものを採用できる。近接センサ83は、本体部30の内側に配置され、装着者の首元が所定範囲内に接近したことを検出する。近接センサ83によって装着者の首元の接近が検出された場合、各集音部41〜47、撮像部60、センサ部70、及び/又は放音部84を起動することができる。なお、前述の通り、近接センサ83によって装着者の首元の接近が検出された場合に、まず第1集音部41から第6集音部46のみを起動させることとし、装着者の背部方向からの音声が検出されるまで第7集音部47についてはオフの状態としておくことも可能である。
放音部84は、電気信号を物理的振動(すなわち音)に変換する音響装置である。放音部84の例は、空気振動により音を装着者に伝達する一般的なスピーカである。この場合、前述したように、放音部84を本体部30の外側(装着者と反対側)に設けて、装着者の首裏から離れる方向(水平方向後方)又は首裏に沿う方向(鉛直方向上方)に向かって音を放出するように構成することが好ましい。また、放音部84としては、装着者の骨を振動させることにより音を装着者に伝達する骨伝導スピーカであってもよい。この場合、放音部84を本体部30の内側(装着者側)に設けて、骨伝導スピーカが装着者の首裏の骨(頚椎)に接触するように構成すればよい。
バッテリー90は、首掛け型装置100に含まれる各種電子部品に対して電力を供給する電池である。バッテリー90としては、充電可能な蓄電池が用いられる。バッテリー90は、リチウムイオン電池、リチウムポリマー電池、アルカリ蓄電池、ニッケルカドミウム電池、ニッケル水素電池、又は鉛蓄電池など公知のものを採用すればよい。バッテリー90は、本体部30の筐体内において、バッテリー90と装着者の首裏の間に回路基板を介在するように配置される。
続いて、図4から図6を参照して、ビームフォーミング処理の基本概念について具体的に説明する。ユーザが図1に示した実施形態の首掛け型装置100を装着すると、図4(a)及び図4(b)に示されるように、装着者の首元の胸部側に6つの集音部41〜46が位置することとなる。第1集音部41から第6集音部46はいずれも全指向性のマイクロホンであり、常時、主に装着者の口から発せられた音声を集音するとともに、その他の装着者周囲の環境音を集音している。環境音には、装着者の周囲に位置する対話者の音声が含まれる。装着者及び/又は対話者が音声を発すると、各集音部41〜46によって音声データが取得される。各集音部41〜46は、それぞれの音声データを制御部80へと出力する。
制御部80の音声解析部80aは、各集音部41〜46で取得した音声データを解析する処理を行う。具体的には、音声解析部80aは、各集音部41〜46の音声データに基づいて、その音声が発せられた音源の空間上の位置又は方向を特定する。例えば、機械学習済みの学習済みモデルが首掛け型装置100にインストールされている場合、音声解析部80aは、その学習済みモデルを参照して各集音部41〜46の音声データから音源の位置又は方向を特定できる。あるいは、各集音部41〜46間の距離は既知であるため、音声解析部80aは、音声が各集音部41〜46に到達した時間差に基づいて、各集音部41〜46から音源までの距離を求め、その距離から三角測量法により音源の空間位置又は方向を特定することとしてもよい。三角測量法によれば、少なくとも3箇所の集音部から音源までの距離が特定できれば、その音源の空間位置又は方向を特定できる。このため、左腕部10上の第1集音部41から第3集音部43が取得した音声データのみからでも音源の位置等を特定でき、同様に右腕部20上の第4集音部44から第6集音部46が取得した音声データのみからでも音源の位置等を特定できる。
また、音声解析部80aは、上記処理により特定した音源の位置又は方向が、装着者の口又は対話者の口と推定される位置又は方向と一致するか否かを判断する。例えば、首掛け型装置100と装着者の口の位置関係や首掛け型装置100と対話者の口の位置関係は予め想定可能であるため、その想定される範囲内に音源が位置している場合に、その音源を装着者又は対話者の口であると判断すればよい。また、首掛け型装置100に対して著しく下方、上方、又は後方に音源が位置している場合、その音源は装着者又は対話者の口ではないと判断できる。
次に、制御部80の音声処理部80bは、音声解析部80aが特定した音源の位置又は方向に基づいて、音声データに含まれる音成分を強調又は抑圧する処理を行う。具体的には、音源の位置又は方向が装着者又は対話者の口と推定される位置又は方向と一致する場合、その音源から発せられた音成分を強調する。他方で、音源の位置又は方向が装着者又は対話者の口と一致しない場合、その音源から発せられた音成分は雑音であるとみなして、その音成分を抑圧すればよい。このように、本発明では、複数の全指向性のマイクロホンを用いて全方位の音データを取得し、制御部80のソフトウェア上の音声処理によって特定の音成分と強調又は抑圧するビームフォーミング処理を行う。これにより、装着者の音声と対話者の音声を同時に取得し、必要に応じてその音声の音成分を強調することが可能となる。
続いて、図5を参照して、対話者の音声を適切にビームフォーミング可能な範囲について説明する。図5(a)に示されるように、装着者の正面側に対話者が位置している場合、対話者が発した音声は、首掛け型装置100に搭載された6つの集音部41〜46の全てに直線的に到達する。この場合、前述したとおり、対話者が発した音声を強調するビームフォーミング処理を行うことができる。また、図5(a)に示したように、例えば、装着者の右側に対話者が位置している場合、この右側の対話者が発声した音声に対しては、少なくとも首掛け型装置100の右腕部20に設けられた3つの集音部44〜46で音声を取得することができれば、ビームフォーミング処理を行うことができる。装着者の左側に対話者が位置している場合も同様である。このように、本発明では、左腕部10及び右腕部20にそれぞれ3箇所ずつ集音部41〜46が設けられているため、装着者の左右に存在する対話者の音声に対しては、左腕部10上の集音部41〜43のみ又は右腕部20上の集音部44〜46のみであっても対処可能である。
また、図5(b)に示されるように、装着者の左右の後方に対話者が位置している場合でも、左腕部10上の集音部41〜43又は右腕部20上の集音部44〜46のうちの3つ以上の集音部によって、その対話者の音声を取得できればビームフォーミング処理が可能である。さらに、本発明の好ましい実施形態では、装着者の首裏に相当する位置に第7集音部47が設けられている。このため、装着者のほぼ真後ろに対話者が位置している場合であっても、対話者が発した音声が、第1集音部41から第6集音部46のうちの少なくとも2つ(例えば第3集音部43,第6集音部46)と第7集音部47とに直線的に到達すれば、これら3つ以上の集音部によってビームフォーミング処理を行うことが可能となる。このため、左腕部10と右腕部20のそれぞれに3箇所ずつ集音部41〜46が設けられ、さらに追加的に本体部30に第7集音部47が設けられた形態では、装着者の周囲全方向(約360度)に対してビームフォーミングを行うことが可能となる。この場合ビームフォーミングが行えない死角領域は存在しない。
このように、適切にビームフォーミング処理を行うためには3つ以上の集音部に対話者の音声が直線的に到達することが必要となる。このような制約を考慮すると、首掛け型装置100の左右の腕部10,20のそれぞれに3箇所ずつ(合計6箇所)集音部を設置した構成とすれば、対話者の音声を適切にビームフォーミングできる可聴範囲を、装着者の後方を除く広い範囲に広げることができる。具体的には、左右の腕部10,20のそれぞれに3箇所ずつ集音部41〜46を設置することで、ビームフォーミング可能な可聴範囲は、装着者の眼前からおよそ260度以上、好ましくは320度以上にまで広げることが可能となる。このように、装着者の左右両側をほぼ完全に可聴範囲とすることができる。このため、装着者と対面して会話している対話者だけでなく、装着者と横並びになって会話している対話者の音声も適切に取得することができる。また、上記集音部41〜46に加えて、本体部30に第7集音部47を設けることで、左右の腕部10,20の集音部41〜46だけでは対応できない領域(特に装着者の背部)に対してもビームフォーミングが可能となる。
続いて、図6を参照して、首掛け型装置100の装着者と、首掛け型装置を装着していない二人の対話者との合計3名で会話する場合について説明する。図6に示した例では、便宜的に、平面視において、会話に参加する3人が正三角形の各頂点に位置しており、3人の相対位置は変化しないものとする。ただし、時間の経過に伴って3人の相対位置が変化する場合でも、定期的に各話者の音声から位置を特定して、各話者の変化後の位置を追跡すればよい。また、図6では、「装着者」から見みて、左腕部10側に位置する対話者と「第1の対話者」、右腕部20側に位置する対話者と「第2の対話者」としている。
このように、三者にて会話を行う場合、第1の対話者と第2の対話者が同時に発話することが想定される。この場合のビームフォーミング処理の一例を、図7に示している。すなわち、本発明に係る首掛け型装置100では、まず、音声解析部80aは、左腕部10上の第1集音部41から第3集音部43によって取得した第1音声データを利用して、第1の対話者の音声の音源の位置又は方向を特定する(S1)。また、音声処理部80bは、第1音声データに対して、特定された第1の対話者の音声成分を強調する処理を行う(S2)。同様に、音声解析部80aは、右腕部20上の第4集音部44から第6集音部46によって取得した第2音声データを利用して、第2の対話者の音声の音源の位置又は方向を特定する(S1)。また、音声処理部80bは、第2音声データに対して、特定された第2の対話者の音声成分を強調する処理を行う(S2)。このように、三者にて会話を行う場合は、左腕部10上の3つの集音部41〜43と右腕部20上の3つの集音部44〜46を独立して利用し、左腕部10上の集音部41〜43によって取得された第1音声データと、右腕部20上の集音部44〜46で取得された第2音声データとを分離した上で、各音声データに対して音声処理を行うことが好ましい。
さらに、本発明に係る首掛け型装置100では、上記した音声強調処理と共に、それぞれ交差する音成分の抑圧処理を行うことができる。すなわち、左腕部10上の集音部41〜43によって取得した第1音声データは、前述の通り第1の対話者の音声成分が強調されているが、それ以外にも第2の対話者の音声成分などが含まれている。他方で、第2の対話者の音声成分は、右腕部20上の集音部4〜43によって取得した第2音声データにおいて強調処理がすでに済んでいる。そこで、音声処理部80bは、図7に示されるように、第2音声データにおいて強調された第2の対話者の音声成分を利用して、第1音声データにおける第2の対話者の音声成分を抑圧する(S3)。同様に、音声処理部80bは、第1音声データにおいて強調された第1の対話者の音声成分を利用して、第2音声データにおける第1の対話者の音声成分を抑圧する(S3)。これにより、左腕部10上の集音部41〜43によって取得された第1音声データは、第1の対話者の音声成分が強調されるとともに、第2の対話者の音声成分が抑圧されたものとなる。また、右腕部20上の集音部44〜46によって取得された第2音声データは、第2の対話者の音声成分が強調されるとともに、第1の対話者の音声成分が抑圧されたものとなる。このように、左腕部10の集音部41〜43と右腕部20の集音部44〜46を独立して利用することで、第1の対話者と第2の対話者が同時に発話した場合であっても、各話者の音声成分の分離性能を高めることができる。
なお、音声成分を抑圧する信号処理は、適宜公知の処理方法を利用することができるが、最も単純にはスペクトルの減算処理を行えばよい。例えば、第1の対話者の強調された音声から、第2の対話者の強調された音声を時間周波数領域で減算し、その減算結果を最終結果とする。ただし単純なスペクトル減算処理の場合には、ミュージカルノイズと呼ばれる副作用が知られており、この副作用を低減することができる他の処理も併用することが可能である。ミュージカルノイズの低減処理は、一般的には、参照信号付きノイズ抑圧処理と呼ばれる分野の処理であり、例えばMMSE(Minimum Mean-Square-Error)法やMAP(Maximum a Posteriori)法などが知られている。その他、いわゆるエコーキャンセル処理に含まれる「適応フィルタ」を用いた処理を利用することも可能である。例えば、MMSE法やMAP法を利用する場合、左腕部10の集音部41〜43で取得した3chの第1音声データと、右腕部30の集音部44〜46で取得した3chの第2音声データに対して、それぞれ音声強調処理を行って、それぞれから1chの参照信号を得た後に、参照信号間の抑圧処理を行って、第1の対話者と第2の対話者の音声成分が分離された最終結果を得る。また、「適応フィルタ」を用いた処理を利用する場合には、左腕部10の集音部41〜43で取得した3chの第1音声データと、右腕部30の集音部44〜46で取得した3chの第2音声データに対して、それぞれ音声強調処理を行って、それぞれから1chの参照信号を得る。その後、元の3chの音声データに対して各チャネルの適用フィルタを掛けて、元の3chの音声データから、異なる対話者由来の音声成分を除いた新しい3chの音声データを生成する。そして、この新しい音声データに対して音声強調処理を行って、第1の対話者と第2の対話者の音声成分が分離された1chの最終結果を得ればよい。
また、対話者の音声を取得する場合には、撮像部60を起動させて対話者を撮影することが好ましい。具体的に説明すると、装着者は、非接触型のセンサ部70の検知範囲内で自身の手指によって所定のジェスチャーを行う。ジェスチャーには、手指で所定の動作を行うことや、手指で所定の形を作ることが含まれる。センサ部70が手指の動作を検知すると、制御部80の入力解析部80cは、センサ部70の検知情報を解析して、装着者の手指のジェスチャーが予め設定されているものに一致するかどうかを判断する。例えば、撮像部60を起動させるためのジェスチャーや、撮像部60によって撮影を開始するためのジェスチャー、撮影を停止させるためのジェスチャーなど、撮像部60の制御に関する所定のジェスチャーが予め設定されているため、入力解析部80cは、センサ部70の検知情報に基づいて、装着者のジェスチャーが上記した所定のものに一致するかどうかを判断することとなる。
次に、制御部80の撮像制御部80dは、入力解析部80cの解析結果に基づいて撮像部60を制御する。例えば、装着者のジェスチャーが撮像部60起動用のジェスチャーに一致すると入力解析部80cが判断した場合、撮像制御部80dは撮像部60を起動させる。また、撮像部60の起動後、装着者のジェスチャーが撮影開始用のジェスチャーに一致すると入力解析部80cが判断した場合、撮像制御部80dは画像の撮影を開始するように撮像部60を制御する。さらに、撮影の開始後、装着者のジェスチャーが撮影停止用のジェスチャーに一致すると入力解析部80cが判断した場合、撮像制御部80dは画像の撮影を停止するように撮像部60を制御する。なお、撮像制御部80dは、撮影停止後一定時間を経過した段階で撮像部60を再びスリープ状態とすることとしてもよい。
制御部80の画像解析部80eは、撮像部60によって取得した静止画像又は動画像の画像データを解析する。例えば、画像解析部80eは、画像データに解析することにより、首掛け型装置100から対話者の口までの距離や両者の位置関係を特定することができる。また、画像解析部80eは、画像データに基づいて、対話者の口が開いているか否か、あるいは対話者の口が開閉しているか否かを解析することにより、対話者が発声しているか否かを特定することも可能である。画像解析部80eによる解析結果は、上述したビームフォーミング処理に利用される。具体的には、各集音部41〜47によって集音した音声データの解析結果に加えて、撮像部60による画像データの解析結果を利用すれば、対話者の口の空間上の位置や方向を特定する処理の精度を高めることができる。また、画像データに含まれる対話者の口の動作を解析して、その対話者が発声していることを特定することで、その対話者の口から発せられた音声を強調する処理の精度を高めることができる。
音声処理部80bによる処理後の音声データと、撮像部60によって取得された画像データは、記憶部81に記憶される。また、制御部80は、処理後の音声データと画像データを、通信部82を介してクラウド上のサーバ装置や別の首掛け型装置100に送信することもできる。サーバ装置は、首掛け型装置100から受信した音声データに基づいて、音声のテキスト化処理や、翻訳処理、統計処理、その他の任意の言語処理を行うこともできる。また、撮像部60によって取得された画像データを利用して、上記言語処理の精度を高めることともできる。また、サーバ装置は、首掛け型装置100から受信した音声データと画像データを機械学習用の教師データとして利用して、学習済みモデルの精度を向上させることも可能である。また、首掛け型装置100間で音声データを送受信し合うことにより装着者間で遠隔通話を行うこととしてもよい。その際に、首掛け型装置100同士で近接無線通信を介して直接音声データを送受信することしてもよいし、サーバ装置を介してインターネット経由で首掛け型装置100同士で音声データを送受信することとしてもよい。
本願明細書では、主に、首掛け型装置100が、機能構成として音声解析部80a、音声処理部80b、及び画像解析部80eを備えており、ローカルでビームフォーミング処理を実行する実施形態について説明した。ただし、音声解析部80a、音声処理部80b、及び画像解析部80eのいずれか又は全ての機能を、首掛け型装置100にインターネットで接続されたクラウド上のサーバ装置に分担させることもできる。この場合、例えば、首掛け型装置100が各集音部41〜47で取得した音声データをサーバ装置に送信し、サーバ装置が音源の位置又は方向を特定したり、装着者又は対話者の音声を強調してそれ以外の雑音を抑制する音声処理を行ったりしてもよい。また、撮像部60によって取得した画像データを首掛け型装置100からサーバ装置に送信し、サーバ装置において当該画像データの解析処理を行うこととしてもよい。この場合、首掛け型装置100とサーバ装置によって音声処理システムが構築されることとなる。
以上、本願明細書では、本発明の内容を表現するために、図面を参照しながら本発明の実施形態の説明を行った。ただし、本発明は、上記実施形態に限定されるものではなく、本願明細書に記載された事項に基づいて当業者が自明な変更形態や改良形態を包含するものである。
また、センサ部70による検知情報に基づいて、撮像部60による撮影方法を制御することも可能である。具体的には、撮像部60の撮影方法としては、例えば静止画の撮影、動画の撮影、スローモーション撮影、パノラマ撮影、タイムラプス撮影、タイマー撮影などが挙げられる。センサ部70が手指の動作を検知すると、制御部80の入力解析部80cは、センサ部70の検知情報を解析して、装着者の手指のジェスチャーが予め設定されているものに一致するかどうかを判断する。例えば、撮像部60を撮影方法には、それぞれ固有のジェスチャーが設定されており、入力解析部80cは、センサ部70の検知情報に基づいて、装着者のジェスチャーが予め設定されたジェスチャーに一致するかどうかを判断することとなる。撮像制御部80dは、入力解析部80cの解析結果に基づいて撮像部60による撮影方法を制御する。例えば、装着者のジェスチャーが静止画撮影用のジェスチャーに一致すると入力解析部80cが判断した場合、撮像制御部80dは撮像部60を制御して静止画の撮影を行う。あるいは、装着者のジェスチャーが動画撮影用のジェスチャーに一致すると入力解析部80cが判断した場合、撮像制御部80dは撮像部60を制御して動画の撮影を行う。このように、装着者のジェスチャーに応じて撮像部60による撮影方法を指定することができる。
また、前述した実施形態では、センサ部70による検知情報に基づいて主に撮像部60を制御することとしたが、センサ部70による検知情報に基づいて各集音部41〜47を制御することも可能である。例えば、集音部41〜47による集音の開始又は停止に関する固有のジェスチャーが予め設定されており、入力解析部80cは、センサ部70の検知情報に基づいて、装着者のジェスチャーが予め設定されたジェスチャーに一致するかどうかを判断する。そして、集音の開始又は停止に関するジェスチャーが検出された場合に、当該ジェスチャーの検知情報に応じて各集音部41〜47によって集音を開始したり停止したりすればよい。
また、前述した実施形態では、主にセンサ部70による検知情報に基づいて撮像部60を制御することとしたが、各集音部41〜47に入力された音声情報に基づいて撮像部60を制御することも可能である。具体的には、音声解析部80aが、集音部41〜47が取得した音声を解析する。つまり、装着者又は対話者の音声認識を行い、その音声が撮像部60の制御に関するものであるか否かを判断する。その後、撮像制御部80dが、その音声の解析結果に基づいて撮像部60を制御する。例えば、撮影開始に関する所定の音声が集音部41〜47に入力された場合には、撮像制御部80dは、撮像部60を起動させて撮影を開始する。また、撮像部60による撮影方法を指定する所定の音声が集音部41〜47に入力された場合には、撮像制御部80dは、撮像部60を制御して指定された撮影方法を実行する。また、センサ部70による検知情報に基づいて集音部41〜47を起動させた後、集音部41〜47に入力された音声情報に基づいて撮像部60を制御することも可能である。
また、撮像部60によって撮像された画像に応じて、センサ部70の入力情報に基づく制御命令の内容が変化させることも可能である。具体的に説明すると、まず、画像解析部80eは、撮像部60によって取得された画像を解析する。例えば、画像に含まれる特徴点に基づいて、画像解析部80aは、人物が写った画像であるのか、特定の被写体(人工物や自然物など)が写った画像であるのか、あるいはその画像が撮像された状況(撮影場所や撮影時間、天候など)を特定する。なお、画像に含まれる人物については、その性別や年齢を分類することとしてもよいし、個人を特定することとしてもよい。
次に、画像の種類(人物、被写体、状況の種別)に応じて、人の手指によるジェスチャーに基づく制御命令のパターンが記憶部81記憶されている。このとき、同じジェスチャーであっても、画像の種類によって制御命令が異なることとしてもよい。具体的には、ある同一のジェスチャーであっても、画像に人物が写っている場合には、その人物の顔をフォーカスする制御命令となったり、画像に特徴的な自然物が写っている場合には、その自然物の周囲をパノラマ撮影する制御命令となる。また、画像に写っている人物の性別や年齢、被写体が人工物であるか自然物であるか、あるいは画像の撮影場所や時間、天候などを画像から検出して、ジェスチャーの意味内容を異ならせることもできる。そして、入力解析部80cは、画像解析部80eの画像解析結果を参照して、センサ部70によって検出されたジェスチャーについて、その画像解析結果に対応する意味内容を特定して、首掛け型装置100に入力される制御命令を生成する。このように、画像の内容に応じてジェスチャーの意味内容を変化させることで、画像の撮影状況や目的に応じて、様々なバリエーションの制御命令をジェスチャーによって装置に入力することが可能となる。
10…左腕部(第1腕部) 11…フレキシブル部
12…先端面 13…下面
14…上面 20…右腕部(第2腕部)
21…フレキシブル部 22…先端面
23…下面 24…上面
30…本体部 31…下垂部
32…本体部筐体 32a…透過部
32b…グリル 41…第1集音部
42…第2集音部 43…第3集音部
44…第4集音部 45…第5集音部
46…第6集音部 47…第7集音部
50…操作部 60…撮像部
70…センサ部 80…制御部
80a…音声解析部 80b…音声処理部
80c…入力解析部 80d…撮像制御部
80e…画像解析部 81…記憶部
82…通信部 83…近接センサ
84…放音部 90…バッテリー
100…首掛け型装置(音声入力装置)

Claims (6)

  1. 対象音源を挟んだ位置に配置可能な第1腕部及び第2腕部と、
    前記第1腕部及び第2腕部のそれぞれに3箇所以上設けられた複数の集音部と、
    各集音部によって取得された音に基づいて、その音が発せられた音源の空間上の位置又は方向を特定する音声解析部を備え
    前記音声解析部は、前記第1腕部に設けられた前記集音部によって取得した音と、前記第2腕部に設けられた集音部によって取得した音とで、それぞれ別々の音源の空間上の位置又は方向を特定する
    音声入力装置。
  2. 前記音声入力装置は、首掛け型の装置であり、
    前記対象音源は、前記音声入力装置の装着者の口である
    請求項に記載の音声入力装置。
  3. 前記音声解析部は、前記第1腕部に設けられた前記集音部によって取得した音に基づいて特定した音源が、前記装着者の前記第1腕部側にいる第1の対話者の口と一致するか否かを判断するとともに、前記第2腕部に設けられた前記集音部によって取得した音に基づいて特定した音源が、前記装着者の前記第2腕部側にいる第2の対話者の口と一致するか否かを判断する
    請求項に記載の音声入力装置。
  4. 前記音声解析部が特定した音源の位置又は方向に基づいて、前記集音部で取得した音声データに含まれる音成分を強調又は抑圧する処理を行う音声処理部を、さらに備える
    請求項から請求項のいずれかに記載の音声入力装置。
  5. 前記音声処理部は、前記音声解析部が特定した音源の位置又は方向に基づいて、前記集音部で取得した音声データに含まれる音成分を強調する処理と抑圧する処理を同時に行う
    請求項に記載の音声入力装置。
  6. 前記音声入力装置は、首掛け型の装置であり、
    装着者の首裏に相当する位置に、一又は複数のさらに集音部を備える
    請求項1から請求項のいずれかに記載の音声入力装置。
JP2020116321A 2020-07-06 2020-07-06 音声入力装置 Active JP6786139B1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2020116321A JP6786139B1 (ja) 2020-07-06 2020-07-06 音声入力装置
EP21837976.6A EP4178220A1 (en) 2020-07-06 2021-06-16 Voice-input device
CN202180049798.7A CN115868176A (zh) 2020-07-06 2021-06-16 声音输入装置
US18/014,752 US20230290369A1 (en) 2020-07-06 2021-06-16 Audio input device
PCT/JP2021/022813 WO2022009626A1 (ja) 2020-07-06 2021-06-16 音声入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020116321A JP6786139B1 (ja) 2020-07-06 2020-07-06 音声入力装置

Publications (2)

Publication Number Publication Date
JP6786139B1 true JP6786139B1 (ja) 2020-11-18
JP2022014137A JP2022014137A (ja) 2022-01-19

Family

ID=73219996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020116321A Active JP6786139B1 (ja) 2020-07-06 2020-07-06 音声入力装置

Country Status (5)

Country Link
US (1) US20230290369A1 (ja)
EP (1) EP4178220A1 (ja)
JP (1) JP6786139B1 (ja)
CN (1) CN115868176A (ja)
WO (1) WO2022009626A1 (ja)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016063587A1 (ja) 2014-10-20 2016-04-28 ソニー株式会社 音声処理システム
JP6476938B2 (ja) * 2015-02-04 2019-03-06 富士ゼロックス株式会社 音声解析装置、音声解析システムおよびプログラム
CN108141654B (zh) * 2015-10-13 2020-02-14 索尼公司 信息处理装置
US20170303052A1 (en) * 2016-04-18 2017-10-19 Olive Devices LLC Wearable auditory feedback device
JP6947183B2 (ja) * 2016-09-13 2021-10-13 ソニーグループ株式会社 音源位置推定装置及びウェアラブルデバイス
EP3518095A4 (en) * 2016-09-23 2019-09-11 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
US20190138603A1 (en) * 2017-11-06 2019-05-09 Bose Corporation Coordinating Translation Request Metadata between Devices
JP2019122035A (ja) * 2018-01-05 2019-07-22 オンキヨー株式会社 オーディオ入出力装置

Also Published As

Publication number Publication date
EP4178220A1 (en) 2023-05-10
JP2022014137A (ja) 2022-01-19
US20230290369A1 (en) 2023-09-14
CN115868176A (zh) 2023-03-28
WO2022009626A1 (ja) 2022-01-13

Similar Documents

Publication Publication Date Title
US9491553B2 (en) Method of audio signal processing and hearing aid system for implementing the same
US10405081B2 (en) Intelligent wireless headset system
US20160183014A1 (en) Hearing device with image capture capabilities
CA3166345A1 (en) Hearing aid systems and methods
EP3533237A1 (en) Facial recognition system
US11432067B2 (en) Cancelling noise in an open ear system
CN111935573A (zh) 音频增强方法、装置、存储介质及可穿戴设备
CN114697812A (zh) 声音采集方法、电子设备及***
JP2023511090A (ja) ステレオ収音方法および装置、端末デバイス、ならびにコンピュータ可読記憶媒体
CN113393856A (zh) 拾音方法、装置和电子设备
CN108632695A (zh) 一种耳机
JP2020113981A (ja) 補聴器システム
CN109117819B (zh) 目标物识别方法、装置、存储介质及穿戴式设备
JP7095692B2 (ja) 情報処理装置及びその制御方法、並びに記録媒体
JP6290827B2 (ja) オーディオ信号を処理する方法及び補聴器システム
JP6786139B1 (ja) 音声入力装置
JP7118456B2 (ja) 首掛け型装置
JP6874437B2 (ja) コミュニケーションロボット、プログラム及びシステム
WO2021095832A1 (ja) 首掛け型装置
KR101669463B1 (ko) 지능형 카메라
JP6853589B1 (ja) 首掛け型装置
JP2021082301A (ja) 首掛け型装置
US20230083358A1 (en) Earphone smartcase with audio processor
US20220248131A1 (en) Sound acquisition apparatus and sound acquisition method
US20240205614A1 (en) Integrated camera and hearing interface device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200721

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200721

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200806

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200929

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201021

R150 Certificate of patent or registration of utility model

Ref document number: 6786139

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250