JP7515128B2 - 耳装着型デバイス、及び、再生方法 - Google Patents

耳装着型デバイス、及び、再生方法 Download PDF

Info

Publication number
JP7515128B2
JP7515128B2 JP2022571924A JP2022571924A JP7515128B2 JP 7515128 B2 JP7515128 B2 JP 7515128B2 JP 2022571924 A JP2022571924 A JP 2022571924A JP 2022571924 A JP2022571924 A JP 2022571924A JP 7515128 B2 JP7515128 B2 JP 7515128B2
Authority
JP
Japan
Prior art keywords
sound
signal
sound signal
signal processing
reverberation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022571924A
Other languages
English (en)
Other versions
JPWO2022137806A5 (ja
JPWO2022137806A1 (ja
Inventor
伸一郎 栗原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of JPWO2022137806A1 publication Critical patent/JPWO2022137806A1/ja
Publication of JPWO2022137806A5 publication Critical patent/JPWO2022137806A5/ja
Priority to JP2024064568A priority Critical patent/JP2024099602A/ja
Application granted granted Critical
Publication of JP7515128B2 publication Critical patent/JP7515128B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1016Earpieces of the intra-aural type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1058Manufacture or assembly
    • H04R1/1075Mountings of transducers in earphones or headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/10Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups
    • H04R2201/107Monophonic and stereophonic headphones with microphone for two-way hands free communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/01Hearing devices using active noise cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Manufacturing & Machinery (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Headphones And Earphones (AREA)

Description

本開示は、耳装着型デバイス、及び、再生方法に関する。
イヤホン及びヘッドホンなどの耳装着型デバイスに関する様々な技術が提案されている。特許文献1には、カナル型イヤホンに関する技術が開示されている。
特開2012-249184号公報
本開示は、直接音の成分が相対的に強い音の音信号と間接音の成分が相対的に強い音の音信号とを区別して信号処理を行うことができる耳装着型デバイスを提供する。
本開示の一態様に係る耳装着型デバイスは、音を取得し、取得した前記音の音信号を出力するマイクロフォンと、前記音信号に信号処理を行うことにより、前記音に含まれる音声が残響感を有するか否かを判定し、前記音信号に第1信号処理を行った第1音信号を、判定結果に基づいて出力する信号処理回路と、出力された前記第1音信号に基づいて音を再生するスピーカと、前記マイクロフォン、前記信号処理回路、及び、前記スピーカを収容するハウジングとを備える。
本開示の一態様に係る耳装着型デバイスは、直接音の成分が相対的に強い音の音信号と間接音の成分が相対的に強い音の音信号とを区別して信号処理を行うことができる。
図1は、実施の形態に係る音信号処理システムを構成するデバイスの外観図である。 図2は、実施の形態に係る音信号処理システムの機能構成を示すブロック図である。 図3は、動作モードの設定動作のシーケンス図である。 図4は、動作モードの選択画面の一例を示す図である。 図5は、アナウンスモードの動作例のフローチャートである。 図6は、対話モードの動作例のフローチャートである。 図7は、音声検出モードの動作例のフローチャートである。 図8は、オンセット時刻を説明するための図である。 図9は、直接的に到達する人の発話音のオンセット情報の一例を示す図である。 図10は、アナウンス音のオンセット情報の一例を示す図である。 図11は、直接的に到達する人の発話音のパワースペクトルを示す図である。 図12は、直接的に到達する人の発話音に含まれる残響音のパワースペクトルを示す図である。 図13は、直接的に到達する人の発話音に含まれるアタック音のパワースペクトルを示す図である。 図14は、アナウンス音のパワースペクトルを示す図である。 図15は、アナウンス音に含まれる残響音のパワースペクトルを示す図である。 図16は、アナウンス音に含まれるアタック音のパワースペクトルを示す図である。
以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付し、重複する説明は省略又は簡略化される場合がある。
(実施の形態)
[構成]
まず、実施の形態に係る音信号処理システムの構成について説明する。図1は、実施の形態に係る音信号処理システムを構成するデバイスの外観図である。図2は、実施の形態に係る音信号処理システムの機能構成を示すブロック図である。
図1及び図2に示されるように、実施の形態に係る音信号処理システム10は、耳装着型デバイス20と、携帯端末30とを備える。
まず、耳装着型デバイス20について説明する。耳装着型デバイス20は、携帯端末30から提供される第3音信号を再生するイヤホン型のデバイスである。第3音信号は、例えば、音楽コンテンツの音信号である。耳装着型デバイス20は、第3音信号(音楽コンテンツ)の再生中に、耳装着型デバイス20を装着したユーザの周囲の環境音(雑音)を低減するノイズキャンセル機能を有する。また、耳装着型デバイス20は、第3音信号の再生中に、当該ユーザの周囲の音を取り込む外音取り込み機能を有する。さらに、耳装着型デバイス20は、上記人の音声が、ユーザに直接的に到達する発話音(ユーザが人から話しかけられたときに聞く音)であるかアナウンス音であるかを区別して、ユーザに直接的に到達する発話音及びアナウンス音の一方に選択的に上記外音取り込み機能を適用することもできる。
ユーザに直接的に到達する発話音とは、間接音の成分に対して相対的に直接音の成分が強く、残響感が小さい音である。アナウンス音とは、スピーカから出力されて耳装着型デバイス20に到達する人の音声であり、直接音の成分に対して間接音の成分が相対的に強く、残響感が大きい音である。アナウンス音は、具体的には、空港、駅、及び、電車内などで案内のために出力される音である。
直接音とは、音源から反射せずに直接届く音を意味し、間接音とは、音源から物体により1回以上反射した後に届く音を意味する。同一の音源からの音が直接音、1つ以上の間接音として聴取者に届くときには、経路により音の周波数特性及び位相が変化する。このため、これらが重畳された音を聞いた聴取者は、直接音が相対的に強いと残響感が小さいと感じ、直接音が相対的に弱いと残響感が大きいと感じる。例えば、人が聴取者に直接話しかける場合は残響感が小さく、アナウンス音は、(スピーカの直近で聞くような特殊な状況ではなく、一般的な状況においては)残響感が大きく感じる。
耳装着型デバイス20は、残響感の大小により、アナウンス音か、人が直接話しかけてきた音かを推定することで、ユーザに直接的に到達する発話音及びアナウンス音の一方に選択的に上記外音取り込み機能を適用することができる。
なお、残響感とは、例えば、直接音が聞こえたあと、数ミリ秒から数百ミリ秒の間に壁、及び、天井などから反射した間接音が直接音と一緒に一つの音の流れのように聞こえることを意味する。すなわち、残響感のある音は、直接音と多方面から遅れて到達する間接音とが重畳された音を意味する。残響感のない音は、直接音が支配的であり、重畳された間接音が聴感上小さい、または無視できるレベルに抑え込まれている音を意味する。
耳装着型デバイス20は、具体的には、マイクロフォン21と、DSP22と、通信モジュール27と、スピーカ28とを備える。マイクロフォン21、DSP22、通信モジュール27、及び、スピーカ28は、ハウジング29(図1に図示)に収容される。
マイクロフォン21は、耳装着型デバイス20の周囲の音を取得し、取得した音の音信号を出力する収音デバイスである。マイクロフォン21は、具体的には、コンデンサマイク、ダイナミックマイク、または、MEMS(Micro Electro Mechanical Systems)マイクなどであるが、特に限定されない。また、マイクロフォン21は、無指向性であってもよいし、指向性を有していてもよい。
DSP22は、マイクロフォン21から出力される音信号に信号処理を行うことにより、ノイズキャンセル機能、及び、外音取り込み機能を実現する。ノイズキャンセル機能は、音信号の位相を反転させてスピーカ28により再生することでノイズを低減する機能である。また、外音取り込み機能は、例えば、音信号に音の特定の周波数成分(例えば、100Hz以上2kHz以下の周波数成分)を強調するためのイコライジング処理を行ってスピーカ28により再生することで、当該特定の周波数成分を強調する機能である。耳装着型デバイス20においては、外音取り込み機能は、人の音声またはアナウンス音を強調するために使用される。なお、外音取り込み機能は、音信号を実質的にそのままスピーカ28により再生することで音信号が示す音をユーザに聞かせる機能であってもよく、イコライジング処理が行われることは必須ではない。DSP22は、信号処理回路の一例である。DSP22は、フィルタ部23と、信号処理部24と、ニューラルネットワーク部25と、記憶部26とを有する。以下では、ニューラルネットワーク部25は、NN(Neural Network)部25とも記載される。
フィルタ部23には、ハイパスフィルタ23a、ローパスフィルタ23b、及び、バンドパスフィルタ23cが含まれる。ハイパスフィルタ23aは、マイクロフォン21から出力される音信号に含まれる、200Hz以下の帯域の成分を減衰させる。ローパスフィルタ23bは、マイクロフォン21から出力される音信号に含まれる、500Hz以上の帯域の成分を減衰させる。バンドパスフィルタ23cは、マイクロフォン21から出力される音信号に含まれる、200Hz以下の帯域、及び、5kHz以上の帯域の成分を減衰させる。なお、これらのカットオフ周波数は例示であり、カットオフ周波数は経験的または実験的に定められればよい。
信号処理部24には、機能的な構成要素として、残響検出部24a、雑音検出部24b、音声検出部24c、及び、切替部24dが含まれる。残響検出部24a、雑音検出部24b、音声検出部24c、及び、切替部24dの機能は、例えば、信号処理部24に相当する回路が記憶部26に記憶されたコンピュータプログラムを実行することにより実現される。残響検出部24a、雑音検出部24b、音声検出部24c、及び、切替部24dの機能の詳細については後述する。
NN部25には、機能的な構成要素として、音声判定部25a、及び、残響判定部25bが含まれる。音声判定部25a、及び、残響判定部25bの機能は、例えば、NN部25に相当する回路が記憶部26に記憶されたコンピュータプログラムを実行することにより実現される。音声判定部25a、及び、残響判定部25bの機能の詳細については後述する。
記憶部26は、信号処理部24に相当する回路が実行するコンピュータプログラム、NN部25に相当する回路が実行するコンピュータプログラム、並びに、ノイズキャンセル機能、及び、外音取り込み機能の実現に必要な各種情報などが記憶される記憶装置である。記憶部26は、半導体メモリなどによって実現される。なお、記憶部26は、DSP22の内蔵メモリではなく、DSP22の外付けメモリとして実現されてもよい。
通信モジュール27は、携帯端末30から第3音信号を受信し、受信した第3音信号とDSP22が出力する信号処理後の音信号(後述の第1音信号または第2音信号)とをミキシングしてスピーカ28に出力する。通信モジュール27は、例えば、SoC(System-on-a-Chip)によって実現される。通信モジュール27は、通信回路27aと、ミキシング回路27bとを有する。
通信回路27aは、携帯端末30から第3音信号を受信する。通信回路27aは、例えば、無線通信回路であり、Bluetooth(登録商標)またはBLE(Bluetooth(登録商標) Low Energy)などの通信規格に基づいて、携帯端末30と通信を行う。
ミキシング回路27bは、DSP22によって出力される第1音信号及び第2音信号の一方に通信回路27aによって受信された第3音信号をミキシングしてスピーカ28に出力する。
スピーカ28は、ミキシング回路27bから取得したミキシング後の音信号に基づいて、音を再生する。スピーカ28は、耳装着型デバイス20を装着したユーザの耳穴(鼓膜)へ向けて音波を発するスピーカであるが、骨伝導スピーカであってもよい。
次に、携帯端末30について説明する。携帯端末30は、所定のアプリケーションプログラムがインストールされることにより、音信号処理システム10におけるユーザインタフェース装置として機能する情報端末である。また、携帯端末30は、耳装着型デバイス20に第3音信号(音楽コンテンツ)を提供する音源としても機能する。ユーザは、具体的には、携帯端末30を操作することにより、スピーカ28によって再生される音楽コンテンツの選択、及び、耳装着型デバイス20の動作モードの切り替えなどを行うことができる。携帯端末30は、UI(User Interface)部31と、通信回路32と、情報処理部33と、記憶部34とを備える。
UI部31は、ユーザの操作を受け付け、かつ、ユーザへ画像を提示するユーザインタフェース装置である。UI部31は、タッチパネルなどの操作受付部、及び、表示パネルなどの表示部によって実現される。
通信回路32は、耳装着型デバイス20へユーザが選択した音楽コンテンツの音信号である第3音信号を送信する。通信回路32は、例えば、無線通信回路であり、Bluetooth(登録商標)またはBLTなどの通信規格に基づいて、耳装着型デバイス20と通信を行う。
情報処理部33は、表示部への画像の表示、及び、通信回路32を用いた第3音信号の送信などに関する情報処理を行う。情報処理部33は、例えば、マイクロコンピュータによって実現されるが、プロセッサによって実現されてもよい。画像の表示機能、及び、第3音信号の送信機能などは、情報処理部33を構成するマイクロコンピュータ等が記憶部34に記憶されたコンピュータプログラムを実行することにより実現される。
記憶部34は、情報処理部33が情報処理を行うために必要な各種情報、情報処理部33が実行するコンピュータプログラム、及び、第3音信号(音楽コンテンツ)などが記憶される記憶装置である。記憶部34は、例えば、半導体メモリによって実現される。
[動作モードの設定動作]
耳装着型デバイス20には、3つの動作モードが準備されており、ユーザは3つの動作モードのいずれかを耳装着型デバイス20に設定することができる。以下、このような動作モードの設定動作について説明する。図3は、動作モードの設定動作のシーケンス図である。
まず、携帯端末30の情報処理部33は、UI部31(表示部)に、動作モードの選択画面を表示する(S11)。図4は、動作モードの選択画面の一例を示す図である。図4に示されるように、動作モードには、アナウンスモード、対話モード、及び、音声検出モードの3つのモードが含まれる。アナウンスモードは、アナウンス音を選択的に強調することでユーザがアナウンス音を聞き取ることを支援するための動作モードである。対話モードは、ユーザに直接的に到達する発話音を選択的に強調することでユーザが他のユーザと対話を行うことを支援するための動作モードである。音声検出モードは、人の音声を当該人の音声がユーザに直接的に到達する発話音であるかアナウンス音であるかは問わずに強調し、ユーザが人の音声を聞き取ることを支援するための動作モードである。各動作モードにおける動作の詳細については後述する。
このような選択画面が表示されているときに、ユーザは、携帯端末30のUI部31に、動作モードの選択操作を行い、UI部31は、この操作を受け付ける(S12)。UI部31によってこのような操作が受け付けられると、情報処理部33は、選択された動作モードを耳装着型デバイス20に設定するための設定指令を、通信回路32を用いて耳装着型デバイス20へ送信する(S13)。
耳装着型デバイス20の通信回路27aは、設定指令を受信する。通信回路27aにより設定指令が受信されると、通信モジュール27からDSP22へ設定指令が転送され、ステップS12においてユーザが選択した動作モードがDSP22に設定される(S14)。具体的には、DSP22の記憶部26に格納されている設定値が、設定指令において指定される値(上記3つのモードのいずれかを示す値)に設定される。
[アナウンスモードの動作例]
次に、アナウンスモードに設定された耳装着型デバイス20の動作例について説明する。図5は、耳装着型デバイス20のアナウンスモードの動作例のフローチャートである。アナウンスモードは、第1モードの一例であり、アナウンス音を選択的に強調することでユーザがアナウンス音を聞き取ることを支援するための動作モードである。
マイクロフォン21は音を取得し、取得した音の音信号を出力する(S21)。残響検出部24aは、マイクロフォン21から出力される音信号であってハイパスフィルタ23aが適用された音信号に信号処理を行うことにより当該音信号の音響特徴量を算出する(S22)。ここでの音響特徴量は、マイクロフォン21が取得した上記音に含まれる人の音声が残響感を有するか否かを判定するための音響特徴量である。音響特徴量の具体例については後述する。検出された音響特徴量は、残響判定部25bに出力される。
雑音検出部24bは、マイクロフォン21から出力される音信号であってローパスフィルタ23bが適用された音信号に信号処理を行うことにより当該音信号のZCR(Zero-Crossing Rate、ゼロ交叉点比率)を算出する(S23)。ZCRは、音信号が示す音がノイズに近いかどうかを算出するための音響特徴量であり、音信号がゼロを横断する回数、または、音信号の符号が変更される回数を示す。算出されたZCRは、音声判定部25aに出力される。なお、ステップS23においては、flatness(信号平坦性比率)などのノイズを推定するための他の音響特徴量が算出され、ステップS24以降では、ZCRに代えて当該他の音響特徴量が用いられてもよい。
音声検出部24cは、マイクロフォン21から出力される音信号であってバンドパスフィルタ23cが適用された音信号に信号処理を行うことにより、MFCC(Mel-Frequency Cepstral Coefficient、メル周波数ケプストラム係数)を算出する(S24)。MFCCは、音声認識等で特徴量として用いられるケプストラムの係数であり、メルフィルタバンクを用いて圧縮されたパワースペクトルを対数パワースペクトルに変換し、対数パワースペクトルに逆離散コサイン変換を適用することで得られる。算出されたMFCCは、音声判定部25aに出力される。
音声判定部25aは、雑音検出部24bから出力されるZCR及び音声検出部24cから出力されるMFCCに基づいて、マイクロフォン21によって取得された音に人の音声が含まれるか否かを判定する(S25)。音声判定部25aは、ZCR及びMFCCを入力として上記音に人の音声が含まれるか否かの判定結果を出力する第一機械学習モデル(ニューラルネットワーク)を含み、このような第一機械学習モデルを用いてマイクロフォン21によって取得された音に人の音声が含まれるか否かを判定することができる。判定結果は、残響判定部25bに出力される。なお、ZCR及びMFCCの両方に基づいて判定が行われることは必須ではなく、ZCR及びMFCCの少なくとも一方に基づいて判定が行われればよい。つまり、雑音検出部24b及び音声検出部24cの一方は省略されてもよい。
残響判定部25bは、音声判定部25aから出力される判定結果が、マイクロフォン21によって取得された音に人の音声が含まれることを示す場合に(S25でYes)、残響検出部24aから出力される音響特徴量に基づいて、マイクロフォン21によって取得された音に含まれる人の音声が残響感を有する否かを判定する(S26)。本実施の形態において音声が残響感を有するか否かを判定するとは、厳密な意味ではなく、人の音声が有する残響感の程度(大小)を判定するという意味である。人の音声が残響感を有するか否かは、人の音声に含まれる残響感が強いか否か、及び、人の音声に含まれる残響音の成分が所定量よりも多いか否か、等に言い換えることができる。
残響判定部25bは、具体的には、残響検出部24aから出力される音響特徴量を残響判定部25bに含まれる第二機械学習モデル(ニューラルネットワーク)に入力する。この第二機械学習モデルは、音響特徴量を入力として上記人の音声が残響感を有するか否かの判定結果を出力する。つまり、残響判定部25bは、このような第二機械学習モデルを用いてマイクロフォン21によって取得された音に含まれる人の音声が残響感を有するか否かを判定することができる。残響判定部25bは、判定結果を切替部24dに出力する。
切替部24dは、音声判定部25aから出力される判定結果、及び、残響判定部25bから出力される判定結果に基づいて、マイクロフォン21によって出力された音信号にイコライジング処理(第1信号処理の一例)を行うか、位相反転処理(第2信号処理の一例)を行うかを切り替える。
残響判定部25bから出力される判定結果が、マイクロフォン21によって取得された音に含まれる人の音声が残響感を有することを示す場合(S26でYes)は、言い換えれば、マイクロフォン21によってアナウンス音が取得された場合である。このような場合、切替部24dは、音信号に特定の周波数成分を強調するためのイコライジング処理を行って第1音信号として出力する(S27)。特定の周波数成分は、例えば、100Hz以上2kHz以下の周波数成分である。
ミキシング回路27bは、第1音信号に通信回路27aによって受信された第3音信号(音楽コンテンツ)をミキシングしてスピーカ28に出力し(S29)、スピーカ28は、第3音信号がミキシングされた第1音信号に基づいて音を再生する(S30)。ステップS27の処理の結果、アナウンス音が強調されるので、耳装着型デバイス20のユーザはアナウンス音を聞き取りやすくなる。
一方、音声判定部25aから出力される判定結果が、マイクロフォン21によって取得された音に人の音声が含まれないことを示す場合(S25でNo)、及び、残響判定部25bから出力される判定結果が、マイクロフォン21によって取得された音に含まれる人の音声が残響感を有しない(残響感に乏しい)ことを示す場合(S26でNo)は、言い換えれば、マイクロフォン21によってアナウンス音以外の音が取得された場合である。このような場合、切替部24dは、音信号に位相反転処理を行って第2音信号として出力する(S28)。
ミキシング回路27bは、第2音信号に通信回路27aによって受信された第3音信号(音楽コンテンツ)をミキシングしてスピーカ28に出力し(S29)、スピーカ28は、第3音信号がミキシングされた第2音信号に基づいて音を再生する(S30)。ステップS28の処理の結果、耳装着型デバイス20のユーザにとっては耳装着型デバイス20の周囲の音が減衰して感じられるので、当該ユーザは音楽コンテンツを明瞭に聞き取ることができる。
以上説明したように、アナウンスモードの動作中のDSP22は、マイクロフォン21によって取得された音に含まれる人の音声が残響感を有するか否かを判定し、当該音に含まれる人の音声が残響感を有すると判定した場合に第1音信号を出力し、当該音に含まれる人の音声が残響感を有しないと判定した場合に第2音信号を出力する。第1音信号は、マイクロフォン21から出力された音信号に、音の特定の周波数成分を強調するためのイコライジング処理が施された音信号であり、第2音信号は、マイクロフォン21から出力された音信号に位相反転処理が施された音信号である。
これにより、アナウンスモードの動作中の耳装着型デバイス20は、ユーザがアナウンス音を聞き取ることを支援しつつ、アナウンス音以外の音を減衰させることができる。
[対話モードの動作例]
次に、対話モードに設定された耳装着型デバイス20の動作例について説明する。図6は、耳装着型デバイス20の対話モードの動作例のフローチャートである。対話モードは、第2モードの一例であり、ユーザに直接的に到達する発話音を選択的に強調することでユーザが他のユーザと対話を行うことを支援するための動作モードである。
ステップS31~S35の処理は、アナウンスモードの動作例におけるステップS21~S25と同様である。残響判定部25bは、音声判定部25aから出力される判定結果が、マイクロフォン21によって取得された音に人の音声が含まれることを示す場合に(S35でYes)、残響検出部24aから出力される音響特徴量に基づいて、マイクロフォン21によって取得された音に含まれる人の音声が残響感を有する否かを判定する(S36)。
ステップS36の後、切替部24dは、音声判定部25aから出力される判定結果、及び、残響判定部25bから出力される判定結果に基づいて、マイクロフォン21によって出力された音信号にイコライジング処理を行うか、位相反転処理を行うかを切り替える。
残響判定部25bから出力される判定結果が、マイクロフォン21によって取得された音に含まれる人の音声が残響感を有しない(残響感に乏しい)ことを示す場合(S36でNo)は、言い換えれば、マイクロフォン21によってユーザに直接的に到達する発話音が取得された場合である。このような場合、切替部24dは、音信号に特定の周波数成分を強調するためのイコライジング処理を行って第1音信号として出力する(S37)。特定の周波数成分は、例えば、100Hz以上2kHz以下の周波数成分である。
ミキシング回路27bは、第1音信号に通信回路27aによって受信された第3音信号(音楽コンテンツ)をミキシングしてスピーカ28に出力し(S39)、スピーカ28は、第3音信号がミキシングされた第1音信号に基づいて音を再生する(S40)。ステップS37の処理の結果、ユーザに直接的に到達する発話音が強調されるので、耳装着型デバイス20のユーザはユーザに直接的に到達する発話音を聞き取りやすくなる。
一方、音声判定部25aから出力される判定結果が、マイクロフォン21によって取得された音に人の音声が含まれないことを示す場合(S35でNo)、及び、残響判定部25bから出力される判定結果が、マイクロフォン21によって取得された音に含まれる人の音声が残響感を有することを示す場合(S36でYes)は、言い換えれば、マイクロフォン21によってユーザに直接的に到達する発話音以外の音が取得された場合である。このような場合、切替部24dは、音信号に位相反転処理を行って第2音信号として出力する(S38)。
ミキシング回路27bは、第2音信号に通信回路27aによって受信された第3音信号(音楽コンテンツ)をミキシングしてスピーカ28に出力し(S39)、スピーカ28は、第3音信号がミキシングされた第2音信号に基づいて音を再生する(S40)。ステップS38の処理の結果、耳装着型デバイス20のユーザにとっては耳装着型デバイス20の周囲の音が減衰して感じられるので、当該ユーザは音楽コンテンツを明瞭に聞き取ることができる。
以上説明したように、対話モードの動作中のDSP22は、マイクロフォン21によって取得された音に含まれる人の音声が残響感を有するか否かを判定し、当該音に含まれる人の音声が残響感を有しないと判定した場合に第1音信号を出力し、当該音に含まれる人の音声が残響感を有すると判定した場合に第2音信号を出力する。第1音信号は、マイクロフォン21から出力された音信号に、音の特定の周波数成分を強調するためのイコライジング処理が施された音信号であり、第2音信号は、マイクロフォン21から出力された音信号に位相反転処理が施された音信号である。
これにより、対話モードの動作中の耳装着型デバイス20は、ユーザの他のユーザとの対話を支援しつつ、ユーザに直接的に到達する発話音以外の音を減衰させることができる。
[音声検出モードの動作例]
次に、音声検出モードに設定された耳装着型デバイス20の動作例について説明する。図7は、耳装着型デバイス20の音声検出モードの動作例のフローチャートである。音声検出モードは、第3モードの一例であり、人の音声を当該人の音声がユーザに直接的に到達する発話音であるかアナウンス音であるかは問わずに強調し、ユーザが人の音声を聞き取ることを支援するための動作モードである。
マイクロフォン21は音を取得し、取得した音の音信号を出力する(S41)。雑音検出部24bは、マイクロフォン21から出力される音信号であってローパスフィルタ23bが適用された音信号に信号処理を行うことにより当該音信号のZCRを算出する(S42)。算出されたZCRは、音声判定部25aに出力される。
音声検出部24cは、マイクロフォン21から出力される音信号であってバンドパスフィルタ23cが適用された音信号に信号処理を行うことにより、MFCCを算出する(S43)。算出されたMFCCは、音声判定部25aに出力される。
音声判定部25aは、雑音検出部24bから出力されるZCR及び音声検出部24cから出力されるMFCCに基づいて、マイクロフォン21によって取得された音に人の音声が含まれるか否かを判定する(S44)。ステップS44における具体的な処理は、ステップS25及びステップS35と同様である。
切替部24dは、音声判定部25aから出力される判定結果に基づいて、マイクロフォン21によって出力された音信号にイコライジング処理を行うか、位相反転処理を行うかを切り替える。
音声判定部25aから出力される判定結果が、マイクロフォン21によって取得された音に人の音声が含まれることを示す場合(S44でYes)、切替部24dは、音信号に特定の周波数成分を強調するためのイコライジング処理を行って第1音信号として出力する(S45)。特定の周波数成分は、例えば、100Hz以上2kHz以下の周波数成分である。
ミキシング回路27bは、第1音信号に通信回路27aによって受信された第3音信号(音楽コンテンツ)をミキシングしてスピーカ28に出力し(S47)、スピーカ28は、第3音信号がミキシングされた第1音信号に基づいて音を再生する(S48)。ステップS45の処理の結果、音声が強調されるので、耳装着型デバイス20のユーザは音声を聞き取りやすくなる。
一方、音声判定部25aから出力される判定結果が、マイクロフォン21によって取得された音に人の音声が含まれないことを示す場合(S44でNo)、切替部24dは、音信号に位相反転処理を行って第2音信号として出力する(S46)。
ミキシング回路27bは、第2音信号に通信回路27aによって受信された第3音信号(音楽コンテンツ)をミキシングしてスピーカ28に出力し(S47)、スピーカ28は、第3音信号がミキシングされた第2音信号に基づいて音を再生する(S48)。ステップS46の処理の結果、耳装着型デバイス20のユーザにとっては耳装着型デバイス20の周囲の音が減衰して感じられるので、当該ユーザは音楽コンテンツを明瞭に聞き取ることができる。
以上説明したように、音声検出モードの動作中のDSP22は、マイクロフォン21によって取得された音に人の音声が含まれるか否かを判定し、当該音に人の音声が含まれると判定した場合に第1音信号を出力し、当該音に人の音声が含まれないと判定した場合に第2音信号を出力する。第1音信号は、マイクロフォン21から出力された音信号に、音の特定の周波数成分を強調するためのイコライジング処理が施された音信号であり、第2音信号は、マイクロフォン21から出力された音信号に位相反転処理が施された音信号である。
これにより、音声検出モードの動作中の耳装着型デバイス20は、ユーザが人の音声を聞き取ることを支援しつつ、人の音声以外の音を減衰させることができる。
[音響特徴量の例1]
次に、残響検出部24aによって算出される音響特徴量の例1について説明する。音響特徴量としては、例えば、音信号の音圧レベルの経時変化と、オンセット時刻との関係性を示すオンセット情報が用いられる。オンセット情報は、音圧レベルの経時変化を示す波形と、当該波形におけるオンセット時刻の位置とを含む情報である。図8は、オンセット時刻を説明するための図であり、図8の(a)は、音信号の波形の経時変化を示し、図8の(b)は、音のパワーの経時変化を示す図である。図8の(b)は、より詳細には、図8の(a)の波形を周波数分解してメルスペクトログラムを算出し、算出したメルスペクトログラム重畳して、時間方向に包絡線をとった図である。図8に示されるように、オンセット時刻とは、音が出始める時刻を意味する。
図9は、直接的に到達する人の発話音のオンセット情報の一例を示す図であり、図10は、アナウンス音のオンセット情報の一例を示す図である。図9は、人の音声をマイクロフォンによって直接的に取得した場合に得られるオンセット情報を示し、図10は、同じ人の音声をスピーカ経由で間接的に同じマイクロフォンによって取得した場合に得られるオンセット情報である。つまり、図9のオンセット情報と図10のオンセット情報とは、残響の有無(残響の程度)のみが異なる。
図9及び図10において、実線は、上記人の音声の音信号を周波数解析(具体的には、周波数分解および、メルスペクトログラムから時系列のエンベロープを算出)することにより、各周波数における音圧レベルを抽出し、抽出した音圧レベルを重畳することで得られる、総合的な音圧レベルの経時変化を示す。図9及び図10において、破線は、オンセット時刻を示す。図9及び図10のオンセット時刻は、上記人の音声の音信号を周波数解析することにより、各周波数における音圧レベルを抽出し、最も音圧レベルが高い周波数における音圧レベルの変化に基づいて特定されている。
このように、オンセット情報は、音圧レベルの経時変化を示す波形と、当該波形におけるオンセット時刻の位置とを含む情報であり、上記ステップS22及びS32において、残響検出部24aは、このようなオンセット情報を音響特徴量として算出し、残響判定部25bに出力する。
残響判定部25bに含まれる第二機械学習モデルは、図9及び図10に示されるようなオンセット情報の組(つまり、残響の有無のみが異なるオンセット情報の組)を学習することであらかじめ構築されたものである。学習の際には、オンセット情報には残響の有無がラベルとして付与(アノテーション)される。
このように、DSP22は、音信号からオンセット情報を算出し、算出したオンセット情報に基づいて、マイクロフォン21によって取得された音に含まれる人の音声が残響感を有するか否かを判定することができる。
[音響特徴量の例2]
次に、残響検出部24aによって算出される音響特徴量の例2について説明する。音響特徴量としては、例えば、残響音のパワースペクトルが用いられる。図11は、ユーザに直接的に到達する発話音のパワースペクトルを示す図であり、図12は、ユーザに直接的に到達する発話音に含まれる残響音のパワースペクトルを示す図であり、図13は、ユーザに直接的に到達する発話音に含まれるアタック音のパワースペクトルを示す図である。図14は、アナウンス音のパワースペクトルを示す図であり、図15は、このアナウンス音に含まれる残響音のパワースペクトルを示す図であり、図16は、このアナウンス音に含まれるアタック音のパワースペクトルを示す図である。図11~図16においては、色の白い部分ほどパワー値が高く、色が黒い部分ほどパワー値が低いことを意味する。図11~図13の元となるユーザに直接的に到達する発話音と、図14~図16の元となるアナウンス音とは、残響の有無(残響の程度)のみが異なる。
なお、残響音のパワースペクトルは、図8の(b)のアタック部分以外の部分パワースペクトルである。残響音のパワースペクトルは、時間領域において連続的な区間を抽出したパワースペクトルである。残響音のパワースペクトルは、具体的には、各要素がパワー値を示す行列情報である。なお、上記アタック部分とは、周波数領域に対して連続的(広い周波数帯で音がなっている状態)な区間を時間軸で捉えたときに、音が発生する点から音圧がピークに達する点までに相当する部分であり、アタック音のパワースペクトルは、周波数領域において連続的な区間を抽出したパワースペクトルである。
上記ステップS22及びS32において、残響検出部24aは、このような残響音のパワースペクトルを音響特徴量として算出し、残響判定部25bに出力する。残響音のパワースペクトルを算出するための具体的な方法については、既存のどのような方法が用いられてもよい。ここでは、HPSS(Hermonic/Percussive Source Seperation)を残響検出の用途のために改修したもの用いている。
残響判定部25bに含まれる第二機械学習モデルは図12及び図15に示されるような残響音のパワースペクトルの組(つまり、残響の有無のみが異なる残響音のパワースペクトルの組)を学習することであらかじめ構築されたものである。学習の際には、残響音のパワースペクトルには残響の有無がラベルとして付与(アノテーション)される。
このように、DSP22は、音信号から残響音のパワースペクトルを算出し、算出した残響音のパワースペクトルに基づいて、人の音声が残響感を有するか否かを判定することができる。
[効果等]
以上説明したように、耳装着型デバイス20は、音を取得し、取得した上記音の音信号を出力するマイクロフォン21と、上記音信号に信号処理を行うことにより、上記音に含まれる音声が残響感を有するか否かを判定し、音信号に第1信号処理を行った第1音信号を、判定結果に基づいて出力するDSP22と、出力された第1音信号に基づいて音を再生するスピーカ28と、マイクロフォン21、DSP22、及び、スピーカ28を収容するハウジング29とを備える。DSPは、信号処理回路の一例である。
このような耳装着型デバイス20は、ユーザに直接的に到達する発話音の音信号とアナウンス音の音信号とを区別して信号処理を行うことができる。
また、例えば、DSP22は、第1音信号、及び、音信号に第1信号処理と異なる第2信号処理を行った第2音信号を、判定結果に基づいて選択的に出力する。スピーカ28は、出力された第1音信号及び出力された第2音信号の一方に基づいて音を再生する。
このような耳装着型デバイス20は、ユーザに直接的に到達する発話音の音信号とアナウンス音の音信号とに異なる信号処理を行うことができる。
また、例えば、第1信号処理は、取得された音の特定の周波数成分を強調するためのイコライジング処理を含み、第2信号処理は、位相反転処理を含む。
このような耳装着型デバイス20は、直接音及びアナウンス音の一方を強調し、他方を減衰させることができる。
また、例えば、DSP22は、上記音に含まれる音声が残響感を有すると判定した場合に第1音信号を出力し、音に含まれる音声が残響感を有しないと判定した場合に第2音信号を出力する。
このような耳装着型デバイス20は、アナウンス音を強調し、直接音を減衰させることができる。耳装着型デバイス20は、ユーザがアナウンス音を聞き取ることを支援することができる。
また、例えば、DSP22は、上記音に含まれる音声が残響感を有しないと判定した場合に第1音信号を出力し、上記音に含まれる音声が残響感を有すると判定した場合に第2音信号を出力する。
このような耳装着型デバイス20は、ユーザに直接的に到達する発話音を強調し、アナウンス音を減衰させることができる。耳装着型デバイス20は、ユーザが当該ユーザに話しかける他のユーザと対話することを支援することができる。
また、例えば、DSP22は、アナウンスモードの動作、及び、対話モードの動作とを選択的に行う。アナウンスモードの動作中のDSP22は、上記音に含まれる音声が残響感を有すると判定した場合に第1音信号を出力し、上記音に含まれる音声が残響感を有しないと判定した場合に第2音信号を出力する。また、対話モードの動作中のDSP22は、上記音に含まれる音声が残響感を有しないと判定した場合に第1音信号を出力し、上記音に含まれる音声が残響感を有すると判定した場合に第2音信号を出力する。アナウンスモードは、第1モードの一例であり、対話モードは、第2モードの一例である。
このような耳装着型デバイス20は、アナウンス音を強調し、ユーザに直接的に到達する発話音を減衰させるアナウンスモードの動作と、ユーザに直接的に到達する発話音を強調し、アナウンス音を減衰させる対話モードの動作とを選択的に実行することができる。
また、例えば、DSP22は、アナウンスモードの動作、対話モードの動作、及び、音声検出モードの動作を選択的に行う。音声検出モードの動作中のDSP22は、上記音信号に信号処理を行うことにより、上記音に音声が含まれるか否かを判定し、取得された上記音に音声が含まれると判定した場合に第1音信号を出力し、取得された上記音に音声が含まれないと判定した場合に第2音信号を出力する。音声検出モードは、第3モードの一例である。
このような耳装着型デバイス20は、アナウンスモードの動作、及び、対話モードの動作に加えて、人の音声を強調し、雑音を減衰させる音声検出モードの動作を実行することができる。
また、例えば、DSP22は、上記音信号に信号処理を行うことにより、上記音に含まれる残響音のパワースペクトルを算出し、算出した上記パワースペクトルに基づいて、上記音に含まれる音声が残響感を有するか否かを判定する。
このような耳装着型デバイス20は、残響音のパワースペクトルに基づいて、音声が残響感を有するか否かを判定することができる。
また、例えば、DSP22は、上記音信号に信号処理を行うことにより、上記音信号の音圧レベルの経時変化、及び、オンセット時刻を示すオンセット情報を算出し、算出したオンセット情報に基づいて、上記音に含まれる音声が残響感を有するか否かを判定する。
このような耳装着型デバイス20は、オンセット情報に基づいて、人の音声が残響感を有するか否かを判定することができる。
また、例えば、耳装着型デバイス20は、さらに、出力された第1音信号に、携帯端末30から提供される第3音信号をミキシングするミキシング回路27bを備える。スピーカ28は、第3音信号がミキシングされた第1音信号に基づいて音を再生する。携帯端末30は、音源の一例である。
このような耳装着型デバイスは、第3音信号の再生中に、アナウンスモードの動作等を行うことができる。
また、耳装着型デバイス20などのコンピュータが実行する再生方法は、音を取得するマイクロフォンが出力した上記音の音信号に信号処理を行うことにより、上記音に含まれる音声が残響感を有するか否かを判定する判定ステップS26と、上記音信号に第1信号処理を行った第1音信号を、判定ステップS26における判定結果に基づいて出力する出力ステップS27と、出力された第1音信号に基づいて音を再生する再生ステップS30とを含む。
このような再生方法は、ユーザに直接的に到達する発話音の音信号とアナウンス音の音信号とを区別して信号処理を行うことができる。
(その他の実施の形態)
以上、実施の形態について説明したが、本開示は、上記実施の形態に限定されるものではない。
例えば、上記実施の形態においては、耳装着型デバイスは、イヤホン型のデバイスであると説明されたが、ヘッドホン型のデバイスであってもよい。また、上記実施の形態において、耳装着型デバイスは、3つの動作モードで選択的に動作したが、3つの動作モードの少なくとも1つの動作モードを有するデバイスであってもよいし、3つの動作モードのいずれか1つに特化したデバイスであってもよい。
また、上記実施の形態において、耳装着型デバイスは、音楽コンテンツを再生する機能を有していたが、音楽コンテンツを再生する機能(通信モジュール)を有していなくてもよい。例えば、耳装着型デバイスは、ノイズキャンセル機能、及び、外音取り込み機能を有する耳栓であってもよい。
また、上記実施の形態では、マイクロフォンによって取得された音に音声が含まれるか否かの判定は、機械学習モデルを使用して行われたが、機械学習モデルを使用しない他のアルゴリズムに基づいて行われてもよい。音声が残響感を有するか否かの判定についても同様である。
また、上記実施の形態に係る耳装着型デバイスの構成は、一例である。例えば、耳装着型デバイスは、D/A変換器、フィルタ、電力増幅器、または、A/D変換器などの図示されない構成要素を含んでもよい。
また、上記実施の形態において、音信号処理システムは、複数の装置によって実現されたが、単一の装置として実現されてもよい。音信号処理システムが複数の装置によって実現される場合、音信号処理システムが備える機能的な構成要素は、複数の装置にどのように振り分けられてもよい。例えば、上記実施の形態において、耳装着型デバイスが備える機能的な構成要素の一部または全部を携帯端末が備えてもよい。
また、上記実施の形態における装置間の通信方法については特に限定されるものではない。上記実施の形態において2つの装置が通信を行う場合、2つの装置間には図示されない中継装置が介在してもよい。
また、上記実施の形態で説明された処理の順序は、一例である。複数の処理の順序は変更されてもよいし、複数の処理は並行して実行されてもよい。また、特定の処理部が実行する処理を別の処理部が実行してもよい。また、上記実施の形態で説明されたデジタル信号処理の一部がアナログ信号処理によって実現されてもよい。
また、上記実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
また、各構成要素は、ハードウェアによって実現されてもよい。例えば、各構成要素は、回路(又は集積回路)でもよい。これらの回路は、全体として1つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。
また、本開示の全般的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよい。また、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。例えば、本開示は、耳装着型デバイスまたは携帯端末などのコンピュータが実行する再生方法として実行されてもよいし、このような再生方法をコンピュータに実行させるためのプログラムとして実現されてもよい。また、本開示は、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。なお、ここでのプログラムには、汎用の携帯端末を上記実施の形態の携帯端末として機能させるためのアプリケーションプログラムが含まれる。
その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、又は、本開示の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。
本開示の耳装着型デバイスは、直接音の成分が相対的に強い音の音信号と間接音の成分が相対的に強い音の音信号とを区別して信号処理を行うことができる。
10 音信号処理システム
20 耳装着型デバイス
21 マイクロフォン
22 DSP
23 フィルタ部
23a ハイパスフィルタ
23b ローパスフィルタ
23c バンドパスフィルタ
24 信号処理部
24a 残響検出部
24b 雑音検出部
24c 音声検出部
24d 切替部
25 ニューラルネットワーク部
25a 音声判定部
25b 残響判定部
26 記憶部
27 通信モジュール
27a 通信回路
27b ミキシング回路
28 スピーカ
29 ハウジング
30 携帯端末
31 UI部
32 通信回路
33 情報処理部
34 記憶部

Claims (12)

  1. 音を取得し、取得した前記音の音信号を出力するマイクロフォンと、
    前記音信号に信号処理を行うことにより、前記音に含まれる音声が残響感を有するか否かを判定し、前記音に含まれる音声が残響感を有すると判定した場合、前記音声の周波数成分を強調するためのイコライジング処理を含む第1信号処理を前記音信号に対して行った第1音信号を出力する信号処理回路と、
    出力された前記第1音信号に基づいて音を再生するスピーカと、
    前記マイクロフォン、前記信号処理回路、及び、前記スピーカを収容するハウジングとを備え
    前記信号処理回路は、前記音に含まれる音声が残響感を有しないと判定した場合、位相反転処理を含む第2信号処理を前記音信号に対して行った第2音信号を出力し、
    前記スピーカは、出力された前記第1音信号及び出力された前記第2音信号の一方に基づいて音を再生する
    耳装着型デバイス。
  2. 前記信号処理回路は、前記音信号に信号処理を行うことにより、前記音に音声が含まれるか否かを判定し、取得された前記音に音声が含まれると判定した場合、かつ、前記音声が残響感を有すると判定した場合に前記第1音信号を出力する、
    請求項1に記載の耳装着型デバイス。
  3. 前記信号処理回路は、第1モードの動作、及び、第2モードの動作を選択的に行い、
    前記第1モードの動作中の前記信号処理回路は、
    前記音に含まれる音声が残響感を有すると判定した場合に前記第1音信号を出力し、
    前記音に含まれる音声が残響感を有しないと判定した場合に前記第2音信号を出力し、
    前記第2モードの動作中の前記信号処理回路は、
    前記音に含まれる音声が残響感を有しないと判定した場合に前記第1音信号を出力し、
    前記音に含まれる音声が残響感を有すると判定した場合に前記第2音信号を出力する
    請求項1または2に記載の耳装着型デバイス。
  4. 前記信号処理回路は、前記第1モードの動作、前記第2モードの動作、及び、第3モードの動作を選択的に行い、
    前記第3モードの動作中の信号処理回路は、
    前記音信号に信号処理を行うことにより、前記音に音声が含まれるか否かを判定し、
    取得された前記音に音声が含まれると判定した場合に前記第1音信号を出力し、
    取得された前記音に音声が含まれないと判定した場合に前記第2音信号を出力する
    請求項に記載の耳装着型デバイス。
  5. 前記信号処理回路は、前記音信号に前記信号処理を行うことにより、前記音に含まれる残響音のパワースペクトルを算出し、算出した前記パワースペクトルに基づいて、前記音に含まれる音声が残響感を有するか否かを判定する
    請求項1~のいずれか1項に記載の耳装着型デバイス。
  6. 前記信号処理回路は、前記音信号に前記信号処理を行うことにより、前記音信号の音圧レベルの経時変化、及び、オンセット時刻を示すオンセット情報を算出し、算出した前記オンセット情報に基づいて、前記音に含まれる音声が残響感を有するか否かを判定する
    請求項1~のいずれか1項に記載の耳装着型デバイス。
  7. さらに、出力された前記第1音信号に、音源から提供される第3音信号をミキシングするミキシング回路を備え、
    前記スピーカは、前記第3音信号がミキシングされた前記第1音信号に基づいて音を再生する
    請求項1~のいずれか1項に記載の耳装着型デバイス。
  8. 音を取得するマイクロフォンが出力した前記音の音信号に信号処理を行うことにより、前記音に含まれる音声が残響感を有するか否かを判定する判定ステップと、
    前記判定ステップにおいて前記音に含まれる音声が残響感を有すると判定した場合、前記音声の周波数成分を強調するためのイコライジング処理を含む第1信号処理を前記音信号に対して行った第1音信号を出力し、前記音に含まれる音声が残響感を有しないと判定した場合、位相反転処理を含む第2信号処理を前記音信号に対して行った第2音信号を出力する出力ステップと、
    出力された前記第1音信号及び出力された前記第2音信号の一方に基づいて音を再生する再生ステップとを含む
    再生方法。
  9. 請求項に記載の再生方法をコンピュータに実行させるためのプログラム。
  10. 音を取得し、取得した前記音の音信号を出力するマイクロフォンと、
    前記音信号に信号処理を行うことにより、前記音に含まれる音声が残響感を有するか否かを判定し、前記音に含まれる音声が残響感を有しないと判定した場合、位相反転処理を含む第2信号処理を前記音信号に対して行った第2音信号を出力する信号処理回路と、
    出力された前記第2音信号に基づいて音を再生するスピーカと、
    前記マイクロフォン、前記信号処理回路、及び、前記スピーカを収容するハウジングとを備える
    耳装着型デバイス。
  11. 音を取得するマイクロフォンが出力した前記音の音信号に信号処理を行うことにより、前記音に含まれる音声が残響感を有するか否かを判定する判定ステップと、
    前記判定ステップにおいて前記音に含まれる音声が残響感を有しないと判定した場合、位相反転処理を含む第2信号処理を前記音信号に対して行った第2音信号を出力する出力ステップと、
    出力された前記第2音信号に基づいて音を再生する再生ステップとを含む
    再生方法。
  12. 請求項11に記載の再生方法をコンピュータに実行させるためのプログラム。
JP2022571924A 2020-12-25 2021-10-29 耳装着型デバイス、及び、再生方法 Active JP7515128B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2024064568A JP2024099602A (ja) 2020-12-25 2024-04-12 耳装着型デバイス、及び、再生方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020216390 2020-12-25
JP2020216390 2020-12-25
PCT/JP2021/040129 WO2022137806A1 (ja) 2020-12-25 2021-10-29 耳装着型デバイス、及び、再生方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024064568A Division JP2024099602A (ja) 2020-12-25 2024-04-12 耳装着型デバイス、及び、再生方法

Publications (3)

Publication Number Publication Date
JPWO2022137806A1 JPWO2022137806A1 (ja) 2022-06-30
JPWO2022137806A5 JPWO2022137806A5 (ja) 2023-02-02
JP7515128B2 true JP7515128B2 (ja) 2024-07-12

Family

ID=82158988

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022571924A Active JP7515128B2 (ja) 2020-12-25 2021-10-29 耳装着型デバイス、及び、再生方法
JP2024064568A Pending JP2024099602A (ja) 2020-12-25 2024-04-12 耳装着型デバイス、及び、再生方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2024064568A Pending JP2024099602A (ja) 2020-12-25 2024-04-12 耳装着型デバイス、及び、再生方法

Country Status (4)

Country Link
US (1) US20230239617A1 (ja)
EP (1) EP4270983A4 (ja)
JP (2) JP7515128B2 (ja)
WO (1) WO2022137806A1 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010091897A (ja) 2008-10-10 2010-04-22 Kyushu Univ 音声信号強調装置
JP2011081033A (ja) 2009-10-02 2011-04-21 Toshiba Corp 信号処理装置、及び携帯端末装置
WO2011048813A1 (ja) 2009-10-21 2011-04-28 パナソニック株式会社 音響処理装置、音響処理方法及び補聴器
JP2011203654A (ja) 2010-03-26 2011-10-13 Sony Corp 音声再生装置、音声再生方法およびプログラム
JP2012109933A (ja) 2010-10-26 2012-06-07 Panasonic Corp 補聴装置
JP2015144430A (ja) 2013-12-30 2015-08-06 ジーエヌ リザウンド エー/エスGn Resound A/S 位置データを用いる聴覚装置、音声システム、および関連する方法
JP2016054421A (ja) 2014-09-03 2016-04-14 リオン株式会社 残響抑制装置
JP2020028016A (ja) 2018-08-10 2020-02-20 リオン株式会社 残響抑制装置及び補聴器

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007008738A1 (de) * 2007-02-22 2008-08-28 Siemens Audiologische Technik Gmbh Verfahren zur Verbesserung der räumlichen Wahrnehmung und entsprechende Hörvorrichtung
WO2011020992A2 (en) * 2009-08-15 2011-02-24 Archiveades Georgiou Method, system and item
JP5751021B2 (ja) 2011-05-30 2015-07-22 ヤマハ株式会社 イヤホン
CN103168479B (zh) * 2011-10-14 2016-11-23 松下知识产权经营株式会社 振鸣抑制装置、助听器、振鸣抑制方法和集成电路
JP6069829B2 (ja) * 2011-12-08 2017-02-01 ソニー株式会社 耳孔装着型収音装置、信号処理装置、収音方法
WO2016042410A1 (en) * 2014-09-17 2016-03-24 Symphonova, Ltd Techniques for acoustic reverberance control and related systems and methods

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010091897A (ja) 2008-10-10 2010-04-22 Kyushu Univ 音声信号強調装置
JP2011081033A (ja) 2009-10-02 2011-04-21 Toshiba Corp 信号処理装置、及び携帯端末装置
WO2011048813A1 (ja) 2009-10-21 2011-04-28 パナソニック株式会社 音響処理装置、音響処理方法及び補聴器
JP2011203654A (ja) 2010-03-26 2011-10-13 Sony Corp 音声再生装置、音声再生方法およびプログラム
JP2012109933A (ja) 2010-10-26 2012-06-07 Panasonic Corp 補聴装置
JP2015144430A (ja) 2013-12-30 2015-08-06 ジーエヌ リザウンド エー/エスGn Resound A/S 位置データを用いる聴覚装置、音声システム、および関連する方法
JP2016054421A (ja) 2014-09-03 2016-04-14 リオン株式会社 残響抑制装置
JP2020028016A (ja) 2018-08-10 2020-02-20 リオン株式会社 残響抑制装置及び補聴器

Also Published As

Publication number Publication date
JP2024099602A (ja) 2024-07-25
WO2022137806A1 (ja) 2022-06-30
JPWO2022137806A1 (ja) 2022-06-30
EP4270983A1 (en) 2023-11-01
EP4270983A4 (en) 2024-07-17
US20230239617A1 (en) 2023-07-27

Similar Documents

Publication Publication Date Title
US20190139530A1 (en) Audio scene apparatus
CN106664473B (zh) 信息处理装置、信息处理方法和程序
JP5493611B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2017538146A (ja) インテリジェントな音声認識および処理のためのシステム、方法、およびデバイス
JP2002078100A (ja) ステレオ音響信号処理方法及び装置並びにステレオ音響信号処理プログラムを記録した記録媒体
JP6731632B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
JP6177480B1 (ja) 音声強調装置、音声強調方法、及び音声処理プログラム
JP5027127B2 (ja) 背景雑音に応じてバイブレータの動作を制御することによる移動通信装置の音声了解度の向上
JP2018191145A (ja) 収音装置、収音方法、収音プログラム及びディクテーション方法
WO2020017518A1 (ja) 音声信号処理装置
WO2021124906A1 (ja) 制御装置、信号処理方法およびスピーカ装置
JP7515128B2 (ja) 耳装着型デバイス、及び、再生方法
WO2022259589A1 (ja) 耳装着型デバイス、及び、再生方法
KR20150080740A (ko) 오디오 신호 및 오디오 신호를 기반으로 한 진동 신호를 생성하는 방법 및 장치
JP2006333396A (ja) 音声信号拡声装置
JP6904255B2 (ja) 情報処理システム及びプログラム
JP2010230972A (ja) 音信号処理装置、その方法、そのプログラム、および、再生装置
JP5202021B2 (ja) 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体
WO2023119764A1 (ja) 耳装着型デバイス、及び、再生方法
JP5054477B2 (ja) 補聴装置
Coker et al. A survey on virtual bass enhancement for active noise cancelling headphones
Beskow et al. Hearing at home-communication support in home environments for hearing impaired persons.
US12075234B2 (en) Control apparatus, signal processing method, and speaker apparatus
KR20190136177A (ko) 소리 제거 시스템 및 이를 이용한 소리 제거 방법
WO2024058147A1 (ja) 処理装置、出力装置及び処理システム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220928

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240621

R150 Certificate of patent or registration of utility model

Ref document number: 7515128

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150