JP6177480B1 - 音声強調装置、音声強調方法、及び音声処理プログラム - Google Patents

音声強調装置、音声強調方法、及び音声処理プログラム Download PDF

Info

Publication number
JP6177480B1
JP6177480B1 JP2017520547A JP2017520547A JP6177480B1 JP 6177480 B1 JP6177480 B1 JP 6177480B1 JP 2017520547 A JP2017520547 A JP 2017520547A JP 2017520547 A JP2017520547 A JP 2017520547A JP 6177480 B1 JP6177480 B1 JP 6177480B1
Authority
JP
Japan
Prior art keywords
signal
filter
speech
mixing
speech enhancement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2017520547A
Other languages
English (en)
Other versions
JPWO2018105077A1 (ja
Inventor
訓 古田
訓 古田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP6177480B1 publication Critical patent/JP6177480B1/ja
Publication of JPWO2018105077A1 publication Critical patent/JPWO2018105077A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Neurosurgery (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Telephone Function (AREA)

Abstract

音声強調装置は、入力信号から音声の基本周波数(F0)を含む成分を抽出し、第1のフィルタ信号として出力する第1のフィルタ(21)と、入力信号から音声の第1フォルマント(F1)を含む成分を抽出し、第2のフィルタ信号として出力する第2のフィルタ(22)と、入力信号から音声の第2フォルマント(F2)を含む成分を抽出し、第3のフィルタ信号として出力する第3のフィルタ(23)と、第1のフィルタ信号と第2のフィルタ信号とを混合して第1の混合信号を出力する第1の混合部(31)と、第1のフィルタ信号と第3のフィルタ信号とを混合して第2の混合信号を出力する第2の混合部(32)と、第1の混合信号を第1の遅延量(D1)遅延させて第1の音声信号を生成する第1の遅延制御部(41)と、第2の混合信号を第2の遅延量(D2)遅延させて第2の音声信号を生成する第2の遅延制御部(42)とを有する。

Description

本発明は、入力信号から一方の耳用の第1の音声信号と他方の耳用の第2の音声信号とを生成する音声強調装置、音声強調方法、及び音声処理プログラムに関する。
近年、自動車の運転補助に供するADAS(先進運転支援システム)の研究が進められている。ADASの重要機能として、例えば、高齢運転者にも明瞭で聴き取り易い案内音声を提供する機能、及び高騒音下でも快適なハンズフリー通話を供する機能がある。また、テレビ受信機の分野では、高齢者がテレビを視聴する際にテレビから流れる放送音声の聴き取り易さを改善するための研究も進められている。
ところで、聴覚心理において、通常であれば明瞭に聞こえる音が、別の音でマスク(妨害)されることで聞き取りにくくなる聴覚マスキングという現象が知られている。聴覚マスキングとして、ある周波数成分の音が、近傍の周波数を持つ他の周波数成分の大きな音によってマスクされることで聞き取りにくくなる周波数マスキングと、後続する音が、先行する音によってマスクされることで聞き取りにくくなる時間マスキングとがある。特に、高齢者は、聴覚マスキングの影響を受け易く、母音及び後続音を聞き取る能力が低下している傾向がある。
この対策として、聴覚の周波数分解能及び時間分解能が低下した人のための補聴方法が提案されている(例えば、非特許文献1及び特許文献1参照)。これらの補聴方法では、聴覚マスキング(同時マスキング)の影響を低減させるために、入力信号を周波数軸上において分割し、分割によって生成された2つの信号を、左耳と右耳のそれぞれに異なる信号特性で提示することで、ユーザ(聞く人)の脳内で一つの音が知覚されるようにする両耳分離補聴という補聴方法が用いられる。
両耳分離補聴により、ユーザにとって、音声の明瞭度が高くなることが報告されている。これは、マスクする周波数帯域の音響信号(又は時間領域の音響信号)と、マスクされる周波数帯域の音響信号(又は時間領域の音響信号)とを、それぞれ別の耳に提示することで、ユーザは、マスクされていた音声を知覚しやすくなるためであると考えられる。
D.S. Chaudhari and P.C. Pandey, "Dichotic Presentation of Speech Signal Using Critical Filter Bank for Bilateral Sensorineural Hearing Impairment", Proc.16th ICA, Seattle Washington USA, June 1998, vol.1, pp.213−214
特許第5351281号公報(第8〜12頁、図7)
しかしながら、上記従来の補聴方法では、音声の基本周波数の成分であるピッチ周波数成分が両耳へ提示されていないため、この方法が適用された補聴器を軽度の難聴者又は聴覚が健常である者が使用すると、一方の耳側に音声が偏って聴こえたり、音声が二重に聴こえたりするなど、左耳と右耳との間の聴感的なバランスの崩れによって音声が聞き取りにくくなるという課題がある。
また、上記従来の補聴方法は、聴覚障害者向けのイヤホン装着型の補聴器に適用されるものであり、イヤホン装着型の補聴器以外の装置への適用は考慮されていない。つまり、上記従来の補聴方法は、拡声音声システムでの適用は考慮されておらず、例えば、2チャンネルのステレオスピーカを用いて拡声音声を受聴させるシステムでは、左右スピーカが放出した音が左右の耳にそれぞれ到達する時間が僅かに異なり両耳分離補聴の効果が低減する場合がある。
本発明は、上記のような課題を解決するためになされたものであり、明瞭で聞き取りやすい拡声音声を出力させる音声信号を生成することができる音声強調装置、音声強調方法、及び音声処理プログラムを提供することを目的とする。
本発明に係る音声強調装置は、入力信号を受け取り、前記入力信号から第1の耳用の第1の音声信号と前記第1の耳の反対側の第2の耳用の第2の音声信号とを生成する音声強調装置であって、前記入力信号から音声の基本周波数を含む予め決められた周波数帯域の音声成分である第1の帯域成分を抽出し、前記第1の帯域成分を第1の混合部と第2の混合部の両方に入力される共通の信号である第1のフィルタ信号として出力する第1のフィルタと、前記入力信号から音声の第1フォルマントを含む予め決められた周波数帯域の第2の帯域成分を抽出し、前記第2の帯域成分を第2のフィルタ信号として出力する第2のフィルタと、前記入力信号から音声の第2フォルマントを含む予め決められた周波数帯域の第3の帯域成分を抽出し、前記第3の帯域成分を第3のフィルタ信号として出力する第3のフィルタと、前記第1のフィルタ信号と前記第2のフィルタ信号とを混合することによって第1の混合信号を出力する前記第1の混合部と、前記第1のフィルタ信号と前記第3のフィルタ信号とを混合することによって第2の混合信号を出力する前記第2の混合部と、前記第1の混合信号を予め決められた第1の遅延量、遅延させることによって、前記第1の音声信号を生成する第1の遅延制御部と、前記第2の混合信号を予め決められた第2の遅延量、遅延させることによって、前記第2の音声信号を生成する第2の遅延制御部とを有するものである。
本発明に係る音声強調方法は、入力信号を受け取り、前記入力信号から第1の耳用の第1の音声信号と前記第1の耳の反対側の第2の耳用の第2の音声信号とを生成する音声強調方法であって、前記入力信号から音声の基本周波数を含む予め決められた周波数帯域の音声成分である第1の帯域成分を抽出し、前記第1の帯域成分を第1の混合ステップと第2の混合ステップの両方において用いられる共通の信号である第1のフィルタ信号として出力するステップと、前記入力信号から音声の第1フォルマントを含む予め決められた周波数帯域の第2の帯域成分を抽出し、前記第2の帯域成分を第2のフィルタ信号として出力するステップと、前記入力信号から音声の第2フォルマントを含む予め決められた周波数帯域の第3の帯域成分を抽出し、前記第3の帯域成分を第3のフィルタ信号として出力するステップと、前記第1のフィルタ信号と前記第2のフィルタ信号とを混合することによって第1の混合信号を出力する前記第1の混合ステップと、前記第1のフィルタ信号と前記第3のフィルタ信号とを混合することによって第2の混合信号を出力する前記第2の混合ステップと、前記第1の混合信号を予め決められた第1の遅延量、遅延させることによって、前記第1の音声信号を生成するステップと、前記第2の混合信号を予め決められた第2の遅延量、遅延させることによって、前記第2の音声信号を生成するステップとを有するものである。
本発明によれば、明瞭で聞き取りやすい拡声音声を出力させる音声信号を生成することができる。
本発明の実施の形態1に係る音声強調装置の概略構成を示す機能ブロック図である。 図2(a)は、第1のフィルタの周波数特性を示す説明図、図2(b)は、第2のフィルタの周波数特性を示す説明図、図2(c)は、第3のフィルタの周波数特性を示す説明図、図2(d)は、全てのフィルタの周波数特性を重ね合わせた場合において、基本周波数と各フォルマントとの関係を示す説明図である。 図3(a)は、第1の混合信号の周波数特性を示す説明図、図3(b)は、第2の混合信号の周波数特性を示す説明図である。 実施の形態1に係る音声強調装置によって実行される音声強調処理(音声強調方法)の一例を示すフローチャートである。 実施の形態1に係る音声強調装置のハードウェア構成(集積回路を用いる場合)を概略的に示すブロック図である。 実施の形態1に係る音声強調装置のハードウェア構成(コンピュータにより実行されるプログラムを用いる場合)を概略的に示すブロック図である。 本発明の実施の形態2に係る音声強調装置(カーナビシステムに適用された場合)の概略構成を示す図である。 本発明の実施の形態3に係る音声強調装置(テレビ受信機に適用された場合)の概略構成を示す図である。 本発明の実施の形態4に係る音声強調装置の概略構成を示す機能ブロック図である。 本発明の実施の形態5に係る音声強調装置の概略構成を示す機能ブロック図である。 実施の形態5に係る音声強調装置によって実行される音声強調処理(音声強調方法)の一例を示すフローチャートである。
以下に、本発明の実施の形態を添付の図面を参照しながら説明する。なお、図面全体において同一符号を付された構成要素は、同一構成及び同一機能を有するものとする。
《1》実施の形態1.
《1−1》構成
図1は、本発明の実施の形態1に係る音声強調装置100の概略構成を示す機能ブロック図である。音声強調装置100は、実施の形態1に係る音声強調方法及び実施の形態1に係る音声処理プログラムを実施することができる装置である。
図1に示されように、音声強調装置100は、主要な構成として、信号入力部11と、第1のフィルタ21と、第2のフィルタ22と、第3のフィルタ23と、第1の混合部31と、第2の混合部32と、第1の遅延制御部41と、第2の遅延制御部42とを備える。図1において、10は、入力端子、51は、第1の出力端子、52は、第2の出力端子である。
音声強調装置100は、入力端子10を介して入力信号を受け取り、この入力信号から一方(第1)の耳用の第1の音声信号と他方(第2)の耳用の第2の音声信号とを生成し、第1の音声信号を第1の出力端子51から出力し、第2の音声信号を第2の出力端子52から出力する。
音声強調装置100の入力信号は、例えば、マイクロホン(図示せず)及び音波振動センサ(図示せず)などの音響トランスデューサを通じて取り込まれた音声、音楽、雑音などの音響信号、又は、無線電話機、有線電話機、テレビ受像機などの外部機器から出力される電気的な音響信号を、ラインケーブルなどを通じて取り込んだ信号である。ここでは、1チャンネル(モノラル)のマイクロホンで集音された音声信号を音響信号の一例として説明する。
以下に、図1に基づいて、実施の形態1に係る音声強調装置100の動作原理を説明する。
信号入力部11は、入力信号に含まれる音響信号をA/D(アナログ/デジタル)変換した後、所定のサンプリング周波数(例えば、16kHz)でサンプリング処理を行い、所定のフレーム間隔(例えば、10ms)で取り込み、時間領域の離散信号である入力信号x(t)として第1のフィルタ21、第2のフィルタ22、及び第3のフィルタ23へそれぞれ出力する。ここで、nは、入力信号をフレーム分割したときにフレーム毎に割り当てられたフレーム番号、tは、サンプリングにおける離散時間番号(0以上の整数)を示す。
図2(a)は、第1のフィルタ21の周波数特性を示す説明図、図2(b)は、第2のフィルタ22の周波数特性を示す説明図、図2(c)は、第3のフィルタ23の周波数特性を示す説明図、図2(d)は、全てのフィルタの周波数特性を重ね合わせた場合において、基本周波数と各フォルマントとの関係を示す説明図である。
第1のフィルタ21は、入力信号x(t)を受け取り、入力信号x(t)から音声の基本周波数(ピッチ周波数とも言う)F0を含む予め決められた周波数帯域(通過帯域)の第1の帯域成分を抽出し、第1の帯域成分を第1のフィルタ信号y1(t)として出力する。言い換えれば、第1のフィルタ21は、入力信号x(t)中の音声の基本周波数F0を含む周波数帯域の第1の帯域成分を通過させ、第1の帯域成分以外の周波数成分を通過させないことで第1のフィルタ信号y1(t)を出力する。第1のフィルタ21は、例えば、図2(a)に示されるような特性を持つ帯域通過型フィルタで構成される。図2(a)において、fc0は、第1のフィルタ21を構成する帯域通過型フィルタの通過帯域の下限のカットオフ周波数であり、fc1は、通過帯域の上限のカットオフ周波数である。また、図2(a)において、F0は、基本周波数のスペクトル成分を模式的に表している。帯域通過型フィルタとしては、例えば、FIR(Finite Impulse Responce)型フィルタ、IIR(Infinite Impulse Responce)型フィルタなどを用いることが可能である。
第2のフィルタ22は、入力信号x(t)を受け取り、入力信号x(t)から音声の第1フォルマントF1を含む予め決められた周波数帯域(通過帯域)の第2の帯域成分を抽出し、第2の帯域成分を第2のフィルタ信号y2(t)として出力する。言い換えれば、第2のフィルタ22は、入力信号x(t)中の音声の第1フォルマントF1を含む周波数帯域の第2の帯域成分を通過させ、第2の帯域成分以外の周波数成分を通過させないことで第2のフィルタ信号y2(t)を出力する。第2のフィルタ22は、例えば、図2(b)に示されるような特性を持つ帯域通過型フィルタで構成される。図2(b)において、fc1は、第2のフィルタ22を構成する帯域通過型フィルタの通過帯域の下限のカットオフ周波数であり、fc2は、通過帯域の上限のカットオフ周波数である。また、図2(b)において、F1は、第1フォルマントのスペクトル成分を模式的に表している。帯域通過型フィルタとしては、例えば、FIR型フィルタ、IIR型フィルタなどを用いることが可能である。
第3のフィルタ23は、入力信号x(t)を受け取り、入力信号x(t)から音声の第2フォルマントF2を含む予め決められた周波数帯域(通過帯域)の第3の帯域成分を抽出し、第3の帯域成分を第3のフィルタ信号y3(t)として出力する。言い換えれば、第3のフィルタ23は、入力信号x(t)中の音声の第2フォルマントF2を含む周波数帯域の第3の帯域成分を通過させ、第3の帯域成分以外の周波数成分を通過させないことで第3のフィルタ信号y3(t)を出力する。第3のフィルタ23は、例えば、図2(c)に示されるような特性を持つ帯域通過型フィルタで構成される。図2(c)において、fc2は、第3のフィルタ23を構成する帯域通過型フィルタの通過帯域の下限のカットオフ周波数である。図2(c)の例では、第3のフィルタ23は、カットオフ周波数fc2以上の周波数成分を通過帯域としている。ただし、第3のフィルタ23は、上限のカットオフ周波数を持つ帯域通過フィルタとすることも可能である。また、図2(c)において、F2は、第2フォルマントのスペクトル成分を模式的に表している。帯域通過型フィルタとしては、例えば、FIR型フィルタ、IIR型フィルタなどを用いることが可能である。
性差及び個人差により若干の違いがあるが、音声の基本周波数F0は、概ね125Hz〜400Hzの帯域に分布し、第1フォルマントF1は、概ね500Hz〜1200Hzの帯域に分布し、第2フォルマントF2は、概ね1500Hz〜3000Hzの帯域に分布することが知られている。このため、実施の形態1における好適な一例では、fc0=50Hz、fc1=450Hz、fc2=1350Hzである。ただし、これらの値は、上記例示に限定されることはなく、入力信号に含まれる音声信号の状態に応じて、調整することが可能である。また、第1のフィルタ21、第2のフィルタ22、及び第3のフィルタ23の遮断特性について、実施の形態1における好適な例としては、FIR型フィルタの場合では、フィルタタップ数が96程度のフィルタであり、IIR型フィルタの場合では、6次のバタワース(Butterworth)特性を持つフィルタである。ただし、第1のフィルタ21、第2のフィルタ22、及び第3のフィルタ23は、これらの例示に限定されず、実施の形態1に係る音声強調装置100の第1及び第2の出力端子51,52に接続されるスピーカなどの外部装置、及び、ユーザ(聞く人)の聴感特性に合わせて、適宜調整することが可能である。
以上のように、第1のフィルタ21、第2のフィルタ22、及び第3のフィルタ23を用いることで、図2(d)に示されるように、入力信号x(t)から、音声の基本周波数F0を含む帯域成分、第1フォルマントF1を含む帯域成分、第2フォルマントF2含む帯域成分をそれぞれ分離することができる。
図3(a)は、第1の混合信号s1(t)の周波数特性を示す説明図、図3(b)は、第2の混合信号s2(t)の周波数特性を示す説明図である。
第1の混合部31は、第1のフィルタ信号y1(t)と第2のフィルタ信号y2(t)とを混合することによって、図3(a)に示されるような、第1の混合信号s1(t)を生成する。具体的に言えば、第1の混合部31は、第1のフィルタ21から出力される第1のフィルタ信号y1(t)と第2のフィルタ22から出力される第2のフィルタ信号y2(t)とを受け取り、次式(1)に従って第1のフィルタ信号y1(t)と第2のフィルタ信号y2(t)とを混合して、第1の混合信号s1(t)を出力する。
s1(t)=α・y1(t)+β・y2(t) (1)
0≦t<160
式(1)において、α及びβは、混合信号の聴感的な音量補正を行うために予め決められた定数(係数)である。第1の混合信号s1(t)では、第2フォルマント成分F2が減衰しているため、定数α及びβにより高域の音量不足を補正することが望ましい。実施の形態1における好適な一例では、α=1.0、β=1.2である。つまり、第1の混合部31は、予め決められた第1の混合割合(すなわち、α:β)で第1のフィルタ信号y1(t)と第2のフィルタ信号y2(t)とを混合する。ただし、定数α及びβの値は、上記例に限定されることはなく、実施の形態1に係る音声強調装置100の第1及び第2の出力端子51,52に接続されるスピーカなどの外部装置、及びユーザの聴感特性に合わせて、適宜調整することが可能である。
第2の混合部32は、第1のフィルタ信号y1(t)と第3のフィルタ信号y3(t)とを混合することによって、図3(b)に示されるような、第2の混合信号s2(t)を生成する。具体的に言えば、第2の混合部32は、第1のフィルタ21から出力される第1のフィルタ信号y1(t)と第3のフィルタ23から出力される第3のフィルタ信号y3(t)とを受け取り、次式(2)に従って第1のフィルタ信号y1(t)と第3のフィルタ信号y3(t)とを混合して、第2の混合信号s2(t)を出力する。
s2(t)=α・y1(t)+β・y3(t) (2)
0≦t<160
式(2)において、α及びβは、混合信号の聴感的な音量補正を行うための予め設定された定数である。式(2)における定数α及びβは、式(1)におけるものと異なる値であってもよい。第1の混合信号s1(t)と同様に、第2の混合信号s2(t)では、第2フォルマント成分F2が減衰しているため、この2つの定数により高域の音量不足を補正する。実施の形態1における好適な一例としては、α=1.0、β=1.2である。つまり、第2の混合部32は、予め決められた第2の混合割合(すなわち、α:β)で第1のフィルタ信号y1(t)と第3のフィルタ信号y3(t)とを混合する。ただし、定数α及びβの値は、上記例に限定されることはなく、実施の形態1に係る音声強調装置100の第1及び第2の出力端子51,52に接続されるスピーカなどの外部装置、及びユーザの聴感特性に合わせて、適宜調整することが可能である。
第1の遅延制御部41は、第1の混合信号s1(t)を予め決められた第1の遅延量、遅延させることによって、第1の音声信号s~1(t)を生成する。言い換えれば、第1の遅延制御部41は、第1の混合部31から出力される第1の混合信号s1(t)の遅延量である第1の遅延量を制御し、すなわち、第1の混合信号s1(t)の時間遅れを制御する。具体的には、第1の遅延制御部41は、例えば、次式(3)に従って、Dサンプルだけ時間遅れを追加した第1の音声信号s~1(t)を出力する。
Figure 0006177480
第2の遅延制御部42は、第2の混合信号s2(t)を予め決められた第2の遅延量、遅延させることによって、第2の音声信号s~2(t)を生成する。言い換えれば、第2の遅延制御部42は、第2の混合部32から出力される第2の混合信号s2(t)の遅延量である第2の遅延量を制御し、すなわち、第2の混合信号s2(t)の時間遅れを制御する。具体的には、第2の遅延制御部42は、例えば、次式(4)に従って、Dサンプルだけ時間遅れを追加した第2の音声信号s~2(t)を出力する。
Figure 0006177480
実施の形態1では、第1の遅延制御部41から出力される第1の音声信号s~1(t)は、第1の出力端子51を介して外部装置に出力され、第2の遅延制御部42から出力される第2の音声信号s~2(t)は、第2の出力端子52を介して外部装置に出力される。外部装置は、例えば、テレビ受像機、ハンズフリー通話装置などに具備される音声音響処理装置である。音声音響処理装置は、パワーアンプなどの信号増幅装置及びスピーカなどの音声出力部を備えた装置である。また、強調処理が行われた音声信号を、IC(集積回路)レコーダなどの録音装置へ出力して録音した場合には、録音された音声信号を、別の音声音響処理装置にて出力することも可能である。
なお、第1の遅延量D(Dサンプル)は、0以上の時間であり、第2の遅延量D(Dサンプル)は、0以上の時間であり、第1の遅延量Dと第2の遅延量Dとは異なる値であることができる。第1の遅延制御部41と第2の遅延制御部42の役割は、第1の出力端子51に接続される第1のスピーカ(例えば、左スピーカ)からユーザの第1の耳(例えば、左耳)までの距離と、第2の出力端子52に接続される第2のスピーカ(例えば、右スピーカ)からユーザの第2の耳(第1の耳の反対側の耳であり、例えば、右耳)までの距離とが異なる場合において、第1の音声信号s~1(t)の第1の遅延量Dと第2の音声信号s~2(t)の第2の遅延量Dを制御することである。実施の形態1では、ユーザが第1の耳で第1の音声信号s~1(t)に基づく音を聞く時刻と、第2の耳で第2の音声信号s~2n(t)に基づく音を聞く時刻とを近づけるように(望ましくは一致するように)、第1の遅延量Dと第2の遅延量Dとを調整することが可能である。
《1−2》動作
次に、音声強調装置100の動作(アルゴリズム)の例について説明する。図4は、実施の形態1に係る音声強調装置100によって実行される音声強調処理(音声強調方法)の一例を示すフローチャートである。
信号入力部11は、音響信号を所定のフレーム間隔で取り込み(ステップST1A)、時間領域の信号である入力信号x(t)として第1のフィルタ21、第2のフィルタ22、及び第3のフィルタ23へ出力する処理を実行する。サンプル番号tが、予め決められた値T以下の場合(ステップST1BにおいてYES)、ステップST1Aの処理をサンプル番号tが値Tになるまで繰り返す。例えば、T=160である。ただし、Tは160以外の値に設定することも可能である。
第1のフィルタ21は、入力信号x(t)を受け取り、入力信号x(t)中の音声の基本周波数F0を含む周波数帯域の第1の帯域成分(低域成分)のみを通過させて、第1のフィルタ信号y1(t)を出力する第1のフィルタ処理を実行する(ステップST2)。
第2のフィルタ22は、入力信号x(t)を受け取り、入力信号x(t)中の音声の第1フォルマントF1を含む周波数帯域の第2の帯域成分(中域成分)のみを通過させて、第2のフィルタ信号y2(t)を出力する第2のフィルタ処理を実行する(ステップST3)。
第3のフィルタ23は、入力信号x(t)を受け取り、入力信号x(t)中の音声の第2フォルマントF2を含む周波数帯域の第3の帯域成分(高域成分)のみを通過させて、第3のフィルタ信号y3(t)を出力する第3のフィルタ処理を実行する(ステップST4)。
第1から第3のフィルタ処理の順番は、上記順番に限定されず、順不同でよい。例えば、第1から第3のフィルタ処理(ステップST2、ST3、及びST4)が同時並列に実行されてもよいし、第1のフィルタ処理(ステップST2)の実行前に第2及び第3のフィルタ処理(ステップST3又はST4)が実行されてもよい。
第1の混合部31は、第1のフィルタ21から出力される第1のフィルタ信号y1(t)と第2のフィルタ22から出力される第2のフィルタ信号y2(t)とを受け取り、第1のフィルタ信号y1(t)と第2のフィルタ22とを混合して、第1の混合信号s1(t)を出力する第1の混合処理を実行する(ステップST5A)。サンプル番号tが値T以下の場合(ステップST5BにおいてYES)、ステップST5Aの処理を、サンプル番号tがT=160になるまで繰り返す。
第2の混合部32は、第1のフィルタ21から出力される第1のフィルタ信号y1(t)と第3のフィルタ23から出力される第3のフィルタ信号y3(t)とを受け取り、第1のフィルタ信号y1(t)と第3のフィルタ信号y3(t)とを混合して、第2の混合信号s2(t)を出力する処理を実行する(ステップST6A)。サンプル番号tが値T以下の場合(ステップST6BにおいてYES)、ステップST6Aの処理を、サンプル番号tがT=160になるまで繰り返す。
上記第1及び第2の混合処理の順番は、上記例に限定されず、順不同でよい。例えば、上記第1及び第2の混合処理(ステップST5A及びST6A)が同時並列に実行されてもよいし、第1の混合処理(ステップST5A及びST5B)の実行前に第2の混合処理(ステップST6A及びST6B)が実行されてもよい。
第1の遅延制御部41は、第1の混合部31から出力される第1の混合信号s1(t)の第1の遅延量Dを制御、すなわち、信号の時間遅れを制御する。具体的には、第1の遅延制御部41は、第1の混合信号s1(t)にDサンプルだけ時間遅れを追加した第1の音声信号s~1(t)を出力する処理を実行する(ステップST7A)。サンプル番号tが値T以下の場合(ステップST7BにおいてYES)、ステップST7Aの処理をサンプル番号tがT=160になるまで繰り返す。
第2の遅延制御部42は、第2の混合部32から出力される第2の混合信号s2(t)の第2の遅延量Dを制御、すなわち、信号の時間遅れを制御する。具体的には、第2の遅延制御部42は、第2の混合信号s2(t)にDサンプルだけ時間遅れを追加した第2の音声信号s~2(t)を出力する処理を実行する(ステップST8A)。サンプル番号tが値T以下の場合(ステップST8BにおいてYES)、ステップST8Aの処理をサンプル番号tがT=160になるまで繰り返す。
なお、上述の2つの遅延制御処理の順番は順不同でよい。例えば、ステップST7A及びST8Aが同時並列に実行されてもよいし、ステップST7A及びST7Bの実行前にステップST8A及びST8Bが実行されてもよい。
ステップST7A及びST8Aの処理後、音声強調処理が続行される場合(ステップST9におけるYES)、処理は、ステップST1Aに戻る。一方、音声強調処理が続行されない場合(ステップST9におけるNO)、音声強調処理は終了する。
《1−3》ハードウェア構成
音声強調装置100のハードウェア構成は、例えば、ワークステーション、メインフレーム、パーソナルコンピュータ、又は機器組み込み用途のマイクロコンピュータなどのような、CPU(Central Processing Unit)内蔵のコンピュータで実現可能である。或いは、音声強調装置100のハードウェア構成は、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、又はFPGA(Field−Programmable Gate Array)などのLSI(Large Scale Integrated circuit)により実現されてもよい。
図5は、実施の形態1に係る音声強調装置100のハードウェア構成(集積回路を用いる場合)を概略的に示すブロック図である。図5は、DSP、ASIC又はFPGAなどのLSIを用いて構成される音声強調装置100のハードウェア構成の一例を示す。図5の例では、音声強調装置100は、音響トランスデューサ101、信号入出力部112、信号処理回路111、情報を記憶する記録媒体114、及びバスなどの信号路115により構成されている。信号入出力部112は、音響トランスデューサ101及び外部装置102との接続機能を実現するインタフェース回路である。音響トランスデューサ101としては、例えば、マイクロホン又は音波振動センサなどの音響振動を捉えて電気信号へ変換する装置を使用することができる。
図1に示される信号入力部11、第1のフィルタ21、第2のフィルタ22、第3のフィルタ23、第1の混合部31、第2の混合部32、第1の遅延制御部41、及び第2の遅延制御部42の各機能は、信号処理回路111及び記録媒体114で実現することができる。
記録媒体114は、信号処理回路111の各種設定データ及び信号データなどの各種データを蓄積するために使用される。記録媒体114としては、例えば、SDRAM(Synchronous DRAM)などの揮発性メモリ、HDD(ハードディスクドライブ)又はSSD(ソリッドステートドライブ)などの不揮発性メモリを使用することが可能であり、これに各フィルタの初期状態及び各種設定データを記憶しておくことができる。
音声強調装置100による強調処理が行われた第1及び第2の音声信号s~1(t),s~2(t)は、信号入出力部112を経て外部装置102に送出される。外部装置102としては、例えば、テレビ受像機又はハンズフリー通話装置などに具備される音声音響処理装置である。音声音響処理装置は、パワーアンプなどの信号増幅装置及びスピーカなどの音声出力部を備えた装置である。
図6は、実施の形態1に係る音声強調装置100のハードウェア構成(コンピュータにより実行されるプログラムを用いる場合)を概略的に示すブロック図である。図6は、コンピュータなどの演算装置を用いて構成される音声強調装置100のハードウェア構成の一例を示す。図6の例では、音声強調装置100は、信号入出力部122、CPU121を内蔵するプロセッサ120、メモリ123、記録媒体124及びバスなどの信号路125により構成される。信号入出力部122は、音響トランスデューサ101及び外部装置102との接続機能を実現するインタフェース回路である。メモリ123は、実施の形態1の音声強調処理を実現するための各種プログラムを記憶するプログラムメモリ、プロセッサがデータ処理を行う際に使用するワークメモリ、及び信号データを展開するメモリなどとして使用するROM(Read Only Memory)及びRAM(Random Access Memory)などの記憶手段である。
図1に示される信号入力部11、第1のフィルタ21、第2のフィルタ22、第3のフィルタ23、第1の混合部31、第2の混合部32、第1の遅延制御部41、及び第2の遅延制御部42の各機能は、プロセッサ120及び記録媒体124で実現することができる。
記録媒体124は、プロセッサ120の各種設定データ及び信号データなどの各種データを蓄積するために使用される。記録媒体124としては、例えば、SDRAMなどの揮発性メモリ、HDD又はSSDを使用することが可能である。OS(オペレーティングシステム)を含むプログラム及び、各種設定データ、フィルタの内部状態など音響信号データなどの各種データを蓄積することができる。なお、この記録媒体124に、メモリ123内のデータを蓄積しておくこともできる。
プロセッサ120は、メモリ123中のRAMを作業用メモリとして使用し、メモリ123中のROMから読み出されたコンピュータプログラム(実施の形態1に係る音声処理プログラム)に従って動作することにより、図1に示される信号入力部11、第1のフィルタ21、第2のフィルタ22、第3のフィルタ23、第1の混合部31、第2の混合部32、第1の遅延制御部41、及び第2の遅延制御部42と同様の信号処理を実行することができる。
上記音声強調処理が行われた第1及び第2の音声信号s~1(t),s~2(t)は、信号入出力部112又は122を経て外部装置102に送出される。外部装置としては、例えば、補聴装置、音声蓄積装置、ハンズフリー通話装置などの各種音声信号処理装置が相当する。また、音声強調処理が行われた第1及び第2の音声信号s~1(t),s~2(t)を録音し、この録音した第1及び第2の音声信号s~1(t),s~2(t)を別の音声出力装置で出力することも可能である。なお、実施の形態1に係る音声強調装置100は、上記他の装置と共にソフトウエアプログラムとして実行することで実現することも可能である。
実施の形態1に係る音声強調装置100を実行する音声処理プログラムは、ソフトウエアプログラムを実行するコンピュータ内部の記憶装置に記憶していてもよいし、CD−ROM(光学式情報記録媒体)などの記憶媒体にて配布される形式でもよい。また、LAN(Local Area Network)などの無線及び有線ネットワークを通じて他のコンピュータからプログラムを取得することも可能である。さらに、実施の形態1に係る音声強調装置100に接続される音響トランスデューサ101及び外部装置102に関しても、無線及び有線ネットワークを通じて各種データを送受信してもよい。
《1−5》効果
以上に説明したように、実施の形態1に係る音声強調装置100、音声強調方法、及び音声処理プログラムによれば、音声の基本周波数F0を両耳へ提示しつつ、両耳分離補聴を行うことができるので、明瞭で聞き取りやすい拡声音声を出力させる第1及び第2の音声信号s~1(t),s~2(t)を生成することができる。
また、実施の形態1に係る音声強調装置100、音声強調方法、及び音声処理プログラムによれば、第1のフィルタ信号と第2のフィルタ信号とを適切な割合で混合して第1の混合信号とし、第1のフィルタ信号と第3のフィルタ信号とを適切な割合で混合して第2の混合信号とし、第1の混合信号に基づく第1の音声信号s~1(t)と、第2の混合信号に基づく第2の音声信号s~2(t)とにより左スピーカと右スピーカとからそれぞれ音声を出力させることができる。このため、片側に音声が偏って聴こえたり、左右の聴感的なバランスが崩れて違和感が生じたりすることをなくすることができ、明瞭で聞き取りやすい高品質な音声を提供することができる。
また、実施の形態1に係る音声強調装置100、音声強調方法、及び音声処理プログラムによれば、第1及び第2の音声信号s~1(t),s~2(t)の第1及び第2の遅延量D,Dを制御して複数のスピーカから出力される音のユーザの耳への到達時刻を揃えることができるため、片側に音声が偏って聴こえたり、音声が二重に聴こえたりするなどの左右の聴感的なバランスが崩れて違和感が生ずることをなくすることができ、明瞭で聞き取りやすい高品質な音声を提供することができる。
さらに、通常の難聴者だけでなく、軽度の難聴者及び健常者が利用しても違和感が少ない上、スピーカなどを用いるような拡声装置に適用した場合であっても両耳分離補聴効果が低減することがない両耳分離補聴方法を実現することができ、高品質な音声強調装置100を提供可能となる。
《2》実施の形態2.
図7は、本発明の実施の形態2に係る音声強調装置200(カーナビゲーションシステムに適用された場合)の概略構成を示す図である。図7において、図1に示される構成要素と同一又は対応する構成要素には、図1に示される符号と同じ符号が付される。音声強調装置200は、実施の形態2に係る音声強調方法及び実施の形態2に係る音声処理プログラムを実施することができる装置である。図7に示されるように、実施の形態2に係る音声強調装置200は、入力端子10を介して信号入力部11に入力信号を提供しているカーナビゲーションシステム600を有する点と、左スピーカ61及び右スピーカ62を有する点において、実施の形態1に係る音声強調装置100と相違する。
実施の形態2に係る音声強調装置200は、車内ハンズフリー通話機能と、音声ガイド機能とを有するカーナビゲーションシステムの音声を処理する。図7に示されるように、カーナビゲーションシステム600は、電話機601と、運転者に音声メッセージを提供する音声ガイド装置602とを有する。その他の構成については、実施の形態2は、実施の形態1と同様である。
電話機601は、例えば、カーナビゲーションシステム600に内蔵されている装置、又は、有線若しくは無線により接続された外付けの装置である。音声ガイド装置602は、例えば、カーナビゲーションシステム600に内蔵されている装置である。カーナビゲーションシステム600は、電話機601又は音声ガイド装置602から出力された受話音声を入力端子10へ出力する。
また、音声ガイド装置602は、地図案内情報などのガイド音声を入力端子10へ出力する。第1の遅延制御部41から出力される第1の音声信号s~1(t)は、第1の出力端子51を介してL(左)スピーカ61に供給され、Lスピーカ61は第1の音声信号s~1(t)に基づく音を出力する。第2の遅延制御部42から出力される第2の音声信号s~2(t)は、第2の出力端子52を介してR(右)スピーカ62に供給され、Rスピーカ62は、第2の音声信号s~2(t)に基づく音を出力する。
図7において、例えば、ユーザ(運転者)は、左ハンドル車の運転席に座っており、運転席に座るユーザの左耳とLスピーカ61との最短距離が約100cm、同ユーザの右耳とRスピーカ62との最短距離が約134cmである場合、Lスピーカ61とRスピーカ62との距離差は、約34cmである。常温での音速は、約340m/秒であるから、Lスピーカ61からの音の出力を1msec遅らせることで、Lスピーカ61とRスピーカ62から出力される音、つまり、電話の受話音声或いはガイド音声が、左耳に到達する時刻と右耳に到達する時刻とを一致させることができる。具体的には、第1の遅延制御部41から提供される第1の音声信号s~1(t)の第1の遅延量Dを1msecとし、第2の遅延制御部42から提供される第2の音声信号s~2(t)の第2の遅延量Dを0msec(遅延無し)とすればよい。なお、第1の遅延量D及び第2の遅延量Dの値は、上述の例に限定されず、ユーザの耳の位置に対するLスピーカ61とRスピーカ62の位置などの利用状況に応じて適宜変更することができる。具体的には、スピーカ61から左耳までの距離とRスピーカ62から右耳までの距離などの利用状況に応じて、適宜変更することができる。
以上に説明したように、実施の形態2に係る音声強調装置200、音声強調方法、及び音声処理プログラムによれば、第1及び第2の音声信号s~1(t),s~2(t)の第1及び第2の遅延量D,Dを制御して複数のスピーカから出力される音のユーザの耳への到達時刻を揃えることができるため、片側に音声が偏って聴こえたり、音声が二重に聴こえたりするなどの左右の聴感的なバランスが崩れて違和感が生ずることをなくすることができ、明瞭で聞き取りやすい高品質な音声を提供することができる。
また、通常の難聴者だけでなく、軽度の難聴者及び健常者が利用しても違和感が少なく、両耳分離補聴効果が低減することがない両耳分離補聴方法を実現することができ、高品質な音声強調装置200を提供可能となる。上記以外の点に関して、実施の形態2は、実施の形態1と同じである。
《3》実施の形態3.
図8は、本発明の実施の形態3に係る音声強調装置300(テレビ受像機に適用された場合)の概略構成を示す図である。図8において、図1に示される構成要素と同一又は対応する構成要素には、図1に示される符号と同じ符号が付される。音声強調装置300は、実施の形態3に係る音声強調方法及び実施の形態3に係る音声処理プログラムを実施することができる装置である。図8に示されるように、実施の形態3に係る音声強調装置300は、入力端子10を介して信号入力部11に入力信号を提供しているテレビ受信機701及び疑似モノラル化部702を有する点と、左スピーカ61及び右スピーカ62を有する点と、テレビ受信機701のステレオ音声のL(左)チャンネル信号がLスピーカ61に供給されステレオ音声のR(右)チャンネル信号がRスピーカ62に供給される点において、実施の形態1に係る音声強調装置100と相違する。
テレビ受信機701は、例えば、放送波を受信する外付けのビデオレコーダ、又は、テレビ受信機に内蔵されるビデオレコーダで録画されたビデオコンテンツを用い、Lチャンネル信号とRチャンネル信号から構成されるステレオ信号を出力する。テレビの音声は、一般に2チャンネルのステレオ信号に限らず、3チャンネル以上のマルチステレオ信号の場合もあるが、ここでは、説明を簡略化するため、2チャンネルのステレオ信号の場合を説明する。
疑似モノラル化部702は、テレビ受信機701から出力されたステレオ信号を受け取り、(L+R)信号に(L−R)信号の逆位相信号を加算するなどの公知の手法により、例えば、ステレオ信号の中央に定位するアナウンサの音声だけを抽出する。ここで、(L+R)信号とは、Lチャンネル信号とRチャンネル信号を加算した疑似モノラル信号、(L−R)信号とは、Lチャンネル信号からRチャンネル信号を減算した信号、言い換えると、中央に定位する信号を減衰させた疑似モノラル信号である。
疑似モノラル化部702で抽出したアナウンサの音声を入力端子10に入力し、実施の形態1で述べたと同様の処理を行い、テレビ受信機701から出力されるLチャンネル信号及びRチャンネル信号をそれぞれ加算した後、Lスピーカ61及びRスピーカ62から両耳分離補聴処理を行った音を出力する。このような構成をなすことで、従来のステレオ音声を維持したまま、ステレオ信号の中央に定位するアナウンサの声だけを強調することが可能となる。
実施の形態3では、説明の簡略化のために2チャンネルのステレオ信号で例示したが、実施の形態3の方法は、例えば、5.1チャンネルステレオなどの3チャンネル以上のマルチステレオ信号にも適用可能であり、実施の形態3で述べたのと同様の効果を奏功する。
実施の形態3では、Lスピーカ61及びRスピーカ62をテレビ受信機701の外部装置として説明しているが、例えば、テレビ受信機が内蔵するスピーカ或いは、ヘッドホンなどの音響装置を用いてもよい。また、疑似モノラル化部702を入力端子10に入力する前の処理として説明しているが、テレビ受信機701から出力されるステレオ信号を入力端子10に入力し、その後に疑似モノラル化処理を行ってもよい。
以上に説明したように、実施の形態3に係る音声強調装置300、音声強調方法、及び音声処理プログラムによれば、ステレオ信号であっても中央に定位するアナウンサの声を強調するような両耳分離補聴方法を実現することができる。
また、通常の難聴者だけでなく、軽度の難聴者及び健常者が利用しても違和感が少なく、両耳分離補聴効果が低減することがない両耳分離補聴方法を実現することができ、高品質な音声強調装置300を提供可能となる。上記以外の点に関して、実施の形態3は、実施の形態1と同じである。
《4》実施の形態4.
上記実施の形態1から3では、第1の音声信号s~1(t)と第2の音声信号s~2(t)とがLスピーカ61とRスピーカ62とに直接出力される場合を説明した。これに対し、実施の形態4に係る音声強調装置400は、第1の音声信号s~1(t)及び第2の音声信号s~2(t)に、クロストークキャンセル処理を行うクロストークキャンセラ70を備えている。
図9は、実施の形態4に係る音声強調装置400の概略構成を示す機能ブロック図である。図9において、図1に示される構成要素と同一又は対応する構成要素には、図1に示される符号と同じ符号が付される。音声強調装置400は、実施の形態4に係る音声強調方法及び実施の形態4に係る音声処理プログラムを実施することができる装置である。図9に示されるように、実施の形態4に係る音声強調装置400は、2つのクロストークキャンセラ(CTC)70が備えられている点において、実施の形態1に係る音声強調装置100と相違する。その他の構成については、実施の形態4は実施の形態1と同様である。
例えば、第1の音声信号s~1n(t)がLチャンネル音声(左耳だけに提示したい音声)信号であり、第2の音声信号s~2n(t)がRチャンネル音声(右耳だけに提示したい音声)信号である場合を考える。Lチャンネル音声は、左耳だけに到達させたい音声であるが、実際には、Lチャンネル音声のクロストーク成分が右耳にも到達する。また、Rチャンネル音声は、右耳だけに到達させたい音声であるが、実際には、Rチャンネル音声のクロストーク成分が左耳にも到達する。そこで、クロストークキャンセラ70は、Lチャンネル音声のクロストーク成分に相当する信号を第1の音声信号s~1n(t)から減算し、Rチャンネル音声のクロストーク成分に相当する信号を第2の音声信号s~2n(t)から減算することで、クロストーク成分を打ち消している。クロストーク成分をキャンセルするためのクロストークキャンセル処理は、適応フィルタなどの公知の方法である。
以上に説明したように、実施の形態4に係る音声強調装置400、音声強調方法、及び音声処理プログラムによれば、第1及び第2の出力端子から出力される信号のクロストーク成分を打ち消す処理を行うので、両耳に届く2つの音の相互の分離効果を高めることができる。このため、拡声装置に適用した場合に両耳分離補聴効果を更に高めることができ、更に高品質な音声強調装置400を提供可能となる。
《5》実施の形態5.
上記実施の形態4では、入力信号の様態によらず両耳分離補聴処理を行う場合を説明したが、実施の形態5では、入力信号を分析し、この分析の結果に応じた内容の両耳分離補聴処理を行う場合を説明する。実施の形態5に係る音声強調装置は、入力信号が母音の場合に両耳分離補聴処理を行う。
図10は、実施の形態5に係る音声強調装置500の概略構成を示す機能ブロック図である。図10において、図9に示される構成要素と同一又は対応する構成要素には、図9に示される符号と同じ符号が付される。音声強調装置500は、実施の形態5に係る音声強調方法及び実施の形態5に係る音声処理プログラムを実施することができる装置である。実施の形態5に係る音声強調装置500は、信号分析部80を備える点において、実施の形態4に係る音声強調装置400と相違する。
信号分析部80は、信号入力部11から出力される入力信号x(t)に対し、例えば、自己相関係数分析などの公知の分析手法により、入力信号が母音を示す信号であるか又は母音以外の音(子音又は雑音)を示す信号であるかどうかの分析を行う。入力信号の分析の結果、入力信号が子音又は雑音を示す信号である場合、信号分析部80は、第1の混合部31と第2の混合部32の出力を停止させ(すなわち、フィルタ処理を行った信号の出力を停止し)、第1の遅延制御部41及び第2の遅延制御部42に入力信号x(t)を直接入力する。上記以外の構成及び動作に関して、実施の形態5は、実施の形態4と同じである。
図11は、実施の形態5に係る音声強調装置500によって実行される音声強調処理(音声強調方法)の一例を示すフローチャートである。図11において、図4と同一の処理ステップには、図4に示されるステップ番号と同じステップ番号が付される。実施の形態5に係る音声強調装置500によって実行される音声強調処理は、入力信号が母音の音声信号であるか否かの判断ステップST51を有する点、及び、入力信号が母音の音声信号でない場合に、処理をステップST7Aに進める点が、実施の形態1の処理と異なる。この点を除いて、実施の形態5における処理は、実施の形態1における処理と同じである。
以上に説明したように、実施の形態5に係る音声強調装置500、音声強調方法、及び音声処理プログラムによれば、入力信号の様態に応じて両耳分離補聴処理を行うことができるので、補聴の必要のない子音及び雑音などを不要に強調することがなくなり、更に高品質な音声強調装置500を提供可能となる。
《6》変形例
上記実施の形態1から5では、第1のフィルタ21、第2のフィルタ22、及び第3のフィルタ23は、時間軸上におけるフィルタ処理を実行している。しかし、第1のフィルタ21、第2のフィルタ22、及び第3のフィルタ23の各々を、FFT部(高速フーリエ変換部)と、周波数軸上におけるフィルタ処理を行うフィルタ処理部と、IFFT部(逆高速フーリエ変換部)とで構成することも可能である。この場合には、第1のフィルタ21のフィルタ処理部、第2のフィルタ22のフィルタ処理部、及び第3のフィルタ23のフィルタ処理部の各々は、通過帯域のスペクトルのゲインを1とし、減衰させる帯域のスペクトルのゲインを0とすることで実現することができる。
上記実施の形態1から5では、サンプリング周波数が16kHzである場合を説明したが、サンプリング周波数はこの値に限定されない。例えば、サンプリング周波数を、8kHz又は48kHzのような他の周波数に設定することも可能である。
上記実施の形態2及び3では、音声強調装置がカーナビゲーションシステム及びテレビ受信機に適用された例を説明した。しかし、実施の形態1から5に係る音声強調装置は、カーナビゲーションシステム及びテレビ受信機以外のシステム又は装置であって、複数のスピーカを備えるシステム又は装置に適用可能である。実施の形態1から5に係る音声強調装置は、例えば、展示会場などにおける音声ガイドシステム、テレビ会議システム、及び列車内における音声案内システムなどに適用可能である。
上記実施の形態1から5は、本発明の範囲内において、構成要素の種々の変形、構成要素の追加及び省略が可能である。
上記実施の形態1から5に係る音声強調装置、音声強調方法、及び音声処理プログラムは、音声通信システム、音声蓄積システム、及び音声拡声システムに適用可能である。
音声通信システムに適用される場合には、音声通信システムは、実施の形態1から5のいずれかの音声強調装置に加えて、音声強調装置から出力された信号を送信及び音声強調装置に入力される信号を受信するための通信装置を備える。
音声蓄積システムに適用される場合には、音声蓄積システムは、実施の形態1から5のいずれかの音声強調装置に加えて、情報を記憶する記憶装置と、音声強調装置から出力された第1及び第2の音声信号s~1(t),s~2(t)を記憶装置に記憶させる書き込み装置と、記憶装置から第1及び第2の音声信号s~1(t),s~2(t)を読み出して音声強調装置に入力させる読み出し装置とを備える。
音声拡声システムに適用される場合には、音声拡声システムは、実施の形態1から5のいずれかの音声強調装置に加えて、音声強調装置から出力された信号を増幅する増幅回路と、増幅された第1及び第2の音声信号s~1(t),s~2(t)に基づく音を出力する複数のスピーカとを備える。
また、実施の形態1から5に係る音声強調装置、音声強調方法、及び音声処理プログラムは、カーナビゲーションシステム、携帯電話、インターフォン、テレビ受像機、ハンズフリー電話システム、TV会議システムに適用可能である。これらのシステム又は装置に適用される場合には、これらのシステム又は装置から出力される音声信号から、一方の耳用の第1の音声信号s~1(t)と他方の耳用の第2の音声信号s~2(t)とが生成される。実施の形態1から5が適用されたシステム又は装置のユーザは、明瞭な音声を知覚することができる。
10 入力端子、 11 信号入力部、 21 第1のフィルタ、 22 第2のフィルタ、 23 第3のフィルタ、 31 第1の混合部、 32 第2の混合部、 41 第1の遅延制御部、 42 第2の遅延制御部、 51 第1の出力端子、 52 第2の出力端子、 61 Lスピーカ、 62 Rスピーカ、 100,200,300,400,500 音声強調装置、 101 音響トランスデューサ、 111 信号処理回路、 112 信号入出力部、 114 記録媒体、 115 信号路、 120 プロセッサ、 121 CPU、 122 信号入出力部、 123 メモリ、 124 記録媒体、 125 信号路、 600 カーナビゲーションシステム、 601 電話機、 602 音声ガイド装置、 701 テレビ受信機、 702 疑似モノラル化部。

Claims (9)

  1. 入力信号を受け取り、前記入力信号から第1の耳用の第1の音声信号と前記第1の耳の反対側の第2の耳用の第2の音声信号とを生成する音声強調装置であって、
    前記入力信号から音声の基本周波数を含む予め決められた周波数帯域の音声成分である第1の帯域成分を抽出し、前記第1の帯域成分を第1の混合部と第2の混合部の両方に入力される共通の信号である第1のフィルタ信号として出力する第1のフィルタと、
    前記入力信号から音声の第1フォルマントを含む予め決められた周波数帯域の第2の帯域成分を抽出し、前記第2の帯域成分を第2のフィルタ信号として出力する第2のフィルタと、
    前記入力信号から音声の第2フォルマントを含む予め決められた周波数帯域の第3の帯域成分を抽出し、前記第3の帯域成分を第3のフィルタ信号として出力する第3のフィルタと、
    前記第1のフィルタ信号と前記第2のフィルタ信号とを混合することによって第1の混合信号を出力する前記第1の混合部と、
    前記第1のフィルタ信号と前記第3のフィルタ信号とを混合することによって第2の混合信号を出力する前記第2の混合部と、
    前記第1の混合信号を予め決められた第1の遅延量、遅延させることによって、前記第1の音声信号を生成する第1の遅延制御部と、
    前記第2の混合信号を予め決められた第2の遅延量、遅延させることによって、前記第2の音声信号を生成する第2の遅延制御部と
    を有することを特徴とする音声強調装置。
  2. 前記第1の混合部は、予め決められた第1の混合割合で前記第1のフィルタ信号と前記第2のフィルタ信号とを混合し、
    前記第2の混合部は、予め決められた第2の混合割合で前記第1のフィルタ信号と前記第3のフィルタ信号とを混合する
    ことを特徴とする請求項1に記載の音声強調装置。
  3. 前記第1の遅延量は、0以上の時間であり、
    前記第2の遅延量は、0以上の時間であり、
    前記第1の遅延量と前記第2の遅延量とは異なる
    ことを特徴とする請求項1又は2に記載の音声強調装置。
  4. 前記第1の音声信号に基づく音を出力する第1のスピーカと、
    前記第2の音声信号に基づく音を出力する第2のスピーカと、
    をさらに有し、
    前記第1の遅延量及び前記第2の遅延量は、前記第1のスピーカから前記第1の耳までの距離と前記第2のスピーカから前記第2の耳までの距離とに基づいて、予め決定される
    ことを特徴とする請求項1から3のいずれか1項に記載の音声強調装置。
  5. 前記第1の音声信号に基づく音を出力する第1のスピーカと、
    前記第2の音声信号に基づく音を出力する第2のスピーカと、
    前記第2のスピーカから前記第1の耳に到達する前記第2の音声信号に基づく音のクロストーク成分と、前記第1のスピーカから前記第2の耳に到達する前記第1の音声信号に基づく音のクロストーク成分とを打ち消すクロストークキャンセラと
    をさらに有することを特徴とする請求項1から3のいずれか1項に記載の音声強調装置。
  6. 前記入力信号の状態を分析する信号分析部をさらに有し、
    前記信号分析部による分析の結果に応じて、前記第1及び第2の遅延制御部にそれぞれ入力される信号を、前記第1及び第2の混合信号から前記入力信号に切り替える
    ことを特徴とする請求項1から5のいずれか1項に記載の音声強調装置。
  7. 前記信号分析部は、前記入力信号が母音を示す信号でない場合に、前記第1及び第2の遅延制御部にそれぞれ入力される信号を、前記第1及び第2の混合信号から前記入力信号に切り替える
    ことを特徴とする請求項6に記載の音声強調装置。
  8. 入力信号を受け取り、前記入力信号から第1の耳用の第1の音声信号と前記第1の耳の反対側の第2の耳用の第2の音声信号とを生成する音声強調方法であって、
    前記入力信号から音声の基本周波数を含む予め決められた周波数帯域の音声成分である第1の帯域成分を抽出し、前記第1の帯域成分を第1の混合ステップと第2の混合ステップの両方において用いられる共通の信号である第1のフィルタ信号として出力するステップと、
    前記入力信号から音声の第1フォルマントを含む予め決められた周波数帯域の第2の帯域成分を抽出し、前記第2の帯域成分を第2のフィルタ信号として出力するステップと、
    前記入力信号から音声の第2フォルマントを含む予め決められた周波数帯域の第3の帯域成分を抽出し、前記第3の帯域成分を第3のフィルタ信号として出力するステップと、
    前記第1のフィルタ信号と前記第2のフィルタ信号とを混合することによって第1の混合信号を出力する前記第1の混合ステップと、
    前記第1のフィルタ信号と前記第3のフィルタ信号とを混合することによって第2の混合信号を出力する前記第2の混合ステップと、
    前記第1の混合信号を予め決められた第1の遅延量、遅延させることによって、前記第1の音声信号を生成するステップと、
    前記第2の混合信号を予め決められた第2の遅延量、遅延させることによって、前記第2の音声信号を生成するステップと
    を有することを特徴とする音声強調方法。
  9. コンピュータに、
    入力信号から第1の耳用の第1の音声信号と前記第1の耳の反対側の第2の耳用の第2の音声信号とを生成する処理を実行するために、
    前記入力信号から音声の基本周波数を含む予め決められた周波数帯域の音声成分である第1の帯域成分を抽出し、前記第1の帯域成分を第1の混合処理と第2の混合処理の両方において用いられる共通の信号である第1のフィルタ信号として出力する処理と、
    前記入力信号から音声の第1フォルマントを含む予め決められた周波数帯域の第2の帯域成分を抽出し、前記第2の帯域成分を第2のフィルタ信号として出力する処理と、
    前記入力信号から音声の第2フォルマントを含む予め決められた周波数帯域の第3の帯域成分を抽出し、前記第3の帯域成分を第3のフィルタ信号として出力する処理と、
    前記第1のフィルタ信号と前記第2のフィルタ信号とを混合することによって第1の混合信号を出力する前記第1の混合処理と、
    前記第1のフィルタ信号と前記第3のフィルタ信号とを混合することによって第2の混合信号を出力する前記第2の混合処理と、
    前記第1の混合信号を予め決められた第1の遅延量、遅延させることによって、前記第1の音声信号を生成する処理と、
    前記第2の混合信号を予め決められた第2の遅延量、遅延させることによって、前記第2の音声信号を生成する処理と
    を実行させるための音声処理プログラム。
JP2017520547A 2016-12-08 2016-12-08 音声強調装置、音声強調方法、及び音声処理プログラム Expired - Fee Related JP6177480B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/086502 WO2018105077A1 (ja) 2016-12-08 2016-12-08 音声強調装置、音声強調方法、及び音声処理プログラム

Publications (2)

Publication Number Publication Date
JP6177480B1 true JP6177480B1 (ja) 2017-08-09
JPWO2018105077A1 JPWO2018105077A1 (ja) 2018-12-06

Family

ID=59559182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017520547A Expired - Fee Related JP6177480B1 (ja) 2016-12-08 2016-12-08 音声強調装置、音声強調方法、及び音声処理プログラム

Country Status (4)

Country Link
US (1) US10997983B2 (ja)
JP (1) JP6177480B1 (ja)
CN (1) CN110024418B (ja)
WO (1) WO2018105077A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019106742A1 (ja) * 2017-11-29 2019-06-06 株式会社ソシオネクスト 信号処理装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6177480B1 (ja) * 2016-12-08 2017-08-09 三菱電機株式会社 音声強調装置、音声強調方法、及び音声処理プログラム
WO2019063547A1 (en) * 2017-09-26 2019-04-04 Sony Europe Limited METHOD AND ELECTRONIC DEVICE FOR ATTENUATION / AMPLIFICATION OF FORMER
CN113038315A (zh) * 2019-12-25 2021-06-25 荣耀终端有限公司 一种语音信号处理方法及装置
CN115206142B (zh) * 2022-06-10 2023-12-26 深圳大学 一种基于共振峰的语音训练方法及***
CN115460516A (zh) * 2022-09-05 2022-12-09 中国第一汽车股份有限公司 单声道转立体声的信号处理方法、装置、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04328798A (ja) * 1991-03-27 1992-11-17 Hughes Aircraft Co パブリックアドレス明瞭度強調システム
JPH06289897A (ja) * 1993-03-31 1994-10-18 Sony Corp 音声信号処理装置
JPH08146974A (ja) * 1994-11-15 1996-06-07 Yamaha Corp 音像音場制御装置
JPH1117778A (ja) * 1997-06-23 1999-01-22 Sony Corp 音声信号の処理回路
JP2010028515A (ja) * 2008-07-22 2010-02-04 Nec Saitama Ltd 音声強調装置、携帯端末、音声強調方法および音声強調プログラム
WO2011064950A1 (ja) * 2009-11-25 2011-06-03 パナソニック株式会社 補聴システム、補聴方法、プログラムおよび集積回路
JP2013137385A (ja) * 2011-12-28 2013-07-11 Yamaha Corp 音声明瞭化装置
JP2014033434A (ja) * 2012-07-13 2014-02-20 Panasonic Corp 補聴装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4443859A (en) * 1981-07-06 1984-04-17 Texas Instruments Incorporated Speech analysis circuits using an inverse lattice network
EP1618559A1 (en) * 2003-04-24 2006-01-25 Massachusetts Institute Of Technology System and method for spectral enhancement employing compression and expansion
KR101393298B1 (ko) * 2006-07-08 2014-05-12 삼성전자주식회사 적응적 부호화/복호화 방법 및 장치
JP5564743B2 (ja) * 2006-11-13 2014-08-06 ソニー株式会社 ノイズキャンセル用のフィルタ回路、ノイズ低減信号生成方法、およびノイズキャンセリングシステム
DK2442590T3 (da) * 2008-11-24 2014-10-13 Oticon As Fremgangsmåde til at reducere tilbagekobling i høreapparater
JP5214824B2 (ja) * 2009-07-15 2013-06-19 ヴェーデクス・アクティーセルスカプ 補聴器システムにおける適応的風切音抑制のための方法および処理ユニットならびに補聴器システム
US8515093B2 (en) * 2009-10-09 2013-08-20 National Acquisition Sub, Inc. Input signal mismatch compensation system
JP6177480B1 (ja) * 2016-12-08 2017-08-09 三菱電機株式会社 音声強調装置、音声強調方法、及び音声処理プログラム
GB2563687B (en) * 2017-06-19 2019-11-20 Cirrus Logic Int Semiconductor Ltd Audio test mode

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04328798A (ja) * 1991-03-27 1992-11-17 Hughes Aircraft Co パブリックアドレス明瞭度強調システム
JPH06289897A (ja) * 1993-03-31 1994-10-18 Sony Corp 音声信号処理装置
JPH08146974A (ja) * 1994-11-15 1996-06-07 Yamaha Corp 音像音場制御装置
JPH1117778A (ja) * 1997-06-23 1999-01-22 Sony Corp 音声信号の処理回路
JP2010028515A (ja) * 2008-07-22 2010-02-04 Nec Saitama Ltd 音声強調装置、携帯端末、音声強調方法および音声強調プログラム
WO2011064950A1 (ja) * 2009-11-25 2011-06-03 パナソニック株式会社 補聴システム、補聴方法、プログラムおよび集積回路
JP2013137385A (ja) * 2011-12-28 2013-07-11 Yamaha Corp 音声明瞭化装置
JP2014033434A (ja) * 2012-07-13 2014-02-20 Panasonic Corp 補聴装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019106742A1 (ja) * 2017-11-29 2019-06-06 株式会社ソシオネクスト 信号処理装置

Also Published As

Publication number Publication date
US20190287547A1 (en) 2019-09-19
JPWO2018105077A1 (ja) 2018-12-06
CN110024418A (zh) 2019-07-16
US10997983B2 (en) 2021-05-04
WO2018105077A1 (ja) 2018-06-14
CN110024418B (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
JP6177480B1 (ja) 音声強調装置、音声強調方法、及び音声処理プログラム
US9681246B2 (en) Bionic hearing headset
US8611554B2 (en) Hearing assistance apparatus
JP3670562B2 (ja) ステレオ音響信号処理方法及び装置並びにステレオ音響信号処理プログラムを記録した記録媒体
JP5593852B2 (ja) 音声信号処理装置、音声信号処理方法
EP3020212B1 (en) Pre-processing of a channelized music signal
CN107039029B (zh) 头盔中具有有源噪声控制的声音再现
EP2984857B1 (en) Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
US9191755B2 (en) Spatial enhancement mode for hearing aids
JP2014174430A (ja) 密閉型ヘッドフォン用信号処理装置および密閉型ヘッドフォン
US9420382B2 (en) Binaural source enhancement
US20090180626A1 (en) Signal processing apparatus, signal processing method, and storage medium
JP2000059893A (ja) 音声聴取補助装置および方法
EP2101517A1 (en) Audio processor for converting a mono signal to a stereo signal
US9794678B2 (en) Psycho-acoustic noise suppression
US20230319492A1 (en) Adaptive binaural filtering for listening system using remote signal sources and on-ear microphones
JP2011010246A (ja) 音声変調器および音声データ変調器
WO2015157827A1 (en) Retaining binaural cues when mixing microphone signals
WO2014209434A1 (en) Voice enhancement methods and systems
Liski Adaptive Hear-Through Headset
KR100693702B1 (ko) 음성 출력 장치의 음성 출력 방법
JP2007221445A (ja) サラウンドシステム
JP2014176052A (ja) ハンズフリー装置
JP2015065551A (ja) 音声再生システム
Hongo et al. Two-input two-output speech enhancement with binaural spatial information using a soft decision mask filter

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20170608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170613

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170711

R150 Certificate of patent or registration of utility model

Ref document number: 6177480

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees