JP2017067862A - 音声信号処理装置、音声信号処理方法及びプログラム - Google Patents

音声信号処理装置、音声信号処理方法及びプログラム Download PDF

Info

Publication number
JP2017067862A
JP2017067862A JP2015190254A JP2015190254A JP2017067862A JP 2017067862 A JP2017067862 A JP 2017067862A JP 2015190254 A JP2015190254 A JP 2015190254A JP 2015190254 A JP2015190254 A JP 2015190254A JP 2017067862 A JP2017067862 A JP 2017067862A
Authority
JP
Japan
Prior art keywords
audio signal
suppression
noise
utterance
interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015190254A
Other languages
English (en)
Other versions
JP6536320B2 (ja
Inventor
松尾 直司
Naoji Matsuo
直司 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2015190254A priority Critical patent/JP6536320B2/ja
Priority to US15/242,681 priority patent/US9847097B2/en
Priority to EP16185469.0A priority patent/EP3147901B1/en
Publication of JP2017067862A publication Critical patent/JP2017067862A/ja
Application granted granted Critical
Publication of JP6536320B2 publication Critical patent/JP6536320B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

【課題】音声の認識率を向上させるために、音声の発話区間の終端を適切に判定することができるように音声の雑音を抑制することを可能とする。
【解決手段】発話区間検出部(11)は音声信号の発話区間を検出する。抑制部(12)は音声信号の雑音を抑制する。補正部(13)は、発話区間検出部で検出された発話区間の終端から次の発話区間の先端までの期間より短い期間であって、発話区間の終端を基準とした位置から所定期間の間、抑制部による抑制量が他の区間より大きくなるように補正する。
【選択図】図1

Description

本発明は、音声信号処理装置、音声信号処理方法及びプログラムに関する。
電子機器のユーザインターフェイスとして音声の利用が増加しきている。電子機器のユーザインターフェイスとして利用される場合、音声は、一般的に、音声を認識するアプリケーションで認識される。音声を認識するアプリケーションにおける音声の認識率を向上させるために、アプリケーションに入力される音声に対して雑音の抑制が行われる。例えば、周波数軸上で帯域毎に音源方向の検出を行い、音源方向が雑音抑制範囲である場合に雑音を抑制する技術が存在する。
特開2007−318528号公報
しかしながら、雑音を過度に抑制すると音声に歪みが生じ、後段の音声認識で認識率が低下し、雑音の抑制が不十分であると、ユーザが発話している区間である発話区間が適切に検出されず、後段の音声認識で認識率が低下する。
本発明は、1つの側面として、音声の発話区間の終端を適切に判定することができるように音声の雑音を抑制することを目的とする。
1つの実施形態では、発話区間検出部は、音声信号の発話区間を検出する。抑制部は、音声信号に混じる雑音を抑制する。補正部は、発話区間検出部で検出された発話区間の終端から次の発話区間の先端までの期間より短い期間であって、発話区間の終端を基準とした位置から所定期間の間、抑制部による抑制量が他の区間より大きくなるように補正する。
1つの側面として、音声の発話区間の終端を適切に判定することができるように音声の雑音を抑制することを可能とする。
第1〜第4実施形態に係る音声信号処理装置の要部機能の一例を示すブロック図である。 第1〜第3実施形態に係る音声信号処理装置の電気系の構成の一例を示すブロック図である。 第1〜第3実施形態に係る音声信号処理の一例を説明するためのイメージ図である。 第1〜第4実施形態に係る音声信号処理の抑制増大区間及び抑制用ゲインを説明するためのイメージ図である。 第1及び第4実施形態に係る音声信号処理の流れの一例を示すフローチャートである。 第2実施形態に係る音声信号処理の流れの一例を示すフローチャートである。 第3実施形態に係る音声信号処理の流れの一例を示すフローチャートである。 第3実施形態に係る抑制用ゲインの取得方法の一例を説明するためのイメージ図である。 第4実施形態に係る音声信号処理装置の電気系の構成の一例を示すブロック図である。 第4実施形態に係る音声信号処理の一例を説明するためのイメージ図である。
[第1実施形態]
以下、図面を参照して実施形態の一例である第1実施形態を詳細に説明する。
図1に示す音声信号処理装置10は、発話区間検出部11、抑制部12及び補正部13を含む。発話区間検出部11は、音声信号の発話区間を検出する。抑制部12は、音声信号の雑音を抑制する。補正部13は、発話区間検出部11で検出された発話区間の終端から次の発話区間の先端までの期間より短い期間であって、発話区間の終端を基準とした位置から所定期間の間、抑制部12による抑制量が他の区間より大きくなるように補正する。
音声信号処理装置10は、一例として、図2に示すように、プロセッサの一例であるCPU(Central Processing Unit)31、一次記憶部32、二次記憶部33及びマイク35を含む。CPU31、一次記憶部32、二次記憶部33及びマイク35は、バス36を介して相互に接続されている。なお、マイク35は、マイク端子などを介して音声信号処理装置10に接続される外部マイクであってよい。
一次記憶部32は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。二次記憶部33は、例えば、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)などの不揮発性のメモリである。
二次記憶部33は、一例として、音声信号処理プログラム34を記憶している。CPU31は、二次記憶部33から音声信号処理プログラム34を読み出して一次記憶部32に展開する。CPU31は、音声信号処理プログラム34を実行することで、図1の発話区間検出部11、抑制部12、及び補正部13として動作する。なお、音声信号処理プログラム34は、外部サーバに記憶され、ネットワークを介して、一次記憶部32に展開されてもよいし、DVDなどの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶部32に展開されてもよい。
マイク35は、音声を受け取り、当該音声を音声信号に変換する。なお、音声信号処理装置10は、例えば、パーソナルコンピュータ、タブレット、スマートデバイス、携帯電話、音声信号処理専用装置、又は、車載電子機器用音声信号処理装置などであってよい。
次に、音声信号処理装置10の作用の概略について説明する。本実施形態では、図3に例示するように、CPU31は、ブロック43で、マイク35が受け取った音声に対応する音声信号xの雑音を抑制する。雑音の抑制には、例えば、フィルタリングによる雑音抑制又はスペクトル復元による雑音抑制など、既存の雑音抑制技術を用いることができる。
一方、CPU31は、ブロック41で、マイク35が受け取った音声信号の発話区間を検出する。発話区間の検出には、既存の音声区間検出技術を用いることができる。図4のグラフ(a)の実線はユーザが発話している発話区間51を例示し、破線は発話区間51と発話区間51との間の非発話区間52を例示する。非発話区間52は、背景雑音を含む区間である。図4の横軸(c)は時間Tの推移を表す。
CPU31は、ブロック42で、発話区間51の終端を基準とした位置から所定期間Tsの間、ブロック43で行われる音声信号の雑音の抑制の抑制量が、所定期間Ts以外の区間の抑制量よりも大きくなるように制御する。以下、所定期間Tsを抑制量増大区間Tsとも呼ぶ。抑制量増大区間Tsは、発話区間51の終端から次の発話区間51の先端までの期間より短い期間である。
CPU31は、雑音を抑制した音声信号に対して音声認識処理を行うために、ブロック44(以下、音声認識ブロック44とも呼ぶ。)に、雑音を抑制した音声信号を送信する。
詳細には、図5に例示するように、CPU31は、ステップ61で、マイク35が受け取った音声に対応する音声信号xを、例えば、1フレーム分受け取る。CPU31は、ステップ62で、受け取った音声信号xが発話区間51の音声信号であるか否か判定する。
この例では、音声信号xのパワーPを式(1)を用いて計算し、音声信号xのパワーが所定値以上である場合には、発話区間であると判定する。
P=Σx(t) …(1)
式(1)において、x(t)は、時間t(t=Tfi(i=1,…,n:nは1フレームの分割数を表す))の音声信号を表す。
ステップ62の判定が肯定された場合、CPU31は、ステップ65で、音声信号xの雑音を抑制する。(なお、後述する通り、ステップ62の判定が否定された場合であっても、CPU31は、他のステップを実行した後、ステップ65で、音声信号xの雑音を抑制する。)
例えば、加法性雑音では、雑音を含む音声信号x(t)、雑音を含まない音声信号s(t)、及び雑音信号n(t)は、式(2)の関係を有する。
x(t)=s(t)+n(t) …(2)
式(2)を周波数領域で考えると、雑音を含む音声信号スペクトルX(ω)、雑音を含まない音声信号スペクトルS(ω)、及び雑音信号スペクトルN(ω)の関係は、式(3)で表される。
X(ω)=S(ω)+N(ω) …(3)
ωは周波数を表す。
例えば、フィルタリングによる雑音抑制では、式(4)に例示するように、雑音を含む音声信号スペクトルX(ω)にフィルタであるゲインG(ω)を乗じることにより、雑音が抑制された音声信号スペクトルS’(ω)(以下、雑音抑制信号スペクトルS’(ω)とも呼ぶ。)を取得することができる。
S’(ω)=G(ω)X(ω) …(4)
一方、ステップ62の判定が否定された場合、CPU31は、ステップ63で、受け取った音声信号xが抑制量増大区間Tsの音声信号xであるか否か判定する。詳細には、発話区間51の終端を基準とした位置から所定期間Tsの間の音声信号xであるか否か判定する。発話区間51の終端を基準とした位置は、例えば、発話区間51の終端から0秒〜数100m秒までの範囲に含まれる位置であってよい。また、抑制量増大区間Tsは、例えば、数百m秒の期間であってよい。
ステップ63の判定が否定されると、即ち、抑制量増大区間Tsの音声信号xではないと判定されると、ステップ65で、音声信号xの雑音を抑制する。
ステップ63の判定が肯定されると、即ち、抑制量増大区間Tsの音声信号xであると判定されると、CPU31は、ステップ64で、ステップ65で行われる雑音抑制の抑制量を増大させる。
式(4)において、ゲインG(ω)が1に近付く程、雑音抑制信号スペクトルS’(ω)と雑音を含む音声信号スペクトルX(ω)との差である抑制量(X(ω)−G(ω)X(ω))は小さくなる。一方、ゲインG(ω)の値が0に近付く程、雑音抑制信号スペクトルS’(ω)と音声信号スペクトルX(ω)との差である抑制量(X(ω)−G(ω)X(ω))は大きくなる。従って、ここでは、例えば、図4のグラフ(b)の実線54で示すように、抑制量増大区間Tsの間、ゲインG(ω)に抑制用ゲインα(0<α<1)を乗算することにより、抑制量を増大させる。
CPU31は、ステップ65で、ステップ64で増大させた抑制量で、音声信号xの雑音を抑制する。即ち、抑制量増大区間Tsの間、音声信号xの雑音は、他の区間と比較して強く抑制される。
CPU31は、ステップ66で、全ての音声信号xの処理が完了したか否かを判定する。ステップ66の判定が否定された場合、CPU31は、ステップ61に戻る。ステップ66の判定が肯定された場合、CPU31は、音声信号処理を終了する。
なお、上記では、フィルタリングによる雑音抑制を用いて説明したが、本実施形態はこれに限定されない。例えば、スペクトル復元による雑音抑制又は音声モデルベースによる雑音抑制など、既存の雑音抑制技術を利用することができる。以下で説明する他の実施形態についても、同様である。
本実施形態では、音声信号xの発話区間51を検出し、音声信号xの雑音を抑制する。本実施形態では、発話区間51の終端から次の発話区間51の先端までの期間より短い期間であって、発話区間51の終端を基準とした位置から所定期間Tsの間、抑制量が他の区間より大きくなるように補正する。
上記のように、本実施形態では、音声信号x全体の雑音を抑制するが、音声信号x全体ではなく、抑制量増大区間Tsの抑制量を増大させている。これにより、本実施形態では、抑制量を過度に増大させることによって音声信号xに歪みが発生することを防止する。即ち、音声信号xに歪みが発生することで、後段の音声認識ブロック44での認識率が低下すること防止する。
また、本実施形態では、音声信号x全体の雑音を抑制する抑制量が強くないことで、後段の音声認識ブロック44での認識率が低下することを防止する。一般に、ユーザの発話のパワーは発話の終端に近付く程小さくなる。また、非発話区間52であっても背景雑音が存在するため、発話区間51と非発話区間52との境界である発話の終端を認識することが困難となる。
ここで、音声信号xの雑音を抑制する抑制量が強くない、即ち不十分であると、残留する雑音のために発話区間51の音声信号xと非発話区間52の背景雑音である音声信号xとの差異が不明瞭となる。これにより、音声認識ブロック44で発話の終端を認識することはさらに困難となり、音声認識ブロック44での音声の認識率が低下する。本実施形態によれば、抑制量増大区間Tsの抑制量を増大させることにより、音声認識ブロック44で発話の終端を認識することが容易となるため、音声認識ブロック44での認識率が低下することを防止する。
[第2実施形態]
次に、実施形態の一例である第2実施形態を説明する。第1実施形態と同様の構成及び作用については説明を省略する。
本実施形態では、図6に例示するように、ステップ62で発話区間を検出する前に、CPU31は、ステップ65Aで、ステップ61で受け取った音声信号xの雑音を抑制する。また、ステップ63の判定が肯定されると、即ち、抑制量増大区間Tsであると判定されると、CPU31は、ステップ65Bで、ステップ65Aで雑音を抑制された音声信号s”(以下、雑音抑制信号s”とも呼ぶ。)に抑制用ゲインαを乗算することにより、音声信号xの雑音をさらに抑制する。
即ち、第1実施形態では、抑制量増大区間Ts以外では、ゲインGで音声信号xの雑音の抑制を行い、抑制量増大区間Tsでは、ゲインGに抑制用ゲインαを乗算して雑音の抑制を行う。これに対し、第2実施形態では、まず、音声信号x全体にわたって、まず、ゲインGで雑音の抑制を行い、抑制増大区間Tsで、雑音抑制信号s”に抑制用ゲインαを乗算する。雑音抑制信号s”に抑制用ゲインαを乗算することにより、抑制量増大区間Tsでは、雑音の抑制の抑制量が大きくなる。
本実施形態では、音声信号xの雑音を抑制する。本実施形態では、発話区間51の終端から次の発話区間51の先端までの期間より短い期間であって、発話区間51の終端を基準とした位置から所定期間Tsの間、抑制量が他の区間より大きくなるように補正する。
また、本実施形態では、雑音抑制信号s”の雑音を、抑制量増大区間Tsの間、さらに抑制することによって、抑制量増大区間Tsの間、雑音の抑制の抑制量が他の区間より大きくなるように補正する。
上記のように、本実施形態では、音声信号x全体の雑音を抑制するが、音声信号x全体ではなく、抑制量増大区間Tsの抑制量を増大させている。これにより、本実施形態では、抑制量を過度に増大させることによって音声信号xに歪みが発生することを防止する。即ち、音声信号xに歪みが発生することで、後段の音声認識ブロック44での認識率が低下すること防止する。
また、本実施形態では、音声信号xの雑音を抑制する抑制量が強くないことで、後段の音声認識ブロック44での認識率が低下することを防止する。一般に、ユーザの発話のパワーは発話の終端に近付く程小さくなる。また、非発話区間52であっても背景雑音が存在するため、発話区間51と非発話区間52との境界である発話の終端を認識することが困難となる。
ここで、音声信号xの雑音を抑制する抑制量が強くない、即ち不十分であると、残留する雑音のために発話区間51の音声信号xと非発話区間52の背景雑音である音声信号xとの差異が不明瞭となる。これにより、音声認識ブロック44で発話の終端を認識することはさらに困難となり、音声認識ブロック44での音声の認識率が低下する。本実施形態によれば、抑制量増大区間Tsの抑制量を増大させることにより、音声認識ブロック44で発話の終端を認識することが容易となるため、音声認識ブロック44での認識率が低下することを防止する。
[第3実施形態]
次に、実施形態の一例である第3実施形態を説明する。第1実施形態と同様の構成及び作用については説明を省略する。図7に例示するように、第3実施形態では、ステップ71で非発話区間52の音声信号xのパワーを蓄積し、ステップ72で、ステップ71で蓄積した音声信号xのパワーの平均値に基づいて抑制用ゲインαを取得している点で、第1実施形態と異なる。
詳細には、ステップ62で、発話区間51ではないと判定された場合、即ち、非発話区間52であると判定された場合、CPU31は、ステップ71で、1フレーム分の音声信号xのパワーΣx(t)及び時間を蓄積する。非発話区間52で、音声信号xは背景雑音信号である。
ステップ63の判定が肯定されると、即ち、抑制量増大区間Tsであると判定されると、CPU31は、ステップ72で、抑制用ゲインαを取得する。例えば、ステップ71で、蓄積した非発話区間の音声信号xのパワーの合計を時間の合計で除算することで、音声信号xのパワーの平均値γを求め、図8に例示するグラフにおいて、平均値γに対応する値αを抑制用ゲインαとして取得する。
図8に例示するグラフにおいて、縦軸は抑制用ゲインの値を表し、横軸は非発話区間52の音声信号xのパワーの平均値を表す。なお、図8のグラフは一例であり、本実施形態はこれに限定されない。
なお、ステップ71で蓄積される音声信号xのパワーの合計及び時間の合計は、例えば、定期的にリセットされてもよい。また、以前に行われた音声信号処理で蓄積された音声信号xのパワーの合計及び時間の合計が、今回行う音声信号処理で、音声信号xのパワー及び時間の蓄積の初期値として利用されてもよい。
また、上記では、第1実施形態の処理にステップ71及びステップ72の処理を追加する例について説明したが、本実施形態は、第2実施形態にも適用することができる。第2実施形態に本実施形態を適用する場合、例えば、ステップ71をステップ62の下に含め、ステップ72をステップ63の下に含めればよい。
本実施形態では、音声信号xの雑音を抑制する。本実施形態では、発話区間51の終端から次の発話区間51の先端までの期間より短い期間であって、発話区間51の終端を基準とした位置から所定期間Tsの間、抑制量が他の区間より大きくなるように補正する。
上記のように、本実施形態では、音声信号x全体の雑音を抑制するが、音声信号x全体ではなく、抑制量増大区間Tsの抑制量を増大させている。これにより、本実施形態では、抑制量を過度に増大させることによって音声信号xに歪みが発生することを防止する。即ち、音声信号xに歪みが発生することで、後段の音声認識ブロック44での音声の認識率が低下すること防止する。
また、本実施形態では、音声信号xの雑音を抑制する抑制量が強くないことで、後段の音声認識ブロック44での認識率が低下することを防止する。一般に、ユーザの発話のパワーは発話の終端に近付く程小さくなる。また、非発話区間52であっても背景雑音が存在するため、発話区間51と非発話区間52との境界である発話の終端を認識することが困難となる。
ここで、音声信号xの雑音を抑制する抑制量が強くない、即ち不十分であると、残留する雑音のために発話区間51の音声信号xと非発話区間52の背景雑音である音声信号xとの差異が不明瞭となる。これにより、音声認識ブロック44で発話の終端を認識することはさらに困難となり、音声認識ブロック44での音声の認識率が低下する。本実施形態によれば、抑制量増大区間Tsの抑制量を増大させることにより、音声認識ブロック44で発話の終端を認識することが容易となるため、音声認識ブロック44での認識率が低下することを防止する。
また、本実施形態では、抑制量増大区間Tsの間、抑制量が、非発話区間52の音声信号xに基づいて取得された量に応じて大きくなるように補正する。また、本実施形態では、雑音抑制信号s”の雑音を、抑制量増大区間Tsの間、非発話区間52の音声信号xに基づいて取得された量に応じてさらに抑制することによって、抑制量増大区間Tsの間、抑制量が他の区間より大きくなるように補正してもよい。これにより、本実施形態では、抑制量増大区間Tsの間の抑制量を適切に調整することができる。
[第4実施形態]
次に、実施形態の一例である第4実施形態を説明する。第1実施形態と同様の構成及び作用については、説明を省略する。図9に例示するように、第4実施形態では、マイク35に代えて、第1マイク35A及び第2マイク35Bを含む点で、第1実施形態とは異なる。なお、第1マイク35A及び第2マイク35Bは、マイク端子などを介して音声信号処理装置10に接続される外部マイクであってよい。
次に、音声信号処理装置10の作用の概略について説明する。本実施形態では、図10に例示するように、CPU31は、ブロック43で、第1マイク35Aが受け取った音声に対応する音声信号x1及び第2マイク35Bが受け取った音声に対応する音声信号x2の雑音を抑制する。雑音の抑制には、例えば、単一マイクのためのフィルタリングによる雑音抑制又はスペクトル復元による雑音抑制などを複数マイクに応用した技術など、既存の雑音抑制技術を用いることができる。
一方、CPU31は、ブロック41で、音声信号x1及び音声信号x2の相関値に基づいて発話区間51を検出する。また、CPU31は、抑制量増大区間Tsの間、ブロック43で行われる音声信号の雑音の抑制の抑制量が、抑制量増大区間Ts以外の区間の抑制量よりも大きくなるように制御する。
詳細には、図5のステップ61で、CPU31は、第1マイク35Aで受け取った音声に対応する音声信号x1及び第2マイク35Bで受け取った音声に対応する音声信号x2を、例えば、1フレーム分受け取る。CPU31は、ステップ62で、受け取った音声信号x1及びx2が発話区間51の音声信号であるか否か判定する。
CPU31は、例えば、式(5)を用いて、音声信号x1と音声信号x2との相関値Rを計算する。
R=Σx1(t)x2(t−d)/(Σx1(t)Σx2(t−d)1/2 …(5)例えば、第1マイク35Aと音源(例えば、自動車内における運転者)との距離が第2マイク35Bと音源との距離よりも長いと仮定した場合、dは音源の方向に適合する遅延時間である。CPU31は、相関値Rが所定値よりも大きい場合、発話区間51であると判定する。
なお、上記では、マイクが2つである例について説明したが、本実施形態はこれに限定されない。例えば、マイクは3つ以上であってもよい。
また、上記では、第1実施形態で、マイク35を第1マイク35A及び第2マイク35Bと置き換える例について説明したが、本実施形態は、第2実施形態及び第3実施形態にも適用することができる。
本実施形態では、音声信号x1及び音声信号x2の雑音を抑制する。本実施形態では、発話区間51の終端から次の発話区間51の先端までの期間より短い期間であって、発話区間51の終端を基準とした位置から所定期間Tsの間、抑制量が他の区間より大きくなるように補正する。
上記のように、本実施形態では、音声信号x1及び音声信号x2全体の雑音を抑制するが、音声信号x1及び音声信号x2全体ではなく、抑制量増大区間Tsの抑制量を増大させている。これにより、本実施形態では、抑制量を過度に増大させることによって、雑音を抑制した音声信号に歪みが発生することを防止する。即ち、雑音を抑制した音声信号に歪みが発生することで、後段の音声認識ブロック44での音声の認識率が低下すること防止する。
また、本実施形態では、音声信号x1及び音声信号x2の雑音を抑制する抑制量が強くないことで、後段の音声認識ブロック44での音声の認識率が低下することを防止する。一般に、ユーザの発話のパワーは発話の終端に近付く程小さくなる。また、非発話区間52であっても背景雑音が存在するため、発話区間51と非発話区間52との境界である発話の終端を認識することが困難となる。
ここで、音声信号x1及び音声信号x2の雑音を抑制する抑制量が強くない、即ち不十分であると、雑音が残留するため、音声信号x1及び音声信号x2と非発話区間52の背景雑音である音声信号x1及び音声信号x2との差異が不明瞭となる。従って、音声認識ブロック44で発話の終端を認識することはさらに困難となる。これにより、音声認識ブロック44での音声の認識率が低下する。本実施形態によれば、抑制量増大区間Tsの抑制量を増大させることにより、音声認識ブロック44で発話の終端を認識することが容易となるため、音声認識ブロック44で音声の認識率が低下することを防止する。
[比較結果例]
走行中の自動車室内で収録した640個の音声データを用いて、上記実施形態を適用した音声信号と適用しない音声信号の発話区間の検出率を比較した。上記実施形態を適用した音声信号では、走行中の自動車室内で収録した640個の音声データの内、640個全ての音声データで音声信号の発話区間を適切に検出することができた。一方、上記実施形態を適用しない音声信号では、上記640個の音声データの内、11個の音声データで音声信号の発話区間を適切に検出することに失敗した。
以上の各実施形態に関し、更に以下の付記を開示する。
(付記1)
音声信号の発話区間を検出する発話区間検出部と、
前記音声信号の雑音を抑制する抑制部と、
前記発話区間検出部で検出された発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、前記抑制部による雑音の抑制の抑制量が他の区間より大きくなるように補正する補正部と、
を含む音声信号処理装置。
(付記2)
前記補正部は、前記所定期間の間、前記抑制部による抑制量が、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて大きくなるように補正する、
付記1の音声信号処理装置。
(付記3)
前記補正部は、前記抑制部によって雑音が抑制された前記音声信号の雑音を、前記所定期間の間、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて、さらに抑制するように前記抑制部を制御することによって、前記所定期間の間、前記抑制部による抑制量が他の区間より大きくなるように補正し、
前記抑制部は、前記所定期間の間、前記雑音が抑制された音声信号の雑音をさらに抑制する、
付記1の音声信号処理装置。
(付記4)
前記音声信号を入力する複数の音声入力部を含み、
前記発話区間検出部は、前記複数の音声入力部で受け取った音声に対応する音声信号の間の相関値に基づいて、前記発話区間を検出する、
付記1〜付記3の何れかの音声信号処理装置。
(付記5)
プロセッサが、
音声信号の発話区間を検出し、
前記音声信号の雑音を抑制し、
検出された前記発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、雑音を抑制する抑制量が他の区間より大きくなるように補正する、
音声信号処理方法。
(付記6)
前記所定期間の間、前記抑制量が、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて大きくなるように補正する、
付記5の音声信号処理方法。
(付記7)
雑音が抑制された前記音声信号の雑音を、前記所定期間の間、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて、さらに抑制するように制御することによって、前記所定期間の間、前記抑制量が他の区間より大きくなるように補正し、
前記所定期間の間、前記雑音が抑制された音声信号の雑音をさらに抑制する、
付記5の音声信号処理方法。
(付記8)
複数の音声入力部で受け取った音声に対応する音声信号の間の相関値に基づいて、前記発話区間を検出する、
付記5〜付記7の何れかの音声入力方法。
(付記9)
音声信号の発話区間を検出し、
前記音声信号の雑音を抑制し、
検出された前記発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、雑音を抑制する抑制量が他の区間より大きくなるように補正する、
音声信号処理をプロセッサに実行させるためのプログラム。
(付記10)
前記音声信号処理は、
前記所定期間の間、前記抑制量が、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて大きくなるように補正する、
付記9のプログラム。
(付記11)
前記音声信号処理は、
雑音が抑制された前記音声信号の雑音を、前記所定期間の間、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて、さらに抑制するように制御することによって、前記所定期間の間、前記抑制量が他の区間より大きくなるように補正し、
前記所定期間の間、前記雑音が抑制された音声信号の雑音をさらに抑制する、
付記9のプログラム。
(付記12)
前記音声信号処理は、
複数の音声入力部で受け取った音声に対応する音声信号の間の相関値に基づいて、前記発話区間を検出する、
付記9〜付記11の何れかのプログラム。
10 音声信号処理装置
11 発話区間検出部
12 抑制部
13 補正部
31 CPU

Claims (6)

  1. 音声信号の発話区間を検出する発話区間検出部と、
    前記音声信号の雑音を抑制する抑制部と、
    前記発話区間検出部で検出された発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、前記抑制部による雑音の抑制の抑制量が他の区間より大きくなるように補正する補正部と、
    を含む音声信号処理装置。
  2. 前記補正部は、前記所定期間の間、前記抑制部による抑制量が、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて大きくなるように補正する、
    請求項1に記載の音声信号処理装置。
  3. 前記補正部は、前記抑制部によって雑音が抑制された前記音声信号の雑音を、前記所定期間の間、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて、さらに抑制するように前記抑制部を制御することによって、前記所定期間の間、前記抑制部による抑制量が他の区間より大きくなるように補正し、
    前記抑制部は、前記所定期間の間、前記雑音が抑制された音声信号の雑音をさらに抑制する、
    請求項1に記載の音声信号処理装置。
  4. 前記音声信号を入力する複数の音声入力部を含み、
    前記発話区間検出部は、前記複数の音声入力部で受け取った音声に対応する音声信号の間の相関値に基づいて、前記発話区間を検出する、
    請求項1〜請求項3の何れか1項に記載の音声信号処理装置。
  5. プロセッサが、
    音声信号の発話区間を検出し、
    前記音声信号の雑音を抑制し、
    検出された前記発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、雑音を抑制する抑制量が他の区間より大きくなるように補正する、
    音声信号処理方法。
  6. 音声信号の発話区間を検出し、
    前記音声信号の雑音を抑制し、
    検出された前記発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、雑音を抑制する抑制量が他の区間より大きくなるように補正する、
    音声信号処理をプロセッサに実行させるためのプログラム。
JP2015190254A 2015-09-28 2015-09-28 音声信号処理装置、音声信号処理方法及びプログラム Active JP6536320B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2015190254A JP6536320B2 (ja) 2015-09-28 2015-09-28 音声信号処理装置、音声信号処理方法及びプログラム
US15/242,681 US9847097B2 (en) 2015-09-28 2016-08-22 Audio signal processing device, audio signal processing method, and recording medium storing a program
EP16185469.0A EP3147901B1 (en) 2015-09-28 2016-08-24 Audio signal processing device, audio signal processing method, and recording medium storing a program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015190254A JP6536320B2 (ja) 2015-09-28 2015-09-28 音声信号処理装置、音声信号処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2017067862A true JP2017067862A (ja) 2017-04-06
JP6536320B2 JP6536320B2 (ja) 2019-07-03

Family

ID=56799345

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015190254A Active JP6536320B2 (ja) 2015-09-28 2015-09-28 音声信号処理装置、音声信号処理方法及びプログラム

Country Status (3)

Country Link
US (1) US9847097B2 (ja)
EP (1) EP3147901B1 (ja)
JP (1) JP6536320B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205416B2 (en) 2018-12-04 2021-12-21 Fujitsu Limited Non-transitory computer-read able storage medium for storing utterance detection program, utterance detection method, and utterance detection apparatus
CN110600018B (zh) * 2019-09-05 2022-04-26 腾讯科技(深圳)有限公司 语音识别方法及装置、神经网络训练方法及装置

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
CN107742523B (zh) * 2017-11-16 2022-01-07 Oppo广东移动通信有限公司 语音信号处理方法、装置以及移动终端
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
JP7095586B2 (ja) * 2018-12-14 2022-07-05 富士通株式会社 音声補正装置および音声補正方法
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
CN111986691B (zh) * 2020-09-04 2024-02-02 腾讯科技(深圳)有限公司 音频处理方法、装置、计算机设备及存储介质
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08179792A (ja) * 1994-12-22 1996-07-12 Sony Corp 音声処理装置
JP2003195882A (ja) * 2001-12-21 2003-07-09 Fujitsu Ltd 信号処理システムおよび方法
US20050152563A1 (en) * 2004-01-08 2005-07-14 Kabushiki Kaisha Toshiba Noise suppression apparatus and method
JP2015155982A (ja) * 2014-02-21 2015-08-27 日本電信電話株式会社 音声区間検出装置、音声認識装置、その方法、及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4912036B2 (ja) 2006-05-26 2012-04-04 富士通株式会社 指向性集音装置、指向性集音方法、及びコンピュータプログラム
WO2010089976A1 (ja) 2009-02-09 2010-08-12 パナソニック株式会社 補聴器
JP5197458B2 (ja) 2009-03-25 2013-05-15 株式会社東芝 受音信号処理装置、方法およびプログラム
JP5446745B2 (ja) 2009-11-05 2014-03-19 富士通株式会社 音信号処理方法および音信号処理装置
US20110288860A1 (en) 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
JP6028502B2 (ja) 2012-10-03 2016-11-16 沖電気工業株式会社 音声信号処理装置、方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08179792A (ja) * 1994-12-22 1996-07-12 Sony Corp 音声処理装置
JP2003195882A (ja) * 2001-12-21 2003-07-09 Fujitsu Ltd 信号処理システムおよび方法
US20050152563A1 (en) * 2004-01-08 2005-07-14 Kabushiki Kaisha Toshiba Noise suppression apparatus and method
JP2005195955A (ja) * 2004-01-08 2005-07-21 Toshiba Corp 雑音抑圧装置及び雑音抑圧方法
JP2015155982A (ja) * 2014-02-21 2015-08-27 日本電信電話株式会社 音声区間検出装置、音声認識装置、その方法、及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205416B2 (en) 2018-12-04 2021-12-21 Fujitsu Limited Non-transitory computer-read able storage medium for storing utterance detection program, utterance detection method, and utterance detection apparatus
CN110600018B (zh) * 2019-09-05 2022-04-26 腾讯科技(深圳)有限公司 语音识别方法及装置、神经网络训练方法及装置

Also Published As

Publication number Publication date
US9847097B2 (en) 2017-12-19
EP3147901A1 (en) 2017-03-29
US20170092299A1 (en) 2017-03-30
JP6536320B2 (ja) 2019-07-03
EP3147901B1 (en) 2023-01-11

Similar Documents

Publication Publication Date Title
JP6536320B2 (ja) 音声信号処理装置、音声信号処理方法及びプログラム
EP2860730B1 (en) Speech processing
EP3276621B1 (en) Noise suppression device and noise suppressing method
US8249270B2 (en) Sound signal correcting method, sound signal correcting apparatus and computer program
WO2010131470A1 (ja) ゲイン制御装置及びゲイン制御方法、音声出力装置
JP6764923B2 (ja) 音声処理方法、装置、デバイスおよび記憶媒体
EP2661053A1 (en) Voice control device, method of controlling voice, voice control program and mobile terminal device
JP6174856B2 (ja) 雑音抑制装置、その制御方法、及びプログラム
CN106782586B (zh) 一种音频信号处理方法及装置
JP2014518404A (ja) 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制
US9478235B2 (en) Voice signal processing device and voice signal processing method
US20190019527A1 (en) Pop noise control
US9548065B2 (en) Energy post qualification for phrase spotting
JP5782402B2 (ja) 音声品質客観評価装置及び方法
JP6878776B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
US20200251090A1 (en) Detection of fricatives in speech signals
CN106571148B (zh) 一种音频信号自动增益控制方法及装置
JP7194559B2 (ja) プログラム、情報処理方法、及び情報処理装置
JP2006126859A (ja) 音声処理装置及び音声処理方法
JP2006126859A5 (ja)
JP7129331B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US20170194018A1 (en) Noise suppression device, noise suppression method, and computer program product
KR20170064438A (ko) 음성 노이즈를 제거하는 방법 및 장치
JP2020197565A (ja) 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置
JP2014095769A (ja) 発話区間決定装置、発話区間決定方法、および発話区間決定プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190520

R150 Certificate of patent or registration of utility model

Ref document number: 6536320

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150