JP2017067862A - 音声信号処理装置、音声信号処理方法及びプログラム - Google Patents
音声信号処理装置、音声信号処理方法及びプログラム Download PDFInfo
- Publication number
- JP2017067862A JP2017067862A JP2015190254A JP2015190254A JP2017067862A JP 2017067862 A JP2017067862 A JP 2017067862A JP 2015190254 A JP2015190254 A JP 2015190254A JP 2015190254 A JP2015190254 A JP 2015190254A JP 2017067862 A JP2017067862 A JP 2017067862A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- suppression
- noise
- utterance
- interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims description 6
- 230000001629 suppression Effects 0.000 claims abstract description 147
- 238000001514 detection method Methods 0.000 claims abstract description 15
- 230000005236 sound signal Effects 0.000 claims description 130
- 238000000034 method Methods 0.000 description 13
- 238000001228 spectrum Methods 0.000 description 13
- 230000007423 decrease Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02168—Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Abstract
【解決手段】発話区間検出部(11)は音声信号の発話区間を検出する。抑制部(12)は音声信号の雑音を抑制する。補正部(13)は、発話区間検出部で検出された発話区間の終端から次の発話区間の先端までの期間より短い期間であって、発話区間の終端を基準とした位置から所定期間の間、抑制部による抑制量が他の区間より大きくなるように補正する。
【選択図】図1
Description
以下、図面を参照して実施形態の一例である第1実施形態を詳細に説明する。
P=Σx(t)2 …(1)
式(1)において、x(t)は、時間t(t=Tfi(i=1,…,n:nは1フレームの分割数を表す))の音声信号を表す。
x(t)=s(t)+n(t) …(2)
式(2)を周波数領域で考えると、雑音を含む音声信号スペクトルX(ω)、雑音を含まない音声信号スペクトルS(ω)、及び雑音信号スペクトルN(ω)の関係は、式(3)で表される。
X(ω)=S(ω)+N(ω) …(3)
ωは周波数を表す。
S’(ω)=G(ω)X(ω) …(4)
次に、実施形態の一例である第2実施形態を説明する。第1実施形態と同様の構成及び作用については説明を省略する。
次に、実施形態の一例である第3実施形態を説明する。第1実施形態と同様の構成及び作用については説明を省略する。図7に例示するように、第3実施形態では、ステップ71で非発話区間52の音声信号xのパワーを蓄積し、ステップ72で、ステップ71で蓄積した音声信号xのパワーの平均値に基づいて抑制用ゲインαを取得している点で、第1実施形態と異なる。
次に、実施形態の一例である第4実施形態を説明する。第1実施形態と同様の構成及び作用については、説明を省略する。図9に例示するように、第4実施形態では、マイク35に代えて、第1マイク35A及び第2マイク35Bを含む点で、第1実施形態とは異なる。なお、第1マイク35A及び第2マイク35Bは、マイク端子などを介して音声信号処理装置10に接続される外部マイクであってよい。
R=Σx1(t)x2(t−d)/(Σx1(t)2Σx2(t−d)2)1/2 …(5)例えば、第1マイク35Aと音源(例えば、自動車内における運転者)との距離が第2マイク35Bと音源との距離よりも長いと仮定した場合、dは音源の方向に適合する遅延時間である。CPU31は、相関値Rが所定値よりも大きい場合、発話区間51であると判定する。
走行中の自動車室内で収録した640個の音声データを用いて、上記実施形態を適用した音声信号と適用しない音声信号の発話区間の検出率を比較した。上記実施形態を適用した音声信号では、走行中の自動車室内で収録した640個の音声データの内、640個全ての音声データで音声信号の発話区間を適切に検出することができた。一方、上記実施形態を適用しない音声信号では、上記640個の音声データの内、11個の音声データで音声信号の発話区間を適切に検出することに失敗した。
音声信号の発話区間を検出する発話区間検出部と、
前記音声信号の雑音を抑制する抑制部と、
前記発話区間検出部で検出された発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、前記抑制部による雑音の抑制の抑制量が他の区間より大きくなるように補正する補正部と、
を含む音声信号処理装置。
(付記2)
前記補正部は、前記所定期間の間、前記抑制部による抑制量が、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて大きくなるように補正する、
付記1の音声信号処理装置。
(付記3)
前記補正部は、前記抑制部によって雑音が抑制された前記音声信号の雑音を、前記所定期間の間、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて、さらに抑制するように前記抑制部を制御することによって、前記所定期間の間、前記抑制部による抑制量が他の区間より大きくなるように補正し、
前記抑制部は、前記所定期間の間、前記雑音が抑制された音声信号の雑音をさらに抑制する、
付記1の音声信号処理装置。
(付記4)
前記音声信号を入力する複数の音声入力部を含み、
前記発話区間検出部は、前記複数の音声入力部で受け取った音声に対応する音声信号の間の相関値に基づいて、前記発話区間を検出する、
付記1〜付記3の何れかの音声信号処理装置。
(付記5)
プロセッサが、
音声信号の発話区間を検出し、
前記音声信号の雑音を抑制し、
検出された前記発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、雑音を抑制する抑制量が他の区間より大きくなるように補正する、
音声信号処理方法。
(付記6)
前記所定期間の間、前記抑制量が、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて大きくなるように補正する、
付記5の音声信号処理方法。
(付記7)
雑音が抑制された前記音声信号の雑音を、前記所定期間の間、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて、さらに抑制するように制御することによって、前記所定期間の間、前記抑制量が他の区間より大きくなるように補正し、
前記所定期間の間、前記雑音が抑制された音声信号の雑音をさらに抑制する、
付記5の音声信号処理方法。
(付記8)
複数の音声入力部で受け取った音声に対応する音声信号の間の相関値に基づいて、前記発話区間を検出する、
付記5〜付記7の何れかの音声入力方法。
(付記9)
音声信号の発話区間を検出し、
前記音声信号の雑音を抑制し、
検出された前記発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、雑音を抑制する抑制量が他の区間より大きくなるように補正する、
音声信号処理をプロセッサに実行させるためのプログラム。
(付記10)
前記音声信号処理は、
前記所定期間の間、前記抑制量が、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて大きくなるように補正する、
付記9のプログラム。
(付記11)
前記音声信号処理は、
雑音が抑制された前記音声信号の雑音を、前記所定期間の間、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて、さらに抑制するように制御することによって、前記所定期間の間、前記抑制量が他の区間より大きくなるように補正し、
前記所定期間の間、前記雑音が抑制された音声信号の雑音をさらに抑制する、
付記9のプログラム。
(付記12)
前記音声信号処理は、
複数の音声入力部で受け取った音声に対応する音声信号の間の相関値に基づいて、前記発話区間を検出する、
付記9〜付記11の何れかのプログラム。
11 発話区間検出部
12 抑制部
13 補正部
31 CPU
Claims (6)
- 音声信号の発話区間を検出する発話区間検出部と、
前記音声信号の雑音を抑制する抑制部と、
前記発話区間検出部で検出された発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、前記抑制部による雑音の抑制の抑制量が他の区間より大きくなるように補正する補正部と、
を含む音声信号処理装置。 - 前記補正部は、前記所定期間の間、前記抑制部による抑制量が、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて大きくなるように補正する、
請求項1に記載の音声信号処理装置。 - 前記補正部は、前記抑制部によって雑音が抑制された前記音声信号の雑音を、前記所定期間の間、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて、さらに抑制するように前記抑制部を制御することによって、前記所定期間の間、前記抑制部による抑制量が他の区間より大きくなるように補正し、
前記抑制部は、前記所定期間の間、前記雑音が抑制された音声信号の雑音をさらに抑制する、
請求項1に記載の音声信号処理装置。 - 前記音声信号を入力する複数の音声入力部を含み、
前記発話区間検出部は、前記複数の音声入力部で受け取った音声に対応する音声信号の間の相関値に基づいて、前記発話区間を検出する、
請求項1〜請求項3の何れか1項に記載の音声信号処理装置。 - プロセッサが、
音声信号の発話区間を検出し、
前記音声信号の雑音を抑制し、
検出された前記発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、雑音を抑制する抑制量が他の区間より大きくなるように補正する、
音声信号処理方法。 - 音声信号の発話区間を検出し、
前記音声信号の雑音を抑制し、
検出された前記発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、雑音を抑制する抑制量が他の区間より大きくなるように補正する、
音声信号処理をプロセッサに実行させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015190254A JP6536320B2 (ja) | 2015-09-28 | 2015-09-28 | 音声信号処理装置、音声信号処理方法及びプログラム |
US15/242,681 US9847097B2 (en) | 2015-09-28 | 2016-08-22 | Audio signal processing device, audio signal processing method, and recording medium storing a program |
EP16185469.0A EP3147901B1 (en) | 2015-09-28 | 2016-08-24 | Audio signal processing device, audio signal processing method, and recording medium storing a program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015190254A JP6536320B2 (ja) | 2015-09-28 | 2015-09-28 | 音声信号処理装置、音声信号処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017067862A true JP2017067862A (ja) | 2017-04-06 |
JP6536320B2 JP6536320B2 (ja) | 2019-07-03 |
Family
ID=56799345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015190254A Active JP6536320B2 (ja) | 2015-09-28 | 2015-09-28 | 音声信号処理装置、音声信号処理方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9847097B2 (ja) |
EP (1) | EP3147901B1 (ja) |
JP (1) | JP6536320B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11205416B2 (en) | 2018-12-04 | 2021-12-21 | Fujitsu Limited | Non-transitory computer-read able storage medium for storing utterance detection program, utterance detection method, and utterance detection apparatus |
CN110600018B (zh) * | 2019-09-05 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置、神经网络训练方法及装置 |
Families Citing this family (64)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9820039B2 (en) | 2016-02-22 | 2017-11-14 | Sonos, Inc. | Default playback devices |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
CN107742523B (zh) * | 2017-11-16 | 2022-01-07 | Oppo广东移动通信有限公司 | 语音信号处理方法、装置以及移动终端 |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
JP7095586B2 (ja) * | 2018-12-14 | 2022-07-05 | 富士通株式会社 | 音声補正装置および音声補正方法 |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
CN111986691B (zh) * | 2020-09-04 | 2024-02-02 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、计算机设备及存储介质 |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08179792A (ja) * | 1994-12-22 | 1996-07-12 | Sony Corp | 音声処理装置 |
JP2003195882A (ja) * | 2001-12-21 | 2003-07-09 | Fujitsu Ltd | 信号処理システムおよび方法 |
US20050152563A1 (en) * | 2004-01-08 | 2005-07-14 | Kabushiki Kaisha Toshiba | Noise suppression apparatus and method |
JP2015155982A (ja) * | 2014-02-21 | 2015-08-27 | 日本電信電話株式会社 | 音声区間検出装置、音声認識装置、その方法、及びプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4912036B2 (ja) | 2006-05-26 | 2012-04-04 | 富士通株式会社 | 指向性集音装置、指向性集音方法、及びコンピュータプログラム |
WO2010089976A1 (ja) | 2009-02-09 | 2010-08-12 | パナソニック株式会社 | 補聴器 |
JP5197458B2 (ja) | 2009-03-25 | 2013-05-15 | 株式会社東芝 | 受音信号処理装置、方法およびプログラム |
JP5446745B2 (ja) | 2009-11-05 | 2014-03-19 | 富士通株式会社 | 音信号処理方法および音信号処理装置 |
US20110288860A1 (en) | 2010-05-20 | 2011-11-24 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair |
JP6028502B2 (ja) | 2012-10-03 | 2016-11-16 | 沖電気工業株式会社 | 音声信号処理装置、方法及びプログラム |
-
2015
- 2015-09-28 JP JP2015190254A patent/JP6536320B2/ja active Active
-
2016
- 2016-08-22 US US15/242,681 patent/US9847097B2/en active Active
- 2016-08-24 EP EP16185469.0A patent/EP3147901B1/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08179792A (ja) * | 1994-12-22 | 1996-07-12 | Sony Corp | 音声処理装置 |
JP2003195882A (ja) * | 2001-12-21 | 2003-07-09 | Fujitsu Ltd | 信号処理システムおよび方法 |
US20050152563A1 (en) * | 2004-01-08 | 2005-07-14 | Kabushiki Kaisha Toshiba | Noise suppression apparatus and method |
JP2005195955A (ja) * | 2004-01-08 | 2005-07-21 | Toshiba Corp | 雑音抑圧装置及び雑音抑圧方法 |
JP2015155982A (ja) * | 2014-02-21 | 2015-08-27 | 日本電信電話株式会社 | 音声区間検出装置、音声認識装置、その方法、及びプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11205416B2 (en) | 2018-12-04 | 2021-12-21 | Fujitsu Limited | Non-transitory computer-read able storage medium for storing utterance detection program, utterance detection method, and utterance detection apparatus |
CN110600018B (zh) * | 2019-09-05 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置、神经网络训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US9847097B2 (en) | 2017-12-19 |
EP3147901A1 (en) | 2017-03-29 |
US20170092299A1 (en) | 2017-03-30 |
JP6536320B2 (ja) | 2019-07-03 |
EP3147901B1 (en) | 2023-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6536320B2 (ja) | 音声信号処理装置、音声信号処理方法及びプログラム | |
EP2860730B1 (en) | Speech processing | |
EP3276621B1 (en) | Noise suppression device and noise suppressing method | |
US8249270B2 (en) | Sound signal correcting method, sound signal correcting apparatus and computer program | |
WO2010131470A1 (ja) | ゲイン制御装置及びゲイン制御方法、音声出力装置 | |
JP6764923B2 (ja) | 音声処理方法、装置、デバイスおよび記憶媒体 | |
EP2661053A1 (en) | Voice control device, method of controlling voice, voice control program and mobile terminal device | |
JP6174856B2 (ja) | 雑音抑制装置、その制御方法、及びプログラム | |
CN106782586B (zh) | 一种音频信号处理方法及装置 | |
JP2014518404A (ja) | 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制 | |
US9478235B2 (en) | Voice signal processing device and voice signal processing method | |
US20190019527A1 (en) | Pop noise control | |
US9548065B2 (en) | Energy post qualification for phrase spotting | |
JP5782402B2 (ja) | 音声品質客観評価装置及び方法 | |
JP6878776B2 (ja) | 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム | |
US20200251090A1 (en) | Detection of fricatives in speech signals | |
CN106571148B (zh) | 一种音频信号自动增益控制方法及装置 | |
JP7194559B2 (ja) | プログラム、情報処理方法、及び情報処理装置 | |
JP2006126859A (ja) | 音声処理装置及び音声処理方法 | |
JP2006126859A5 (ja) | ||
JP7129331B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US20170194018A1 (en) | Noise suppression device, noise suppression method, and computer program product | |
KR20170064438A (ko) | 음성 노이즈를 제거하는 방법 및 장치 | |
JP2020197565A (ja) | 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置 | |
JP2014095769A (ja) | 発話区間決定装置、発話区間決定方法、および発話区間決定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180608 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190412 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190520 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6536320 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |