JP2017129860A - 音声ウェイクアップ方法及び装置 - Google Patents
音声ウェイクアップ方法及び装置 Download PDFInfo
- Publication number
- JP2017129860A JP2017129860A JP2017005092A JP2017005092A JP2017129860A JP 2017129860 A JP2017129860 A JP 2017129860A JP 2017005092 A JP2017005092 A JP 2017005092A JP 2017005092 A JP2017005092 A JP 2017005092A JP 2017129860 A JP2017129860 A JP 2017129860A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- recognition
- voice
- preset
- phonetic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012545 processing Methods 0.000 claims abstract description 41
- 230000000694 effects Effects 0.000 claims abstract description 30
- 230000008569 process Effects 0.000 claims abstract description 26
- 238000001514 detection method Methods 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 25
- 230000002265 prevention Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/081—Search algorithms, e.g. Baum-Welch or Viterbi
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
音声の第(2n-1)のフレームの特徴を抽出することにより、音声の第2nのフレームの特徴が第(2n-1)のフレームの処理結果を使用し、ここで、nは正の整数である。
第2例示:偶数フレーム処理
前記音声の第2nのフレームの特徴を抽出することにより、音声の第(2n-1)のフレームの特徴が第2nのフレームの処理結果を使用し、ここで、nは正の整数である。
2.次に、他の二つの特徴を得るべきであり、先に声のボリューム(振幅)を第14次元特徴とする。
3.その後、声をhpf(ハイパスフィルタ)に通過させ、残るものが高周波信号だと思えられるが、人間の言語情報も殆どが高周波に集中され、hpfを通過した信号の絶対値のlog値を第15次元特徴とする。
前記認識ネットワークに基づいて予め設定された音声トレーニングセットを認識し、数が予め設定された第1閾値より大きい認識結果を取得するステップと、
前記認識結果から出現確率が一番高い音節Aを取得し、残りの音節はB1〜BNであり、AとB1〜BNとの間の編集距離Eをぞれぞれ計算し、編集距離が一番大きいBkを保留し、保留した音節数が予め設定された第2閾値を満たすまで残った音節を逐一計算するステップと、
ひいては、保留した音節の数を前記認識ネットワークのジャンクワードとするステップと、
を含む。
ステップ2:上の20個のジャンクワードを得るだけでは足りなく、更に簡素化すべきであり、出現確率が一番高いワードAを選択すべきであり、残りはB1、B2……B19であり、編集距離E(A B1)、E(A B2)……E(A Bi)を別々に計算し、ここで、編集距離が一番大きい一つのBkは保留する。
それから、AとBkは保留することに決定し、残りの18個及びBkに対しては編集距離を計算してから、Bkとの編集距離が一番大きいBjを保留したあと、残りの17個及びBjに対しては編集距離を計算する。
そうすると、計算過程はA*B1*B2*B3……BNであり、出力結果は、尤度であり、
そうすると、Nの数及びそのうち各マトリックの大きさを減らすことにより、尤度計算の計算量を効果的に減らすことができる。
ひいては、最適化した後のジャンクワードネットワークにビタビデコーディングを行い、この時点で刈り込み強度を増やして、即ち、同時に存在するアクティビティノードの数を減らすことにより、電力消耗を減らす。
前記音声の第2nのフレームの特徴を抽出して、前記音声の第(2n-1)のフレームの特徴が第2nのフレームの処理結果を使用するようにするのに用いられ、ここで、nは正の整数である。
予め設定された認識ネットワーク及び音声学モデルによって、ビタビアルゴリズムを使用して前記音声学特徴に対する音声認識を行う。
第2取得ユニット132は、前記音声の振幅を取得して第3次元特徴とする。
第3取得ユニット133は、前記音声をハイパスフィルタに通過させて高周波信号を取得し、前記高周波信号の絶対値の対数値を取得して第4次元特徴とする。
決定ユニット134は、前記第2次元特徴、前記第3次元特徴、及び前記第4次元特徴に基づいて、前記音声の音声学特徴を決定する。
全ての音節序列を一つの認識ネットワークに並列連結させ、前記認識ネットワークに基づいて予め設定された音声トレーニングセットを認識し、数が予め設定された第1閾値より大きい認識結果を取得し、
前記認識結果から出現確率が一番高い音節Aを取得し、残りの音節はB1〜BNであり、AとB1〜BNの編集距離Eをそれぞれ計算し、編集距離が一番大きいBkを保留し、保留した音節の数が予め設定された第2閾値を満たすまで残った音節を逐一に計算し、
保留した音節数を前記認識ネットワークのジャンクワードとする。
音声アクティビティ検出の音声の長さとジャンクワードを認識されたジャンクワードの数との加重和が予め設定された閾値より大きいか否かを判断し、
前記加重和が前記閾値より大きい場合、ウェイクアップ失敗であると決定し、音声認識を停止する。
Claims (18)
- ユーザーが入力した音声を取得するステップと、
フレームスキップ策略を使用して前記音声のデータフレームを処理し、且つ時間領域エネルギーアルゴリズムにより前記データフレームに対して音声アクティビティ検出を行うステップと、
前記音声の音声学特徴を抽出し、予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識を行うステップと、
前記音声が前記認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行うステップと、を含む、
ことを特徴とする音声ウェイクアップ方法。 - 前記フレームスキップ策略を使用して前記音声のデータフレームを処理するステップは、
前記音声の第(2n-1)のフレームの特徴を抽出して、前記音声の第2nのフレームの特徴が第(2n-1)のフレームの処理結果を使用するようにし、ここで、nは正の整数であるステップ、または、
前記音声の第2nのフレームの特徴を抽出して、前記音声の第(2n-1)のフレームの特徴が第2nのフレームの処理結果を使用するようにし、ここで、nは正の整数であるステップ、を含む、
ことを特徴とする請求項1に記載の方法。 - 前記音声の音声学特徴を抽出するステップは、
フィルタバンクを使用して抽出した第1次元特徴に対して離散コサイン変換を行い、メル周波数ケプストラム係数の第2次元特徴を取得するステップと、
前記音声の振幅を取得して第3次元特徴とするステップと、
前記音声をハイパスフィルタに通過させて高周波信号を取得し、前記高周波信号の絶対値の対数値を取得して第4次元特徴とするステップと、
前記第2次元特徴、前記第3次元特徴、及び前記第4次元特徴に基づいて前記音声の音声学特徴を決定するステップと、を含む、
ことを特徴とする請求項1に記載の方法。 - 前記予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識を行うステップは、
予め設定された認識ネットワーク及び音声学モデルに基づいて、ビタビアルゴリズムを使用して前記音声学特徴に対して音声認識を行うステップを含む、
ことを特徴とする請求項1に記載の方法。 - 前記ユーザーが入力した音声を取得する前に、
編集距離を利用してクラスタリングするアルゴリズムにより前記認識ネットワークのジャンクワードを決定するステップと、
前記ジャンクワード及び予め設定したウェイクアップワードに基づいて、前記認識ネットワークを構築するステップと、を更に含む、
ことを特徴とする請求項1に記載の方法。 - 前記編集距離を利用してクラスタリングするアルゴリズムにより前記認識ネットワークのジャンクワードを決定するステップは、
全ての音節序列を一つの認識ネットワークに並列連結させるステップと、
前記認識ネットワークに基づいて予め設定された音声トレーニングセットを認識し、数が予め設定された第1閾値より大きい認識結果を取得するステップと、
前記認識結果から出現確率が一番高い音節Aを取得し、残りの音節はB1〜BNであり、AとB1〜BNとの間の編集距離Eをそれぞれ計算し、編集距離が一番大きいBkを保留し、保留した音節の数が予め設定された第2閾値を満たすまで残った音節を逐一に計算するステップと、
保留した音節の数を前記認識ネットワークのジャンクワードとするステップと、を含む、
ことを特徴とする請求項5に記載の方法。 - 前記ユーザーが入力した音声を取得する前に、
深層ニューラルネットワークの音声学モデルを構築し、前記深層ニューラルネットワークの次元Mは予め設定された閾値以下であるステップを更に含む、
ことを特徴とする請求項1に記載の方法。 - 前記予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識を行った後、
予め設定された拒絶策略に基づいて音声認識を停止するステップ、を更に含む、
ことを特徴とする請求項1〜7のいずれか一項に記載の方法。 - 前記予め設定された拒絶策略に基づいて音声認識を停止するステップは、
音声アクティビティ検出の音声の長さと認識されたジャンクワードの数との加重和が予め設定された閾値より大きいか否かを判断するステップと、
前記加重和が前記閾値より大きい場合、ウェイクアップ失敗であると決定し、音声認識を停止するステップと、を含む、
ことを特徴とする請求項8に記載の方法。 - ユーザーが入力した音声を取得する取得モジュールと、
フレームスキップ策略を使用して前記音声のデータフレームを処理し、時間領域エネルギーアルゴリズムにより前記データフレームに対して音声アクティビティ検出を行う音声アクティビティ検出モジュールと、
前記音声の音声学特徴を抽出する抽出モジュールと、
予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識を行う認識モジュールと、
前記音声が前記認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行う処理モジュールと、を含む、
ことを特徴とする音声ウェイクアップ装置。 - 前記音声アクティビティ検出モジュールは、
前記音声の第(2n-1)のフレームの特徴を抽出して、前記音声の第2nのフレームの特徴が第(2n-1)のフレームの処理結果を使用するようにし、ここで、nは正の整数である、または、
前記音声の第2nのフレームの特徴を抽出して、前記音声の第(2n-1)のフレームの特徴が第2nのフレームの処理結果を使用するようにし、ここで、nは正の整数である、
ことを特徴とする請求項10に記載の装置。 - 前記抽出モジュールは、
フィルタバンクを使用して抽出した第1次元特徴に対して離散コサイン変換を行い、メル周波数ケプストラム係数の第2次元特徴を取得する第1取得ユニットと、
前記音声の振幅を取得して第3次元特徴とする第2取得ユニットと、
前記音声をハイパスフィルタに通過させて高周波信号を取得し、前記高周波信号の絶対値の対数値を取得して第4次元特徴とする第3取得ユニットと、
前記第2次元特徴、前記第3次元特徴、及び前記第4次元特徴に基づいて前記音声の音声学特徴を決定する決定ユニットと、を含む、
ことを特徴とする請求項10に記載の装置。 - 前記認識モジュールは、
予め設定された認識ネットワーク及び音声学モデルに基づいて、ビタビアルゴリズムを使用して前記音声学特徴に対して音声認識を行う、
ことを特徴とする請求項10に記載の装置。 - 編集距離を利用してクラスタリングするアルゴリズムにより、前記認識ネットワークのジャンクワードを決定する決定モジュールと、
前記ジャンクワード及び予め設定されたウェイクアップワードに基づいて前記認識ネットワークを構築する第1構築モジュールと、を更に含む、
ことを特徴とする請求項10に記載の装置。 - 前記決定モジュールは、
全ての音節序列を一つの認識ネットワークに並列連結させ、前記認識ネットワークに基づいて予め設定された音声トレーニングセットを認識して、数が予め設定された第1閾値より大きい認識結果を取得し、
前記認識結果から出現確率が一番高い音節Aを取得し、残りの音節は、B1〜BNであり、AとB1〜BNとの編集距離Eをそれぞれ計算し、編集距離が一番大きいBkを保留し、保留した音節の数が予め設定された第2閾値を満たすまで残った音節を逐一に計算し、保留した音節の数を前記認識ネットワークのジャンクワードとする、
ことを特徴とする請求項14に記載の装置。 - 深層ニューラルネットワークの音声学モデルを構築する第2構築モジュールを更に含み、前記深層ニューラルネットワークの次元Mは予め設定された閾値以下である、
ことを特徴とする請求項10に記載の装置。 - 予め設定された拒絶策略に基づいて音声認識を停止する拒絶モジュールを更に含む、
ことを特徴とする請求項10〜16のいずれか一項に記載の装置。 - 前記拒絶モジュールは、
音声アクティビティ検出の音声の長さと認識されたジャンクワードの数との加重和が予め設定された閾値より大きいか否かを判断し、
前記加重和が前記閾値より大きい場合、ウェイクアップ失敗であると決定し、音声認識を停止する、
ことを特徴とする請求項17に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610039038.9A CN105741838B (zh) | 2016-01-20 | 2016-01-20 | 语音唤醒方法及装置 |
CN201610039038.9 | 2016-01-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017129860A true JP2017129860A (ja) | 2017-07-27 |
JP6453917B2 JP6453917B2 (ja) | 2019-01-16 |
Family
ID=56246391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017005092A Active JP6453917B2 (ja) | 2016-01-20 | 2017-01-16 | 音声ウェイクアップ方法及び装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10482879B2 (ja) |
JP (1) | JP6453917B2 (ja) |
KR (1) | KR101922776B1 (ja) |
CN (1) | CN105741838B (ja) |
Cited By (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019079038A (ja) * | 2017-10-23 | 2019-05-23 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識方法及び装置 |
JP2021516790A (ja) * | 2018-09-28 | 2021-07-08 | ソノズ インコーポレイテッド | ニューラルネットワークモデルを用いた選択的ウェイクワード検出のシステム及び方法 |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11405430B2 (en) | 2016-02-22 | 2022-08-02 | Sonos, Inc. | Networked microphone device control |
US11432030B2 (en) | 2018-09-14 | 2022-08-30 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11482978B2 (en) | 2018-08-28 | 2022-10-25 | Sonos, Inc. | Audio notifications |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11500611B2 (en) | 2017-09-08 | 2022-11-15 | Sonos, Inc. | Dynamic computation of system response volume |
US11501773B2 (en) | 2019-06-12 | 2022-11-15 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11514898B2 (en) | 2016-02-22 | 2022-11-29 | Sonos, Inc. | Voice control of a media playback system |
US11531520B2 (en) | 2016-08-05 | 2022-12-20 | Sonos, Inc. | Playback device supporting concurrent voice assistants |
US11540047B2 (en) | 2018-12-20 | 2022-12-27 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11538460B2 (en) | 2018-12-13 | 2022-12-27 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US11538451B2 (en) | 2017-09-28 | 2022-12-27 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US11545169B2 (en) | 2016-06-09 | 2023-01-03 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US11556306B2 (en) | 2016-02-22 | 2023-01-17 | Sonos, Inc. | Voice controlled media playback system |
US11557294B2 (en) | 2018-12-07 | 2023-01-17 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11563842B2 (en) | 2018-08-28 | 2023-01-24 | Sonos, Inc. | Do not disturb feature for audio notifications |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11641559B2 (en) | 2016-09-27 | 2023-05-02 | Sonos, Inc. | Audio playback settings for voice interaction |
US11646045B2 (en) | 2017-09-27 | 2023-05-09 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US11646023B2 (en) | 2019-02-08 | 2023-05-09 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11696074B2 (en) | 2018-06-28 | 2023-07-04 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US11694689B2 (en) | 2020-05-20 | 2023-07-04 | Sonos, Inc. | Input detection windowing |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11710487B2 (en) | 2019-07-31 | 2023-07-25 | Sonos, Inc. | Locally distributed keyword detection |
US11714600B2 (en) | 2019-07-31 | 2023-08-01 | Sonos, Inc. | Noise classification for event detection |
US11727933B2 (en) | 2016-10-19 | 2023-08-15 | Sonos, Inc. | Arbitration-based voice recognition |
US11736860B2 (en) | 2016-02-22 | 2023-08-22 | Sonos, Inc. | Voice control of a media playback system |
US11741948B2 (en) | 2018-11-15 | 2023-08-29 | Sonos Vox France Sas | Dilated convolutions and gating for efficient keyword spotting |
US11769505B2 (en) | 2017-09-28 | 2023-09-26 | Sonos, Inc. | Echo of tone interferance cancellation using two acoustic echo cancellers |
US11792590B2 (en) | 2018-05-25 | 2023-10-17 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US11790937B2 (en) | 2018-09-21 | 2023-10-17 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11797263B2 (en) | 2018-05-10 | 2023-10-24 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US11798553B2 (en) | 2019-05-03 | 2023-10-24 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11854547B2 (en) | 2019-06-12 | 2023-12-26 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11862161B2 (en) | 2019-10-22 | 2024-01-02 | Sonos, Inc. | VAS toggle based on device orientation |
US11869503B2 (en) | 2019-12-20 | 2024-01-09 | Sonos, Inc. | Offline voice control |
US11893308B2 (en) | 2017-09-29 | 2024-02-06 | Sonos, Inc. | Media playback system with concurrent voice assistance |
US11900937B2 (en) | 2017-08-07 | 2024-02-13 | Sonos, Inc. | Wake-word detection suppression |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11947870B2 (en) | 2016-02-22 | 2024-04-02 | Sonos, Inc. | Audio response playback |
US11979960B2 (en) | 2016-07-15 | 2024-05-07 | Sonos, Inc. | Contextualization of voice inputs |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11983463B2 (en) | 2016-02-22 | 2024-05-14 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US12047753B1 (en) | 2017-09-28 | 2024-07-23 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US12062383B2 (en) | 2023-05-12 | 2024-08-13 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106297777B (zh) * | 2016-08-11 | 2019-11-22 | 广州视源电子科技股份有限公司 | 一种唤醒语音服务的方法和装置 |
CN106328137A (zh) * | 2016-08-19 | 2017-01-11 | 镇江惠通电子有限公司 | 语音控制方法、装置及*** |
CN106611597B (zh) * | 2016-12-02 | 2019-11-08 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
KR20180085931A (ko) * | 2017-01-20 | 2018-07-30 | 삼성전자주식회사 | 음성 입력 처리 방법 및 이를 지원하는 전자 장치 |
CN109146450A (zh) * | 2017-06-16 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 支付方法、客户端、电子设备、存储介质和服务器 |
CN107738622B (zh) * | 2017-08-29 | 2020-09-11 | 科大讯飞股份有限公司 | 车辆智能响应方法及装置、存储介质、电子设备 |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
CN107643967A (zh) * | 2017-10-27 | 2018-01-30 | 深圳市传测科技有限公司 | 一种自动语音唤醒测试装置、***及方法 |
CN108010515B (zh) * | 2017-11-21 | 2020-06-30 | 清华大学 | 一种语音端点检测和唤醒方法及装置 |
CN108492827B (zh) * | 2018-04-02 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 应用程序的唤醒处理方法、装置及存储介质 |
CN108764469A (zh) * | 2018-05-17 | 2018-11-06 | 普强信息技术(北京)有限公司 | 一种降低神经网络所需功耗的方法和设备 |
CN108899014B (zh) * | 2018-05-31 | 2021-06-08 | 中国联合网络通信集团有限公司 | 语音交互设备唤醒词生成方法及装置 |
CN109119079B (zh) * | 2018-07-25 | 2022-04-01 | 天津字节跳动科技有限公司 | 语音输入处理方法和装置 |
US11062703B2 (en) * | 2018-08-21 | 2021-07-13 | Intel Corporation | Automatic speech recognition with filler model processing |
CN109087630B (zh) * | 2018-08-29 | 2020-09-15 | 深圳追一科技有限公司 | 语音识别的方法及相关装置 |
CN109147774B (zh) * | 2018-09-19 | 2021-07-20 | 华南理工大学 | 一种改进的延时神经网络声学模型 |
CN109243427A (zh) * | 2018-09-29 | 2019-01-18 | 深圳市智驾实业有限公司 | 一种车辆故障诊断方法及装置 |
KR20200059054A (ko) * | 2018-11-20 | 2020-05-28 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
KR102227512B1 (ko) * | 2019-01-04 | 2021-03-12 | 주식회사 딥엑스 | 전자기기를 위한 특정 기능 수행용 학습된 모델 작성 방법, 전자기기를 위한 특정 기능 수행용 학습된 모델, 전자기기를 위한 특정 기능 수행 전용 칩, 전자기기를 위한 특정 기능 수행 전용 칩 동작 방법, 특정 기능 수행을 위한 전자기기, 및 전자기기 특정 기능 수행 시스템 |
WO2020141696A1 (ko) | 2019-01-04 | 2020-07-09 | 주식회사 딥엑스 | 전자기기를 위한 특정 기능 수행용 학습된 모델 작성 방법 및 동일 기능을 수행하기 위한 학습 모델, 전용 칩 및 전용 칩 동작 방법, 그리고 전자기기와 시스템 |
TWI684912B (zh) * | 2019-01-08 | 2020-02-11 | 瑞昱半導體股份有限公司 | 語音喚醒裝置及方法 |
CN111435593B (zh) * | 2019-01-14 | 2023-08-01 | 瑞昱半导体股份有限公司 | 语音唤醒装置及方法 |
TW202029181A (zh) * | 2019-01-28 | 2020-08-01 | 正崴精密工業股份有限公司 | 語音識別用於特定目標喚醒的方法及裝置 |
CN109872713A (zh) * | 2019-03-05 | 2019-06-11 | 深圳市友杰智新科技有限公司 | 一种语音唤醒方法及装置 |
CN110070857B (zh) * | 2019-04-25 | 2021-11-23 | 北京梧桐车联科技有限责任公司 | 语音唤醒模型的模型参数调整方法及装置、语音设备 |
CN110111789B (zh) * | 2019-05-07 | 2022-02-08 | 阿波罗智联(北京)科技有限公司 | 语音交互方法、装置、计算设备和计算机可读介质 |
CN110473536B (zh) * | 2019-08-20 | 2021-10-15 | 北京声智科技有限公司 | 一种唤醒方法、装置和智能设备 |
CN110610710B (zh) * | 2019-09-05 | 2022-04-01 | 晶晨半导体(上海)股份有限公司 | 一种自学习语音识别***的构建装置和构建方法 |
CN110767231A (zh) * | 2019-09-19 | 2020-02-07 | 平安科技(深圳)有限公司 | 一种基于时延神经网络的声控设备唤醒词识别方法及装置 |
CN110580908A (zh) * | 2019-09-29 | 2019-12-17 | 出门问问信息科技有限公司 | 一种支持不同语种的命令词检测方法及设备 |
CN111179974B (zh) * | 2019-12-30 | 2022-08-09 | 思必驰科技股份有限公司 | 一种命令词识别方法和装置 |
CN111599371B (zh) * | 2020-05-19 | 2023-10-20 | 苏州奇梦者网络科技有限公司 | 语音增加方法、***、装置及存储介质 |
CN112435652A (zh) * | 2020-09-29 | 2021-03-02 | 江苏清微智能科技有限公司 | 一种基于图卷积神经网络的语音关键词识别***及方法 |
CN112669830A (zh) * | 2020-12-18 | 2021-04-16 | 上海容大数字技术有限公司 | 一种端到端多唤醒词的识别*** |
CN112863497B (zh) * | 2020-12-31 | 2022-10-21 | 思必驰科技股份有限公司 | 语音识别的方法及装置、电子设备和计算机可读存储介质 |
CN113782005B (zh) * | 2021-01-18 | 2024-03-01 | 北京沃东天骏信息技术有限公司 | 语音识别方法及装置、存储介质及电子设备 |
CN112885353B (zh) * | 2021-01-26 | 2023-03-14 | 维沃移动通信有限公司 | 语音唤醒方法、装置及电子设备 |
CN113160823B (zh) * | 2021-05-26 | 2024-05-17 | 中国工商银行股份有限公司 | 基于脉冲神经网络的语音唤醒方法、装置及电子设备 |
CN113593546B (zh) * | 2021-06-25 | 2023-09-15 | 青岛海尔科技有限公司 | 终端设备唤醒方法和装置、存储介质及电子装置 |
KR102378895B1 (ko) * | 2021-09-29 | 2022-03-28 | 주식회사 인피닉 | 음성 인식을 위한 호출어 학습 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 |
US20240071370A1 (en) * | 2022-08-26 | 2024-02-29 | Qualcomm Incorporated | Adaptive frame skipping for speech recognition |
US11893094B1 (en) * | 2023-06-05 | 2024-02-06 | University Of Sharjah | DCT-based watermarking scheme for deep neural networks |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61281300A (ja) * | 1985-06-07 | 1986-12-11 | ソニー株式会社 | 音声認識装置 |
JPH0713586A (ja) * | 1993-06-23 | 1995-01-17 | Matsushita Electric Ind Co Ltd | 音声判別装置と音響再生装置 |
JP2004219918A (ja) * | 2003-01-17 | 2004-08-05 | Canon Inc | 音声認識環境判定方法 |
JP2004341033A (ja) * | 2003-05-13 | 2004-12-02 | Matsushita Electric Ind Co Ltd | 音声媒介起動装置およびその方法 |
JP2007079624A (ja) * | 2005-09-09 | 2007-03-29 | Toyota Central Res & Dev Lab Inc | 発話検出装置、方法及びプログラム |
WO2014093238A1 (en) * | 2012-12-11 | 2014-06-19 | Amazon Technologies, Inc. | Speech recognition power management |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5632002A (en) * | 1992-12-28 | 1997-05-20 | Kabushiki Kaisha Toshiba | Speech recognition interface system suitable for window systems and speech mail systems |
DE69609089T2 (de) * | 1995-01-17 | 2000-11-16 | Nec Corp., Tokio/Tokyo | Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen |
US6314414B1 (en) * | 1998-10-06 | 2001-11-06 | Pavilion Technologies, Inc. | Method for training and/or testing a neural network with missing and/or incomplete data |
US6310652B1 (en) * | 1997-05-02 | 2001-10-30 | Texas Instruments Incorporated | Fine-grained synchronization of a decompressed audio stream by skipping or repeating a variable number of samples from a frame |
WO2000046789A1 (fr) * | 1999-02-05 | 2000-08-10 | Fujitsu Limited | Detecteur de la presence d'un son et procede de detection de la presence et/ou de l'absence d'un son |
KR100340045B1 (ko) * | 1999-12-24 | 2002-06-12 | 오길록 | 저전력 음성 명령어 구동 휴대 정보단말 장치 및 그를 이용한 음성인식 방법 |
US7085716B1 (en) * | 2000-10-26 | 2006-08-01 | Nuance Communications, Inc. | Speech recognition using word-in-phrase command |
US6680753B2 (en) * | 2001-03-07 | 2004-01-20 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for skipping and repeating audio frames |
US20050043948A1 (en) * | 2001-12-17 | 2005-02-24 | Seiichi Kashihara | Speech recognition method remote controller, information terminal, telephone communication terminal and speech recognizer |
US20080162129A1 (en) * | 2006-12-29 | 2008-07-03 | Motorola, Inc. | Method and apparatus pertaining to the processing of sampled audio content using a multi-resolution speech recognition search process |
US8260619B1 (en) * | 2008-08-22 | 2012-09-04 | Convergys Cmg Utah, Inc. | Method and system for creating natural language understanding grammars |
US20090198490A1 (en) * | 2008-02-06 | 2009-08-06 | International Business Machines Corporation | Response time when using a dual factor end of utterance determination technique |
KR101056511B1 (ko) * | 2008-05-28 | 2011-08-11 | (주)파워보이스 | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 |
US8566088B2 (en) * | 2008-11-12 | 2013-10-22 | Scti Holdings, Inc. | System and method for automatic speech to text conversion |
US8548812B2 (en) * | 2008-12-22 | 2013-10-01 | Avaya Inc. | Method and system for detecting a relevant utterance in a voice session |
US8700399B2 (en) * | 2009-07-06 | 2014-04-15 | Sensory, Inc. | Systems and methods for hands-free voice control and voice search |
US20130158999A1 (en) * | 2010-11-30 | 2013-06-20 | Mitsubishi Electric Corporation | Voice recognition apparatus and navigation system |
US9672815B2 (en) * | 2012-07-20 | 2017-06-06 | Interactive Intelligence Group, Inc. | Method and system for real-time keyword spotting for speech analytics |
US8442821B1 (en) * | 2012-07-27 | 2013-05-14 | Google Inc. | Multi-frame prediction for hybrid neural network/hidden Markov models |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
US10360904B2 (en) * | 2014-05-09 | 2019-07-23 | Nuance Communications, Inc. | Methods and apparatus for speech recognition using a garbage model |
US9520128B2 (en) * | 2014-09-23 | 2016-12-13 | Intel Corporation | Frame skipping with extrapolation and outputs on demand neural network for automatic speech recognition |
CN105096939B (zh) * | 2015-07-08 | 2017-07-25 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
US10403268B2 (en) * | 2016-09-08 | 2019-09-03 | Intel IP Corporation | Method and system of automatic speech recognition using posterior confidence scores |
-
2016
- 2016-01-20 CN CN201610039038.9A patent/CN105741838B/zh active Active
- 2016-10-17 KR KR1020160134077A patent/KR101922776B1/ko active IP Right Grant
- 2016-10-27 US US15/335,985 patent/US10482879B2/en active Active
-
2017
- 2017-01-16 JP JP2017005092A patent/JP6453917B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61281300A (ja) * | 1985-06-07 | 1986-12-11 | ソニー株式会社 | 音声認識装置 |
JPH0713586A (ja) * | 1993-06-23 | 1995-01-17 | Matsushita Electric Ind Co Ltd | 音声判別装置と音響再生装置 |
JP2004219918A (ja) * | 2003-01-17 | 2004-08-05 | Canon Inc | 音声認識環境判定方法 |
JP2004341033A (ja) * | 2003-05-13 | 2004-12-02 | Matsushita Electric Ind Co Ltd | 音声媒介起動装置およびその方法 |
JP2007079624A (ja) * | 2005-09-09 | 2007-03-29 | Toyota Central Res & Dev Lab Inc | 発話検出装置、方法及びプログラム |
WO2014093238A1 (en) * | 2012-12-11 | 2014-06-19 | Amazon Technologies, Inc. | Speech recognition power management |
Cited By (64)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11556306B2 (en) | 2016-02-22 | 2023-01-17 | Sonos, Inc. | Voice controlled media playback system |
US11863593B2 (en) | 2016-02-22 | 2024-01-02 | Sonos, Inc. | Networked microphone device control |
US11514898B2 (en) | 2016-02-22 | 2022-11-29 | Sonos, Inc. | Voice control of a media playback system |
US11983463B2 (en) | 2016-02-22 | 2024-05-14 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US11750969B2 (en) | 2016-02-22 | 2023-09-05 | Sonos, Inc. | Default playback device designation |
US12047752B2 (en) | 2016-02-22 | 2024-07-23 | Sonos, Inc. | Content mixing |
US11832068B2 (en) | 2016-02-22 | 2023-11-28 | Sonos, Inc. | Music service selection |
US11405430B2 (en) | 2016-02-22 | 2022-08-02 | Sonos, Inc. | Networked microphone device control |
US11736860B2 (en) | 2016-02-22 | 2023-08-22 | Sonos, Inc. | Voice control of a media playback system |
US11947870B2 (en) | 2016-02-22 | 2024-04-02 | Sonos, Inc. | Audio response playback |
US11545169B2 (en) | 2016-06-09 | 2023-01-03 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US11979960B2 (en) | 2016-07-15 | 2024-05-07 | Sonos, Inc. | Contextualization of voice inputs |
US11934742B2 (en) | 2016-08-05 | 2024-03-19 | Sonos, Inc. | Playback device supporting concurrent voice assistants |
US11531520B2 (en) | 2016-08-05 | 2022-12-20 | Sonos, Inc. | Playback device supporting concurrent voice assistants |
US11641559B2 (en) | 2016-09-27 | 2023-05-02 | Sonos, Inc. | Audio playback settings for voice interaction |
US11727933B2 (en) | 2016-10-19 | 2023-08-15 | Sonos, Inc. | Arbitration-based voice recognition |
US11900937B2 (en) | 2017-08-07 | 2024-02-13 | Sonos, Inc. | Wake-word detection suppression |
US11500611B2 (en) | 2017-09-08 | 2022-11-15 | Sonos, Inc. | Dynamic computation of system response volume |
US11646045B2 (en) | 2017-09-27 | 2023-05-09 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US12047753B1 (en) | 2017-09-28 | 2024-07-23 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US11538451B2 (en) | 2017-09-28 | 2022-12-27 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US11769505B2 (en) | 2017-09-28 | 2023-09-26 | Sonos, Inc. | Echo of tone interferance cancellation using two acoustic echo cancellers |
US11893308B2 (en) | 2017-09-29 | 2024-02-06 | Sonos, Inc. | Media playback system with concurrent voice assistance |
JP7158236B2 (ja) | 2017-10-23 | 2022-10-21 | 三星電子株式会社 | 音声認識方法及び装置 |
JP2019079038A (ja) * | 2017-10-23 | 2019-05-23 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識方法及び装置 |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11689858B2 (en) | 2018-01-31 | 2023-06-27 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11797263B2 (en) | 2018-05-10 | 2023-10-24 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US11792590B2 (en) | 2018-05-25 | 2023-10-17 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US11696074B2 (en) | 2018-06-28 | 2023-07-04 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US11973893B2 (en) | 2018-08-28 | 2024-04-30 | Sonos, Inc. | Do not disturb feature for audio notifications |
US11482978B2 (en) | 2018-08-28 | 2022-10-25 | Sonos, Inc. | Audio notifications |
US11563842B2 (en) | 2018-08-28 | 2023-01-24 | Sonos, Inc. | Do not disturb feature for audio notifications |
US11432030B2 (en) | 2018-09-14 | 2022-08-30 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11778259B2 (en) | 2018-09-14 | 2023-10-03 | Sonos, Inc. | Networked devices, systems and methods for associating playback devices based on sound codes |
US11790937B2 (en) | 2018-09-21 | 2023-10-17 | Sonos, Inc. | Voice detection optimization using sound metadata |
JP2022126805A (ja) * | 2018-09-28 | 2022-08-30 | ソノズ インコーポレイテッド | ニューラルネットワークモデルを用いた選択的ウェイクワード検出のシステム及び方法 |
US11790911B2 (en) | 2018-09-28 | 2023-10-17 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
JP7096353B2 (ja) | 2018-09-28 | 2022-07-05 | ソノズ インコーポレイテッド | ニューラルネットワークモデルを用いた選択的ウェイクワード検出のシステム及び方法 |
JP7397920B2 (ja) | 2018-09-28 | 2023-12-13 | ソノズ インコーポレイテッド | ニューラルネットワークモデルを用いた選択的ウェイクワード検出のシステム及び方法 |
JP2021516790A (ja) * | 2018-09-28 | 2021-07-08 | ソノズ インコーポレイテッド | ニューラルネットワークモデルを用いた選択的ウェイクワード検出のシステム及び方法 |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11741948B2 (en) | 2018-11-15 | 2023-08-29 | Sonos Vox France Sas | Dilated convolutions and gating for efficient keyword spotting |
US11557294B2 (en) | 2018-12-07 | 2023-01-17 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11538460B2 (en) | 2018-12-13 | 2022-12-27 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US11540047B2 (en) | 2018-12-20 | 2022-12-27 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11646023B2 (en) | 2019-02-08 | 2023-05-09 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US11798553B2 (en) | 2019-05-03 | 2023-10-24 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11854547B2 (en) | 2019-06-12 | 2023-12-26 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11501773B2 (en) | 2019-06-12 | 2022-11-15 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11714600B2 (en) | 2019-07-31 | 2023-08-01 | Sonos, Inc. | Noise classification for event detection |
US11710487B2 (en) | 2019-07-31 | 2023-07-25 | Sonos, Inc. | Locally distributed keyword detection |
US11862161B2 (en) | 2019-10-22 | 2024-01-02 | Sonos, Inc. | VAS toggle based on device orientation |
US11869503B2 (en) | 2019-12-20 | 2024-01-09 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11961519B2 (en) | 2020-02-07 | 2024-04-16 | Sonos, Inc. | Localized wakeword verification |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11694689B2 (en) | 2020-05-20 | 2023-07-04 | Sonos, Inc. | Input detection windowing |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US12062383B2 (en) | 2023-05-12 | 2024-08-13 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
Also Published As
Publication number | Publication date |
---|---|
US20170206895A1 (en) | 2017-07-20 |
US10482879B2 (en) | 2019-11-19 |
CN105741838B (zh) | 2019-10-15 |
KR20170087390A (ko) | 2017-07-28 |
KR101922776B1 (ko) | 2019-02-20 |
JP6453917B2 (ja) | 2019-01-16 |
CN105741838A (zh) | 2016-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6453917B2 (ja) | 音声ウェイクアップ方法及び装置 | |
CN108010515B (zh) | 一种语音端点检测和唤醒方法及装置 | |
WO2021093449A1 (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
CN107767863B (zh) | 语音唤醒方法、***及智能终端 | |
JP6759509B2 (ja) | 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム | |
CN108320733B (zh) | 语音数据处理方法及装置、存储介质、电子设备 | |
US8930196B2 (en) | System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands | |
WO2017114201A1 (zh) | 一种设定操作的执行方法及装置 | |
Tong et al. | A comparative study of robustness of deep learning approaches for VAD | |
US11355102B1 (en) | Wakeword detection | |
CN104036774A (zh) | 藏语方言识别方法及*** | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
KR101943381B1 (ko) | 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치 | |
US11205428B1 (en) | Deleting user data using keys | |
Kim et al. | Multistage data selection-based unsupervised speaker adaptation for personalized speech emotion recognition | |
CN102945673A (zh) | 一种语音指令范围动态变化的连续语音识别方法 | |
CN109272991A (zh) | 语音交互的方法、装置、设备和计算机可读存储介质 | |
US20240013784A1 (en) | Speaker recognition adaptation | |
US20230368796A1 (en) | Speech processing | |
KR20200023893A (ko) | 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들 | |
Sharma | Speaker recognition using machine learning techniques | |
CN114399992B (zh) | 语音指令响应方法、装置及存储介质 | |
US20240212673A1 (en) | Keyword spotting method based on neural network | |
CN114171009A (zh) | 用于目标设备的语音识别方法、装置、设备及存储介质 | |
CN114945980A (zh) | 小尺寸多通道关键字定位 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180319 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180615 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6453917 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |