JP6877558B2 - 音声ウェイクアップ方法、装置及び電子デバイス - Google Patents
音声ウェイクアップ方法、装置及び電子デバイス Download PDFInfo
- Publication number
- JP6877558B2 JP6877558B2 JP2019539235A JP2019539235A JP6877558B2 JP 6877558 B2 JP6877558 B2 JP 6877558B2 JP 2019539235 A JP2019539235 A JP 2019539235A JP 2019539235 A JP2019539235 A JP 2019539235A JP 6877558 B2 JP6877558 B2 JP 6877558B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice data
- training
- wakeup
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 63
- 238000012549 training Methods 0.000 claims description 49
- 238000003860 storage Methods 0.000 claims description 15
- 238000011478 gradient descent method Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims 3
- 238000002790 cross-validation Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 230000006872 improvement Effects 0.000 description 10
- 238000000605 extraction Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000005266 circulating tumour cell Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229910052754 neon Inorganic materials 0.000 description 1
- GKAOGPIIYCISHV-UHFFFAOYSA-N neon atom Chemical compound [Ne] GKAOGPIIYCISHV-UHFFFAOYSA-N 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
- Electric Clocks (AREA)
Description
この明細書は、コンピュータソフトウェア技術の分野に関し、より具体的には、音声ウェイクアップ方法、装置及び電子デバイスに関する。
モバイルデバイスの急速な開発と共に、音声関連技術もまた、ますます一般的になりつつある。例えば、音声認識は、ユーザ経験及び自然な人間とコンピュータの相互作用レベルを強化するために、AppleのSiri、MicrosoftのCortana及びAmazonのAlexaのような人気上昇中の会話支援において使用される。
この明細書の実施形態では、次の技術的問題、すなわち、キーワード特有の音声データに依存しない音声ウェイクアップ解決法が必要とされるという問題を解決するための音声ウェイクアップ方法、装置及び電子デバイスが提供される。
一般的な音声データを用いて訓練された音声ウェイクアップモデルに音声データを入力することと、音声ウェイクアップモデルによって、音声ウェイクアップを実行するかどうかを判断するための結果を出力することであって、音声ウェイクアップモデルが、ディープニューラルネットワーク(DNN)及びコネクショニスト時系列分類法(CTC)を含む、出力することとを含む。
音声データは、入力モジュールによって、一般的な音声データを用いて訓練された音声ウェイクアップモデルに入力され、音声ウェイクアップモデルは、音声ウェイクアップを実行するかどうかを判断するための結果を出力し、音声ウェイクアップモデルは、DNN及びCTCを含む。
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサに通信可能に接続されたメモリと
を含み、
メモリは、少なくとも1つのプロセッサによって実行可能な命令を格納し、命令は、
一般的な音声データを用いて訓練された音声ウェイクアップモデルに音声データを入力することと、音声ウェイクアップモデルによって、音声ウェイクアップを実行するかどうかを判断するための結果を出力することであって、音声ウェイクアップモデルが、DNN及びCTCを含む、出力することと
を少なくとも1つのプロセッサが行えるようにするために少なくとも1つのプロセッサによって実行される。
この明細書の実施形態又は先行技術の技術的解決法をより明確に説明するため、実施形態又は先行技術についての説明で使用される添付の図面を以下で簡単に紹介する。以下で説明される添付の図面はこの明細書で開示される単なるいくつかの実施形態であることは明らかである。当業者は、創造的な取り組みを行うことなく、これらの添付の図面に従って、他の添付の図面をさらに得ることができる。
この明細書の実施形態では、音声ウェイクアップ方法、装置及び電子デバイスが提供される。
入力音声データから音響特徴を抽出することと、
各発音音素にそれぞれ対応する音響特徴のクラス確率を得るように処理するために、音響特徴をDNNに入力することと、
発音音素シーケンスに対応する音声ウェイクアップ用語の信頼スコアを得るように処理するために、クラス確率をCTCに入力することと、
信頼スコアに従ってウェイクアップを実行するかどうかを判断し、判断結果を出力することと
を含み得る。
と出力層のモデリング単位jとの間の関係を説明することができる。
式中、
は、隠れ層の出力であり、
及び
はそれぞれ、重み及びオフセットパラメータであり、niは、i番目の層上のノードの数であり、θ={Wi,Bi}であり、「T」は、行列の転置を示し、Nは、隠れ層の数であり、σは、非線形活性化関数であり、例えば、正規化線形ユニット(ReLU)関数σ(z)=max(z,0)である。式IIIは、ソフトマックス関数であり、ラベル単位jの推定事後を表す。
は、DNNが時間ステップtにおいてjを出力する確率として定義される。フレーム長さTの入力シーケンスxT及びターゲットラベルl≦Tは与えられており、li∈Lである。CTCパスπ=(π0,...,πT−1)は、フレームレベルラベルシーケンスであり、繰り返された非ブランクラベル及びブランク単位の出現をCTCパスが可能にするという点で、lとは異なる。
である。
訓練モジュール703によって、一般的な音声データを用いて音声ウェイクアップモデルを訓練することは、
訓練モジュール703によって、訓練が収束するまで非同期確率的勾配下降方法によって一般的な音声データを用いて音声ウェイクアップモデルのパラメータを反復最適化すること
を含む。
キーワード特有の音声データを用いて音声ウェイクアップモデルを訓練し、訓練で使用される学習レートは、一般的な音声データでの音声ウェイクアップモデルの訓練で使用されるものより少ない。
音声ウェイクアップモデル702によって、入力音声データから音響特徴を抽出することと、
各発音音素にそれぞれ対応する音響特徴のクラス確率を得るように処理するために、音声ウェイクアップモデル702に含まれるDNNに音響特徴を入力することと、
発音音素シーケンスに対応する音声ウェイクアップ用語の信頼スコアを得るように処理するために、音声ウェイクアップモデル702に含まれるCTCにクラス確率を入力することと、
信頼スコアに従ってウェイクアップを実行するかどうかを判断し、判断結果を出力することと
を含む。
音声ウェイクアップモデル702によって、指定時間間隔に基づくウインドウで入力音声データの音響特徴フレームを抽出することであって、音響特徴フレームの各々が、多次元ログフィルタバンクエネルギーである、抽出することと、
複数の隣接する音響特徴フレームをそれぞれ積み重ねることと、
モニタされた音声から抽出された音響特徴として、積み重ねた音響特徴フレームをそれぞれ取り入れることと
を含む。
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサに通信可能に接続されたメモリと
を含み、
メモリは、少なくとも1つのプロセッサによって実行可能な命令を格納し、命令は、
一般的な音声データを用いて訓練された音声ウェイクアップモデルに音声データを入力することと、音声ウェイクアップモデルによって、音声ウェイクアップを実行するかどうかを判断するための結果を出力することであって、音声ウェイクアップモデルが、DNN及びCTCを含む、出力することと
を少なくとも1つのプロセッサが行えるようにするために少なくとも1つのプロセッサによって実行される。
一般的な音声データを用いて訓練された音声ウェイクアップモデルに音声データを入力することと、音声ウェイクアップモデルによって、音声ウェイクアップを実行するかどうかを判断するための結果を出力することであって、音声ウェイクアップモデルが、DNN及びCTCを含む、出力することと
を行うように構成される。
Claims (11)
- 一般的な音声データを用いて音声ウェイクアップモデルを訓練することであって、前記訓練することが、前記訓練が収束するまで非同期確率的勾配下降方法によって前記一般的な音声データを用いて前記音声ウェイクアップモデルのパラメータを反復最適化することを含む、訓練することと、
キーワード特有の音声データを取得することと、
前記キーワード特有の音声データを用いて前記音声ウェイクアップモデルを訓練することであって、前記キーワード特有の音声データを用いた前記訓練で使用される学習レートが、前記一般的な音声データでの前記音声ウェイクアップモデルの前記訓練で使用されるものより少ない、訓練することと
前記一般的な音声データ及び前記キーワード特有の音声データを用いて訓練された前記音声ウェイクアップモデルに音声データを入力することと、
前記音声ウェイクアップモデルによって、音声ウェイクアップを実行するかどうかを判断するための結果を出力することであって、前記音声ウェイクアップモデルが、ディープニューラルネットワーク(DNN)及びコネクショニスト時系列分類法(CTC)を含む、出力することとを含む、音声ウェイクアップ方法。 - 前記一般的な音声データが、大語彙連続音声認識(LVCSR)コーパスを含む、請求項1に記載の方法。
- 前記一般的な音声データを用いて又は前記キーワード特有の音声データを用いて前記音声ウェイクアップモデルを訓練することが、前記一般的な音声データを用いて又は前記キーワード特有の音声データを用いて前記音声ウェイクアップモデルをクロス検証し、前記訓練が収束するかどうかを判断することを含む、請求項1に記載の方法。
- 前記音声ウェイクアップモデルによって、音声ウェイクアップを実行するかどうかを判断するための結果を出力することが、
前記入力音声データから音響特徴を抽出することと、
各発音音素にそれぞれ対応する前記音響特徴のクラス確率を得るように処理するために、前記音声ウェイクアップモデルに含まれる前記DNNに前記音響特徴を入力することと、
発音音素シーケンスに対応する音声ウェイクアップ用語の信頼スコアを得るように処理するために、前記音声ウェイクアップモデルに含まれる前記CTCに前記クラス確率を入力することと、
前記信頼スコアに従ってウェイクアップを実行するかどうかを判断し、判断結果を出力することと
を含む、請求項1に記載の方法。 - 前記入力音声データから音響特徴を抽出することが、
指定時間間隔に基づくウインドウで前記入力音声データの音響特徴フレームを抽出することであって、前記音響特徴フレームの各々が、多次元ログフィルタバンクエネルギーである、抽出することと、
複数の隣接する音響特徴フレームをそれぞれ積み重ねることと、
前記入力音声データから抽出された音響特徴として、前記積み重ねた音響特徴フレームをそれぞれ取り入れることと
を含む、請求項4に記載の方法。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと
を含む、電子デバイスであって、
前記メモリが、前記少なくとも1つのプロセッサによって実行可能な命令を格納し、前記命令が、
一般的な音声データを用いて音声ウェイクアップモデルを訓練することであって、前記訓練することが、前記訓練が収束するまで非同期確率的勾配下降方法によって前記一般的な音声データを用いて前記音声ウェイクアップモデルのパラメータを反復最適化することを含む、訓練することと、
キーワード特有の音声データを取得することと、
前記キーワード特有の音声データを用いて前記音声ウェイクアップモデルを訓練することであって、前記キーワード特有の音声データを用いた前記訓練で使用される学習レートが、前記一般的な音声データでの前記音声ウェイクアップモデルの前記訓練で使用されるものより少ない、訓練することと
前記一般的な音声データ及び前記キーワード特有の音声データを用いて訓練された前記音声ウェイクアップモデルに音声データを入力することと、
前記音声ウェイクアップモデルから、音声ウェイクアップを実行するかどうかを判断するための結果を出力することであって、前記音声ウェイクアップモデルが、ディープニューラルネットワーク(DNN)及びコネクショニスト時系列分類法(CTC)を含む、出力することと
を前記電子デバイスに行わせるように、前記少なくとも1つのプロセッサによって実行される、電子デバイス。 - 前記一般的な音声データが、大語彙連続音声認識(LVCSR)コーパスを含む、請求項6に記載の電子デバイス。
- 前記一般的な音声データを用いて又は前記キーワード特有の音声データを用いて前記音声ウェイクアップモデルを訓練することが、前記一般的な音声データを用いて又は前記キーワード特有の音声データを用いて前記音声ウェイクアップモデルをクロス検証し、前記訓練が収束するかどうかを判断することを含む、
請求項6に記載の電子デバイス。 - 前記音声ウェイクアップモデルから、音声ウェイクアップを実行するかどうかを判断するための結果を出力することにおいて、前記命令が、
前記音声ウェイクアップモデルによって、前記入力音声データから音響特徴を抽出することと、
各発音音素にそれぞれ対応する前記音響特徴のクラス確率を得るように処理するために、前記音声ウェイクアップモデルに含まれる前記DNNに前記音響特徴を入力することと、
発音音素シーケンスに対応する音声ウェイクアップ用語の信頼スコアを得るように処理するために、前記音声ウェイクアップモデルに含まれる前記CTCに前記クラス確率を入力することと、
前記信頼スコアに従ってウェイクアップを実行するかどうかを判断し、判断結果を出力することと
を前記電子デバイスに行わせるように、前記少なくとも1つのプロセッサによって更に実行される、
請求項6に記載の電子デバイス。 - 前記音声ウェイクアップモデルによって、前記入力音声データから音響特徴を抽出することにおいて、前記命令が、
前記音声ウェイクアップモデルによって、指定時間間隔に基づくウインドウで前記入力音声データの音響特徴フレームを抽出することであって、前記音響特徴フレームの各々が、多次元ログフィルタバンクエネルギーである、抽出することと、
複数の隣接する音響特徴フレームをそれぞれ積み重ねることと、
前記入力音声データから抽出された音響特徴として、前記積み重ねた音響特徴フレームをそれぞれ取り入れることと
を前記電子デバイスに行わせるように、前記少なくとも1つのプロセッサによって更に実行される、
請求項9に記載の電子デバイス。 - 命令を格納する非一時的コンピュータ可読記憶媒体であって、前記命令が電子デバイスのプロセッサによって実行される場合に、前記電子デバイスに音声ウェイクアップ方法を実行させ、前記音声ウェイクアップ方法が、
一般的な音声データを用いて音声ウェイクアップモデルを訓練することであって、前記訓練することが、前記訓練が収束するまで非同期確率的勾配下降方法によって前記一般的な音声データを用いて前記音声ウェイクアップモデルのパラメータを反復最適化することを含む、訓練することと、
キーワード特有の音声データを取得することと、
前記キーワード特有の音声データを用いて前記音声ウェイクアップモデルを訓練することであって、前記キーワード特有の音声データを用いた前記訓練で使用される学習レートが、前記一般的な音声データでの前記音声ウェイクアップモデルの前記訓練で使用されるものより少ない、訓練することと
前記一般的な音声データ及び前記キーワード特有の音声データを用いて訓練された前記音声ウェイクアップモデルに音声データを入力することと、
前記音声ウェイクアップモデルによって、音声ウェイクアップを実行するかどうかを判断するための結果を出力することであって、前記音声ウェイクアップモデルが、ディープニューラルネットワーク(DNN)及びコネクショニスト時系列分類法(CTC)を含む、出力することとを含む、非一時的コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710514348.6A CN107358951A (zh) | 2017-06-29 | 2017-06-29 | 一种语音唤醒方法、装置以及电子设备 |
CN201710514348.6 | 2017-06-29 | ||
PCT/CN2018/092899 WO2019001428A1 (zh) | 2017-06-29 | 2018-06-26 | 一种语音唤醒方法、装置以及电子设备 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020517977A JP2020517977A (ja) | 2020-06-18 |
JP2020517977A5 JP2020517977A5 (ja) | 2020-07-30 |
JP6877558B2 true JP6877558B2 (ja) | 2021-05-26 |
Family
ID=60274110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019539235A Active JP6877558B2 (ja) | 2017-06-29 | 2018-06-26 | 音声ウェイクアップ方法、装置及び電子デバイス |
Country Status (11)
Country | Link |
---|---|
US (2) | US20200013390A1 (ja) |
EP (1) | EP3579227B1 (ja) |
JP (1) | JP6877558B2 (ja) |
KR (1) | KR102181836B1 (ja) |
CN (1) | CN107358951A (ja) |
ES (1) | ES2878137T3 (ja) |
PH (1) | PH12019501674A1 (ja) |
PL (1) | PL3579227T3 (ja) |
SG (1) | SG11201906576WA (ja) |
TW (1) | TWI692751B (ja) |
WO (1) | WO2019001428A1 (ja) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358951A (zh) * | 2017-06-29 | 2017-11-17 | 阿里巴巴集团控股有限公司 | 一种语音唤醒方法、装置以及电子设备 |
CN108320733B (zh) * | 2017-12-18 | 2022-01-04 | 上海科大讯飞信息科技有限公司 | 语音数据处理方法及装置、存储介质、电子设备 |
CN108182937B (zh) * | 2018-01-17 | 2021-04-13 | 出门问问创新科技有限公司 | 关键词识别方法、装置、设备及存储介质 |
US11488002B2 (en) * | 2018-02-15 | 2022-11-01 | Atlazo, Inc. | Binary neural network accelerator engine methods and systems |
CN108597523B (zh) * | 2018-03-23 | 2019-05-17 | 平安科技(深圳)有限公司 | 说话人认证方法、服务器及计算机可读存储介质 |
CN111066082B (zh) * | 2018-05-25 | 2020-08-28 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别***和方法 |
CN110619871B (zh) * | 2018-06-20 | 2023-06-30 | 阿里巴巴集团控股有限公司 | 语音唤醒检测方法、装置、设备以及存储介质 |
US11257481B2 (en) * | 2018-10-24 | 2022-02-22 | Tencent America LLC | Multi-task training architecture and strategy for attention-based speech recognition system |
CN111276138B (zh) * | 2018-12-05 | 2023-07-18 | 北京嘀嘀无限科技发展有限公司 | 一种语音唤醒***中处理语音信号的方法及装置 |
CN109886386B (zh) * | 2019-01-30 | 2020-10-27 | 北京声智科技有限公司 | 唤醒模型的确定方法及装置 |
CN109872713A (zh) * | 2019-03-05 | 2019-06-11 | 深圳市友杰智新科技有限公司 | 一种语音唤醒方法及装置 |
CN110310628B (zh) | 2019-06-27 | 2022-05-20 | 百度在线网络技术(北京)有限公司 | 唤醒模型的优化方法、装置、设备及存储介质 |
US11081102B2 (en) * | 2019-08-16 | 2021-08-03 | Ponddy Education Inc. | Systems and methods for comprehensive Chinese speech scoring and diagnosis |
JP7098587B2 (ja) * | 2019-08-29 | 2022-07-11 | 株式会社東芝 | 情報処理装置、キーワード検出装置、情報処理方法およびプログラム |
CN110634468B (zh) * | 2019-09-11 | 2022-04-15 | 中国联合网络通信集团有限公司 | 语音唤醒方法、装置、设备及计算机可读存储介质 |
CN110648659B (zh) * | 2019-09-24 | 2022-07-01 | 上海依图信息技术有限公司 | 基于多任务模型的语音识别与关键词检测装置和方法 |
CN110648668A (zh) * | 2019-09-24 | 2020-01-03 | 上海依图信息技术有限公司 | 关键词检测装置和方法 |
CN110970016B (zh) * | 2019-10-28 | 2022-08-19 | 苏宁云计算有限公司 | 一种唤醒模型生成方法、智能终端唤醒方法及装置 |
CN110853629A (zh) * | 2019-11-21 | 2020-02-28 | 中科智云科技有限公司 | 一种基于深度学习的语音识别数字的方法 |
CN110992929A (zh) * | 2019-11-26 | 2020-04-10 | 苏宁云计算有限公司 | 一种基于神经网络的语音关键词检测方法、装置及*** |
US11341954B2 (en) * | 2019-12-17 | 2022-05-24 | Google Llc | Training keyword spotters |
JP7438744B2 (ja) * | 2019-12-18 | 2024-02-27 | 株式会社東芝 | 情報処理装置、情報処理方法、およびプログラム |
CN111640426A (zh) * | 2020-06-10 | 2020-09-08 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN111883121A (zh) * | 2020-07-20 | 2020-11-03 | 北京声智科技有限公司 | 唤醒方法、装置及电子设备 |
CN112233655B (zh) * | 2020-09-28 | 2024-07-16 | 上海声瀚信息科技有限公司 | 一种提高语音命令词识别性能的神经网络训练方法 |
CN112669818B (zh) * | 2020-12-08 | 2022-12-02 | 北京地平线机器人技术研发有限公司 | 语音唤醒方法及装置、可读存储介质、电子设备 |
CN112733272A (zh) * | 2021-01-13 | 2021-04-30 | 南昌航空大学 | 一种解决带软时间窗的车辆路径问题的方法 |
US20220293088A1 (en) * | 2021-03-12 | 2022-09-15 | Samsung Electronics Co., Ltd. | Method of generating a trigger word detection model, and an apparatus for the same |
CN113113007A (zh) * | 2021-03-30 | 2021-07-13 | 北京金山云网络技术有限公司 | 语音数据的处理方法和装置、电子设备和存储介质 |
US11967322B2 (en) | 2021-05-06 | 2024-04-23 | Samsung Electronics Co., Ltd. | Server for identifying false wakeup and method for controlling the same |
KR102599480B1 (ko) * | 2021-05-18 | 2023-11-08 | 부산대학교 산학협력단 | 키워드 음성인식을 위한 자동 학습 시스템 및 방법 |
CN113160823B (zh) * | 2021-05-26 | 2024-05-17 | 中国工商银行股份有限公司 | 基于脉冲神经网络的语音唤醒方法、装置及电子设备 |
KR20230068087A (ko) * | 2021-11-10 | 2023-05-17 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN113990296B (zh) * | 2021-12-24 | 2022-05-27 | 深圳市友杰智新科技有限公司 | 语音声学模型的训练方法、后处理方法和相关设备 |
US20240119925A1 (en) * | 2022-10-10 | 2024-04-11 | Samsung Electronics Co., Ltd. | System and method for post-asr false wake-up suppression |
CN115862604B (zh) * | 2022-11-24 | 2024-02-20 | 镁佳(北京)科技有限公司 | 语音唤醒模型训练及语音唤醒方法、装置及计算机设备 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05128286A (ja) * | 1991-11-05 | 1993-05-25 | Ricoh Co Ltd | ニユーラルネツトワークによるキーワードスポツテイング方式 |
JP2007179239A (ja) * | 2005-12-27 | 2007-07-12 | Kenwood Corp | スケジュール管理装置及びプログラム |
US9117449B2 (en) * | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
US9177547B2 (en) * | 2013-06-25 | 2015-11-03 | The Johns Hopkins University | System and method for processing speech to identify keywords or other information |
CN104378723A (zh) * | 2013-08-16 | 2015-02-25 | 上海耐普微电子有限公司 | 具有语音唤醒功能的麦克风 |
US9715660B2 (en) * | 2013-11-04 | 2017-07-25 | Google Inc. | Transfer learning for deep neural network based hotword detection |
US9443522B2 (en) * | 2013-11-18 | 2016-09-13 | Beijing Lenovo Software Ltd. | Voice recognition method, voice controlling method, information processing method, and electronic apparatus |
CN105096935B (zh) * | 2014-05-06 | 2019-08-09 | 阿里巴巴集团控股有限公司 | 一种语音输入方法、装置和*** |
US10783900B2 (en) * | 2014-10-03 | 2020-09-22 | Google Llc | Convolutional, long short-term memory, fully connected deep neural networks |
CA2982196C (en) * | 2015-04-10 | 2022-07-19 | Huawei Technologies Co., Ltd. | Speech recognition method, speech wakeup apparatus, speech recognition apparatus, and terminal |
CN106297774B (zh) * | 2015-05-29 | 2019-07-09 | 中国科学院声学研究所 | 一种神经网络声学模型的分布式并行训练方法及*** |
TWI639153B (zh) * | 2015-11-03 | 2018-10-21 | 絡達科技股份有限公司 | 電子裝置及其透過語音辨識喚醒的方法 |
JP6679898B2 (ja) * | 2015-11-24 | 2020-04-15 | 富士通株式会社 | キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム |
US10755698B2 (en) | 2015-12-07 | 2020-08-25 | University Of Florida Research Foundation, Inc. | Pulse-based automatic speech recognition |
CN106887227A (zh) * | 2015-12-16 | 2017-06-23 | 芋头科技(杭州)有限公司 | 一种语音唤醒方法及*** |
CN105632486B (zh) * | 2015-12-23 | 2019-12-17 | 北京奇虎科技有限公司 | 一种智能硬件的语音唤醒方法和装置 |
US10229672B1 (en) * | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
CN105931633A (zh) * | 2016-05-30 | 2016-09-07 | 深圳市鼎盛智能科技有限公司 | 语音识别的方法及*** |
CN106098059B (zh) * | 2016-06-23 | 2019-06-18 | 上海交通大学 | 可定制语音唤醒方法及*** |
CN106611597B (zh) * | 2016-12-02 | 2019-11-08 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
CN106782536B (zh) * | 2016-12-26 | 2020-02-28 | 北京云知声信息技术有限公司 | 一种语音唤醒方法及装置 |
CN107221326B (zh) * | 2017-05-16 | 2021-05-28 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法、装置和计算机设备 |
CN107358951A (zh) * | 2017-06-29 | 2017-11-17 | 阿里巴巴集团控股有限公司 | 一种语音唤醒方法、装置以及电子设备 |
-
2017
- 2017-06-29 CN CN201710514348.6A patent/CN107358951A/zh active Pending
-
2018
- 2018-03-14 TW TW107108572A patent/TWI692751B/zh active
- 2018-06-26 KR KR1020197022130A patent/KR102181836B1/ko active IP Right Grant
- 2018-06-26 PL PL18823086T patent/PL3579227T3/pl unknown
- 2018-06-26 SG SG11201906576WA patent/SG11201906576WA/en unknown
- 2018-06-26 WO PCT/CN2018/092899 patent/WO2019001428A1/zh unknown
- 2018-06-26 EP EP18823086.6A patent/EP3579227B1/en active Active
- 2018-06-26 JP JP2019539235A patent/JP6877558B2/ja active Active
- 2018-06-26 ES ES18823086T patent/ES2878137T3/es active Active
-
2019
- 2019-07-19 PH PH12019501674A patent/PH12019501674A1/en unknown
- 2019-09-16 US US16/571,468 patent/US20200013390A1/en not_active Abandoned
-
2020
- 2020-01-28 US US16/774,422 patent/US10748524B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
TWI692751B (zh) | 2020-05-01 |
US20200013390A1 (en) | 2020-01-09 |
JP2020517977A (ja) | 2020-06-18 |
KR102181836B1 (ko) | 2020-11-25 |
CN107358951A (zh) | 2017-11-17 |
US10748524B2 (en) | 2020-08-18 |
SG11201906576WA (en) | 2019-08-27 |
US20200168207A1 (en) | 2020-05-28 |
EP3579227B1 (en) | 2021-06-09 |
PH12019501674A1 (en) | 2020-06-01 |
WO2019001428A1 (zh) | 2019-01-03 |
TW201905897A (zh) | 2019-02-01 |
EP3579227A4 (en) | 2020-02-26 |
ES2878137T3 (es) | 2021-11-18 |
EP3579227A1 (en) | 2019-12-11 |
PL3579227T3 (pl) | 2021-10-18 |
KR20190134594A (ko) | 2019-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6877558B2 (ja) | 音声ウェイクアップ方法、装置及び電子デバイス | |
Ravanelli et al. | Light gated recurrent units for speech recognition | |
US20190043488A1 (en) | Method and system of neural network keyphrase detection | |
US10032463B1 (en) | Speech processing with learned representation of user interaction history | |
EP3384488B1 (en) | System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system | |
KR102410820B1 (ko) | 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치 | |
CN112368769B (zh) | 端到端流关键词检出 | |
US11113596B2 (en) | Select one of plurality of neural networks | |
Keshet et al. | Pac-bayesian approach for minimization of phoneme error rate | |
WO2012039938A2 (en) | Full-sequence training of deep structures for speech recognition | |
US11423884B2 (en) | Device with convolutional neural network for acquiring multiple intent words, and method thereof | |
CN111833866A (zh) | 用于低资源设备的高准确度关键短语检测的方法和*** | |
JP7178394B2 (ja) | 音声信号を処理するための方法、装置、機器、および媒体 | |
KR20220130565A (ko) | 키워드 검출 방법 및 장치 | |
KR20210136706A (ko) | 전자 장치 및 이의 제어 방법 | |
CN113948060A (zh) | 一种网络训练方法、数据处理方法及相关设备 | |
JP2021076818A (ja) | 音声対話するための方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体 | |
Kandala et al. | Speaker Adaptation for Lip-Reading Using Visual Identity Vectors. | |
KR20210078143A (ko) | 신규 도메인의 간투어 검출 모델 생성 방법 및 장치 | |
KR20200120595A (ko) | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 | |
US20240071370A1 (en) | Adaptive frame skipping for speech recognition | |
Uddin et al. | Voice Activated Edge Devices Using Tiny Machine Learning Enabled Microcontroller | |
WO2024063856A1 (en) | Hybrid language translation on mobile devices | |
CN118098266A (zh) | 一种基于多模型选择的语音数据处理方法及装置 | |
Knill | Cambridge University Engineering Department |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191023 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191023 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200605 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200605 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200611 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201223 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20210113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210427 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6877558 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE Ref document number: 6877558 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |