JP2016536626A - 多方向の復号をする音声認識 - Google Patents
多方向の復号をする音声認識 Download PDFInfo
- Publication number
- JP2016536626A JP2016536626A JP2016517330A JP2016517330A JP2016536626A JP 2016536626 A JP2016536626 A JP 2016536626A JP 2016517330 A JP2016517330 A JP 2016517330A JP 2016517330 A JP2016517330 A JP 2016517330A JP 2016536626 A JP2016536626 A JP 2016536626A
- Authority
- JP
- Japan
- Prior art keywords
- channel
- speech recognition
- frame
- speech
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 claims abstract description 90
- 230000005236 sound signal Effects 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 94
- 238000000034 method Methods 0.000 claims description 66
- 238000013528 artificial neural network Methods 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 29
- 230000009471 action Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 description 17
- 230000007704 transition Effects 0.000 description 9
- 238000013459 approach Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000036962 time dependent Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 125000001475 halogen functional group Chemical group 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- APTZNLHMIGJTEW-UHFFFAOYSA-N pyraflufen-ethyl Chemical compound C1=C(Cl)C(OCC(=O)OCC)=CC(C=2C(=C(OC(F)F)N(C)N=2)Cl)=C1F APTZNLHMIGJTEW-UHFFFAOYSA-N 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2410/00—Microphones
- H04R2410/01—Noise reduction using microphones having different directional characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/21—Direction finding using differential microphone array [DMA]
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Otolaryngology (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
本開示のより完全な理解のために、添付の図面と併せて、以下の記述を参照する。
p(X’,W)=maxDp(X’,W,D)=maxDp(X’|D,W)p(W)p(D)
ここで、X’は、全方向または多方向のユーザからの音声信号を表し、Dはユーザの方向を表している。
まとめ
1.音声認識実行方法であって、この方法は第1チャンネル及び第2チャンネルから成る多チャンネルの音声信号を受信することであって、第1チャンネル及び第2チャンネルはビーム形成器及びマイクロフォンアレイを使用して作成され、第1チャンネルは第1方向からの音声を表し、第2チャンネルは第2方向からの音声を表す、受信することと、第1チャンネルの第1シーケンスの特徴ベクトル及び第2チャンネルの第2シーケンスの特徴ベクトルを作成することと、第1シーケンスの特徴ベクトル及び第2シーケンスの特徴ベクトルを使用して音声認識を実行することであって、その音声認識の実行は音声認識モデルと第1シーケンスの特徴ベクトルの第1特徴ベクトルを使用して第1仮説を生成し、音声認識モデルと第2シーケンスの特徴ベクトルの第2特徴ベクトルを使用して第2仮説を生成することとを含み、第2仮説は音声認識結果ネットワークの第1仮説に続いている、実行することとを含む方法。
2.第1チャンネルの音声の特性に少なくとも部分的に基づいて第1チャンネルを選択することを更に含む、節1に記載の方法。
3.当該特性が第1チャンネルの音声エネルギーまたは第1チャンネルの音声に発話が存在する、節2に記載の方法。
4.当該多チャンネルの音声信号が、更に、第3チャンネルを含み、当該方法は、更に、第3シーケンスの第3チャンネルの特徴ベクトルを作成することを含み、音声認識の実行は、更に、音声認識モデル及び第3シーケンスの特徴ベクトルの第3特徴ベクトルを使用して第3仮設を生成することを含み、第3仮設は音声認識結果ネットワークの第1仮説と並列である、節1に記載の方法。
5.第1仮説が隠れマルコフモデルの状態、文脈の音素または単語から構成されている、節1に記載の方法。
6.少なくとも1つのプロセッサと、アクションセットを実行する少なくとも1つのプロセッサによって実行されるように作動する命令を含んでいるメモリデバイスを含み、少なくとも1つのプロセッサが第1チャンネル及び第2チャンネルから成る多チャンネルの音声信号を受信し、第1チャンネル及び第2チャンネルはビーム形成器及びマイクロフォンアレイを使用して作成され、第1チャンネルの第1シーケンスの特徴ベクトル及び第2チャンネルの第2シーケンスの特徴ベクトルを作成し、第1シーケンスの特徴ベクトルの第1フレーム及び第2シーケンスの特徴ベクトルの第2フレームを処理して少なくとも1つの第1音声認識仮説を生成し、第1フレーム及び第2フレームは第1時間に対応し、第1シーケンスの特徴ベクトルの第3フレーム及び第2シーケンスの特徴ベクトルの第4フレームを処理して少なくとも1つの第2音声認識仮説を生成し、第3フレーム及び第4フレームは第2時間に対応し、第1フレーム及び第2フレームを処理した後で第3フレーム及び第4フレームを処理する、コンピューティング装置。
7.少なくとも1つのプロセッサが、更に、第1フレーム及び第2フレームを実質的に同時に処理するように構成にされた、節6に記載のコンピューティング装置。
8.少なくとも1つのプロセッサが、更に、第1フレーム及び第2フレームを結合して結合されたフレームを作成し、その結合されたフレームを処理することによって第1フレーム及び第2フレームを処理する構成にされている、節6に記載のコンピューティング装置。
9.少なくとも1つのプロセッサが、更に、結合されたフレームで訓練された音響モデルを使用して第1フレーム及び第2フレームを処理するように構成された、節8に記載のコンピューティング装置。
10.少なくとも1つのプロセッサが、更に、第1フレーム及び第2フレームを処理して、第1フレームに対応する音声認識仮説を生成し、第2フレームに対応する音声認識仮説を生成することによって、少なくとも1つの第1音声認識を生成するように構成された、節9に記載のコンピューティング装置。
11.少なくとも1つのプロセッサが、更に、第1フレーム及び第2フレームを処理し、ニューラルネットワーク音声認識モデルを使用して少なくとも1つの第1音声認識を生成する構成にされている、節6に記載のコンピューティング装置。
12.少なくとも1つのプロセッサが、更に、少なくとも1つの第1音声認識仮説及び少なくとも1つの第2音声認識仮説から成る音声認識結果ネットワークを生成する構成にされている、節6に記載のコンピューティング装置。
13.第1チャンネルが第1方向に対応し、第2チャンネルが第2方向に対応し、音声認識結果ネットワークの第3音声認識仮説及び第4音声認識仮説の間の接続は第1方向及び第2方向の間の距離に少なくとも部分的に依存する構成にされている、節12に記載のコンピューティング装置。
14.第1チャンネル及び第2チャンネルから成る多チャンネルの音声信号を受信するプログラムコードと、第1チャンネルは第1方向からの音声から成り、第2チャンネルは第2方向からの音声から成り、第1チャンネルの第1シーケンスの音響的特徴及び第2チャンネルの第2シーケンスの音響的特徴を作成するプログラムコードと、第1時間フレームに対応する第1シーケンス及び第1時間フレームに対応する第2シーケンスからの音響的特徴を処理して少なくとも1つの第1音声認識仮説を生成するプログラムコードと、第2時間フレームに対応する第1シーケンス及び第2時間フレームに対応する第2シーケンスからの音響的特徴を処理して少なくとも1つの第2音声認識仮説を生成するプログラムコードから構成されており、第1時間フレームに対応する音響的特徴処理することは第2時間フレームに対応する音響的特徴を処理する後で生じる構成にされている、コンピューティング装置を制御するプロセッサ実行可能命令を保存する非一時的コンピュータ可読記憶媒体。
15.第1時間フレームに対応する音響的特徴を実質的に同時に処理するプログラムコードを更に含む、節14に記載の非一時的コンピュータ可読記憶媒体。
16.第1時間フレームに対応する音響的特徴を結合して結合された特徴を作成し、その結合された特徴を処理して第1時間フレームに対応する音響的特徴を処理するプログラムコードを更に含む、節14に記載の非一時的コンピュータ可読記憶媒体。
17.結合された特徴によって訓練された音響モデルを使用して第1時間フレームに対応する音響的特徴を処理するプログラムコードを更に含む、節16に記載の非一時的コンピュータ可読記憶媒体。
18.第1時間フレームに対応する第1シーケンスから音響的特徴に対応する第1音声認識仮説を生成し、第1時間フレームに対応する第2シーケンスから音響的特徴に対応する第2音声認識仮説を生成することによって第1フレームに対応する音響的特徴を処理するプログラムコードを更に含む、節17に記載の非一時的コンピュータ可読記憶媒体。
19.ニューラルネットワークの音声認識モデルを使用して第1時間フレームに対応する音響的特徴を処理するプログラムコードを更に含む、節14に記載の非一時的コンピュータ可読記憶媒体。
20.少なくとも1つの第1音声認識仮説及び少なくとも1つの第2音声認識仮説を含む音声認識結果ネットワークを生成するプログラムコードを更に含む、節14に記載の非一時的コンピュータ可読記憶媒体。
21.音声認識結果ネットワークの第3音声認識仮説及び第4音声認識仮説の間の接続が第1方向及び第2方向の間の距離に少なくとも部分的に依存するように構成された、節20に記載の非一時的コンピュータ可読記憶媒体。
Claims (15)
- 音声認識実行方法であって、
第1チャンネル及び第2チャンネルを含む多チャンネルの音声信号を受信することであって、前記第1チャンネル及び前記第2チャンネルはビーム形成器及びマイクロフォンアレイを使用して作成され、前記第1チャンネルは第1方向からの音声を表し、前記第2チャンネルは第2方向からの音声を表す、前記受信することと、
前記第1チャンネルの第1シーケンスの特徴ベクトル及び前記第2チャンネルの第2シーケンスの特徴ベクトルを作成することと、
前記第1シーケンスの特徴ベクトル及び前記第2シーケンスの特徴ベクトルを使用して音声認識を実行することであって、前記音声認識の実行は、
音声認識モデルと前記第1シーケンスの特徴ベクトルの第1特徴ベクトルを使用して第1仮説を生成することと、
前記音声認識モデルと前記第2シーケンスの特徴ベクトルの第2特徴ベクトルを使用して第2仮説を生成することとを含み、前記第2仮説は音声認識結果ネットワークの前記第1仮説に続いている、
前記実行することと
を含む前記方法。 - 前記第1チャンネルの音声の特性に少なくとも部分的に基づいて前記第1チャンネルを選択することを更に含む、請求項1に記載の前記方法。
- 前記特性が前記第1チャンネルの音声エネルギーまたは前記第1チャンネルの前記音声に発話が存在する、請求項2に記載の前記方法。
- 前記多チャンネルの音声信号が、更に、第3チャンネルを含み、
前記方法は、更に、前記第3チャンネルのために第3シーケンスの特徴ベクトルを作成することを含み、
音声認識の実行は、更に、音声認識モデル及び第3シーケンスの特徴ベクトルの第3特徴ベクトルを使用して第3仮設を生成することを含み、前記第3仮設は前記音声認識結果ネットワークの前記第1仮説と並列である、請求項1に記載の前記方法。 - 前記第1仮説が隠れマルコフモデルの状態、文脈の音素または単語を含む、請求項1に記載の前記方法。
- 少なくとも1つのプロセッサと、
アクションセットを実行する前記少なくとも1つのプロセッサによって実行されるように作動する命令を含んでいるメモリデバイスを含み、前記少なくとも1つのプロセッサが、
第1チャンネル及び第2チャンネルを含む多チャンネルの音声信号を受信し、前記第1チャンネル及び前記第2チャンネルはビーム形成器及びマイクロフォンアレイを使用して作成され、
前記第1チャンネルの第1シーケンスの特徴ベクトル及び前記第2チャンネルの第2シーケンスの特徴ベクトルを作成し、
前記第1シーケンスの特徴ベクトルの第1フレーム及び前記第2シーケンスの特徴ベクトルの第2フレームを処理して少なくとも1つの第1音声認識仮説を生成し、前記第1フレーム及び前記第2フレームは第1時間に対応し、
前記第1シーケンスの特徴ベクトルの第3フレーム及び前記第2シーケンスの特徴ベクトルの第4フレームを処理して少なくとも1つの第2音声認識仮説を生成し、前記第3フレーム及び第4フレームは第2時間に対応し、前記第1フレーム及び前記第2フレームを処理した後で前記第3フレーム及び前記第4フレームを処理する、コンピューティング装置。 - 前記少なくとも1つのプロセッサが、更に、前記第1フレーム及び前記第2フレームを実質的に同時に処理するように構成にされた、請求項6記載の前記コンピューティング装置。
- 前記少なくとも1つのプロセッサが、更に、
前記第1フレーム及び前記第2フレームを結合して結合されたフレームを作成し、
前記結合されたフレームを処理することによって前記第1フレーム及び前記第2フレームを処理するように構成された、請求項6記載の前記コンピューティング装置。 - 前記少なくとも1つのプロセッサが、更に、前記第1フレーム及び前記第2フレームを処理してニューラルネットワークの音声認識モデルを使用することによって少なくとも1つの音声認識仮説を生成するように構成された、請求項6記載の前記コンピューティング装置。
- 前記少なくとも1つのプロセッサが、更に、前記少なくとも1つの第1音声認識仮説及び前記少なくとも1つの第2音声認識仮説から音声認識結果ネットワークを生成するように構成された、請求項6記載の前記コンピューティング装置。
- 1つまたは複数のプロセッサを含み、コンピューティング装置を制御するプロセッサ実行可能命令を保存するシステムであって、
第1チャンネル及び第2チャンネルを含む多チャンネルの音声信号を受信するプログラムコードであって、前記第1チャンネルは第1方向からの音声を含み、前記第2チャンネルは第2方向からの音声を含む、前記プログラムコードと、
前記第1チャンネルの第1シーケンスの音響的特徴及び前記第2チャンネルの第2シーケンスの音響的特徴を作成するプログラムコードと、
第1時間フレームに対応する前記第1シーケンス及び前記第1時間フレームに対応する前記第2シーケンスからの音響的特徴を処理して少なくとも1つの第1音声認識仮説を生成するプログラムコードと、
第2時間フレームに対応する前記第1シーケンス及び前記第2時間フレームに対応する前記第2シーケンスからの音響的特徴を処理して少なくとも1つの第2音声認識仮説を生成するプログラムコードとを含み、前記第1時間フレームに対応する音響的特徴の処理は前記第2時間フレームに対応する音響的特徴の処理の後で生じる、前記システム。 - 前記非一時的コンピュータ可読記憶媒体は、更に、プログラムコードであって、
前記第1時間フレームに対応する前記音響的特徴を結合して結合された特徴を作成し、
前記結合された特徴を処理することによって前記第1時間フレームに対応する前記音響的特徴を処理する、前記プログラムコードを含む、請求項11に記載の前記非一時的コンピュータ可読記憶媒体。 - 結合された特徴で訓練された音響モデルを使用する前記第1時間フレームに対応する前記音響的特徴を処理するプログラムコードを更に含む、請求項12に記載の前記非一時的コンピュータ可読記憶媒体。
- 前記第1時間フレームに対応する前記第1シーケンスから音響的特徴に対応する第1音声認識仮説を生成し、前記第1時間フレームに対応する前記第2シーケンスから音響的特徴に対応する第2音声認識仮説を生成することによって、前記第1時間フレームに対応する前記音響的特徴を処理するプログラムコードを更に含む、請求項13に記載の前記非一時的コンピュータ可読記憶媒体。
- 前記少なくとも1つの第1音声認識仮説及び前記少なくとも1つの第2音声認識仮説を含む音声認識結果ネットワークを生成するプログラムコードを更に含む、請求項11に記載の前記非一時的コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/039,383 US9286897B2 (en) | 2013-09-27 | 2013-09-27 | Speech recognizer with multi-directional decoding |
US14/039,383 | 2013-09-27 | ||
PCT/US2014/056022 WO2015047815A1 (en) | 2013-09-27 | 2014-09-17 | Speech recognizer with multi-directional decoding |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016536626A true JP2016536626A (ja) | 2016-11-24 |
JP6574169B2 JP6574169B2 (ja) | 2019-09-11 |
Family
ID=52740981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016517330A Active JP6574169B2 (ja) | 2013-09-27 | 2014-09-17 | 多方向の復号をする音声認識 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9286897B2 (ja) |
EP (1) | EP3050052B1 (ja) |
JP (1) | JP6574169B2 (ja) |
CN (1) | CN105765650B (ja) |
WO (1) | WO2015047815A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016538951A (ja) * | 2013-12-05 | 2016-12-15 | ビック・バイオレクス・エス・エー | シェービングブレードカートリッジ |
KR102102387B1 (ko) | 2018-10-29 | 2020-04-21 | 주식회사 사운드잇 | 다채널오디오스트리밍에서 화자의 발화구간을 검출하는 방법 및 시스템 |
JP2021515281A (ja) * | 2018-06-28 | 2021-06-17 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 音声認識方法、装置、コンピュータデバイス、電子機器及びコンピュータプログラム |
JP2022017171A (ja) * | 2020-07-20 | 2022-01-25 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声認識方法、音声認識装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム |
Families Citing this family (106)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9535897B2 (en) * | 2013-12-20 | 2017-01-03 | Google Inc. | Content recommendation system using a neural network language model |
US9351060B2 (en) | 2014-02-14 | 2016-05-24 | Sonic Blocks, Inc. | Modular quick-connect A/V system and methods thereof |
US10510343B2 (en) * | 2014-06-11 | 2019-12-17 | Ademco Inc. | Speech recognition methods, devices, and systems |
US10199034B2 (en) * | 2014-08-18 | 2019-02-05 | At&T Intellectual Property I, L.P. | System and method for unified normalization in text-to-speech and automatic speech recognition |
KR102380833B1 (ko) * | 2014-12-02 | 2022-03-31 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US9508335B2 (en) | 2014-12-05 | 2016-11-29 | Stages Pcs, Llc | Active noise control and customized audio system |
US10609475B2 (en) | 2014-12-05 | 2020-03-31 | Stages Llc | Active noise control and customized audio system |
US9747367B2 (en) | 2014-12-05 | 2017-08-29 | Stages Llc | Communication system for establishing and providing preferred audio |
US9654868B2 (en) | 2014-12-05 | 2017-05-16 | Stages Llc | Multi-channel multi-domain source identification and tracking |
KR102387567B1 (ko) * | 2015-01-19 | 2022-04-18 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US9703394B2 (en) * | 2015-03-24 | 2017-07-11 | Google Inc. | Unlearning techniques for adaptive language models in text entry |
US10403269B2 (en) | 2015-03-27 | 2019-09-03 | Google Llc | Processing audio waveforms |
US9697826B2 (en) * | 2015-03-27 | 2017-07-04 | Google Inc. | Processing multi-channel audio waveforms |
JP6461308B2 (ja) * | 2015-04-16 | 2019-01-30 | 三菱電機株式会社 | 音声認識装置およびリスコアリング装置 |
US9524716B2 (en) * | 2015-04-17 | 2016-12-20 | Nuance Communications, Inc. | Systems and methods for providing unnormalized language models |
US10013981B2 (en) | 2015-06-06 | 2018-07-03 | Apple Inc. | Multi-microphone speech recognition systems and related techniques |
US9865265B2 (en) * | 2015-06-06 | 2018-01-09 | Apple Inc. | Multi-microphone speech recognition systems and related techniques |
US9646628B1 (en) | 2015-06-26 | 2017-05-09 | Amazon Technologies, Inc. | Noise cancellation for open microphone mode |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
KR102386854B1 (ko) | 2015-08-20 | 2022-04-13 | 삼성전자주식회사 | 통합 모델 기반의 음성 인식 장치 및 방법 |
KR20170034227A (ko) * | 2015-09-18 | 2017-03-28 | 삼성전자주식회사 | 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법 |
US9875081B2 (en) | 2015-09-21 | 2018-01-23 | Amazon Technologies, Inc. | Device selection for providing a response |
US10339921B2 (en) | 2015-09-24 | 2019-07-02 | Google Llc | Multichannel raw-waveform neural networks |
US9715874B2 (en) * | 2015-10-30 | 2017-07-25 | Nuance Communications, Inc. | Techniques for updating an automatic speech recognition system using finite-state transducers |
US20170206898A1 (en) * | 2016-01-14 | 2017-07-20 | Knowles Electronics, Llc | Systems and methods for assisting automatic speech recognition |
US9799327B1 (en) | 2016-02-26 | 2017-10-24 | Google Inc. | Speech recognition with attention-based recurrent neural networks |
US10013974B1 (en) * | 2016-02-29 | 2018-07-03 | Amazon Technologies, Inc. | Compact HCLG FST |
US10176802B1 (en) * | 2016-03-21 | 2019-01-08 | Amazon Technologies, Inc. | Lattice encoding using recurrent neural networks |
CN108463848B (zh) | 2016-03-23 | 2019-12-20 | 谷歌有限责任公司 | 用于多声道语音识别的自适应音频增强 |
CN107290711A (zh) * | 2016-03-30 | 2017-10-24 | 芋头科技(杭州)有限公司 | 一种语音寻向***及方法 |
US10332508B1 (en) * | 2016-03-31 | 2019-06-25 | Amazon Technologies, Inc. | Confidence checking for speech processing and query answering |
US10388274B1 (en) | 2016-03-31 | 2019-08-20 | Amazon Technologies, Inc. | Confidence checking for speech processing and query answering |
US10089974B2 (en) * | 2016-03-31 | 2018-10-02 | Microsoft Technology Licensing, Llc | Speech recognition and text-to-speech learning system |
US10923137B2 (en) * | 2016-05-06 | 2021-02-16 | Robert Bosch Gmbh | Speech enhancement and audio event detection for an environment with non-stationary noise |
US10445356B1 (en) * | 2016-06-24 | 2019-10-15 | Pulselight Holdings, Inc. | Method and system for analyzing entities |
US9875747B1 (en) | 2016-07-15 | 2018-01-23 | Google Llc | Device specific multi-channel data compression |
US11263516B2 (en) * | 2016-08-02 | 2022-03-01 | International Business Machines Corporation | Neural network based acoustic models for speech recognition by grouping context-dependent targets |
JP6567478B2 (ja) * | 2016-08-25 | 2019-08-28 | 日本電信電話株式会社 | 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム、信号処理学習装置 |
US10224058B2 (en) | 2016-09-07 | 2019-03-05 | Google Llc | Enhanced multi-channel acoustic models |
US10424317B2 (en) * | 2016-09-14 | 2019-09-24 | Nuance Communications, Inc. | Method for microphone selection and multi-talker segmentation with ambient automated speech recognition (ASR) |
KR102562287B1 (ko) * | 2016-10-14 | 2023-08-02 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 오디오 신호 처리 방법 |
CN107978312A (zh) * | 2016-10-24 | 2018-05-01 | 阿里巴巴集团控股有限公司 | 一种语音识别的方法、装置及*** |
US9980075B1 (en) | 2016-11-18 | 2018-05-22 | Stages Llc | Audio source spatialization relative to orientation sensor and output |
US10945080B2 (en) | 2016-11-18 | 2021-03-09 | Stages Llc | Audio analysis and processing system |
US9980042B1 (en) | 2016-11-18 | 2018-05-22 | Stages Llc | Beamformer direction of arrival and orientation analysis system |
CN108288470B (zh) * | 2017-01-10 | 2021-12-21 | 富士通株式会社 | 基于声纹的身份验证方法和装置 |
US10366700B2 (en) | 2017-02-08 | 2019-07-30 | Logitech Europe, S.A. | Device for acquiring and processing audible input |
US10362393B2 (en) | 2017-02-08 | 2019-07-23 | Logitech Europe, S.A. | Direction detection device for acquiring and processing audible input |
US10366702B2 (en) | 2017-02-08 | 2019-07-30 | Logitech Europe, S.A. | Direction detection device for acquiring and processing audible input |
US10229667B2 (en) | 2017-02-08 | 2019-03-12 | Logitech Europe S.A. | Multi-directional beamforming device for acquiring and processing audible input |
US10460727B2 (en) | 2017-03-03 | 2019-10-29 | Microsoft Technology Licensing, Llc | Multi-talker speech recognizer |
US11133011B2 (en) | 2017-03-13 | 2021-09-28 | Mitsubishi Electric Research Laboratories, Inc. | System and method for multichannel end-to-end speech recognition |
JP6591477B2 (ja) * | 2017-03-21 | 2019-10-16 | 株式会社東芝 | 信号処理システム、信号処理方法及び信号処理プログラム |
US10621980B2 (en) * | 2017-03-21 | 2020-04-14 | Harman International Industries, Inc. | Execution of voice commands in a multi-device system |
CN107039041B (zh) * | 2017-03-24 | 2020-10-20 | 广东美的制冷设备有限公司 | 语音扩展的方法与语音助手 |
US10373630B2 (en) * | 2017-03-31 | 2019-08-06 | Intel Corporation | Systems and methods for energy efficient and low power distributed automatic speech recognition on wearable devices |
KR20180111271A (ko) * | 2017-03-31 | 2018-10-11 | 삼성전자주식회사 | 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치 |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
CN109313892B (zh) * | 2017-05-17 | 2023-02-21 | 北京嘀嘀无限科技发展有限公司 | 稳健的语言识别方法和*** |
US10726828B2 (en) | 2017-05-31 | 2020-07-28 | International Business Machines Corporation | Generation of voice data as data augmentation for acoustic model training |
US10649060B2 (en) * | 2017-07-24 | 2020-05-12 | Microsoft Technology Licensing, Llc | Sound source localization confidence estimation using machine learning |
US10311872B2 (en) * | 2017-07-25 | 2019-06-04 | Google Llc | Utterance classifier |
US10482904B1 (en) | 2017-08-15 | 2019-11-19 | Amazon Technologies, Inc. | Context driven device arbitration |
US10839822B2 (en) * | 2017-11-06 | 2020-11-17 | Microsoft Technology Licensing, Llc | Multi-channel speech separation |
US10482878B2 (en) | 2017-11-29 | 2019-11-19 | Nuance Communications, Inc. | System and method for speech enhancement in multisource environments |
US10546593B2 (en) * | 2017-12-04 | 2020-01-28 | Apple Inc. | Deep learning driven multi-channel filtering for speech enhancement |
CN110047478B (zh) * | 2018-01-16 | 2021-06-08 | 中国科学院声学研究所 | 基于空间特征补偿的多通道语音识别声学建模方法及装置 |
EP3555881B1 (en) * | 2018-01-23 | 2020-04-22 | Google LLC | Selective adaptation and utilization of noise reduction technique in invocation phrase detection |
CN110070855B (zh) * | 2018-01-23 | 2021-07-23 | 中国科学院声学研究所 | 一种基于迁移神经网络声学模型的语音识别***及方法 |
KR101972545B1 (ko) * | 2018-02-12 | 2019-04-26 | 주식회사 럭스로보 | 음성 명령을 통한 위치 기반 음성 인식 시스템 |
US11600273B2 (en) | 2018-02-14 | 2023-03-07 | Nec Corporation | Speech processing apparatus, method, and program |
US10192554B1 (en) | 2018-02-26 | 2019-01-29 | Sorenson Ip Holdings, Llc | Transcription of communications using multiple speech recognition systems |
US10540981B2 (en) * | 2018-02-28 | 2020-01-21 | Ringcentral, Inc. | Systems and methods for speech signal processing to transcribe speech |
US10957337B2 (en) | 2018-04-11 | 2021-03-23 | Microsoft Technology Licensing, Llc | Multi-microphone speech separation |
US10811000B2 (en) * | 2018-04-13 | 2020-10-20 | Mitsubishi Electric Research Laboratories, Inc. | Methods and systems for recognizing simultaneous speech by multiple speakers |
US20190324117A1 (en) * | 2018-04-24 | 2019-10-24 | Mediatek Inc. | Content aware audio source localization |
KR20190133100A (ko) | 2018-05-22 | 2019-12-02 | 삼성전자주식회사 | 어플리케이션을 이용하여 음성 입력에 대한 응답을 출력하는 전자 장치 및 그 동작 방법 |
KR102544250B1 (ko) | 2018-07-03 | 2023-06-16 | 삼성전자주식회사 | 소리를 출력하는 디바이스 및 그 방법 |
KR102635434B1 (ko) * | 2018-08-07 | 2024-02-07 | 엘지전자 주식회사 | 인공지능을 이용하여 홈어플라이언스 및 클라우드 서버에서 수행되는 사고 예방 제어 방법 |
JP6965846B2 (ja) * | 2018-08-17 | 2021-11-10 | 日本電信電話株式会社 | 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム |
US20200075044A1 (en) * | 2018-08-31 | 2020-03-05 | CloudMinds Technology, Inc. | System and method for performing multi-model automatic speech recognition in challenging acoustic environments |
US10878812B1 (en) * | 2018-09-26 | 2020-12-29 | Amazon Technologies, Inc. | Determining devices to respond to user requests |
US10325597B1 (en) | 2018-10-08 | 2019-06-18 | Sorenson Ip Holdings, Llc | Transcription of communications |
CA3118307A1 (en) | 2018-11-06 | 2020-05-14 | Court Bots, Inc. | Ball retrieval system and method |
US11826616B2 (en) | 2018-11-06 | 2023-11-28 | Court Bots, Inc. | Ball retrieval system and method |
US11660509B2 (en) | 2018-11-06 | 2023-05-30 | Court Bots, Inc. | Ball retrieval system and method |
US11056098B1 (en) | 2018-11-28 | 2021-07-06 | Amazon Technologies, Inc. | Silent phonemes for tracking end of speech |
US10573312B1 (en) * | 2018-12-04 | 2020-02-25 | Sorenson Ip Holdings, Llc | Transcription generation from multiple speech recognition systems |
US11017778B1 (en) | 2018-12-04 | 2021-05-25 | Sorenson Ip Holdings, Llc | Switching between speech recognition systems |
US11170761B2 (en) | 2018-12-04 | 2021-11-09 | Sorenson Ip Holdings, Llc | Training of speech recognition systems |
US10388272B1 (en) | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
CN111627425B (zh) * | 2019-02-12 | 2023-11-28 | 阿里巴巴集团控股有限公司 | 一种语音识别方法及*** |
US11335347B2 (en) * | 2019-06-03 | 2022-05-17 | Amazon Technologies, Inc. | Multiple classifications of audio data |
US11328712B2 (en) * | 2019-08-02 | 2022-05-10 | International Business Machines Corporation | Domain specific correction of output from automatic speech recognition |
US10791398B1 (en) * | 2019-09-10 | 2020-09-29 | International Business Machines Corporation | Feature processing for multi-array sound applications with deep learning and limited data |
EP4032086A4 (en) * | 2019-09-17 | 2023-05-10 | Nokia Technologies Oy | SPATIAL AUDIO PARAMETERS CODING AND ASSOCIATED DECODING |
CN110738989B (zh) * | 2019-10-21 | 2021-12-07 | 浙江大学 | 一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法 |
US11277689B2 (en) | 2020-02-24 | 2022-03-15 | Logitech Europe S.A. | Apparatus and method for optimizing sound quality of a generated audible signal |
US11373657B2 (en) | 2020-05-01 | 2022-06-28 | Raytheon Applied Signal Technology, Inc. | System and method for speaker identification in audio data |
US12020697B2 (en) * | 2020-07-15 | 2024-06-25 | Raytheon Applied Signal Technology, Inc. | Systems and methods for fast filtering of audio keyword search |
US11488604B2 (en) | 2020-08-19 | 2022-11-01 | Sorenson Ip Holdings, Llc | Transcription of audio |
US11929087B2 (en) * | 2020-09-17 | 2024-03-12 | Orcam Technologies Ltd. | Systems and methods for selectively attenuating a voice |
US11715461B2 (en) * | 2020-10-21 | 2023-08-01 | Huawei Technologies Co., Ltd. | Transformer-based automatic speech recognition system incorporating time-reduction layer |
US11984124B2 (en) * | 2020-11-13 | 2024-05-14 | Apple Inc. | Speculative task flow execution |
CN113206997B (zh) * | 2021-04-30 | 2022-10-28 | 中国工商银行股份有限公司 | 一种多业务的录制音频数据的同时质检方法及装置 |
US11996114B2 (en) | 2021-05-15 | 2024-05-28 | Apple Inc. | End-to-end time-domain multitask learning for ML-based speech enhancement |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04273298A (ja) * | 1991-02-28 | 1992-09-29 | Fujitsu Ltd | 音声認識装置 |
JPH04318900A (ja) * | 1991-04-18 | 1992-11-10 | Oki Electric Ind Co Ltd | 多方向同時収音式音声認識方法 |
US20050049864A1 (en) * | 2003-08-29 | 2005-03-03 | Alfred Kaltenmeier | Intelligent acoustic microphone fronted with speech recognizing feedback |
JP2011053312A (ja) * | 2009-08-31 | 2011-03-17 | Nippon Hoso Kyokai <Nhk> | 適応化音響モデル生成装置及びプログラム |
JP2011237621A (ja) * | 2010-05-11 | 2011-11-24 | Honda Motor Co Ltd | ロボット |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3522954B2 (ja) * | 1996-03-15 | 2004-04-26 | 株式会社東芝 | マイクロホンアレイ入力型音声認識装置及び方法 |
US6363345B1 (en) | 1999-02-18 | 2002-03-26 | Andrea Electronics Corporation | System, method and apparatus for cancelling noise |
US6526148B1 (en) * | 1999-05-18 | 2003-02-25 | Siemens Corporate Research, Inc. | Device and method for demixing signal mixtures using fast blind source separation technique based on delay and attenuation compensation, and for selecting channels for the demixed signals |
US6937980B2 (en) | 2001-10-02 | 2005-08-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Speech recognition using microphone antenna array |
GB2388001A (en) | 2002-04-26 | 2003-10-29 | Mitel Knowledge Corp | Compensating for beamformer steering delay during handsfree speech recognition |
US7617104B2 (en) | 2003-01-21 | 2009-11-10 | Microsoft Corporation | Method of speech recognition using hidden trajectory Hidden Markov Models |
US7099821B2 (en) * | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
KR100754385B1 (ko) | 2004-09-30 | 2007-08-31 | 삼성전자주식회사 | 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법 |
US20070033042A1 (en) * | 2005-08-03 | 2007-02-08 | International Business Machines Corporation | Speech detection fusing multi-class acoustic-phonetic, and energy features |
US8068619B2 (en) * | 2006-05-09 | 2011-11-29 | Fortemedia, Inc. | Method and apparatus for noise suppression in a small array microphone system |
US7689417B2 (en) * | 2006-09-04 | 2010-03-30 | Fortemedia, Inc. | Method, system and apparatus for improved voice recognition |
CN101030369B (zh) * | 2007-03-30 | 2011-06-29 | 清华大学 | 基于子词隐含马尔可夫模型的嵌入式语音识别方法 |
JP5156260B2 (ja) * | 2007-04-27 | 2013-03-06 | ニュアンス コミュニケーションズ,インコーポレイテッド | 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム |
US20090037171A1 (en) * | 2007-08-03 | 2009-02-05 | Mcfarland Tim J | Real-time voice transcription system |
US8249867B2 (en) * | 2007-12-11 | 2012-08-21 | Electronics And Telecommunications Research Institute | Microphone array based speech recognition system and target speech extracting method of the system |
CN101620851B (zh) * | 2008-07-01 | 2011-07-27 | 邹采荣 | 一种基于改进Fukunage-koontz变换的语音情感识别方法 |
KR101178801B1 (ko) * | 2008-12-09 | 2012-08-31 | 한국전자통신연구원 | 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법 |
US20100217590A1 (en) * | 2009-02-24 | 2010-08-26 | Broadcom Corporation | Speaker localization system and method |
CN101599271B (zh) * | 2009-07-07 | 2011-09-14 | 华中科技大学 | 一种数字音乐情感的识别方法 |
US8972253B2 (en) * | 2010-09-15 | 2015-03-03 | Microsoft Technology Licensing, Llc | Deep belief network for large vocabulary continuous speech recognition |
US9031844B2 (en) * | 2010-09-21 | 2015-05-12 | Microsoft Technology Licensing, Llc | Full-sequence training of deep structures for speech recognition |
CN102693724A (zh) * | 2011-03-22 | 2012-09-26 | 张燕 | 一种基于神经网络的高斯混合模型的噪声分类方法 |
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及*** |
CN102737633B (zh) * | 2012-06-21 | 2013-12-25 | 北京华信恒达软件技术有限公司 | 一种基于张量子空间分析的说话人识别方法及其装置 |
GB2505400B (en) * | 2012-07-18 | 2015-01-07 | Toshiba Res Europ Ltd | A speech processing system |
-
2013
- 2013-09-27 US US14/039,383 patent/US9286897B2/en active Active
-
2014
- 2014-09-17 JP JP2016517330A patent/JP6574169B2/ja active Active
- 2014-09-17 WO PCT/US2014/056022 patent/WO2015047815A1/en active Application Filing
- 2014-09-17 EP EP14846906.7A patent/EP3050052B1/en active Active
- 2014-09-17 CN CN201480050496.1A patent/CN105765650B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04273298A (ja) * | 1991-02-28 | 1992-09-29 | Fujitsu Ltd | 音声認識装置 |
JPH04318900A (ja) * | 1991-04-18 | 1992-11-10 | Oki Electric Ind Co Ltd | 多方向同時収音式音声認識方法 |
US20050049864A1 (en) * | 2003-08-29 | 2005-03-03 | Alfred Kaltenmeier | Intelligent acoustic microphone fronted with speech recognizing feedback |
JP2011053312A (ja) * | 2009-08-31 | 2011-03-17 | Nippon Hoso Kyokai <Nhk> | 適応化音響モデル生成装置及びプログラム |
JP2011237621A (ja) * | 2010-05-11 | 2011-11-24 | Honda Motor Co Ltd | ロボット |
Non-Patent Citations (1)
Title |
---|
山田武志 他: ""適応型アレーを用いた3次元ビタビ探索に基づくハンズフリー音声認識"", 情報処理学会論文誌, vol. 40, no. 2, JPN6018014829, 15 February 1999 (1999-02-15), pages 460 - 468, ISSN: 0003785317 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016538951A (ja) * | 2013-12-05 | 2016-12-15 | ビック・バイオレクス・エス・エー | シェービングブレードカートリッジ |
JP2021515281A (ja) * | 2018-06-28 | 2021-06-17 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 音声認識方法、装置、コンピュータデバイス、電子機器及びコンピュータプログラム |
US11217229B2 (en) | 2018-06-28 | 2022-01-04 | Tencent Technology (Shenzhen) Company Ltd | Method and apparatus for speech recognition, and electronic device |
JP7109852B2 (ja) | 2018-06-28 | 2022-08-01 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 音声認識方法、装置、コンピュータデバイス、電子機器及びコンピュータプログラム |
KR102102387B1 (ko) | 2018-10-29 | 2020-04-21 | 주식회사 사운드잇 | 다채널오디오스트리밍에서 화자의 발화구간을 검출하는 방법 및 시스템 |
JP2022017171A (ja) * | 2020-07-20 | 2022-01-25 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声認識方法、音声認識装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム |
US11735168B2 (en) | 2020-07-20 | 2023-08-22 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for recognizing voice |
JP7355776B2 (ja) | 2020-07-20 | 2023-10-03 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声認識方法、音声認識装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3050052A4 (en) | 2017-03-22 |
WO2015047815A1 (en) | 2015-04-02 |
US9286897B2 (en) | 2016-03-15 |
JP6574169B2 (ja) | 2019-09-11 |
EP3050052B1 (en) | 2018-11-07 |
EP3050052A1 (en) | 2016-08-03 |
CN105765650B (zh) | 2019-08-06 |
US20150095026A1 (en) | 2015-04-02 |
CN105765650A (zh) | 2016-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6574169B2 (ja) | 多方向の復号をする音声認識 | |
US10134421B1 (en) | Neural network based beam selection | |
US11475881B2 (en) | Deep multi-channel acoustic modeling | |
US10923111B1 (en) | Speech detection and speech recognition | |
US20230410833A1 (en) | User presence detection | |
EP3433855B1 (en) | Speaker verification method and system | |
US9484030B1 (en) | Audio triggered commands | |
US9070367B1 (en) | Local speech recognition of frequent utterances | |
US9153231B1 (en) | Adaptive neural network speech recognition models | |
US9443527B1 (en) | Speech recognition capability generation and control | |
US10650802B2 (en) | Voice recognition method, recording medium, voice recognition device, and robot | |
US11043214B1 (en) | Speech recognition using dialog history | |
US12014726B2 (en) | Language model adaptation | |
US10650306B1 (en) | User representation using a generative adversarial network | |
US9613624B1 (en) | Dynamic pruning in speech recognition | |
US11574628B1 (en) | Deep multi-channel acoustic modeling using multiple microphone array geometries | |
US11367431B2 (en) | Synthetic speech processing | |
US11302329B1 (en) | Acoustic event detection | |
US11145296B1 (en) | Language and grammar model adaptation | |
US10143027B1 (en) | Device selection for routing of communications | |
US11348579B1 (en) | Volume initiated communications | |
US11308939B1 (en) | Wakeword detection using multi-word model | |
US11693622B1 (en) | Context configurable keywords | |
CN117882131A (zh) | 多个唤醒词检测 | |
US11735178B1 (en) | Speech-processing system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170322 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180406 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180425 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20180725 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20180925 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190409 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190716 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190815 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6574169 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |