JP2021533423A - オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム - Google Patents
オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム Download PDFInfo
- Publication number
- JP2021533423A JP2021533423A JP2021531173A JP2021531173A JP2021533423A JP 2021533423 A JP2021533423 A JP 2021533423A JP 2021531173 A JP2021531173 A JP 2021531173A JP 2021531173 A JP2021531173 A JP 2021531173A JP 2021533423 A JP2021533423 A JP 2021533423A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- time frequency
- signal
- audio signal
- frequency point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004590 computer program Methods 0.000 title description 2
- 230000005236 sound signal Effects 0.000 claims abstract description 285
- 238000000034 method Methods 0.000 claims abstract description 57
- 230000003993 interaction Effects 0.000 claims description 108
- 238000001228 spectrum Methods 0.000 claims description 87
- 239000011159 matrix material Substances 0.000 claims description 54
- 238000004364 calculation method Methods 0.000 claims description 48
- 238000012545 processing Methods 0.000 claims description 27
- 238000004458 analytical method Methods 0.000 claims description 23
- 238000013507 mapping Methods 0.000 claims description 22
- 230000000875 corresponding effect Effects 0.000 description 52
- 238000010586 diagram Methods 0.000 description 22
- 238000004422 calculation algorithm Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 13
- 238000005070 sampling Methods 0.000 description 7
- 230000001629 suppression Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000017525 heat dissipation Effects 0.000 description 2
- 102100026436 Regulator of MON1-CCZ1 complex Human genes 0.000 description 1
- 101710180672 Regulator of MON1-CCZ1 complex Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/8006—Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
空間内の複数の方向のオーディオ信号を取得するステップであって、前記オーディオ信号は、ターゲットオーディオダイレクト信号を含むステップと、
前記オーディオ信号に対してエコー除去処理を行うステップと、
前記オーディオ信号の特徴を使用して、エコー除去後の前記オーディオ信号の複数の時間周波数ポイントでの重みを取得するステップであって、各時間周波数ポイントでの重みは、前記時間周波数ポイントでの、前記エコー除去後のオーディオ信号における前記ターゲットオーディオダイレクト信号の相対的な割合を示すものであるステップと、
前記複数の方向における各方向のオーディオ信号に対して、前記複数の時間周波数ポイントでの重みを使用して、前記オーディオ信号の前記複数の時間周波数ポイントでの時間周波数成分をそれぞれ重み付けて、前記各方向のオーディオ信号の重み付け信号エネルギーを得るステップと、
前記各方向のオーディオ信号の重み付け信号エネルギーを使用して、前記オーディオ信号における前記ターゲットオーディオダイレクト信号に対応する音源方位角を得るステップと、
前記ターゲットオーディオダイレクト信号に対応する音源方位角に基づいて、オーディオ認識を行うステップと、
を含む。
オーディオインタラクションデバイスは、空間内の複数の方向のオーディオ信号を取得するステップであって、前記オーディオ信号は、ターゲットオーディオダイレクト信号を含むステップと、
前記オーディオ信号に対してエコー除去処理を行うステップと、
オーディオインタラクションデバイスは、前記オーディオ信号の特徴を使用して、エコー除去後の前記オーディオ信号の複数の時間周波数ポイントでの重みを取得するステップであって、各時間周波数ポイントでの重みは、前記時間周波数ポイントでの、前記エコー除去後のオーディオ信号における前記ターゲットオーディオダイレクト信号の相対的な割合を示すものであるステップと、
前記複数の方向における各方向のオーディオ信号に対して、前記複数の時間周波数ポイントでの重みを使用して、前記オーディオ信号の前記複数の時間周波数ポイントでの時間周波数成分をそれぞれ重み付けて、前記各方向のオーディオ信号の重み付け信号エネルギーを得るステップと、
前記各方向のオーディオ信号の重み付け信号エネルギーを使用して、オーディオインタラクションにおけるターゲットオーディオに対応する音源方位角を得るステップと、
前記音源方位角によって前記オーディオインタラクションにおけるターゲットオーディオの音源位置を位置決めるステップと、
を含む。
空間内の複数の方向のオーディオ信号を取得する信号取得モジュールであって、前記オーディオ信号は、ターゲットオーディオダイレクト信号を含む信号取得モジュールと、
前記オーディオ信号に対してエコー除去処理を行うエコー除去モジュールと、
前記オーディオ信号に対してエコー除去処理を行うエコー除去モジュールと、
前記オーディオ信号の特徴を使用して、エコー除去後の前記オーディオ信号の複数の時間周波数ポイントでの重みを取得する重み演算モジューであって、各時間周波数ポイントでの重みは、前記時間周波数ポイントでの、前記エコー除去後のオーディオ信号における前記ターゲットオーディオダイレクト信号の相対的な割合を示すものである重み演算モジュールと、
前記複数の方向における各方向のオーディオ信号に対して、前記複数の時間周波数ポイントでの重みを使用して、前記オーディオ信号の前記複数の時間周波数ポイントでの時間周波数成分をそれぞれ重み付けて、前記各方向のオーディオ信号の重み付け信号エネルギーを得る空間スペクトル演算モジュールと、
前記各方向のオーディオ信号の重み付け信号エネルギーを使用して、前記オーディオ信号における前記ターゲットオーディオダイレクト信号に対応する音源方位角を得る方位角決定モジュールと、
前記ターゲットオーディオダイレクト信号に対応する音源方位角に基づいて、オーディオ認識を行うオーディオ認識モジュールと、
を備える。
空間内の複数の方向のオーディオ信号を取得するオーディオ取得モジュールであって、前記オーディオ信号は、ターゲットオーディオダイレクト信号を含むオーディオ取得モジュールと、
前記オーディオ信号に対してエコー除去処理を行うエコー除去処理モジュールと、
前記オーディオ信号の特徴を使用して、エコー除去後の前記オーディオ信号の複数の時間周波数ポイントでの重みを取得する時間周波数ポイント演算モジュールであって、各時間周波数ポイントでの重みは、前記時間周波数ポイントでの、前記エコー除去後のオーディオ信号における前記ターゲットオーディオダイレクト信号の相対的な割合を示すものである時間周波数ポイント演算モジュールと、
前記複数の方向における各方向のオーディオ信号に対して、前記複数の時間周波数ポイントでの重みを使用して、前記オーディオ信号の前記複数の時間周波数ポイントでの時間周波数成分をそれぞれ重み付けて、前記各方向のオーディオ信号の重み付け信号エネルギーを得る空間スペクトル重み付けモジュールと、
前記各方向のオーディオ信号の重み付け信号エネルギーを使用して、オーディオインタラクションにおけるターゲットオーディオに対応する音源方位角を得る方位角位置決めモジュールと、
前記音源方位角によって前記オーディオインタラクションにおけるターゲットオーディオの音源位置を位置決める位置決定モジュールと、
を備える。
与えられたオーディオ信号に向け、それに対してエコー除去処理を行った後、まず、エコー除去後に得られた時間周波数領域表現及び時間周波数ポイントでの重みを取得し、その後、時間周波数ポイントでの重みおよび時間周波数領域表現により、時間周波数ポイントに対応する重み付け共分散行列を取得し、この重み付け共分散行列は、オーディオ信号におけるターゲットオーディオダイレクト信号の相対的な割合を記述するために使用されるものであり、重み付け共分散行列によって空間スペクトルの重み付け演算を行い、オーディオ信号が時間周波数ポイントに応じて重み付けされた空間スペクトルを得、最後に、空間スペクトルからオーディオ信号におけるターゲットオーディオダイレクト信号に対応する音源方位角を得ることで、空間スペクトルの役割で、演算量を効果的に制御し、また、重み付け共分散行列がオーディオ信号におけるターゲットオーディオダイレクト信号の相対的な割合に対応するものであるため、干渉信号の空間スペクトルへの干渉を効果的に低減させ、複雑なシーンにおける方位角演算のロバスト性を増強させ、さらに、方位角の正確性を大幅に向上させ、オーディオインタラクションの進行のために、方位角を正確に得ることができる。
プロセッサと、
プロセッサ実行可能命令を記憶するためのメモリと、を備える。
111 ボタン
112 ピックアップマイクロホン
113 メインボード
114 メイン制御チップ
115 ブルートゥース(登録商標)チップ
116 WiFiチップ
117 放熱シート
1110 情報取得モジュール
1111 時間周波数分析ユニット
1113 パラメータ推定ユニット
1115 重みマッピングユニット
1120 エコー除去モジュール
1121 エコー除去モジュール
1123 時間周波数分析モジュール
1130 重み演算モジュール
1140 行列構築モジュール
1150 空間スペクトル演算モジュール
1160 方位角決定モジュール
1201 マッピング取得ユニット
1203 重み付けユニット
1410 オーディオ取得モジュール
1420 エコー除去処理モジュール
1430 時間周波数ポイント演算モジュール
1440 行列演算モジュール
1450 空間スペクトル重み付けモジュール
1460 方位角位置決めモジュール
1470 位置決定モジュール
Claims (16)
- オーディオ認識方法であって、
空間内の複数の方向のオーディオ信号を取得するステップであって、前記オーディオ信号は、ターゲットオーディオダイレクト信号を含むステップと、
前記オーディオ信号に対してエコー除去処理を行うステップと、
前記オーディオ信号の特徴を使用して、エコー除去後の前記オーディオ信号の複数の時間周波数ポイントでの重みを取得するステップであって、各時間周波数ポイントでの重みは、前記時間周波数ポイントでの、前記エコー除去後のオーディオ信号における前記ターゲットオーディオダイレクト信号の相対的な割合を示すものであるステップと、
前記複数の方向における各方向のオーディオ信号に対して、前記複数の時間周波数ポイントでの重みを使用して、前記オーディオ信号の前記複数の時間周波数ポイントでの時間周波数成分をそれぞれ重み付けて、前記各方向のオーディオ信号の重み付け信号エネルギーを得るステップと、
前記各方向のオーディオ信号の重み付け信号エネルギーを使用して、前記オーディオ信号における前記ターゲットオーディオダイレクト信号に対応する音源方位角を得るステップと、
前記ターゲットオーディオダイレクト信号に対応する音源方位角に基づいて、オーディオ認識を行うステップと、
を含むことを特徴とするオーディオ認識方法。 - 前記重みを使用して、前記オーディオ信号の各時間周波数成分を重み付けて、前記各方向のオーディオ信号の信号エネルギーを得るステップは、
前記重みおよびエコー除去後の前記オーディオ信号の時間周波数領域表現により、前記複数の時間周波数ポイントにおける各時間周波数ポイントでの重み付け共分散行列を取得するステップであって、前記重み共分散行列が、前記オーディオ信号における前記ターゲットオーディオダイレクト信号の相対的な割合を記述するために使用されるものであるステップと、
前記重み付け共分散行列によって空間スペクトルの重み付け演算を行い、前記オーディオ信号が時間周波数ポイントに応じて重み付けされた空間スペクトルを得るステップと、を含む、
ことを特徴とする請求項1に記載の方法。 - 前記オーディオ信号の特徴を使用して、エコー除去後の前記オーディオ信号の複数の時間周波数ポイントにおける各時間周波数ポイントでの重みを取得するステップは、
前記オーディオ信号の時間周波数領域表現を取得するステップと、
オーディオ信号の時間周波数領域表現に対して、時間周波数ポイントに応じてオーディオ特徴パラメータの推定を行うステップと、
前記時間周波数ポイントに対応するオーディオ特徴パラメータに基づいて、前記オーディオ信号の前記時間周波数ポイントでの重みを得るステップと、を含む、
ことを特徴とする請求項1に記載の方法。 - 前記オーディオ特徴パラメータは、前記時間周波数領域表現の時間周波数ポイントでの信号対雑音比推定値を含み、前記オーディオ信号の時間周波数領域表現に対して、時間周波数ポイントに応じてオーディオ特徴パラメータの推定を行うステップは、
オーディオ信号の時間周波数領域表現に対して、各時間周波数ポイントでの信号対雑音比推定値を推定するステップであって、前記信号対雑音比推定値は、マッピングによって前記オーディオ信号の時間周波数ポイントでの重みを得るために使用されるものであるステップ、を含む、
ことを特徴とする請求項3に記載の方法。 - 前記オーディオ特徴パラメータは、複数のタイプがあり、前記時間周波数ポイントに対応するオーディオ特徴パラメータに基づいて、前記オーディオ信号の前記時間周波数ポイントでの重みを得るステップは、
時間周波数ポイントでの、オーディオ信号の時間周波数領域表現の異なるオーディオ特徴パラメータによってそれぞれマッピングされた重みを取得するステップと、
取得された前記重みに対して重み付け演算を行い、前記オーディオ信号の前記時間周波数ポイントでの重みを得るステップと、を含む、
ことを特徴とする請求項3に記載の方法。 - 前記オーディオ特徴パラメータは、時間周波数領域表現の時間周波数ポイントでのダイレクト対残響信号強度比、残留エコー信号推定値、および前記時間周波数ポイントがターゲットウェイクワードに対応する確率のうちの少なくとも1つまたは任意の組合せ、をさらに含む、
ことを特徴とする請求項5に記載の方法。 - 前記オーディオ特徴パラメータは、前記時間周波数ポイントがターゲットウェイクワードに対応する確率を含み、前記オーディオ信号の時間周波数領域表現に対して、時間周波数ポイントに応じてオーディオ特徴パラメータの推定を行うステップは、
前記オーディオ信号におけるターゲットウェイクワードを検出し、検出された前記ターゲットウェイクワードに対して、所在する時間周波数ポイントを推定し、各時間周波数ポイントがターゲットウェイクワードに対応する確率を得るステップ、を含む、
ことを特徴とする請求項6に記載の方法。 - 前記複数の時間周波数ポイントにおける各時間周波数ポイントでの重み付け共分散行列を取得するステップは、
時間周波数ポイントで前記オーディオ信号の時間周波数領域表現および重みによって重み付け演算を行い、前記重み付け共分散行列における、前記時間周波数ポイントに対応する重み付け要素値を得、時間周波数ポイントに対応する重み付け要素値のすべてが前記重み付け共分散行列を構成するステップ、を含む、
ことを特徴とする請求項2に記載の方法。 - 前記オーディオ信号に対してエコー除去処理を行うステップは、
オーディオインタラクションデバイスにおいてエコー参照信号を取得し、前記エコー参照信号によって、マイクロフォンで収集された前記オーディオ信号に対して線形エコー除去を行うステップと、
前記オーディオ信号のエコー除去後に、時間周波数分析を行い、前記エコー除去後のオーディオ信号の時間周波数領域表現を得るステップと、を含む、
ことを特徴とする請求項1に記載の方法。 - オーディオインタラクションデバイスがターゲットオーディオを位置決める方法であって、
オーディオインタラクションデバイスは、空間内の複数の方向のオーディオ信号を取得するステップであって、前記オーディオ信号は、ターゲットオーディオダイレクト信号を含むステップと、
前記オーディオ信号に対してエコー除去処理を行うステップと、
オーディオインタラクションデバイスは、前記オーディオ信号の特徴を使用して、エコー除去後の前記オーディオ信号の複数の時間周波数ポイントでの重みを取得するステップであって、各時間周波数ポイントでの重みは、前記時間周波数ポイントでの、前記エコー除去後のオーディオ信号における前記ターゲットオーディオダイレクト信号の相対的な割合を示すものであるステップと、
前記複数の方向における各方向のオーディオ信号に対して、前記複数の時間周波数ポイントでの重みを使用して、前記オーディオ信号の前記複数の時間周波数ポイントでの時間周波数成分をそれぞれ重み付けて、前記各方向のオーディオ信号の重み付け信号エネルギーを得るステップと、
前記各方向のオーディオ信号の重み付け信号エネルギーを使用して、オーディオインタラクションにおけるターゲットオーディオに対応する音源方位角を得るステップと、
前記音源方位角によって前記オーディオインタラクションにおけるターゲットオーディオの音源位置を位置決めるステップと、
を含むことを特徴とする位置決め方法。 - オーディオ認識装置であって、
空間内の複数の方向のオーディオ信号を取得する信号取得モジュールであって、前記オーディオ信号は、ターゲットオーディオダイレクト信号を含む信号取得モジュールと、
前記オーディオ信号に対してエコー除去処理を行うエコー除去モジュールと、
前記オーディオ信号の特徴を使用して、エコー除去後の前記オーディオ信号の複数の時間周波数ポイントでの重みを取得する重み演算モジューであって、各時間周波数ポイントでの重みは、前記時間周波数ポイントでの、前記エコー除去後のオーディオ信号における前記ターゲットオーディオダイレクト信号の相対的な割合を示すものである重み演算モジュールと、
前記複数の方向における各方向のオーディオ信号に対して、前記複数の時間周波数ポイントでの重みを使用して、前記オーディオ信号の前記複数の時間周波数ポイントでの時間周波数成分をそれぞれ重み付けて、前記各方向のオーディオ信号の重み付け信号エネルギーを得る空間スペクトル演算モジュールと、
前記各方向のオーディオ信号の重み付け信号エネルギーを使用して、前記オーディオ信号における前記ターゲットオーディオダイレクト信号に対応する音源方位角を得る方位角決定モジュールと、
前記ターゲットオーディオダイレクト信号に対応する音源方位角に基づいて、オーディオ認識を行うオーディオ認識モジュールと、
を備えることを特徴とするオーディオ認識装置。 - 前記重み演算モジュールは、
前記オーディオ信号の時間周波数領域表現を取得する時間領域分析ユニットと、
オーディオ信号の時間周波数領域表現に対して、時間周波数ポイントに応じてオーディオ特徴パラメータの推定を行うパラメータ推定ユニットと、
前記時間周波数ポイントに対応するオーディオ特徴パラメータに基づいて、前記オーディオ信号の前記時間周波数ポイントでの重みを得る重みマッピングユニットと、を備える、
ことを特徴とする請求項11に記載の装置。 - 前記オーディオ特徴パラメータは、複数のタイプがあり、前記重みマッピングユニットは、
時間周波数ポイントでの、オーディオ信号の時間周波数領域表現の異なるオーディオ特徴パラメータによってそれぞれマッピングされた重みを取得するマッピング取得ユニットと、
取得された前記重みに対して重み付け演算を行い、前記オーディオ信号の前記時間周波数ポイントでの重みを得る重み付けユニットと、を備える、
ことを特徴とする請求項12に記載の装置。 - オーディオインタラクションデバイスがターゲットオーディオを位置決める装置であって、
空間内の複数の方向のオーディオ信号を取得するオーディオ取得モジュールであって、前記オーディオ信号は、ターゲットオーディオダイレクト信号を含むオーディオ取得モジュールと、
前記オーディオ信号に対してエコー除去処理を行うエコー除去処理モジュールと、
前記オーディオ信号の特徴を使用して、エコー除去後の前記オーディオ信号の複数の時間周波数ポイントでの重みを取得する時間周波数ポイント演算モジュールであって、各時間周波数ポイントでの重みは、前記時間周波数ポイントでの、前記エコー除去後のオーディオ信号における前記ターゲットオーディオダイレクト信号の相対的な割合を示すものである時間周波数ポイント演算モジュールと、
前記複数の方向における各方向のオーディオ信号に対して、前記複数の時間周波数ポイントでの重みを使用して、前記オーディオ信号の前記複数の時間周波数ポイントでの時間周波数成分をそれぞれ重み付けて、前記各方向のオーディオ信号の重み付け信号エネルギーを得る空間スペクトル重み付けモジュールと、
前記各方向のオーディオ信号の重み付け信号エネルギーを使用して、オーディオインタラクションにおけるターゲットオーディオに対応する音源方位角を得る方位角位置決めモジュールと、
前記音源方位角によって前記オーディオインタラクションにおけるターゲットオーディオの音源位置を位置決める位置決定モジュールと、
を備えることを特徴とする位置決め装置。 - オーディオインタラクションデバイスであって、
プロセッサと、メモリとを備え、
前記メモリにコンピュータ可読命令が記憶されており、前記コンピュータ可読命令が前記プロセッサによって実行される場合、請求項1〜10のいずれか1項に記載の方法を実現する、
ことを特徴とするオーディオインタラクションデバイス。 - コンピュータ読み取り可能な記憶媒体であって、コンピュータ可読命令が記憶されており、請求項1〜10のいずれか1項に記載の方法を実現するように、前記コンピュータ可読命令が、1つまたは複数のプロセッサによって実行させる、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811455880.6A CN109597022B (zh) | 2018-11-30 | 2018-11-30 | 声源方位角运算、定位目标音频的方法、装置和设备 |
CN201811455880.6 | 2018-11-30 | ||
PCT/CN2019/121946 WO2020108614A1 (zh) | 2018-11-30 | 2019-11-29 | 音频识别方法、定位目标音频的方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021533423A true JP2021533423A (ja) | 2021-12-02 |
JP7158806B2 JP7158806B2 (ja) | 2022-10-24 |
Family
ID=65960546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021531173A Active JP7158806B2 (ja) | 2018-11-30 | 2019-11-29 | オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (2) | US11967316B2 (ja) |
EP (1) | EP3822654B1 (ja) |
JP (1) | JP7158806B2 (ja) |
CN (2) | CN110491403B (ja) |
WO (1) | WO2020108614A1 (ja) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110491403B (zh) * | 2018-11-30 | 2022-03-04 | 腾讯科技(深圳)有限公司 | 音频信号的处理方法、装置、介质和音频交互设备 |
CN110097891B (zh) * | 2019-04-22 | 2022-04-12 | 广州视源电子科技股份有限公司 | 一种麦克风信号处理方法、装置、设备及存储介质 |
CN110265020B (zh) * | 2019-07-12 | 2021-07-06 | 大象声科(深圳)科技有限公司 | 语音唤醒方法、装置及电子设备、存储介质 |
CN110415718B (zh) * | 2019-09-05 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 信号生成的方法、基于人工智能的语音识别方法及装置 |
CN110517702B (zh) * | 2019-09-06 | 2022-10-04 | 腾讯科技(深圳)有限公司 | 信号生成的方法、基于人工智能的语音识别方法及装置 |
CN112614500B (zh) * | 2019-09-18 | 2024-06-25 | 北京声智科技有限公司 | 回声消除方法、装置、设备及计算机存储介质 |
CN112929506B (zh) * | 2019-12-06 | 2023-10-17 | 阿里巴巴集团控股有限公司 | 音频信号的处理方法及装置,计算机存储介质及电子设备 |
CN111009257B (zh) * | 2019-12-17 | 2022-12-27 | 北京小米智能科技有限公司 | 一种音频信号处理方法、装置、终端及存储介质 |
CN111239680B (zh) * | 2020-01-19 | 2022-09-16 | 西北工业大学太仓长三角研究院 | 一种基于差分阵列的波达方向估计方法 |
CN111933170B (zh) * | 2020-07-20 | 2024-03-29 | 歌尔科技有限公司 | 语音信号的处理方法、装置、设备及存储介质 |
CN111833899B (zh) | 2020-07-27 | 2022-07-26 | 腾讯科技(深圳)有限公司 | 一种基于多音区的语音检测方法、相关装置及存储介质 |
JP7350698B2 (ja) * | 2020-09-09 | 2023-09-26 | 株式会社東芝 | 音響装置及び音響装置のボリューム制御方法 |
CN112151051B (zh) * | 2020-09-14 | 2023-12-19 | 海尔优家智能科技(北京)有限公司 | 音频数据的处理方法和装置及存储介质 |
CN112492207B (zh) * | 2020-11-30 | 2023-04-18 | 深圳卡多希科技有限公司 | 一种基于声源定位控制摄像头转动的方法和装置 |
US11783826B2 (en) * | 2021-02-18 | 2023-10-10 | Nuance Communications, Inc. | System and method for data augmentation and speech processing in dynamic acoustic environments |
CN112799017B (zh) * | 2021-04-07 | 2021-07-09 | 浙江华创视讯科技有限公司 | 声源定位方法、装置、存储介质及电子设备 |
CN113138363A (zh) * | 2021-04-22 | 2021-07-20 | 苏州臻迪智能科技有限公司 | 一种声源定位方法、装置、存储介质和电子设备 |
CN113207058B (zh) * | 2021-05-06 | 2023-04-28 | 恩平市奥达电子科技有限公司 | 一种音频信号的传输处理方法 |
CN113640744B (zh) * | 2021-08-20 | 2024-07-30 | 歌尔科技有限公司 | 声源定位方法及音频设备 |
CN113628633A (zh) * | 2021-10-14 | 2021-11-09 | 辰风策划(深圳)有限公司 | 用于企业多方会晤的多通道信息传输的降噪方法 |
CN116047413B (zh) * | 2023-03-31 | 2023-06-23 | 长沙东玛克信息科技有限公司 | 一种封闭混响环境下的音频精准定位方法 |
CN116645973B (zh) * | 2023-07-20 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 定向音频增强方法、装置、存储介质及电子设备 |
CN117998274B (zh) * | 2024-04-07 | 2024-06-25 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002135642A (ja) * | 2000-10-24 | 2002-05-10 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声翻訳システム |
US20040252845A1 (en) * | 2003-06-16 | 2004-12-16 | Ivan Tashev | System and process for sound source localization using microphone array beamsteering |
JP2010114554A (ja) * | 2008-11-05 | 2010-05-20 | Yamaha Corp | 放収音装置 |
US20190043491A1 (en) * | 2018-05-18 | 2019-02-07 | Intel Corporation | Neural network based time-frequency mask estimation and beamforming for speech pre-processing |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6999593B2 (en) * | 2003-05-28 | 2006-02-14 | Microsoft Corporation | System and process for robust sound source localization |
CN102809742B (zh) * | 2011-06-01 | 2015-03-18 | 杜比实验室特许公司 | 声源定位设备和方法 |
CN102314884B (zh) * | 2011-08-16 | 2013-01-02 | 捷思锐科技(北京)有限公司 | 语音激活检测方法与装置 |
EP3462452A1 (en) * | 2012-08-24 | 2019-04-03 | Oticon A/s | Noise estimation for use with noise reduction and echo cancellation in personal communication |
EP2738762A1 (en) * | 2012-11-30 | 2014-06-04 | Aalto-Korkeakoulusäätiö | Method for spatial filtering of at least one first sound signal, computer readable storage medium and spatial filtering system based on cross-pattern coherence |
CN104103277B (zh) * | 2013-04-15 | 2017-04-05 | 北京大学深圳研究生院 | 一种基于时频掩膜的单声学矢量传感器目标语音增强方法 |
US9640179B1 (en) * | 2013-06-27 | 2017-05-02 | Amazon Technologies, Inc. | Tailoring beamforming techniques to environments |
CN103439688B (zh) * | 2013-08-27 | 2015-04-22 | 大连理工大学 | 一种用于分布式麦克风阵列的声源定位***及定位方法 |
US9734822B1 (en) * | 2015-06-01 | 2017-08-15 | Amazon Technologies, Inc. | Feedback based beamformed signal selection |
EP3223279B1 (en) * | 2016-03-21 | 2019-01-09 | Nxp B.V. | A speech signal processing circuit |
HK1221372A2 (zh) * | 2016-03-29 | 2017-05-26 | 萬維數碼有限公司 | 種獲得空間音頻定向向量的方法、裝置及設備 |
US10861478B2 (en) * | 2016-05-30 | 2020-12-08 | Oticon A/S | Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal |
US20170365271A1 (en) * | 2016-06-15 | 2017-12-21 | Adam Kupryjanow | Automatic speech recognition de-reverberation |
US10431211B2 (en) * | 2016-07-29 | 2019-10-01 | Qualcomm Incorporated | Directional processing of far-field audio |
CN107976651B (zh) * | 2016-10-21 | 2020-12-25 | 杭州海康威视数字技术股份有限公司 | 一种基于麦克风阵列的声源定位方法及装置 |
US20180190282A1 (en) * | 2016-12-30 | 2018-07-05 | Qualcomm Incorporated | In-vehicle voice command control |
CN106908755B (zh) | 2017-03-01 | 2019-03-26 | 西安电子科技大学 | 无线声传感器网络下压缩气体泄漏的声源方位估计方法 |
US10546593B2 (en) * | 2017-12-04 | 2020-01-28 | Apple Inc. | Deep learning driven multi-channel filtering for speech enhancement |
CN108322859A (zh) * | 2018-02-05 | 2018-07-24 | 北京百度网讯科技有限公司 | 用于回声消除的设备、方法和计算机可读存储介质 |
CN110491403B (zh) * | 2018-11-30 | 2022-03-04 | 腾讯科技(深圳)有限公司 | 音频信号的处理方法、装置、介质和音频交互设备 |
US11276397B2 (en) * | 2019-03-01 | 2022-03-15 | DSP Concepts, Inc. | Narrowband direction of arrival for full band beamformer |
US11158335B1 (en) * | 2019-03-28 | 2021-10-26 | Amazon Technologies, Inc. | Audio beam selection |
-
2018
- 2018-11-30 CN CN201910741369.0A patent/CN110491403B/zh active Active
- 2018-11-30 CN CN201811455880.6A patent/CN109597022B/zh active Active
-
2019
- 2019-11-29 EP EP19889548.4A patent/EP3822654B1/en active Active
- 2019-11-29 WO PCT/CN2019/121946 patent/WO2020108614A1/zh unknown
- 2019-11-29 JP JP2021531173A patent/JP7158806B2/ja active Active
-
2021
- 2021-02-23 US US17/183,209 patent/US11967316B2/en active Active
-
2024
- 2024-03-20 US US18/611,585 patent/US20240233719A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002135642A (ja) * | 2000-10-24 | 2002-05-10 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声翻訳システム |
US20040252845A1 (en) * | 2003-06-16 | 2004-12-16 | Ivan Tashev | System and process for sound source localization using microphone array beamsteering |
JP2010114554A (ja) * | 2008-11-05 | 2010-05-20 | Yamaha Corp | 放収音装置 |
US20190043491A1 (en) * | 2018-05-18 | 2019-02-07 | Intel Corporation | Neural network based time-frequency mask estimation and beamforming for speech pre-processing |
Also Published As
Publication number | Publication date |
---|---|
US20210174792A1 (en) | 2021-06-10 |
CN109597022B (zh) | 2023-02-17 |
EP3822654A4 (en) | 2021-10-13 |
EP3822654A1 (en) | 2021-05-19 |
US11967316B2 (en) | 2024-04-23 |
WO2020108614A1 (zh) | 2020-06-04 |
US20240233719A1 (en) | 2024-07-11 |
EP3822654B1 (en) | 2023-12-27 |
JP7158806B2 (ja) | 2022-10-24 |
CN110491403B (zh) | 2022-03-04 |
CN109597022A (zh) | 2019-04-09 |
CN110491403A (zh) | 2019-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021533423A (ja) | オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム | |
US10602267B2 (en) | Sound signal processing apparatus and method for enhancing a sound signal | |
RU2596592C2 (ru) | Пространственный аудио процессор и способ обеспечения пространственных параметров на основе акустического входного сигнала | |
TWI647961B (zh) | 聲場的高階保真立體音響表示法中不相關聲源方向之決定方法及裝置 | |
US10334357B2 (en) | Machine learning based sound field analysis | |
JP6400566B2 (ja) | ユーザインターフェースを表示するためのシステムおよび方法 | |
US9282399B2 (en) | Listen to people you recognize | |
CN110503971A (zh) | 用于语音处理的基于神经网络的时频掩模估计和波束形成 | |
US10602270B1 (en) | Similarity measure assisted adaptation control | |
CN113470685B (zh) | 语音增强模型的训练方法和装置及语音增强方法和装置 | |
WO2017152601A1 (zh) | 一种麦克风确定方法和终端 | |
CN110085246A (zh) | 语音增强方法、装置、设备和存储介质 | |
CN110675887A (zh) | 一种用于会议***的多麦克风切换方法和*** | |
JP6265903B2 (ja) | 信号雑音減衰 | |
FR3102325A1 (fr) | Localisation perfectionnée d’une source acoustique | |
CN113160846A (zh) | 噪声抑制方法和电子设备 | |
WO2013061232A1 (en) | Audio signal noise attenuation | |
CN112786065A (zh) | 声源方向的确定 | |
US20240212701A1 (en) | Estimating an optimized mask for processing acquired sound data | |
JP6903947B2 (ja) | 非目的音抑圧装置、方法及びプログラム | |
CN112289335A (zh) | 语音信号的处理方法、装置及拾音设备 | |
CN118486318A (zh) | 一种户外直播环境杂音消除方法、介质及*** | |
JP2010072164A (ja) | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210210 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220316 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220322 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220609 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220912 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221006 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7158806 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |