JP6677136B2 - 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置 - Google Patents
音声信号処理プログラム、音声信号処理方法及び音声信号処理装置 Download PDFInfo
- Publication number
- JP6677136B2 JP6677136B2 JP2016181930A JP2016181930A JP6677136B2 JP 6677136 B2 JP6677136 B2 JP 6677136B2 JP 2016181930 A JP2016181930 A JP 2016181930A JP 2016181930 A JP2016181930 A JP 2016181930A JP 6677136 B2 JP6677136 B2 JP 6677136B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- existence
- target sound
- value
- likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims description 167
- 238000012545 processing Methods 0.000 title claims description 64
- 238000003672 processing method Methods 0.000 title claims description 16
- 230000001629 suppression Effects 0.000 claims description 68
- 238000001228 spectrum Methods 0.000 claims description 27
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 238000013459 approach Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 230000014509 gene expression Effects 0.000 description 17
- 238000000034 method Methods 0.000 description 6
- 238000009792 diffusion process Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000008399 tap water Substances 0.000 description 1
- 235000020679 tap water Nutrition 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
Sco(F)=1.0 (位相差幅52内) …(1)
Sco(F)=0.0 (位相差幅52の外側) …(2)
即ち、周波数信号INFA及びINFBに基づいて算出された位相差DP(F)が、目的音の存在位置を示す目的音存在領域51内に存在する場合、存在係数Sco(F)は1.0に設定される。また、位相差DP(F)が目的音存在領域51の外側に存在する場合、存在係数Sco(F)は0.0に設定される。
Nco(F)=1.0−Sco(F) …(3)
SNco=1.0 (Sli≧Nli) …(6)
SNco=0.1 (Sli<Nli) …(7)
なお、音声信号を抑制する値として0.1を例示したが、本実施形態はこれに限定されない。音声信号を抑制する値は、例えば、0.2であってもよい。また、第2尤度Nliに対する第1尤度Sliの比が所定の値以上である場合に、SNcoに音声信号を抑制しない値を設定してもよい。この場合、第2尤度Nliに対する第1尤度Sliの比が所定の値より小さい場合に、SNcoに音声信号を抑制する値を設定する。
次に、第2実施形態の一例を説明する。第1実施形態と同様の構成及び作用については、説明を省略する。第2実施形態では、非目的音抑制処理における抑制係数の設定の手法が、第1実施形態と異なる。
SNR=Sli(t)/Nli(t) …(18)
SNRP(t)=(SNR−Th1)(Smax−Smin)/(Th2−Th1)
+Smin …(19)
次に、第3実施形態の一例を説明する。第1実施形態または第2実施形態と同様の構成及び作用については、説明を省略する。第3実施形態では、図10に例示するように、認知部23が加えられている点で、第1実施形態及び第2実施形態と異なる。
図14Aに例示する条件で、本開示の音声信号処理と関連技術の音声信号処理とを各々適用して非目的音を抑制した音声信号に対して音声認識を行った際の検知率及び誤検知率を、図14B及び図14Cに例示する。図14Aでは、目的音の存在位置Tがマイクロフォン35A及び35Bを含むマイクロフォンアレーの正面前方1.5mの位置に存在し、非目的音の発声位置NTがマイクロフォンアレーの前方2.5mの位置に存在する。目的音の存在位置Tとマイクロフォンアレーとを結ぶ線と、非目的音の存在位置NTとマイクロフォンアレーとを結ぶ線と、は角度θ=40度で交差している。
検知率=正しく検知した単語数/検知すべき単語数 …(20)
誤検知率=誤って検知した単語数/検知した単語数 …(21)
第1音声入力部から入力された第1音声に対応する第1音声信号を第1周波数信号に時間周波数変換すると共に、第2音声入力部から入力された第2音声に対応する第2音声信号を第2周波数信号に時間周波数変換し、
前記第1周波数信号と前記第2周波数信号との所定周波数毎の位相差、及び、検出対象となる目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、前記目的音が存在する度合いを表す存在係数、及び、前記目的音以外の非目的音が存在する度合いを表す非存在係数を設定し、
前記存在係数に基づいた存在値、並びに前記第1周波数信号及び第2周波数信号の何れか一方に応じた代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記目的音である確からしさを示す第1尤度、及び前記非存在係数に基づいた非存在値、並びに前記代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記非目的音である確からしさを示す第2尤度に基づいて、前記第1音声及び前記第2音声に前記目的音が含まれているか否かを判定する、
音声信号処理をコンピュータに実行させるためのプログラム。
(付記2)
前記第1尤度及び前記第2尤度に基づいて、前記第1音声及び前記第2音声に非目的音が含まれているか否かを判定する、
付記1のプログラム。
(付記3)
所定周波数毎に、前記目的音存在領域に対応する第1範囲の位相差で最大値となり、前記第1範囲外の第2範囲の位相差で最小値となるように、前記存在係数を設定し、
前記最大値から前記存在係数を減算した値を前記非存在係数として設定する、
付記1または付記2のプログラム。
(付記4)
前記第1範囲と前記第2範囲との間に第3範囲を設け、
前記第3範囲内では、前記第1範囲に近付くにしたがって、前記最大値に近付き、前記第1範囲から遠ざかるにしたがって、前記最小値に近付くように、前記存在係数を設定する、
付記3のプログラム。
(付記5)
前記代表値は音声信号のパワースペクトルまたは振幅スペクトルであり、
前記存在値は前記存在係数で、かつ、前記非存在値は前記非存在係数であるか、または、
前記存在値は前記存在係数の二乗であり、かつ、前記非存在値は前記非存在係数の二乗である、
付記1〜付記4の何れかのプログラム。
(付記6)
前記第1尤度は、前記所定周波数毎の前記存在値と前記代表値との積の和または積の二乗和の一方で、かつ、前記第2尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の和または積の二乗和の前記一方であるか、または、
前記第1尤度は、前記所定周波数毎の前記存在値と前記代表値との積の最大値または積の二乗の最大値の一方で、かつ、前記第2尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の最大値または積の二乗の最大値の前記一方である、
付記5のプログラム。
(付記7)
前記所定周波数は、時間周波数変換された前記第1周波数信号及び前記第2周波数信号の周波数分解能に基づいて定まる、
付記1〜付記6の何れかのプログラム。
(付記8)
前記第1音声入力部と前記第2音声入力部との間の距離は、前記目的音の存在位置と前記第1音声入力部との間の距離と、前記目的音の存在位置と前記第2音声入力部との間の距離と、が異なる場合、または、前記非目的音の存在位置と前記第1音声入力部との間の距離と、前記非目的音の存在位置と前記第2音声入力部との間の距離と、が異なる場合、前記第1周波数信号と前記第2周波数信号との間に位相差が生じる距離である、
付記1〜付記7の何れかのプログラム。
(付記9)
前記第1尤度が前記第2尤度以上である場合、音声信号を抑制しない抑制係数を設定し、前記第1尤度が前記第2尤度よりも小さい場合、音声信号を抑制する抑制係数を設定し、設定された抑制係数を前記第1音声信号及び前記第2音声信号の少なくとも一方に適用する、
付記1〜付記8の何れかのプログラム。
(付記10)
前記抑制係数は、前記第2尤度に対する前記第1尤度の比に基づいて設定される、
付記9のプログラム。
(付記11)
前記抑制係数の単位時間における変動を抑制する、
付記10のプログラム。
(付記12)
前記抑制係数を適用された第1音声信号及び第2音声信号の少なくとも一方に対して音声認識を行う、
付記9〜付記11の何れかのプログラム。
(付記13)
認知部で前記目的音の存在位置を認知し、
認知された前記存在位置に基づいて、前記目的音存在領域を定める、
付記1〜付記12の何れかのプログラム。
(付記14)
コンピュータが、
第1音声入力部から入力された第1音声に対応する第1音声信号を第1周波数信号に時間周波数変換すると共に、第2音声入力部から入力された第2音声に対応する第2音声信号を第2周波数信号に時間周波数変換し、
前記第1周波数信号と前記第2周波数信号との所定周波数毎の位相差、及び、検出対象となる目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、前記目的音が存在する度合いを表す存在係数、及び、前記目的音以外の非目的音が存在する度合いを表す非存在係数を設定し、
前記存在係数に基づいた存在値、並びに前記第1周波数信号及び第2周波数信号の何れか一方に応じた代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記目的音である確からしさを示す第1尤度、及び前記非存在係数に基づいた非存在値、並びに前記代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記非目的音である確からしさを示す第2尤度に基づいて、前記第1音声及び前記第2音声に前記目的音が含まれているか否かを判定する、
音声信号処理方法。
(付記15)
前記第1尤度及び前記第2尤度に基づいて、前記第1音声及び前記第2音声に非目的音が含まれているか否かを判定する、
付記14の音声信号処理方法。
(付記16)
所定周波数毎に、前記目的音存在領域に対応する第1範囲の位相差で最大値となり、前記第1範囲外の第2範囲の位相差で最小値となるように、前記存在係数を設定し、
前記最大値から前記存在係数を減算した値を前記非存在係数として設定する、
付記14または付記15の音声信号処理方法。
(付記17)
前記第1範囲と前記第2範囲との間に第3範囲を設け、
前記第3範囲内では、前記第1範囲に近付くにしたがって、前記最大値に近付き、前記第1範囲から遠ざかるにしたがって、前記最小値に近付くように、前記存在係数を設定する、
付記16の音声信号処理方法。
(付記18)
前記代表値は音声信号のパワースペクトルまたは振幅スペクトルであり、
前記存在値は前記存在係数で、かつ、前記非存在値は前記非存在係数であるか、または、
前記存在値は前記存在係数の二乗であり、かつ、前記非存在値は前記非存在係数の二乗である、
付記14〜付記17の何れかの音声信号処理方法。
(付記19)
前記第1尤度は、前記所定周波数毎の前記存在値と前記代表値との積の和または積の二乗和の一方で、かつ、前記第2尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の和または積の二乗和の前記一方であるか、または、
前記第1尤度は、前記所定周波数毎の前記存在値と前記代表値との積の最大値または積の二乗の最大値の一方で、かつ、前記第2尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の最大値または積の二乗の最大値の前記一方である、
付記18の音声信号処理方法。
(付記20)
前記所定周波数は、時間周波数変換された前記第1周波数信号及び前記第2周波数信号の周波数分解能に基づいて定まる、
付記14〜付記19の何れかの音声信号処理方法。
(付記21)
前記第1音声入力部と前記第2音声入力部との間の距離は、前記目的音の存在位置と前記第1音声入力部との間の距離と、前記目的音の存在位置と前記第2音声入力部との間の距離と、が異なる場合、または、前記非目的音の存在位置と前記第1音声入力部との間の距離と、前記非目的音の存在位置と前記第2音声入力部との間の距離と、が異なる場合、前記第1周波数信号と前記第2周波数信号との間に位相差が生じる距離である、
付記14〜付記20の何れかの音声信号処理方法。
(付記22)
前記第1尤度が前記第2尤度以上である場合、音声信号を抑制しない抑制係数を設定し、前記第1尤度が前記第2尤度よりも小さい場合、音声信号を抑制する抑制係数を設定し、設定された抑制係数を前記第1音声信号及び前記第2音声信号の少なくとも一方に適用する、
付記16〜付記21の何れかの音声信号処理方法。
(付記23)
前記抑制係数は、前記第2尤度に対する前記第1尤度の比に基づいて設定される、
付記22の音声信号処理方法。
(付記24)
前記抑制係数の単位時間における変動を抑制する、
付記23の音声信号処理方法。
(付記25)
前記抑制係数を適用された第1音声信号及び第2音声信号の少なくとも一方に対して音声認識を行う、
付記22〜付記24の何れかの音声信号処理方法。
(付記26)
認知部で前記目的音の存在位置を認知し、
認知された前記存在位置に基づいて、前記目的音存在領域を定める、
付記14〜付記25の何れかの音声信号処理方法。
(付記27)
第1音声入力部から入力された第1音声に対応する第1音声信号を第1周波数信号に時間周波数変換すると共に、第2音声入力部から入力された第2音声に対応する第2音声信号を第2周波数信号に時間周波数変換する変換部と、
前記第1周波数信号と前記第2周波数信号との所定周波数毎の位相差、及び、検出対象となる目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、前記目的音が存在する度合いを表す存在係数、及び、前記目的音以外の非目的音が存在する度合いを表す非存在係数を設定する設定部と、
前記存在係数に基づいた存在値、並びに前記第1周波数信号及び第2周波数信号の何れか一方に応じた代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記目的音である確からしさを示す第1尤度、及び前記非存在係数に基づいた非存在値、並びに前記代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記非目的音である確からしさを示す第2尤度に基づいて、前記第1音声及び前記第2音声に前記目的音が含まれているか否かを判定する判定部と、
を含む、音声信号処理装置。
(付記28)
前記判定部は、前記第1尤度及び前記第2尤度に基づいて、前記第1音声及び前記第2音声に非目的音が含まれているか否かを判定する、
付記27の音声信号処理装置。
(付記29)
前記設定部は、
所定周波数毎に、前記目的音存在領域に対応する第1範囲の位相差で最大値となり、前記第1範囲外の第2範囲の位相差で最小値となるように、前記存在係数を設定し、
前記最大値から前記存在係数を減算した値を前記非存在係数として設定する、
付記27または付記28の音声信号処理装置。
(付記30)
前記設定部は、前記第1範囲と前記第2範囲との間に第3範囲を設け、
前記第3範囲内では、前記第1範囲に近付くにしたがって、前記最大値に近付き、前記第1範囲から遠ざかるにしたがって、前記最小値に近付くように、前記存在係数を設定する、
付記29の音声信号処理装置。
(付記31)
前記代表値は音声信号のパワースペクトルまたは振幅スペクトルであり、
前記存在値は前記存在係数で、かつ、前記非存在値は前記非存在係数であるか、または、
前記存在値は前記存在係数の二乗であり、かつ、前記非存在値は前記非存在係数の二乗である、
付記27〜付記30の何れかの音声信号処理装置。
(付記32)
前記第1尤度は、前記所定周波数毎の前記存在値と前記代表値との積の和または積の二乗和の一方で、かつ、前記第2尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の和または積の二乗和の前記一方であるか、または、
前記第1尤度は、前記所定周波数毎の前記存在値と前記代表値との積の最大値または積の二乗の最大値の一方で、かつ、前記第2尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の最大値または積の二乗の最大値の前記一方である、
付記31の音声信号処理装置。
(付記33)
前記所定周波数は、時間周波数変換された前記第1周波数信号及び前記第2周波数信号の周波数分解能に基づいて定まる、
付記27〜付記32の何れかの音声信号処理装置。
(付記34)
前記第1音声入力部と前記第2音声入力部との間の距離は、前記目的音の存在位置と前記第1音声入力部との間の距離と、前記目的音の存在位置と前記第2音声入力部との間の距離と、が異なる場合、または、前記非目的音の存在位置と前記第1音声入力部との間の距離と、前記非目的音の存在位置と前記第2音声入力部との間の距離と、が異なる場合、前記第1周波数信号と前記第2周波数信号との間に位相差が生じる距離である、
付記27〜付記33の何れかの音声信号処理装置。
(付記35)
前記第1尤度が前記第2尤度以上である場合、音声信号を抑制しない抑制係数を設定し、前記第1尤度が前記第2尤度よりも小さい場合、音声信号を抑制する抑制係数を設定し、設定された抑制係数を前記第1音声信号及び前記第2音声信号の少なくとも一方に適用する抑制部、
をさらに含む、付記27〜付記34の何れかの音声信号処理装置。
(付記36)
前記抑制係数は、前記第2尤度に対する前記第1尤度の比に基づいて設定される、
付記35の音声信号処理装置。
(付記37)
前記抑制係数の単位時間における変動を抑制する、
付記36の音声信号処理装置。
(付記38)
前記抑制部で、前記抑制係数を適用された第1音声信号及び第2音声信号の少なくとも一方に対して音声認識を行う認識部、
をさらに含む、付記35〜付記37の何れかの音声信号処理装置。
(付記39)
前記目的音の存在位置を認知する認知部、
をさらに含み、
前記設定部は、前記認知部で認知された前記存在位置に基づいて、前記目的音存在領域を定める、
付記27〜付記38の何れかの音声信号処理装置。
21A、21B 音声入力部
22 変換部
23 認知部
24 設定部
25 判定部
26 抑制部
27 認識部
31 CPU
32 一次記憶部
33 二次記憶部
35A、35B マイクロフォン
36 カメラ
Claims (15)
- 第1音声入力部から入力された第1音声に対応する第1音声信号を第1周波数信号に時間周波数変換すると共に、第2音声入力部から入力された第2音声に対応する第2音声信号を第2周波数信号に時間周波数変換し、
前記第1周波数信号と前記第2周波数信号との所定周波数毎の位相差、及び、検出対象となる目的音の存在位置を示す目的音存在領域に基づいて、前記所定周波数毎に、前記目的音が存在する度合いを表す存在係数、及び、前記目的音以外の非目的音が存在する度合いを表す非存在係数を設定し、
前記存在係数に基づいた存在値、並びに前記第1周波数信号及び第2周波数信号の何れか一方に応じた代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記目的音である確からしさを示す第1尤度、及び前記非存在係数に基づいた非存在値、並びに前記代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記非目的音である確からしさを示す第2尤度に基づいて、前記第1音声及び前記第2音声に前記目的音が含まれているか否かを判定する、
音声信号処理をコンピュータに実行させるためのプログラム。 - 前記第1尤度及び前記第2尤度に基づいて、前記第1音声及び前記第2音声に非目的音が含まれているか否かを判定する、
請求項1に記載のプログラム。 - 所定周波数毎に、前記目的音存在領域に対応する第1範囲の位相差で最大値となり、前記第1範囲外の第2範囲の位相差で最小値となるように、前記存在係数を設定し、
前記最大値から前記存在係数を減算した値を前記非存在係数として設定する、
請求項1または請求項2に記載のプログラム。 - 前記第1範囲と前記第2範囲との間に第3範囲を設け、
前記第3範囲内では、前記第1範囲に近付くにしたがって、前記最大値に近付き、前記第1範囲から遠ざかるにしたがって、前記最小値に近付くように、前記存在係数を設定する、
請求項3に記載のプログラム。 - 前記代表値は音声信号のパワースペクトルまたは振幅スペクトルであり、
前記存在値は前記存在係数で、かつ、前記非存在値は前記非存在係数であるか、または、
前記存在値は前記存在係数の二乗であり、かつ、前記非存在値は前記非存在係数の二乗である、
請求項1〜請求項4の何れか1項に記載のプログラム。 - 前記第1尤度は、前記所定周波数毎の前記存在値と前記代表値との積の和または積の二乗和の一方で、かつ、前記第2尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の和または積の二乗和の前記一方であるか、または、
前記第1尤度は、前記所定周波数毎の前記存在値と前記代表値との積の最大値または積の二乗の最大値の一方で、かつ、前記第2尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の最大値または積の二乗の最大値の前記一方である、
請求項5に記載のプログラム。 - 前記所定周波数は、時間周波数変換された前記第1周波数信号及び前記第2周波数信号の周波数分解能に基づいて定まる、
請求項1〜請求項6の何れか1項に記載のプログラム。 - 前記第1音声入力部と前記第2音声入力部との間の距離は、前記目的音の存在位置と前記第1音声入力部との間の距離と、前記目的音の存在位置と前記第2音声入力部との間の距離と、が異なる場合、または、前記非目的音の存在位置と前記第1音声入力部との間の距離と、前記非目的音の存在位置と前記第2音声入力部との間の距離と、が異なる場合、前記第1周波数信号と前記第2周波数信号との間に位相差が生じる距離である、
請求項1〜請求項7の何れか1項に記載のプログラム。 - 前記第1尤度が前記第2尤度以上である場合、音声信号を抑制しない抑制係数を設定し、前記第1尤度が前記第2尤度よりも小さい場合、音声信号を抑制する抑制係数を設定し、設定された抑制係数を前記第1音声信号及び前記第2音声信号の少なくとも一方に適用する、
請求項1〜請求項8の何れか1項に記載のプログラム。 - 前記抑制係数は、前記第2尤度に対する前記第1尤度の比に基づいて設定される、
請求項9に記載のプログラム。 - 前記抑制係数の単位時間における変動を抑制する、
請求項10に記載のプログラム。 - 前記抑制係数を適用された第1音声信号及び第2音声信号の少なくとも一方に対して音声認識を行う、
請求項9〜請求項11の何れか1項に記載のプログラム。 - 認知部で前記目的音の存在位置を認知し、
認知された前記存在位置に基づいて、前記目的音存在領域を定める、
請求項1〜請求項12の何れか1項に記載のプログラム。 - コンピュータが、
第1音声入力部から入力された第1音声に対応する第1音声信号を第1周波数信号に時間周波数変換すると共に、第2音声入力部から入力された第2音声に対応する第2音声信号を第2周波数信号に時間周波数変換し、
前記第1周波数信号と前記第2周波数信号との所定周波数毎の位相差、及び、検出対象となる目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、前記目的音が存在する度合いを表す存在係数、及び、前記目的音以外の非目的音が存在する度合いを表す非存在係数を設定し、
前記存在係数に基づいた存在値、並びに前記第1周波数信号及び第2周波数信号の何れか一方に応じた代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記目的音である確からしさを示す第1尤度、及び前記非存在係数に基づいた非存在値、並びに前記代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記非目的音である確からしさを示す第2尤度に基づいて、前記第1音声及び前記第2音声に前記目的音が含まれているか否かを判定する、
音声信号処理方法。 - 第1音声入力部から入力された第1音声に対応する第1音声信号を第1周波数信号に時間周波数変換すると共に、第2音声入力部から入力された第2音声に対応する第2音声信号を第2周波数信号に時間周波数変換する変換部と、
前記第1周波数信号と前記第2周波数信号との所定周波数毎の位相差、及び、検出対象となる目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、前記目的音が存在する度合いを表す存在係数、及び、前記目的音以外の非目的音が存在する度合いを表す非存在係数を設定する設定部と、
前記存在係数に基づいた存在値、並びに前記第1周波数信号及び第2周波数信号の何れか一方に応じた代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記目的音である確からしさを示す第1尤度、及び前記非存在係数に基づいた非存在値、並びに前記代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記非目的音である確からしさを示す第2尤度に基づいて、前記第1音声及び前記第2音声に前記目的音が含まれているか否かを判定する判定部と、
を含む、音声信号処理装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016181930A JP6677136B2 (ja) | 2016-09-16 | 2016-09-16 | 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置 |
US15/681,777 US10497380B2 (en) | 2016-09-16 | 2017-08-21 | Medium for voice signal processing program, voice signal processing method, and voice signal processing device |
EP17188111.3A EP3296988B1 (en) | 2016-09-16 | 2017-08-28 | Medium for voice signal processing program, voice signal processing method, and voice signal processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016181930A JP6677136B2 (ja) | 2016-09-16 | 2016-09-16 | 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018045195A JP2018045195A (ja) | 2018-03-22 |
JP6677136B2 true JP6677136B2 (ja) | 2020-04-08 |
Family
ID=59745220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016181930A Active JP6677136B2 (ja) | 2016-09-16 | 2016-09-16 | 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10497380B2 (ja) |
EP (1) | EP3296988B1 (ja) |
JP (1) | JP6677136B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7010136B2 (ja) * | 2018-05-11 | 2022-01-26 | 富士通株式会社 | 発声方向判定プログラム、発声方向判定方法、及び、発声方向判定装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4912036B2 (ja) | 2006-05-26 | 2012-04-04 | 富士通株式会社 | 指向性集音装置、指向性集音方法、及びコンピュータプログラム |
US8898058B2 (en) | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
KR20120080409A (ko) | 2011-01-07 | 2012-07-17 | 삼성전자주식회사 | 잡음 구간 판별에 의한 잡음 추정 장치 및 방법 |
JP5810903B2 (ja) | 2011-12-27 | 2015-11-11 | 富士通株式会社 | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
JP6156012B2 (ja) | 2013-09-20 | 2017-07-05 | 富士通株式会社 | 音声処理装置及び音声処理用コンピュータプログラム |
-
2016
- 2016-09-16 JP JP2016181930A patent/JP6677136B2/ja active Active
-
2017
- 2017-08-21 US US15/681,777 patent/US10497380B2/en active Active
- 2017-08-28 EP EP17188111.3A patent/EP3296988B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP3296988A1 (en) | 2018-03-21 |
JP2018045195A (ja) | 2018-03-22 |
EP3296988B1 (en) | 2019-11-13 |
US10497380B2 (en) | 2019-12-03 |
US20180082701A1 (en) | 2018-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8775173B2 (en) | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program | |
US9451362B2 (en) | Adaptive beam forming devices, methods, and systems | |
KR101610161B1 (ko) | 음성인식 시스템 및 그 방법 | |
JP2017067862A (ja) | 音声信号処理装置、音声信号処理方法及びプログラム | |
KR20120080409A (ko) | 잡음 구간 판별에 의한 잡음 추정 장치 및 방법 | |
EP3177040A2 (en) | Information processing apparatus, information processing method, and program | |
JP6337519B2 (ja) | 音声処理装置、雑音抑圧方法、およびプログラム | |
JP6439682B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP2011059186A (ja) | 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体 | |
US20200152215A1 (en) | Audio processing device, image processing device, microphone array system, and audio processing method | |
KR102633176B1 (ko) | 환경 잡음 보상 시스템에서 에러를 감소시키기 위한 방법 | |
US20160027438A1 (en) | Concurrent Segmentation of Multiple Similar Vocalizations | |
CN112824925A (zh) | 使用两个麦克风进行轻型全360度音频源位置检测 | |
JP6677136B2 (ja) | 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置 | |
JPWO2018037643A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP5435221B2 (ja) | 音源信号分離装置、音源信号分離方法及びプログラム | |
EP3240303B1 (en) | Sound feedback detection method and device | |
US10531189B2 (en) | Method for utterance direction determination, apparatus for utterance direction determination, non-transitory computer-readable storage medium for storing program | |
Bratoszewski et al. | Comparison of acoustic and visual voice activity detection for noisy speech recognition | |
JP6361360B2 (ja) | 残響判定装置及びプログラム | |
JP2008060902A (ja) | 単一指向性マイクロホン | |
KR101357381B1 (ko) | 강인한 음성 검출을 위한 신호 처리 장치 및 방법 | |
JP2016080767A (ja) | 周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラム | |
JP2020024310A (ja) | 音声処理システム及び音声処理方法 | |
JP7226107B2 (ja) | 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190611 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200225 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6677136 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |