JP2009251134A - 音声/非音声を判定する装置、方法およびプログラム - Google Patents

音声/非音声を判定する装置、方法およびプログラム Download PDF

Info

Publication number
JP2009251134A
JP2009251134A JP2008096715A JP2008096715A JP2009251134A JP 2009251134 A JP2009251134 A JP 2009251134A JP 2008096715 A JP2008096715 A JP 2008096715A JP 2008096715 A JP2008096715 A JP 2008096715A JP 2009251134 A JP2009251134 A JP 2009251134A
Authority
JP
Japan
Prior art keywords
frame
acoustic signal
spectrum
speech
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008096715A
Other languages
English (en)
Other versions
JP4950930B2 (ja
Inventor
Koichi Yamamoto
幸一 山本
Masami Akamine
政巳 赤嶺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008096715A priority Critical patent/JP4950930B2/ja
Priority to US12/234,976 priority patent/US8380500B2/en
Publication of JP2009251134A publication Critical patent/JP2009251134A/ja
Application granted granted Critical
Publication of JP4950930B2 publication Critical patent/JP4950930B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】非定常雑音に対しても音声/非音声の判定精度を向上する音声判定装置を提供する。
【解決手段】フレームごとに音響信号を周波数分析してスペクトルを算出するスペクトル算出部103と、雑音スペクトルを推定する雑音推定部104と、雑音信号のエネルギーに対する音響信号のエネルギーの相対的な大きさを表すエネルギー特徴量を算出するSNR算出部105と、正規化スペクトルエントロピーを算出するエントロピー算出部106と、複数フレームに対して算出されたエネルギー特徴量および正規化スペクトルエントロピーに基づいて特徴ベクトルを作成する特徴ベクトル作成部107と、所定の識別モデルに基づいて特徴ベクトルに対応するフレームの音声尤度を算出する尤度算出部109と、音声尤度が閾値より大きい場合にフレームが音声フレームであると判定する判定部110とを備えた。
【選択図】 図1

Description

この発明は、音響信号が音声であるか非音声であるかを判定する装置、方法およびプログラムに関する。
音響信号の音声/非音声判別処理では、入力した音響信号(入力信号)の各フレームから特徴量を抽出し、得られた特徴量を閾値処理することで当該フレームの音声/非音声を判別する。非特許文献1では、音声/非音声判別処理で用いる音響特徴量としてスペクトルエントロピーが提案されている。この特徴量は、入力信号から計算したスペクトルを確率分布とみなして計算されるエントロピーである。スペクトルエントロピーは、スペクトル分布が不均一な音声スペクトルに対しては小さな値をとり、スペクトル分布が均一な雑音スペクトルに対しては大きな値をとる。スペクトルエントロピーを用いた方法では、この性質を利用してフレーム毎の音声/非音声を判別している。
また、非特許文献2では、スペクトルエントロピーの性能を改良するための正規化手法が提案されている。非特許文献2では、推定した雑音スペクトルを用いて入力スペクトルを正規化している。具体的には、非特許文献2の正規化処理では、雑音区間におけるスペクトルエントロピーが大きくなるように入力信号のスペクトルを背景雑音のスペクトルで除算している。これにより、雑音区間のスペクトルが白色化され、低域にエネルギーが集中する自動車走行雑音のような不均一な背景雑音に対してもスペクトルエントロピーを大きくすることができる。正規化スペクトルエントロピーは、自動車走行雑音等の定常雑音に対して高い性能を示すことが確認されている。
J.L. Shen, J.Hung and L.S.Lee, "Robust entropy based end point detection for speech recognition in noise," in Proc. ICSLP-98, 1998. P. Renevey and A. Drygajlo, "Entropy Based Voice Activity Detection in Very Noisy Conditions," in Proc EUROSPEECH 2001, pp.1887-1890, September 2001.
しかしながら、上述した正規化スペクトルエントロピーでは、スペクトルが非定常に変化するバブルノイズ(Babble Noise)等に対しては十分な正規化を行うことができず、結果として雑音区間における正規化スペクトルエントロピーが音声信号と同様に低い値になるという問題があった。この問題により、正規化スペクトルエントロピーのみでは非定常雑音に対して十分な性能を発揮することはできなかった。
本発明は、上記に鑑みてなされたものであって、非定常雑音に対しても音声/非音声の判定の精度を向上することができる装置、方法およびプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、雑音信号を含む音響信号を取得する取得部と、取得された前記音響信号を予め定められた時間間隔を表すフレーム単位に分割する分割部と、フレームごとに前記音響信号を周波数分析して前記音響信号のスペクトルを算出するスペクトル算出部と、算出された前記スペクトルに基づいて前記雑音信号のスペクトルを表す雑音スペクトルを推定する推定部と、前記雑音信号のエネルギーに対する前記音響信号のエネルギーの相対的な大きさを表すエネルギー特徴量をフレームごとに算出するエネルギー算出部と、前記音響信号のスペクトルについての分布の特徴を表すスペクトルエントロピーを、推定された前記雑音スペクトルによって正規化した正規化スペクトルエントロピーを算出するエントロピー算出部と、フレームに予め定められた個数の前後のフレームを加えた複数のフレームのそれぞれに対して算出された前記エネルギー特徴量と、前記複数のフレームのそれぞれに対して算出された前記正規化スペクトルエントロピーとに基づいて、前記音響信号の特徴を表す特徴ベクトルをフレームごとに作成する作成部と、音声を含む音響信号のフレームである音声フレームに対応する前記特徴ベクトルを予め学習した識別モデルと、作成された前記特徴ベクトルとに基づいて、前記音響信号のフレームが前記音声フレームであることの確からしさを表す音声尤度を算出する尤度算出部と、前記音声尤度と予め定められた第1閾値とを比較し、前記音声尤度が前記第1閾値より大きい場合に、前記音響信号のフレームが前記音声フレームであると判定する判定部と、を備えたことを特徴とする。
また、本発明は、上記装置を実行することができる方法およびプログラムである。
本発明によれば、非定常雑音に対しても音声/非音声の判定の精度を向上することができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる装置、方法およびプログラムの最良な実施の形態を詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
(第1の実施の形態)
第1の実施の形態にかかる音声判定装置は、非特許文献1で提案されている正規化スペクトルエントロピーに対して、入力信号と背景雑音の雑音信号(以下、単に背景雑音という)との相対的な大きさを表すエネルギー特徴量を組み合わせた特徴量を、音声/非音声の判別に利用する。さらに、第1の実施の形態にかかる音声判定装置は、スペクトルの時間変化情報を利用するために、複数フレームから抽出した特徴量を利用する。
なお、非特許文献1の正規化スペクトルエントロピーは、入力信号のスペクトル形状に依存した特徴量である。一方、第1の実施の形態で利用する特徴量であるエネルギー特徴量は、入力信号と背景雑音の相対的な大きさを表している。このため、両特徴量が有する情報は補完関係にあると考えられる。また、バブルノイズは、複数人の音声信号が重畳された雑音であることから、フレーム単位のスペクトル情報のみでは十分な判別性能を発揮することができないものと考えられる。そこで、第1の実施の形態では、複数フレームから抽出したスペクトルの動的変化情報を利用することで性能向上を図っている。
なお、L.-S. Huang, C.-H. Yang, "A Novel Approach to Robust Speech Endpoint Detection in Car Environments," in Proc. ICASSP 2000, vol.3, pp.1751-1754, June 2000.(以下、文献Aという)では、スペクトルエントロピーと、エネルギーを乗算することにより得られた特徴量とを用いて音声の始終端を検出することが提案されている。しかし、この文献Aでは、正規化スペクトルエントロピーを用いていないため、スペクトル分布が不均一な雑音区間における性能を十分に発揮することはできないと考えられる。また、本発明のように複数フレームの情報を利用しておらず、スペクトルの動的変化情報を利用することによる性能向上を期待できない。さらに、文献Aで利用されるエネルギーは、背景雑音との相対的な大きさを考慮しておらず、信号を取り込む際のマイクゲインの調整により特徴量の出力が変動するという問題がある。
一方、第1の実施の形態では、背景雑音と入力信号との相対的な大きさを表す値をエネルギー特徴量として用いており、特徴量の値がマイクゲインにより変化することがない。マイクゲインに対する非依存性は、マイクゲインを十分に調整することができない実環境で重要な特性の一つといえる。また、この特性は、第1の実施の形態のようにGMM(Gaussian Mixture Model)等の識別器を用いて音声尤度を計算する際に、学習データの振幅レベルの影響を受けずに音声/非音声モデルを作成することができる点でも重要である。
図1は、第1の実施の形態にかかる音声判定装置100の構成を示すブロック図である。図1に示すように、音声判定装置100は、音響信号取得部101と、フレーム分割部102と、スペクトル算出部103と、雑音推定部104と、SNR算出部105と、エントロピー算出部106と、特徴ベクトル作成部107と、線形変換部108と、尤度算出部109と、判定部110とを備えている。
音響信号取得部101は、雑音信号を含む音響信号を取得する。具体的には、音響信号取得部101は、所定のサンプリング周波数(例えば16kHz)でマイク等(図示せず)から入力したアナログ信号をデジタル信号に変換することによって、音響信号を取得する。
フレーム分割部102は、音響信号取得部101から出力されるデジタル信号(音響信号)を予め定められた時間間隔のフレームに分割する。フレーム長は20〜30msec、分割するフレームのシフト幅は8〜12msec程度が好ましい。このとき、フレーム化処理を行う窓関数としてハミング窓を用いることができる。
スペクトル算出部103は、フレームごとに音響信号を周波数分析してスペクトルを算出する。例えば、スペクトル算出部103は、分割された各フレームに含まれる音響信号から離散フーリエ変換によりパワースペクトルを算出する。なお、スペクトル算出部103が、パワースペクトルの代わりに振幅スペクトルを算出するように構成してもよい。
雑音推定部104は、スペクトル算出部103で得られたパワースペクトルから背景雑音のパワースペクトル(雑音スペクトル)を推定する。雑音推定部104は、例えば音響信号の取り込み開始から100〜200msec程度の区間を雑音と仮定し、初期雑音を推定する。その後、雑音推定部104は、エネルギー特徴量であるSNR(後述)に応じて、初期雑音を逐次更新することによって以降のフレームでの雑音を推定する。
音響信号取り込み開始から10フレームを初期雑音推定に使う場合、初期雑音は以下の(1)式で計算することができる。また、11番目以降のフレームでは(2)式により雑音スペクトルを逐次更新することができる。
Figure 2009251134
ここで、SNR(t)はt番目のフレームにおけるSNR、THsnrは雑音更新を制御するためのSNRの閾値、μは更新速度を制御する忘却係数を表す。このように、雑音スペクトルを逐次更新することにより、非定常雑音環境下でもSNRおよび正規化スペクトルエントロピーの精度を向上させることができる。
SNR算出部105は、雑音信号のエネルギーに対する入力信号のエネルギーの相対的な大きさを表すエネルギー特徴量としてSNRを算出する。SNRは、入力信号および背景雑音のパワースペクトルから以下の(3)式により算出することができる。
Figure 2009251134
SNRは、入力信号と背景雑音の相対的な大きさを表しており、音声フレームにおけるエネルギーは雑音フレームにおけるエネルギーよりも大きくなること(SNR>0)を前提とした特徴量である。また、エネルギーの相対的な大きさを表しているため、パワースペクトルの形状に着目する正規化スペクトルエントロピーには含まれない情報を有している。さらに、SNRは、信号を取り込む際のマイクゲインに依存しない利点を持つため、マイクゲインを予め調整することが難しい環境でも頑健な特徴量である。
なお、SNRは、以下の(4)式〜(7)式によって算出することもできる。
Figure 2009251134
ここで、Enoiseは背景雑音のエネルギー、Ein(t)はt番目のフレームにおける入力信号のエネルギー、u(i)はi番目の時間信号のサンプル値、initialは背景雑音を計算するためのサンプル数、frameLengthはフレーム幅のサンプル数、shiftLengthはシフト幅のサンプル数を表す。
(4)式でSNRを算出する方法では、音響信号の取り込み開始後のinitialサンプルを雑音区間であると仮定して背景雑音のエネルギーEnoiseを計算している。その後、Enoiseと、入力信号の各フレームから計算したエネルギーEin(t)と比較することでSNRを抽出している。なお、initialサンプル数は200ms程度に設定することが好ましい(16kHzサンプリングで3200サンプル)。
エントロピー算出部106は、背景雑音と入力信号のパワースペクトルから、以下の(8)式〜(10)式によって正規化スペクトルエントロピーを計算する。
Figure 2009251134
なお、以下の(11)式および(12)式で算出される、非特許文献1で提案されているスペクトルエントロピーを背景雑音のパワースペクトルで正規化した値が、上記正規化スペクトルエントロピーに相当する。
Figure 2009251134
正規化スペクトルエントロピーは、入力信号から得られたパワースペクトルを確率分布とみなして算出されたエントロピーを表す。正規化スペクトルエントロピーは、パワースペクトル分布が不均一な音声信号に対しては小さな値をとり、パワースペクトル分布が均一な雑音信号に対しては大きな値をとる。また、背景雑音を利用した雑音スペクトルが白色化されることにより、不均一な分布を持つ背景雑音に対しても音声/非音声判別の性能を維持することができる。なお、正規化スペクトルエントロピーもSNRと同様にマイクゲインに非依存な特徴量である。
特徴ベクトル作成部107は、複数フレームに対して算出されたSNRおよび正規化スペクトルエントロピーを用いて特徴ベクトルを作成する。特徴ベクトル作成部107は、まず、以下の(13)式によって、各フレームそれぞれに対して算出されたSNRおよび正規化スペクトルエントロピーを含む単一フレーム特徴量を作成する。そして、特徴ベクトル作成部107は、以下の(14)式のように、t番目のフレームにおける特徴ベクトルx(t)を、前後の所定数のフレームに対する単一フレーム特徴量を結合することによって作成する。
Figure 2009251134
ここで、z(t)は、t番目のフレームにおけるSNRと正規化スペクトルエントロピーを含む単一フレーム特徴量を表す。また、Zは、結合する前後のフレーム数を表しており、3〜5程度に設定しておくことが望ましい。特徴ベクトルx(t)は、複数フレームの特徴量を結合したベクトルであり、スペクトルの時間変化情報を含んでいる。そのため、単一フレームから抽出した特徴量と比較して音声/非音声判別にとってより有効な情報を有している。
特徴ベクトル作成部107段で作成されたk次元の特徴ベクトルx(t)は、複数フレームの情報を利用した特徴量であり、単一フレーム特徴量と比較して一般に高次元の特徴ベクトルになる。
線形変換部108は、演算量の削減を目的として、特徴ベクトル作成部107で得られたk次元特徴ベクトルx(t)を、予め定められた変換行列Pによって線形変換する。例えば、線形変換部108は、以下の(15)式によって、j次元(j<k)の特徴ベクトルy(t)に変換する。
Figure 2009251134
ここで、Pはj×kの変換行列を表している。変換行列Pの値は、分布の最良近似を目的とした主成分分析やKL展開などの手法を用いて予め学習することが可能である。なお、線形変換部108は、k=jである変換行列、すなわち、次元を変更しない変換行列を用いて特徴ベクトルを線形変換するように構成してもよい。次元削除を目的としない場合であっても、線形変換を施すことにより、特徴ベクトルの各要素の無相関化や、識別にとって有利な特徴空間の選択することができる。
なお、線形変換部108を備えず、特徴ベクトル作成部107によって作成された特徴ベクトルを、後述する尤度算出で利用するように構成してもよい。
尤度算出部109は、線形変換部108で得られたj次元の特徴ベクトルy(t)と、音声および非音声を識別するための識別モデルとを用いて、音声尤度LRを算出する。尤度算出部109は、音声および非音声の識別モデルとしてGMMを用い、以下の(16)式によって音声尤度LRを算出する。
Figure 2009251134
ここで、g( | speech)は音声GMM、g( | nonspeech)は非音声GMMの対数尤度を表している。各GMMは、予めEMアルゴリズム(Expectation-Maximization algorithm)を用いた最大尤度基準により学習することが可能である。なお、特開2007−114413で提案されているように、射影行列PおよびGMMのパラメータを識別的に学習することもできる。
判定部110は、尤度算出部109で得られた音声らしさを表す評価値LRを基に、以下の(17)式により、各フレームが音声を含む音声フレームであるか、音声を含まない非音声フレームであるかを判別する。
Figure 2009251134
こで、θは音声らしさの閾値を表しており、例えば、θ=0のように音声/非音声にとって最適な値を予め選択しておく。
次に、このように構成された第1の実施の形態にかかる音声判定装置100による音声判定処理について図2を用いて説明する。図2は、第1の実施の形態における音声判定処理の全体の流れを示すフローチャートである。
まず、音響信号取得部101は、マイク等から入力したアナログ信号をデジタル信号に変換した音響信号を取得する(ステップS201)。次に、フレーム分割部102が、取得された音響信号を、所定長のフレーム単位に分割する(ステップS202)。
次に、スペクトル算出部103が、フレームごとに、各フレームに含まれる音響信号から離散フーリエ変換によりパワースペクトルを算出する(ステップS203)。次に、雑音推定部104が、上記(1)式または(2)式によって、算出されたパワースペクトルから背景雑音のパワースペクトル(雑音スペクトル)を推定する(ステップS204)。
次に、SNR算出部105が、上記(3)式によって、音響信号のパワースペクトルおよび雑音スペクトルからSNRを算出する(ステップS205)。また、エントロピー算出部106が、上記(8)式〜(10)式によって、雑音スペクトルとパワースペクトルとから正規化スペクトルエントロピーを算出する(ステップS206)。
次に、特徴ベクトル作成部107が、複数フレームに対して算出されたSNRおよび正規化スペクトルエントロピーを含む特徴ベクトルを作成する(ステップS207)。具体的には、特徴ベクトル作成部107は、上記(13)式によって各フレームに対して算出される単一フレーム特徴量を、音声/非音声の判別対象となるt番目のフレームの前後Zフレーム分結合した、上記(14)式で示すような特徴ベクトルを作成する。次に、線形変換部108が、上記(15)式によって、特徴ベクトルを線形変換する(ステップS208)。
次に、尤度算出部109が、GMMを識別モデルとし、上記(16)式により、線形変換した特徴ベクトルから音声尤度LRを算出する(ステップS209)。そして、判定部110が、算出された音声尤度LRが、所定の閾値θより大きいか否かを判断する(ステップS210)。
音声尤度LRが閾値θより大きい場合(ステップS210:YES)、判定部110は、算出した特徴ベクトルに対応するフレームが音声フレームであると判定する(ステップS211)。音声尤度LRが閾値θより大きくない場合(ステップS210:NO)、判定部110は、算出した特徴ベクトルに対応するフレームが非音声フレームであると判定する(ステップS212)。
次に、第1の実施の形態による音声/非音声判別性能について説明する。第1の実施の形態の方法により、5dBのバブルノイズに対してフレーム単位の音声/非音声判別を行った際のEER(Equal Error Rate)は16.24%であった。なお、正規化スペクトルエントロピーのみを用いる従来の手法では、同じ条件で音声/非音声判別を行った際のEERは8.22%であって。この結果から、第1の実施の形態の方法を用いることにより、正規化スペクトルエントロピーのみを音響特徴量として利用する方法と比較して、バブルノイズなどの非定常雑音に対する音声/非音声判別性能が向上することが確認できる。
このように、第1の実施の形態にかかる音声判定装置では、入力信号のスペクトル形状に依存した特徴量である正規化スペクトルエントロピーと、この正規化スペクトルエントロピーと補完関係にあるエネルギー特徴量とを組み合わせて作成した特徴ベクトルを音声/非音声の判別に利用することができる。このため、非定常雑音に対しても音声/非音声の判定の精度を向上することができる
また、エネルギー特徴量は、入力信号と背景雑音の相対的な大きさを表した値であり、マイクゲインに依存しない。このため、マイクゲインを十分に調整することができない実環境における音声/非音声判別性能の向上を図ることができる。また、学習データの振幅レベルの影響を受けずに、GMMなどによる音声/非音声モデルを作成することができる。
また、第1の実施の形態では、単一フレームではなく、複数フレームから得られた情報を利用して特徴ベクトルを作成している。これにより、スペクトルの動的変化情報を利用した高性能な音声/非音声判別処理を実現することができる。
(第2の実施の形態)
第2の実施の形態にかかる音声判定装置は、スペクトルの動的特徴量であるデルタ特徴量を算出し、デルタ特徴量を含む特徴ベクトルを作成して音声/非音声判別に利用する。
図3は、第2の実施の形態にかかる音声判定装置300の構成を示すブロック図である。図3に示すように、音声判定装置300は、音響信号取得部101と、フレーム分割部102と、スペクトル算出部103と、雑音推定部104と、SNR算出部105と、エントロピー算出部106と、特徴ベクトル作成部307と、尤度算出部309と、判定部310とを備えている。
第2の実施の形態では、線形変換部108を削除したことと、特徴ベクトル作成部307、尤度算出部309、および判定部310の機能とが第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる音声判定装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
特徴ベクトル作成部307は、t番目のフレームにおける前後WフレームのSNRおよび正規化スペクトルエントロピーから、スペクトルの動的特徴量であるデルタ特徴量を計算し、静的特徴量であるt番目のフレームのSNRおよび正規化スペクトルエントロピーと結合した4次元の特徴ベクトルx(t)を作成する。
具体的には、特徴ベクトル作成部307は、以下の(18)式および(19)式によって、それぞれSNRのデルタ特徴量であるΔsnr(t)および正規化スペクトルエントロピーのデルタ特徴量であるΔentropy’(t)を算出する。
Figure 2009251134
なお、Wはデルタ特徴量を算出する際のフレームの窓幅を表している。Wは3〜5フレーム程度が好ましい。
次に、特徴ベクトル作成部307は、以下の(20)式により、t番目のフレームの静的特徴量であるSNR(t)およびentropy’(t)と、算出した動的特徴量であるΔsnr(t)およびΔentropy’(t)とを結合した特徴ベクトルx(t)を作成する。
Figure 2009251134
この特徴ベクトルx(t)は、静的特徴量および動的特徴量を結合させたベクトルであり、スペクトルの時間変化情報を利用した特徴量である。そのため、単一フレームから抽出した特徴量と比較した場合、音声/非音声判別にとってより有効な情報を含んでいる。
尤度算出部309は、GMMの代わりにSVM(Support Vector Machine)を用いて音声尤度を算出する点が、第1の実施の形態と異なっている。なお、第1の実施の形態と同様に、GMMを用いて音声尤度を算出するように構成してもよい。
SVMは、2クラスの判別を行う識別器であり、分離超平面と学習データのマージンを最大化するように識別境界を構成するものである。Dong Enqing, Liu Guizhong, Zhou Yatong, and Zhang Xiaodi, "Applying support vector machines to voice activity detection," in Proc. ICSP 2002.(以下、文献Bという)では、音声区間検出の識別器としてSVMを用いている。尤度算出部309は、文献Bと同様の方法により音声/非音声の判別のためにSVMを利用する。
判定部310は、SVMからの出力を音声尤度として、上記(17)式によって音声/非音声を判別する。
次に、このように構成された第2の実施の形態にかかる音声判定装置300による音声判定処理について図4を用いて説明する。図4は、第2の実施の形態における音声判定処理の全体の流れを示すフローチャートである。
ステップS401からステップS406までの、音響信号取得処理、フレーム分割処理、スペクトル算出処理、雑音推定処理、SNR算出処理、およびエントロピー算出処理は、第1の実施の形態にかかる音声判定装置100におけるステップS201からステップS206までと同様の処理なので、その説明を省略する。
SNRおよび正規化スペクトルエントロピーが算出された後、特徴ベクトル作成部307は、上記(18)式および(19)式によって、前後のWフレームのSNRおよび正規化スペクトルエントロピーからSNRのデルタ特徴量および正規化スペクトルエントロピーのデルタ特徴量を算出する(ステップS407)。さらに、特徴ベクトル作成部307は、上記(20)式によって、t番目のフレームのSNRおよび正規化スペクトルエントロピーと、算出した2つのデルタ特徴量を含む特徴ベクトルを作成する(ステップS408)。
次に、尤度算出部309が、SVMを識別モデルとし、作成した特徴ベクトルから音声尤度を算出する(ステップS409)。そして、判定部310が、算出された音声尤度が、所定の閾値θより大きいか否かを判断する(ステップS410)。
音声尤度が閾値θより大きい場合(ステップS410:YES)、判定部310は、算出した特徴ベクトルに対応するフレームが音声フレームであると判定する(ステップS411)。音声尤度が閾値θより大きくない場合(ステップS410:NO)、判定部310は、算出した特徴ベクトルに対応するフレームが非音声フレームであると判定する(ステップS412)。
このように、第2の実施の形態にかかる音声判定装置では、判別対象となるフレームを中心とした所定窓幅における動的特徴量と当該判別対象フレームの静的特徴量を結合させて特徴ベクトルを作成し、音声/非音声判別に利用することができる。これにより、静的特徴量のみを用いる方法と比較して、より高性能な音声/非音声判別処理を実現することができる。
次に、第1または第2の実施の形態にかかる音声判定装置のハードウェア構成について図5を用いて説明する。図5は、第1または第2の実施の形態にかかる音声判定装置のハードウェア構成を示す説明図である。
第1または第2の実施の形態にかかる音声判定装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、HDD(Hard Disk Drive)、CD(Compact Disc)ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス61を備えており、通常のコンピュータを利用したハードウェア構成となっている。
第1または第2の実施の形態にかかる音声判定装置で実行される音声判定プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、第1または第2の実施の形態にかかる音声判定装置で実行される音声判定プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1または第2の実施の形態にかかる音声判定装置で実行される音声判定プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
また、第1または第2の実施の形態の音声判定プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
第1または第2の実施の形態にかかる音声判定装置で実行される音声判定プログラムは、上述した各部(音響信号取得部、フレーム分割部、スペクトル算出部、雑音推定部、SNR算出部、エントロピー算出部、特徴ベクトル作成部、線形変換部、尤度算出部、判定部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51(プロセッサ)が上記記憶媒体から音声判定プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。
以上のように、本発明にかかる装置、方法およびプログラムは、非定常雑音下の音響信号が音声であるか非音声であるかを判定する装置、方法およびプログラムに適している。
第1の実施の形態にかかる音声判定装置の構成を示すブロック図である。 第1の実施の形態における音声判定処理の全体の流れを示すフローチャートである。 第2の実施の形態にかかる音声判定装置の構成を示すブロック図である。 第2の実施の形態における音声判定処理の全体の流れを示すフローチャートである。 第1または第2の実施の形態にかかる音声判定装置のハードウェア構成を示す説明図である。
符号の説明
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 音声判定装置
101 音響信号取得部
102 フレーム分割部
103 スペクトル算出部
104 雑音推定部
105 SNR算出部
106 エントロピー算出部
107 特徴ベクトル作成部
108 線形変換部
109 尤度算出部
110 判定部
300 音声判定装置
307 特徴ベクトル作成部
309 尤度算出部
310 判定部

Claims (10)

  1. 雑音信号を含む音響信号を取得する取得部と、
    取得された前記音響信号を予め定められた時間間隔を表すフレーム単位に分割する分割部と、
    フレームごとに前記音響信号を周波数分析して前記音響信号のスペクトルを算出するスペクトル算出部と、
    算出された前記スペクトルに基づいて前記雑音信号のスペクトルを表す雑音スペクトルを推定する推定部と、
    前記雑音信号のエネルギーに対する前記音響信号のエネルギーの相対的な大きさを表すエネルギー特徴量をフレームごとに算出するエネルギー算出部と、
    前記音響信号のスペクトルについての分布の特徴を表すスペクトルエントロピーを、推定された前記雑音スペクトルによって正規化した正規化スペクトルエントロピーを算出するエントロピー算出部と、
    フレームに予め定められた個数の前後のフレームを加えた複数のフレームのそれぞれに対して算出された前記エネルギー特徴量と、前記複数のフレームのそれぞれに対して算出された前記正規化スペクトルエントロピーとに基づいて、前記音響信号の特徴を表す特徴ベクトルをフレームごとに作成する作成部と、
    音声を含む音響信号のフレームである音声フレームに対応する前記特徴ベクトルを予め学習した識別モデルと、作成された前記特徴ベクトルとに基づいて、前記音響信号のフレームが前記音声フレームであることの確からしさを表す音声尤度を算出する尤度算出部と、
    前記音声尤度と予め定められた第1閾値とを比較し、前記音声尤度が前記第1閾値より大きい場合に、前記音響信号のフレームが前記音声フレームであると判定する判定部と、
    を備えたことを特徴とする音声判定装置。
  2. 前記エネルギー算出部は、推定された前記雑音スペクトルに対する前記スペクトルの相対的な大きさを表す前記エネルギー特徴量をフレームごとに算出すること、
    を特徴とする請求項1に記載の音声判定装置。
  3. 前記作成部は、前記複数のフレームのそれぞれに対して算出された前記エネルギー特徴量と、前記複数のフレームのそれぞれに対して算出された前記正規化スペクトルエントロピーとを要素として含む前記特徴ベクトルをフレームごとに作成すること、
    を特徴とする請求項1に記載の音声判定装置。
  4. 前記作成部は、フレームの前記エネルギー特徴量と、フレームの前記正規化スペクトルエントロピーと、前記複数のフレームでの前記エネルギー特徴量の変化の特徴を表す動的特徴量と、前記複数のフレームでの前記正規化スペクトルエントロピーの変化の特徴を表す動的特徴量と、を要素として含む前記特徴ベクトルをフレームごとに作成すること、
    を特徴とする請求項1に記載の音声判定装置。
  5. 前記推定部は、算出された前記エネルギー特徴量と予め定められた第2閾値とを比較し、算出された前記エネルギー特徴量が前記第2閾値より小さい場合に、算出された前記スペクトルと推定された前記雑音スペクトルとを予め定められた重み付け係数で重み付け加算した値を、前記エネルギー特徴量を算出した前記フレームの次のフレームの雑音スペクトルとして推定すること、
    を特徴とする請求項1に記載の音声判定装置。
  6. 作成された前記特徴ベクトルを予め定められた変換行列によって変換する変換部をさらに備え、
    前記尤度算出部は、前記識別モデルと変換された前記特徴ベクトルとに基づいて、前記音響信号のフレームの前記音声尤度を算出すること、
    を特徴とする請求項1に記載の音声判定装置。
  7. 前記変換部は、前記特徴ベクトルより低次元のベクトルに変換する前記変換行列によって、作成された前記特徴ベクトルを変換すること、
    を特徴とする請求項6に記載の音声判定装置。
  8. 前記変換部は、前記特徴ベクトルと同次元のベクトルに変換する前記変換行列によって、作成された前記特徴ベクトルを変換すること、
    を特徴とする請求項6に記載の音声判定装置。
  9. 取得部が、雑音信号を含む音響信号を取得する取得ステップと、
    分割部が、取得された前記音響信号を予め定められた時間間隔を表すフレーム単位に分割する分割ステップと、
    スペクトル算出部が、フレームごとに前記音響信号を周波数分析して前記音響信号のスペクトルを算出するスペクトル算出ステップと、
    推定部が、算出された前記スペクトルに基づいて前記雑音信号のスペクトルを表す雑音スペクトルを推定する推定ステップと、
    エネルギー算出部が、前記雑音信号のエネルギーに対する前記音響信号のエネルギーの相対的な大きさを表すエネルギー特徴量をフレームごとに算出するエネルギー算出ステップと、
    エントロピー算出部が、前記音響信号のスペクトルについての分布の特徴を表すスペクトルエントロピーを、推定された前記雑音スペクトルによって正規化した正規化スペクトルエントロピーを算出するエントロピー算出ステップと、
    作成部が、フレームに予め定められた個数の前後のフレームを加えた複数のフレームのそれぞれに対して算出された前記エネルギー特徴量と、前記複数のフレームのそれぞれに対して算出された前記正規化スペクトルエントロピーとに基づいて、前記音響信号の特徴を表す特徴ベクトルをフレームごとに作成する作成ステップと、
    尤度算出部が、音声を含む音響信号のフレームである音声フレームに対応する前記特徴ベクトルを予め学習した識別モデルと、作成された前記特徴ベクトルとに基づいて、前記音響信号のフレームが前記音声フレームであることの確からしさを表す音声尤度を算出する尤度算出ステップと、
    判定部が、前記音声尤度と予め定められた第1閾値とを比較し、前記音声尤度が前記第1閾値より大きい場合に、前記音響信号のフレームが前記音声フレームであると判定する判定ステップと、
    を備えたことを特徴とする音声判定方法。
  10. コンピュータを、
    雑音信号を含む音響信号を取得する取得部と、
    取得された前記音響信号を予め定められた時間間隔を表すフレーム単位に分割する分割部と、
    フレームごとに前記音響信号を周波数分析して前記音響信号のスペクトルを算出するスペクトル算出部と、
    算出された前記スペクトルに基づいて前記雑音信号のスペクトルを表す雑音スペクトルを推定する推定部と、
    前記雑音信号のエネルギーに対する前記音響信号のエネルギーの相対的な大きさを表すエネルギー特徴量をフレームごとに算出するエネルギー算出部と、
    前記音響信号のスペクトルについての分布の特徴を表すスペクトルエントロピーを、推定された前記雑音スペクトルによって正規化した正規化スペクトルエントロピーを算出するエントロピー算出部と、
    フレームに予め定められた個数の前後のフレームを加えた複数のフレームのそれぞれに対して算出された前記エネルギー特徴量と、前記複数のフレームのそれぞれに対して算出された前記正規化スペクトルエントロピーとに基づいて、前記音響信号の特徴を表す特徴ベクトルをフレームごとに作成する作成部と、
    音声を含む音響信号のフレームである音声フレームに対応する前記特徴ベクトルを予め学習した識別モデルと、作成された前記特徴ベクトルとに基づいて、前記音響信号のフレームが前記音声フレームであることの確からしさを表す音声尤度を算出する尤度算出部と、
    前記音声尤度と予め定められた第1閾値とを比較し、前記音声尤度が前記第1閾値より大きい場合に、前記音響信号のフレームが前記音声フレームであると判定する判定部と、
    として機能させる音声判定プログラム。
JP2008096715A 2008-04-03 2008-04-03 音声/非音声を判定する装置、方法およびプログラム Expired - Fee Related JP4950930B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008096715A JP4950930B2 (ja) 2008-04-03 2008-04-03 音声/非音声を判定する装置、方法およびプログラム
US12/234,976 US8380500B2 (en) 2008-04-03 2008-09-22 Apparatus, method, and computer program product for judging speech/non-speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008096715A JP4950930B2 (ja) 2008-04-03 2008-04-03 音声/非音声を判定する装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2009251134A true JP2009251134A (ja) 2009-10-29
JP4950930B2 JP4950930B2 (ja) 2012-06-13

Family

ID=41134053

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008096715A Expired - Fee Related JP4950930B2 (ja) 2008-04-03 2008-04-03 音声/非音声を判定する装置、方法およびプログラム

Country Status (2)

Country Link
US (1) US8380500B2 (ja)
JP (1) JP4950930B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012215600A (ja) * 2011-03-31 2012-11-08 Oki Electric Ind Co Ltd 音声区間判定装置、音声区間判定方法、及びプログラム
JP2013117639A (ja) * 2011-12-02 2013-06-13 Fujitsu Ltd 音声処理装置、音声処理方法及び音声処理プログラム
JP2013201722A (ja) * 2012-03-26 2013-10-03 Tokyo Univ Of Science 多チャネル信号処理装置、方法、及びプログラム
WO2013179464A1 (ja) * 2012-05-31 2013-12-05 トヨタ自動車株式会社 音源検出装置、ノイズモデル生成装置、ノイズ抑圧装置、音源方位推定装置、接近車両検出装置及びノイズ抑圧方法
JP2014507894A (ja) * 2011-09-10 2014-03-27 歌尓声学股▲ふん▼有限公司 ノイズキャンセリングシステム及び方法、知能制御方法及び装置、並びに通信機器
JP2014092705A (ja) * 2012-11-05 2014-05-19 Nippon Telegr & Teleph Corp <Ntt> 音響信号強調装置、音響信号強調方法、およびプログラム
JP2014112190A (ja) * 2012-11-05 2014-06-19 Nippon Telegr & Teleph Corp <Ntt> 信号区間分類装置、信号区間分類方法、およびプログラム
US9153243B2 (en) 2011-01-27 2015-10-06 Nikon Corporation Imaging device, program, memory medium, and noise reduction method
WO2020218597A1 (ja) * 2019-04-26 2020-10-29 株式会社Preferred Networks 区間検出装置、信号処理システム、モデル生成方法、区間検出方法およびプログラム
KR102438701B1 (ko) * 2021-04-12 2022-09-01 한국표준과학연구원 마이크로폰 어레이를 이용한 음성신호 제거방법 및 제거장치

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8738367B2 (en) * 2009-03-18 2014-05-27 Nec Corporation Speech signal processing device
WO2010146711A1 (ja) * 2009-06-19 2010-12-23 富士通株式会社 音声信号処理装置及び音声信号処理方法
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
JP5156043B2 (ja) * 2010-03-26 2013-03-06 株式会社東芝 音声判別装置
US20120300100A1 (en) * 2011-05-27 2012-11-29 Nikon Corporation Noise reduction processing apparatus, imaging apparatus, and noise reduction processing program
CN103635962B (zh) * 2011-08-19 2015-09-23 旭化成株式会社 声音识别***、识别字典登记***以及声学模型标识符序列生成装置
KR20140031790A (ko) * 2012-09-05 2014-03-13 삼성전자주식회사 잡음 환경에서 강인한 음성 구간 검출 방법 및 장치
CN105225668B (zh) 2013-05-30 2017-05-10 华为技术有限公司 信号编码方法及设备
US9224402B2 (en) * 2013-09-30 2015-12-29 International Business Machines Corporation Wideband speech parameterization for high quality synthesis, transformation and quantization
WO2015059947A1 (ja) * 2013-10-22 2015-04-30 日本電気株式会社 音声検出装置、音声検出方法及びプログラム
GB2554943A (en) * 2016-10-16 2018-04-18 Sentimoto Ltd Voice activity detection method and apparatus
CN107731223B (zh) * 2017-11-22 2022-07-26 腾讯科技(深圳)有限公司 语音活性检测方法、相关装置和设备
CN108198547B (zh) * 2018-01-18 2020-10-23 深圳市北科瑞声科技股份有限公司 语音端点检测方法、装置、计算机设备和存储介质
CN108364637B (zh) * 2018-02-01 2021-07-13 福州大学 一种音频句子边界检测方法
CN110600060B (zh) * 2019-09-27 2021-10-22 云知声智能科技股份有限公司 一种硬件音频主动探测hvad***
CN110706693B (zh) * 2019-10-18 2022-04-19 浙江大华技术股份有限公司 语音端点的确定方法及装置、存储介质、电子装置
US11270720B2 (en) 2019-12-30 2022-03-08 Texas Instruments Incorporated Background noise estimation and voice activity detection system
CN112102818B (zh) * 2020-11-19 2021-01-26 成都启英泰伦科技有限公司 结合语音活性检测和滑动窗噪声估计的信噪比计算方法
CN112612008B (zh) * 2020-12-08 2022-05-17 中国人民解放军陆军工程大学 高速弹丸回波信号的起始参数提取方法及装置
CN112634934B (zh) * 2020-12-21 2024-06-25 北京声智科技有限公司 语音检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04223497A (ja) * 1990-12-25 1992-08-13 Oki Electric Ind Co Ltd 有音区間の検出方法
JPH05173594A (ja) * 1991-12-25 1993-07-13 Oki Electric Ind Co Ltd 有声音区間検出方法
JP2001331190A (ja) * 2000-05-22 2001-11-30 Matsushita Electric Ind Co Ltd 音声認識システムにおけるハイブリッド端点検出方法
JP2006113298A (ja) * 2004-10-14 2006-04-27 Nippon Telegr & Teleph Corp <Ntt> オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1116300A (en) 1977-12-28 1982-01-12 Hiroaki Sakoe Speech recognition system
US4531228A (en) 1981-10-20 1985-07-23 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
JPS61156100A (ja) 1984-12-27 1986-07-15 日本電気株式会社 音声認識装置
JPS62211699A (ja) 1986-03-13 1987-09-17 株式会社東芝 音声区間検出回路
JPH0740200B2 (ja) 1986-04-08 1995-05-01 沖電気工業株式会社 音声区間検出方法
US4829578A (en) 1986-10-02 1989-05-09 Dragon Systems, Inc. Speech detection and recognition apparatus for use with background noise of varying levels
JP2536633B2 (ja) 1989-09-19 1996-09-18 日本電気株式会社 複合語抽出装置
CA2040025A1 (en) 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
JP3034279B2 (ja) 1990-06-27 2000-04-17 株式会社東芝 有音検出装置および有音検出方法
JPH0416999A (ja) 1990-05-11 1992-01-21 Seiko Epson Corp 音声認識装置
US5201028A (en) 1990-09-21 1993-04-06 Theis Peter F System for distinguishing or counting spoken itemized expressions
US5459814A (en) 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
JPH06332492A (ja) 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
JP2690027B2 (ja) 1994-10-05 1997-12-10 株式会社エイ・ティ・アール音声翻訳通信研究所 パターン認識方法及び装置
JP3716870B2 (ja) 1995-05-31 2005-11-16 ソニー株式会社 音声認識装置および音声認識方法
JP3537949B2 (ja) 1996-03-06 2004-06-14 株式会社東芝 パターン認識装置及び同装置における辞書修正方法
JP3105465B2 (ja) 1997-03-14 2000-10-30 日本電信電話株式会社 音声区間検出方法
US6600874B1 (en) 1997-03-19 2003-07-29 Hitachi, Ltd. Method and device for detecting starting and ending points of sound segment in video
US20020138254A1 (en) 1997-07-18 2002-09-26 Takehiko Isaka Method and apparatus for processing speech signals
JP3677143B2 (ja) 1997-07-31 2005-07-27 株式会社東芝 音声処理方法および装置
US6757652B1 (en) 1998-03-03 2004-06-29 Koninklijke Philips Electronics N.V. Multiple stage speech recognizer
US6343267B1 (en) 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6263309B1 (en) 1998-04-30 2001-07-17 Matsushita Electric Industrial Co., Ltd. Maximum likelihood method for finding an adapted speaker model in eigenvoice space
US6327565B1 (en) 1998-04-30 2001-12-04 Matsushita Electric Industrial Co., Ltd. Speaker and environment adaptation based on eigenvoices
US6317710B1 (en) 1998-08-13 2001-11-13 At&T Corp. Multimedia search apparatus and method for searching multimedia content using speaker detection by audio data
US6161087A (en) 1998-10-05 2000-12-12 Lernout & Hauspie Speech Products N.V. Speech-recognition-assisted selective suppression of silent and filled speech pauses during playback of an audio recording
US6529872B1 (en) 2000-04-18 2003-03-04 Matsushita Electric Industrial Co., Ltd. Method for noise adaptation in automatic speech recognition using transformed matrices
US7089182B2 (en) 2000-04-18 2006-08-08 Matsushita Electric Industrial Co., Ltd. Method and apparatus for feature domain joint channel and additive noise compensation
US7236929B2 (en) 2001-05-09 2007-06-26 Plantronics, Inc. Echo suppression and speech detection techniques for telephony applications
KR100429896B1 (ko) * 2001-11-22 2004-05-03 한국전자통신연구원 잡음 환경에서의 음성신호 검출방법 및 그 장치
JP4292837B2 (ja) 2002-07-16 2009-07-08 日本電気株式会社 パターン特徴抽出方法及びその装置
US20040064314A1 (en) 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
US20040102965A1 (en) 2002-11-21 2004-05-27 Rapoport Ezra J. Determining a pitch period
JP4033299B2 (ja) * 2003-03-12 2008-01-16 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
JP4497834B2 (ja) 2003-04-28 2010-07-07 パイオニア株式会社 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体
WO2004111996A1 (ja) 2003-06-11 2004-12-23 Matsushita Electric Industrial Co., Ltd. 音響区間検出方法および装置
JP4521673B2 (ja) 2003-06-19 2010-08-11 株式会社国際電気通信基礎技術研究所 発話区間検出装置、コンピュータプログラム及びコンピュータ
US20080004881A1 (en) 2004-12-22 2008-01-03 David Attwater Turn-taking model
JP4667082B2 (ja) 2005-03-09 2011-04-06 キヤノン株式会社 音声認識方法
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US7680656B2 (en) * 2005-06-28 2010-03-16 Microsoft Corporation Multi-sensory speech enhancement using a speech-state model
JP2007114413A (ja) 2005-10-19 2007-05-10 Toshiba Corp 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム
JP4791857B2 (ja) 2006-03-02 2011-10-12 日本放送協会 発話区間検出装置及び発話区間検出プログラム
JP4282704B2 (ja) 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04223497A (ja) * 1990-12-25 1992-08-13 Oki Electric Ind Co Ltd 有音区間の検出方法
JPH05173594A (ja) * 1991-12-25 1993-07-13 Oki Electric Ind Co Ltd 有声音区間検出方法
JP2001331190A (ja) * 2000-05-22 2001-11-30 Matsushita Electric Ind Co Ltd 音声認識システムにおけるハイブリッド端点検出方法
JP2006113298A (ja) * 2004-10-14 2006-04-27 Nippon Telegr & Teleph Corp <Ntt> オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9153243B2 (en) 2011-01-27 2015-10-06 Nikon Corporation Imaging device, program, memory medium, and noise reduction method
JP2012215600A (ja) * 2011-03-31 2012-11-08 Oki Electric Ind Co Ltd 音声区間判定装置、音声区間判定方法、及びプログラム
JP2014507894A (ja) * 2011-09-10 2014-03-27 歌尓声学股▲ふん▼有限公司 ノイズキャンセリングシステム及び方法、知能制御方法及び装置、並びに通信機器
US9379751B2 (en) 2011-09-10 2016-06-28 Goertek Inc. Noise canceling system and method, smart control method and device and communication equipment
JP2013117639A (ja) * 2011-12-02 2013-06-13 Fujitsu Ltd 音声処理装置、音声処理方法及び音声処理プログラム
JP2013201722A (ja) * 2012-03-26 2013-10-03 Tokyo Univ Of Science 多チャネル信号処理装置、方法、及びプログラム
WO2013179464A1 (ja) * 2012-05-31 2013-12-05 トヨタ自動車株式会社 音源検出装置、ノイズモデル生成装置、ノイズ抑圧装置、音源方位推定装置、接近車両検出装置及びノイズ抑圧方法
JPWO2013179464A1 (ja) * 2012-05-31 2016-01-14 トヨタ自動車株式会社 音源検出装置、ノイズモデル生成装置、ノイズ抑圧装置、音源方位推定装置、接近車両検出装置及びノイズ抑圧方法
JP2014092705A (ja) * 2012-11-05 2014-05-19 Nippon Telegr & Teleph Corp <Ntt> 音響信号強調装置、音響信号強調方法、およびプログラム
JP2014112190A (ja) * 2012-11-05 2014-06-19 Nippon Telegr & Teleph Corp <Ntt> 信号区間分類装置、信号区間分類方法、およびプログラム
WO2020218597A1 (ja) * 2019-04-26 2020-10-29 株式会社Preferred Networks 区間検出装置、信号処理システム、モデル生成方法、区間検出方法およびプログラム
KR102438701B1 (ko) * 2021-04-12 2022-09-01 한국표준과학연구원 마이크로폰 어레이를 이용한 음성신호 제거방법 및 제거장치

Also Published As

Publication number Publication date
US8380500B2 (en) 2013-02-19
JP4950930B2 (ja) 2012-06-13
US20090254341A1 (en) 2009-10-08

Similar Documents

Publication Publication Date Title
JP4950930B2 (ja) 音声/非音声を判定する装置、方法およびプログラム
US11395061B2 (en) Signal processing apparatus and signal processing method
EP3479377B1 (en) Speech recognition
CN106663446B (zh) 知晓用户环境的声学降噪
US9666183B2 (en) Deep neural net based filter prediction for audio event classification and extraction
US9767806B2 (en) Anti-spoofing
JP5662276B2 (ja) 音響信号処理装置および音響信号処理方法
US9489965B2 (en) Method and apparatus for acoustic signal characterization
US9384760B2 (en) Sound processing device and sound processing method
KR20120080409A (ko) 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
US7818169B2 (en) Formant frequency estimation method, apparatus, and medium in speech recognition
WO2018163279A1 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
JP2002261553A (ja) 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム
JP2008257110A (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
US20160372132A1 (en) Voice enhancement device and voice enhancement method
JPH11212588A (ja) 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP5147012B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
JPWO2015093025A1 (ja) 音声処理装置、音声処理方法、及び、音声処理プログラム
JP4550674B2 (ja) 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム
JP5134477B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
JP2015031913A (ja) 音声処理装置、音声処理方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120309

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150316

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4950930

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150316

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees