JPH10254476A - 音声区間検出方法 - Google Patents

音声区間検出方法

Info

Publication number
JPH10254476A
JPH10254476A JP9060236A JP6023697A JPH10254476A JP H10254476 A JPH10254476 A JP H10254476A JP 9060236 A JP9060236 A JP 9060236A JP 6023697 A JP6023697 A JP 6023697A JP H10254476 A JPH10254476 A JP H10254476A
Authority
JP
Japan
Prior art keywords
section
speech
voice
acoustic model
interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9060236A
Other languages
English (en)
Other versions
JP3105465B2 (ja
Inventor
Tatsuo Matsuoka
達雄 松岡
Yasuhiro Minami
泰浩 南
Sadahiro Furui
貞▲煕▼ 古井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP09060236A priority Critical patent/JP3105465B2/ja
Publication of JPH10254476A publication Critical patent/JPH10254476A/ja
Application granted granted Critical
Publication of JP3105465B2 publication Critical patent/JP3105465B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】背景雑音が非定常な信号である場合や,雑音環
境下においても正確な音声認識を可能とするため,入力
信号中から音声区間を正確に自動検出する。 【解決手段】認識対象語彙(クラス)を網羅する全ての
音声を用いて学習した音声音響モデルと,音声の発声さ
れていない区間を用いて学習した非音声音響モデルとを
用い,入力信号の適当な区間長ごとに音声音響モデルと
非音声音響モデルの尤度比を計算する。その尤度比があ
るしきい値を越えた区間が一定時間継続した場合に,そ
の区間の始端,またはその区間の始端から一定時間さか
のぼった時点を音声区間の始端とし,その後,尤度比が
あるしきい値を下回る区間が一定時間継続した場合に,
その下回る区間の始端,またはその始端から一定時間経
過した時点を音声区間の終端として検出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は,機械による自動音
声認識における音声区間検出方法に関する。音声を認識
するための装置に実装され,入力信号中から音声区間を
検出するために用いられる。
【0002】
【従来の技術】従来の音声認識システムでは,主に音声
パワーの包絡の立ち上がり,立ち下がりにより音声区間
の始終端を検出していた。音声パワーに加えて,単位時
間のゼロ交叉数や,認識対象語彙,対象タスクの情報な
どの付加情報により検出精度を向上する手法などが提案
されているが,背景雑音が非定常な雑音である場合や,
連続発声された音声に適用するには十分な精度が得られ
ていたとは言えない。
【0003】図4は,従来技術による信号のパワーに基
づく音声区間検出方法のフローチャートである。ディジ
タル化(標本化&量子化)された入力信号はNサンプル
(標本点)ごとにブロック化され,ブロックごとの信号
パワーが計算される。信号パワーは,各サンプルの振幅
値の二乗をブロック内で総和したものとして計算され
る。
【0004】次に,背景雑音のレベルの変動を補償する
ためのパワーの正規化処理を行う。まず,Emin を次の
ように計算する。 Emin = min(E(k)) 〔1≦k≦NF〕 ここで,NF(Number of Frames)は,入力信号の長さ
をフレームでカウントした値であり,min()は,k
が1からNFまでの中の最小値を表す。
【0005】正規化したパワーEn (k)は,次のよう
に定義する。 En (k)=E(k)−Emin , k=1,2,…,N
F 次に,信号パワーのヒストグラムを求めることにより,
背景雑音レベルを推定する。ヒストグラムは例えば15
dB以上のフレームについて求める。そして,3点メデ
ィアン平滑化を適用し,修正したパワーの輪郭E
s (k)を得る。
【0006】Es (k)=En (k)−Mode ここで,Modeは平滑化されたヒストグラムのモード
である。このようにして求められた信号パワーE
s (k)(図中energy)と,実験的に決定された
しきい値(図中THR)とを比較し,信号パワーE
s (k)がしきい値THRを越えるフレーム数をカウン
トし,カウントしたフレーム数が一定値(図中MINL
EN)を越えた場合,その始端が音声区間の始端として
検出される。ただし,音声区間中にも短いポーズは存在
しうるため,ある一定時間(図中MAXPAUSE)は
無音区間があっても音声区間に含めて検出する。MAX
PAUSEを越える時間,信号パワーがしきい値THR
を下回った場合,その始端が音声区間の終端として検出
される。
【0007】図中,speech,pauseはカウン
タで,それぞれフレーム数をカウントする。speec
hは,信号パワーがしきい値THRを越えるフレーム数
を,pauseは,信号パワーがしきい値THRより小
さいフレーム数をカウントする。音声区間の始端と終端
では,信号パワーの低い部分を取りこぼさないように,
それぞれBEG,ENDフレームだけ音声区間に糊代を
付加して検出する。
【0008】以上の図4の処理を,各ステップに従って
説明すると,ステップS20では,Nサンプルごとにブ
ロック化された入力信号を1データブロック(フレー
ム)入力する。ステップS21では,入力したブロック
の信号パワーを計算する。ステップS22では,計算し
た信号パワーenergyと所定のしきい値THRとを
比較し,energyが大きい場合にはステップS23
へ進み,そうでない場合にはステップS26へ進む。
【0009】ステップS23では,音声区間を計数する
ためのカウンタspeechをインクリメントし,も
し,音声区間に含めてよい短い無音(ポーズ)区間がカ
ウントされていれば(ステップS24),ステップS2
5によって,そのポーズ区間のカウンタpauseの値
をカウンタspeechに加え,その後ステップS20
へ戻って,次のブロックの処理を同様に繰り返す。
【0010】信号パワーenergyがしきい値THR
を下回っている場合,ステップS26により,音声区間
がカウントされているかどうかを調べ,未カウントであ
ればステップS20へ戻る。音声区間がカウントされて
いれば,ステップS27により,ポーズ区間のカウンタ
pauseをインクリメントする。
【0011】ステップS28では,カウンタpause
の値と所定のMAXPAUSEとを比較し,カウンタp
auseの値がMAXPAUSEより大きければステッ
プS29へ進み,そうでなければステップS20へ戻
る。
【0012】ステップS29では,カウンタspeec
hの値と所定のMINLENとを比較し,カウンタsp
eechの値がMINLENより大きければステップS
31へ進み,そうでなければステップS30へ進む。ス
テップS30では,短い音声区間を無視するため,sp
eechとpauseを0に初期化し,ステップS20
へ戻って同様に処理を繰り返す。
【0013】ステップS31では,現ブロックからpa
useとspeechと音声区間の始端の糊代分のBE
Gを加えたブロック数を戻した点を音声区間の始点とす
る。ステップS32では,その始点からBEGとspe
echと音声区間の終端の糊代分のENDを加えたブロ
ック数を進めた点を音声区間の終端とする。その後,ス
テップS30によりspeechとpauseを初期化
し,同様に処理を続ける。
【0014】
【発明が解決しようとする課題】以上のような従来の手
法は,信号対雑音比が30dB以上の環境や,雑音が定
常的な性質のものである場合には,おおむね良好に動作
する。しかし,現実的な環境では,これらの手法がうま
く機能しない場面が多い。非定常な背景雑音が存在する
場合や,背景雑音のレベルが比較的高い場合などには音
声パワーの包絡から音声区間の検出をすることは非常に
困難である。
【0015】本発明の目的は,背景雑音が非定常な信号
である場合や,雑音環境下においても正確な音声認識を
可能とするため,入力信号中から音声区間を自動的に検
出する方法を提供することにある。
【0016】
【課題を解決するための手段】本発明は,認識対象語彙
(クラス)を網羅する全ての音声を用いて学習した音声
音響モデルと,音声の発声されていない区間を用いて学
習した非音声音響モデルとを用い,入力信号の適当な区
間長ごとに音声音響モデルと非音声音響モデルの尤度比
を計算する。その尤度比があるしきい値を越えた区間が
一定時間継続した場合に,その区間の始端,またはその
区間の始端から一定時間さかのぼった時点を音声区間の
始端とし,その後,尤度比があるしきい値を下回る区間
が一定時間継続した場合に,その下回る区間の始端,ま
たはその始端から一定時間経過した時点を音声区間の終
端として検出する。
【0017】以上のように,本発明は,音声と背景雑音
の周波数領域での統計的性質に基づき信号中から音声区
間を検出するため,信号のパワーやゼロ交叉数による方
法では問題となった背景雑音が非定常雑音である場合
や,背景雑音のレベルが高い場合にも正確に音声区間を
検出できるという利点がある。
【0018】
【発明の実施の形態】図1は,本発明の実施の形態を示
すブロック図である。まず,バンドパスフィルタによる
フィルタリング部1により,入力信号をフィルタリング
した後,A/D変換部2によってアナログ/ディジタル
変換(サンプリング,および,量子化)し,ディジタル
信号を得る。
【0019】次に,高域強調部3により,ディジタル化
された信号に,下記の[式1]に従って高域強調の処理
を施す。これは,通常,音声信号の周波数特性が低域か
ら高域にかけて下降する傾向にあり,これを補償するた
めである。
【0020】H(z)=1−az-1 [式1] さらに,特徴抽出のため,特徴量抽出部4により,信号
を適当な長さ(例えば,32ms)毎にブロック化し,
適当な長さ(例えば8ms)毎にシフトしながら特徴量
分析を行う。以下では,このシフト幅をフレームと呼
ぶ。
【0021】各フレームは,次の[式2]に示されるH
amming窓などにより重み付けを行い,フレーム毎
に切り出すことによる影響を低減する。 w(n)=0.54−0.46 cos(2πn/N), 0≦n≦N−1 [式2] 音声信号の特徴量としては,LPC(Linear Predictive
Coefficient:線形予測係数)分析に基づくケプストラ
ムとその一次時間微分を用いる。
【0022】以上のディジタル信号処理の後,尤度比計
算部5によって,二つのHMM(Hidden Markov Model)
に対する尤度を計算する。一つめのHMMは,全ての語
彙に対応する音声HMMである。このモデルは,対象語
彙の全てを含む音声を用いて学習され,対象語彙の音声
信号に対しては高い尤度を示すが,それ以外の信号には
尤度が低くなるように期待される。もう一つのHMM
は,無音区間など認識対象語彙外の信号区間を用いて学
習された非音声HMMで,無音区間で高い尤度を示し音
声信号には低い尤度を示すことが期待される。それぞれ
のHMMは非常に簡単な構造のモデルでよく,尤度計算
は高速に行うことが可能である。
【0023】以上の尤度の比から,音声区間判定部6に
よって音声区間を検出し,その結果を出力する。図2は
本実施の形態による処理の流れを示すフローチャートで
ある。以下に,フローチャートに従って処理の流れを説
明する。
【0024】なお,以下の説明において,カウンタsp
eechは,音声区間長を計るカウンタで,pause
は,無音区間と考えられる区間の区間長を計るカウンタ
である。しかし,音声区間内でも短いポーズは存在しう
るため,MAXPAUSE以下の長さのポーズは音声区
間に含めている。また,MINLENを越えない区間は
音声区間として検出しない。これは,あまり短い区間を
音声区間として抽出すると誤検出が増加するためであ
る。
【0025】各フレームごとのケプストラム,およびデ
ルタケプストラムに対して音声HMMと非音声HMMに
対する尤度を計算し,その尤度比(図中diff)を求
める(ステップS1,S2)。diffの定義は次式の
通りである。
【0026】diff=log P(ot |allspeech )−log
P(ot |background) ここで,log P(ot |allspeech )は,時刻tでの音
声HMMの入力信号otに対する対数尤度,log P(o
t |background)は,同じく,非音声HMMの対数尤度
である。フレームごとの対数尤度には細かいギャップな
どが存在し,安定した尺度でないため,Mフレームに渡
ってdiffの総和を取ることにより平滑化を行う(ス
テップS3)。
【0027】次のステップS4では,平滑化後のdif
f(図中measure)を,あらかじめ実験的に決定
しておいたしきい値(図中THR)と比較し,meas
ureがしきい値THRより大きければ,ステップS5
へ進み,そうでなければ,ステップS10へ進む。
【0028】measure>THRのとき,ステップ
S5では,当該フレームを音声区間の一部と判定して,
カウンタspeechをインクリメントする。次に,ス
テップS6により,ポーズ区間の長さを計るカウンタp
auseの値が0かどうかを判定し,pause=0で
あればステップS7をスキップし,pause=0でな
ければ,ステップS7によって,音声区間のカウンタs
peechに,pauseの値を加える。
【0029】次に,ステップS8により,speech
と音声区間とみなすための長さを定めたMINLENと
を比較し,speech<MINLENか,またはすで
に音声区間の始端(start point)がセット
されていれば,ステップS1へ戻って,入力信号の次の
フレームに対して一連の処理を繰り返す。
【0030】speech≧MINLENであり,かつ
始端がセットされていなければ,当該フレームよりBE
Gフレーム戻ったフレームを始端(start poi
nt)としてセットする。この音声区間検出と並列して
音声認識を走らせる場合には,ここで音声認識を駆動す
る。その後,ステップS1へ戻り,入力信号の次のフレ
ームに対して同様に処理を繰り返す。
【0031】ステップS4の判定において,measu
reがしきい値THRより小さければ,ステップS10
でspeechが0かどうかを調べ,0であればステッ
プS1へ戻る。0でなければ,ステップS11へ進み,
カウンタpauseをインクリメントする。
【0032】次に,ステップS12では,これまでのポ
ーズ区間が短いかどうかを調べるため,pauseと所
定のMAXPAUSEとを比較する。pauseがMA
XPAUSEより大きくないとき,ポーズ区間を音声区
間とみなしてよい場合があるので,ステップS1へ戻
り,同様に次のフレームの処理を行う。
【0033】pauseがMAXPAUSEより大きけ
れば,ステップS13へ進み,始端(start po
int)がセットされているかどうかを判定する。始端
がセットされていない場合には,ステップS14によ
り,speechとpauseとを0に初期化し,ステ
ップS1へ戻り,入力信号の次のフレームに対して一連
の処理を繰り返す。
【0034】始端がセットされている場合には,ステッ
プS15により,セットされている始端から当該フレー
ムまでを音声区間として出力する。その後,ステップS
16によりシステムを初期化し,ステップS1から同様
に処理を繰り返す。
【0035】
【実施例】図3に,信号パワーに基づいて音声区間検出
を行う従来法と統計的音響モデルの尤度比に基づく本発
明の方法の比較評価の結果を示す。
【0036】評価実験では,連続発声された4桁数字の
認識を対象タスクとした。音声区間検出方法を定量的に
評価するには,正解区間からの差分を定量的に評価すれ
ばよいように思えるが,正解区間をどのように与えるか
などの課題が残る。本発明の音声区間検出方法は,音声
認識のためのものであるから,音声認識の精度を測るこ
とでより直接的に本発明の効果を評価できる。ここで
は,同様の音声認識手法のもとで,音声区間検出方法を
従来法と本発明の方法として比較した。
【0037】評価対象には,一つの音声ファイル中に3
5の4桁数字が含まれた51の音声ファイルを用いた。
合計で1785の4桁数字がある。背景雑音が含まれた
データとして車の走行音を加算したデータを作成した。
車の走行音を含まない音声データのS/N比はおよそ2
5dB,車の走行音を含む音声データのS/N比はおよ
そ12dBである。また,音声区間検出方法の比較とし
ては,パワーに基づく従来法,統計的音響モデルの尤度
比に基づく本発明の方法のほか,人手により(波形を視
認し,また音声を聴取しながら)音声区間を検出した実
験も行った。
【0038】図3(A)は,パワーに基づく方法におい
て本実験に用いたパラメータを示す。実験的に最適値を
選んだ。図3(B)は,統計的音響モデルの尤度比に基
づく方法(本発明の方法)において用いたパラメータを
示す。同じく,実験的に最適値を選んだ。ここでは,M
AXPAUSEとENDは同じ値を用いた。
【0039】図3(C)は,S/N比が25dB,12
dBの音声データに対する,各音声区間検出方法を用い
た場合の4桁数字の認識結果を示している。この図にお
いて,Error rate(%)は,誤認識した割合, False al
arm は,音声区間でない部分を音声区間として検出して
しまった区間の数である。この結果より,本発明による
方法は人手による方法に比べ遜色なく,従来法に比べて
明らかに有効であることがわかる。
【0040】
【発明の効果】本発明によれば,背景雑音が非定常雑音
である場合や,雑音レベルが高い場合にも正確に入力信
号中から音声区間を検出できるという利点がある。
【図面の簡単な説明】
【図1】本発明の実施の形態を示すブロック図である。
【図2】音声HMMと非音声HMMの尤度比を用いて音
声区間を検出する本発明の実施の形態による処理の流れ
を説明するフローチャートである。
【図3】信号パワーに基づいて音声区間検出を行う従来
法と統計的音響モデルの尤度比に基づく本発明の実施例
による方法の比較評価の結果を示す図である。
【図4】信号パワーによって音声区間を検出する従来手
法の処理の流れを説明するフローチャートである。
【符号の説明】
1 フィルタリング部 2 A/D変換部 3 高域強調部 4 特徴量抽出部 5 尤度比計算部 6 音声区間判定部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 機械による自動音声認識において入力信
    号中から音声区間を検出する方法であって,認識対象語
    彙を網羅する全ての音声を用いて学習した音声音響モデ
    ルと,音声の発声されていない区間を用いて学習した非
    音声音響モデルとを具備し,入力信号の適当な区間長ご
    とに音声音響モデルと非音声音響モデルの尤度比を計算
    し,尤度比があるしきい値を越えた区間が一定時間継続
    した場合に,その区間の始端を音声区間の始端とし,そ
    の後,尤度比があるしきい値を下回る区間が一定時間継
    続した場合に,その始端を音声区間の終端として検出す
    ることを特徴とする音声区間検出方法。
  2. 【請求項2】 機械による自動音声認識において入力信
    号中から音声区間を検出する方法であって,認識対象語
    彙を網羅する全ての音声を用いて学習した音声音響モデ
    ルと,音声の発声されていない区間を用いて学習した非
    音声音響モデルとを具備し,入力信号の適当な区間長ご
    とに音声音響モデルと非音声音響モデルの尤度比を計算
    し,尤度比があるしきい値を越えた区間が一定時間継続
    した場合に,その区間の始端から一定時間さかのぼった
    時点を音声区間の始端とし,その後,尤度比があるしき
    い値を下回る区間が一定時間継続した場合に,その始端
    から一定時間経過した時点を音声区間の終端として検出
    することを特徴とする音声区間検出方法。
JP09060236A 1997-03-14 1997-03-14 音声区間検出方法 Expired - Lifetime JP3105465B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09060236A JP3105465B2 (ja) 1997-03-14 1997-03-14 音声区間検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09060236A JP3105465B2 (ja) 1997-03-14 1997-03-14 音声区間検出方法

Publications (2)

Publication Number Publication Date
JPH10254476A true JPH10254476A (ja) 1998-09-25
JP3105465B2 JP3105465B2 (ja) 2000-10-30

Family

ID=13136343

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09060236A Expired - Lifetime JP3105465B2 (ja) 1997-03-14 1997-03-14 音声区間検出方法

Country Status (1)

Country Link
JP (1) JP3105465B2 (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002236494A (ja) * 2001-02-09 2002-08-23 Denso Corp 音声区間判別装置、音声認識装置、プログラム及び記録媒体
JP2002268674A (ja) * 2001-03-12 2002-09-20 Animo:Kk 音声照合システム及び方法
JP2007114413A (ja) * 2005-10-19 2007-05-10 Toshiba Corp 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム
JP2007233148A (ja) * 2006-03-02 2007-09-13 Nippon Hoso Kyokai <Nhk> 発話区間検出装置及び発話区間検出プログラム
JP2008058876A (ja) * 2006-09-04 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体
JP2008064821A (ja) * 2006-09-05 2008-03-21 Nippon Telegr & Teleph Corp <Ntt> 信号区間推定装置、方法、プログラム及びその記録媒体
JP2008134606A (ja) * 2006-10-24 2008-06-12 Kyoto Univ 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法
JP2008145923A (ja) * 2006-12-13 2008-06-26 Nippon Telegr & Teleph Corp <Ntt> 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
JP2009031604A (ja) * 2007-07-27 2009-02-12 Nippon Telegr & Teleph Corp <Ntt> 音声区間検出装置、方法、プログラムおよびこれを記録した記録媒体
US8099277B2 (en) 2006-09-27 2012-01-17 Kabushiki Kaisha Toshiba Speech-duration detector and computer program product therefor
US8175868B2 (en) 2005-10-20 2012-05-08 Nec Corporation Voice judging system, voice judging method and program for voice judgment
US8380500B2 (en) 2008-04-03 2013-02-19 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for judging speech/non-speech
JP2013160937A (ja) * 2012-02-06 2013-08-19 Mitsubishi Electric Corp 音声区間検出装置
WO2015059947A1 (ja) * 2013-10-22 2015-04-30 日本電気株式会社 音声検出装置、音声検出方法及びプログラム
WO2015059946A1 (ja) * 2013-10-22 2015-04-30 日本電気株式会社 音声検出装置、音声検出方法及びプログラム
JP5794507B1 (ja) * 2014-12-24 2015-10-14 国立大学法人宮城教育大学 音痴改善トレーニング装置および音痴改善トレーニングプログラム
JP2019132997A (ja) * 2018-01-31 2019-08-08 日本電信電話株式会社 音声処理装置、方法およびプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101822434A (zh) * 2010-02-11 2010-09-08 开平利德威钩带有限公司 两边车直线反底包边无缝背扣及其加工方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002236494A (ja) * 2001-02-09 2002-08-23 Denso Corp 音声区間判別装置、音声認識装置、プログラム及び記録媒体
JP2002268674A (ja) * 2001-03-12 2002-09-20 Animo:Kk 音声照合システム及び方法
JP2007114413A (ja) * 2005-10-19 2007-05-10 Toshiba Corp 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム
US8175868B2 (en) 2005-10-20 2012-05-08 Nec Corporation Voice judging system, voice judging method and program for voice judgment
JP2007233148A (ja) * 2006-03-02 2007-09-13 Nippon Hoso Kyokai <Nhk> 発話区間検出装置及び発話区間検出プログラム
JP2008058876A (ja) * 2006-09-04 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体
JP4690973B2 (ja) * 2006-09-05 2011-06-01 日本電信電話株式会社 信号区間推定装置、方法、プログラム及びその記録媒体
JP2008064821A (ja) * 2006-09-05 2008-03-21 Nippon Telegr & Teleph Corp <Ntt> 信号区間推定装置、方法、プログラム及びその記録媒体
US8099277B2 (en) 2006-09-27 2012-01-17 Kabushiki Kaisha Toshiba Speech-duration detector and computer program product therefor
JP2008134606A (ja) * 2006-10-24 2008-06-12 Kyoto Univ 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法
JP2008145923A (ja) * 2006-12-13 2008-06-26 Nippon Telegr & Teleph Corp <Ntt> 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
JP4673828B2 (ja) * 2006-12-13 2011-04-20 日本電信電話株式会社 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
JP2009031604A (ja) * 2007-07-27 2009-02-12 Nippon Telegr & Teleph Corp <Ntt> 音声区間検出装置、方法、プログラムおよびこれを記録した記録媒体
US8380500B2 (en) 2008-04-03 2013-02-19 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for judging speech/non-speech
JP2013160937A (ja) * 2012-02-06 2013-08-19 Mitsubishi Electric Corp 音声区間検出装置
WO2015059947A1 (ja) * 2013-10-22 2015-04-30 日本電気株式会社 音声検出装置、音声検出方法及びプログラム
WO2015059946A1 (ja) * 2013-10-22 2015-04-30 日本電気株式会社 音声検出装置、音声検出方法及びプログラム
US20160267924A1 (en) * 2013-10-22 2016-09-15 Nec Corporation Speech detection device, speech detection method, and medium
JPWO2015059947A1 (ja) * 2013-10-22 2017-03-09 日本電気株式会社 音声検出装置、音声検出方法及びプログラム
JPWO2015059946A1 (ja) * 2013-10-22 2017-03-09 日本電気株式会社 音声検出装置、音声検出方法及びプログラム
JP5794507B1 (ja) * 2014-12-24 2015-10-14 国立大学法人宮城教育大学 音痴改善トレーニング装置および音痴改善トレーニングプログラム
JP2019132997A (ja) * 2018-01-31 2019-08-08 日本電信電話株式会社 音声処理装置、方法およびプログラム

Also Published As

Publication number Publication date
JP3105465B2 (ja) 2000-10-30

Similar Documents

Publication Publication Date Title
JP3105465B2 (ja) 音声区間検出方法
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US4821325A (en) Endpoint detector
US6711536B2 (en) Speech processing apparatus and method
Moattar et al. A simple but efficient real-time voice activity detection algorithm
US7567900B2 (en) Harmonic structure based acoustic speech interval detection method and device
EP0548054B1 (en) Voice activity detector
EP1973104B1 (en) Method and apparatus for estimating noise by using harmonics of a voice signal
KR20010040669A (ko) 잡음 보상되는 음성 인식 시스템 및 방법
US20030093265A1 (en) Method and system of chinese speech pitch extraction
US7359856B2 (en) Speech detection system in an audio signal in noisy surrounding
US6411925B1 (en) Speech processing apparatus and method for noise masking
US6560575B1 (en) Speech processing apparatus and method
US7254532B2 (en) Method for making a voice activity decision
Strope et al. Robust word recognition using threaded spectral peaks
Sorin et al. The ETSI extended distributed speech recognition (DSR) standards: client side processing and tonal language recognition evaluation
US6539350B1 (en) Method and circuit arrangement for speech level measurement in a speech signal processing system
US7233894B2 (en) Low-frequency band noise detection
Stegmann et al. Robust classification of speech based on the dyadic wavelet transform with application to CELP coding
JPH0449952B2 (ja)
US20240013803A1 (en) Method enabling the detection of the speech signal activity regions
JPS60129796A (ja) 音声入力装置
US20030105626A1 (en) Method for improving speech quality in speech transmission tasks
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
Hubing et al. Exploiting recursive parameter trajectories in speech analysis

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080901

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080901

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090901

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090901

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100901

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100901

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110901

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120901

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130901

Year of fee payment: 13

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term