JPH08185196A - 音声区間検出装置 - Google Patents

音声区間検出装置

Info

Publication number
JPH08185196A
JPH08185196A JP6329161A JP32916194A JPH08185196A JP H08185196 A JPH08185196 A JP H08185196A JP 6329161 A JP6329161 A JP 6329161A JP 32916194 A JP32916194 A JP 32916194A JP H08185196 A JPH08185196 A JP H08185196A
Authority
JP
Japan
Prior art keywords
section
voice
voice section
environmental noise
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6329161A
Other languages
English (en)
Inventor
Katsuki Minamino
活樹 南野
Kazuo Ishii
和夫 石井
Hiroaki Ogawa
浩明 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP6329161A priority Critical patent/JPH08185196A/ja
Publication of JPH08185196A publication Critical patent/JPH08185196A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【構成】 制御部10は、フレーム音声信号に対して、
有音声と無音声とを常に判定しながら、一方でスイッチ
操作によるスイッチ信号で指定される検出範囲よりも広
い範囲で記憶部20に記憶されている上記音声信号から
一つだけ音声区間を抽出し、出力する。 【効果】 スイッチが押されるより早いタイミングで発
声が行われた場合でも、語頭を欠くことなく音声区間を
検出できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、入力された音声信号か
ら、有音声部と無音声部を識別し、スイッチ操作と連動
させて必要な音声区間のみを検出する音声区間検出装置
に関する。
【0002】
【従来の技術】従来、音声区間を検出するには、音声信
号のパワーがあるしきい値を越えれば有音声部、そのし
きい値を越えなければ無音声部と判定し、ある一定長以
上の有音声部が得られたときに、これを音声区間として
検出するという方法がある。また、有音声部と無音声部
の判別に、零交差数を用いたり、周波数分解したスペク
トルパワーを用いたりする方法、さらに、これらを組み
合わせて判別する方法もある。また、環境雑音の平均エ
ネルギーに応じてしきい値を変動させたり、環境雑音の
平均スペクトルと入力信号のスペクトルとの類似性や相
関などを調べることで、雑音環境下でも音声区間が頑強
に検出できるようにした方法等もある。これらの方法を
そのまま音声認識システムや音声通信システムの前処理
として適用した場合、うまく音声区間を検出することが
できれば、後段の処理が正常に動作することが期待でき
るわけだが、実際には、その音声区間の前後に発生され
る不要な音声も検出されてしまい、システム全体の動作
に悪影響を及ぼすという問題が生じる。例えば、地名を
認識する音声認識システムでは、話者が「しながわ」と
発声すれば、その発声に対して認識を行うようにしたい
わけだが、その発声の前に「えーっと、」などと発声し
た場合にはこれも音声区間として検出されてしまい、そ
の発声に対して認識が行われることになってしまう。同
様に、「しながわ」と発声した後しばらくしてから「・
・・だよね?」などと横にいる話し手に話しかけた場
合、話者はシステムに話したつもりはなくても、やはり
これが音声区間として検出されてしまい、その発声に対
しても認識が行われることになってしまう。
【0003】これらの問題は、音声認識システムがユー
ザの発声した音声の中で、必要な音声区間だけを選ぶこ
とができないことに起因する。
【0004】そこで、スイッチを付け、必要な音声区間
をユーザが直接指定するようにすることで、この問題を
解決する方法が考えられる。一つは、スイッチが押され
ている間を音声区間として抽出する方法、一つは、スイ
ッチが一度押された後、一定時間の間に発声された音声
区間を前述の有音声と無音声の判別方法を用いて抽出す
る方法などである。
【0005】
【発明が解決しようとする課題】ところで、これらの方
法においては、ユーザが発声より少しでも遅れてスイッ
チを押した場合に、抽出すべき音声区間の最初の部分が
欠けてしまうという問題が生じてしまう。また、環境雑
音の平均エネルギーに応じてしきい値を変動させたり、
環境雑音の平均スペクトルを用いるなどするような雑音
環境下にも適応できる区間検出方法を用いた場合、従来
は、その環境雑音を抽出するためにスイッチを押してか
ら一定時間環境雑音を観測するということを行うため、
その間ユーザは話せないなどの煩わしさを伴うという問
題があった。
【0006】本発明は、上記実情に鑑みてなされたもの
であり、ユーザにスイッチを押すタイミングと発声のタ
イミングを意識させるような煩わしさを不要とさせ、必
要な音声区間だけをうまく検出し、かつ雑音環境下でも
安定した音声区間検出を実現できる音声区間検出装置の
提供を目的とする。
【0007】
【課題を解決するための手段】本発明に係る音声区間検
出装置は、音声信号が入力され、検出範囲を指定するス
イッチ操作に応じて音声区間を抽出して出力する音声区
間検出装置において、上記入力音声信号を一定時間分記
憶する記憶手段と、上記スイッチ操作で指定される検出
範囲よりも広い範囲で上記記憶手段に記憶されている上
記入力音声信号から一つだけ音声区間を抽出し、出力す
る制御手段とを有することにより上記課題を解決する。
【0008】この場合、上記制御手段は、上記記憶手段
から上記音声区間を抽出し、該音声区間を入力信号から
一定時間遅らせて送信する。
【0009】また、上記制御手段は、上記入力された音
声信号を周波数分析して信号パワースペクトルを求め、
環境雑音のパワースペクトルの定数倍に対する該信号パ
ワースペクトルの大小に応じて入力時の雑音を除去す
る。
【0010】また、上記制御手段は、上記信号パワース
ペクトルの積算値が所定のしきい値以上ならば有音声、
未満ならば無音声と判定する。
【0011】また、上記制御手段は、上記有音声と判定
される区間が所定長以上続いたときに、これを音声区間
として検出し、その後に上記無音声と判定される区間が
所定長以上続いたときに、上記音声区間が終了したと見
なす。
【0012】また、上記制御手段は、短い有音声部の後
に無音声部が続き、その後再び有音声部が続くような場
合、上記短い有音声部と上記無音声部の長さの比に応じ
て上記短い有音声部を音声区間とするか否かを判定す
る。
【0013】また、上記制御手段は、一定の長さの有音
声部の後に、無音声部が続き、その後短い有音声が続く
ような場合、上記無音声部と上記短い有音声部の長さの
比に応じて上記短い有音声部を音声区間とするか否かを
判定する。
【0014】また、上記制御手段は、上記音声区間と判
定された区間の前後にマージンを付加して、音声区間を
引き延ばす。
【0015】また、上記制御手段は、上記有音声/無音
声の判定のためのしきい値や、上記マージンのようなパ
ラメータを環境雑音の平均エネルギーに応じて変動させ
る。
【0016】また、上記制御手段は、上記パラメータと
上記環境雑音の平均エネルギーとの関係を比例関係とし
て予め決めておき、さらにそのパラメータの上限と下限
も決めておくことで、上記環境雑音の平均エネルギーか
ら上記パラメータを決定する。
【0017】また、上記制御部は、環境雑音の平均エネ
ルギーや環境雑音の平均パワースペクトルを無音声区間
で更新する。
【0018】また、上記制御部は、連続して無音声と判
定され続け、かつ更新前の環境雑音の平均エネルギーか
ら緩やかに変化するようなエネルギーを持つ区間におい
てのみ、環境雑音の平均エネルギーや環境雑音の平均パ
ワースペクトルを更新する。
【0019】また、上記制御部は、一定時間以上有音声
と判定され続けるような場合には、強制的に環境雑音の
平均エネルギーや環境雑音の平均パワースペクトルを更
新する。
【0020】また、上記制御部は、上記音声区間の抽出
を常に行う。
【0021】また、上記制御部は、上記環境雑音の平均
エネルギー、上記環境雑音の平均パワースペクトル及び
上記パラメータの更新を常に行う。
【0022】
【作用】有音声と無音声の判別による音声区間判定を常
に行いながら、その判定結果と一定時間前までの入力信
号を記憶しておくことで、スイッチが押されるより早い
タイミングで発声が行われた場合でも、語頭を欠くこと
なく音声区間を検出することが可能と成る。又、一つの
スイッチ指定区間に対して一つの音声区間だけを検出し
送信するようにしたことで、話者が発声の少し前や、少
し後に関係のない言葉を発声したとしても、これを音声
区間として検出することがなくなるため、例えば音声認
識装置に適用した場合などに誤動作を起こしにくくな
る。
【0023】さらに、入力信号を周波数分析して得られ
るパワースペクトルを用いること、及び、環境雑音の平
均エネルギーに適応させてパラメータを更新することな
どを行うことで、環境雑音下においても安定した音声区
間検出が行えるようにすると共に、その適応化を音声区
間の判定と平行して常に行っておくようにすることで、
スイッチを押してから雑音環境の観測を行う必要が特に
なくなるため、ユーザが発声するのを待たされることも
なくなる。つまり、ユーザは、単純にスイッチを押せば
一回だけ発話することができるということだけを覚えて
おけばよく、その発話とスイッチのタイミングをそれほ
ど意識しなくてよいものとなる。しかも、システムは、
必要な音声区間だけを検出することが可能となる。
【0024】そして、この音声区間検出装置を音声認識
システムや音声通信システムに組み込めば、入力信号の
なかから認識処理を行うべき音声区間や送信すべき音声
区間を抽出することができるようになる。
【0025】
【実施例】以下、本発明に係る音声区間検出装置の実施
例について説明する。この実施例となる音声区間検出装
置は、話者にスイッチを押すタイミングと発声のタイミ
ングとをあまり意識させることなく、必要な音声区間を
検出できる。この音声区間検出装置は、例えば図1に示
すような音声認識システムに適用され、検出した音声区
間は音声認識のために使われる。先ず、本実施例の音声
区間検出装置を説明する前に、図1に示す音声認識シス
テムについて説明する。
【0026】マイクロホン1で収音された音声信号は、
A/D変換器2でディジタル信号に変換され、本実施例
の音声区間検出装置3に供給される。この音声区間検出
装置3には、話者が押した区間指定スイッチ4からのオ
ン、オフ信号も供給される。そして、音声区間検出装置
3は、上記ディジタル信号と、上記オン、オフ信号を用
いることで、必要な音声区間の音声信号を検出し、これ
を音声認識部5に送る。音声認識部5は、音声区間検出
装置3が検出した音声信号に対して認識処理、すなわち
音響分析やベクトル量子化などによる特徴量の抽出と、
ダイナミックプログラミング(以下、DPという。)マ
ッチングやHMMなどによるスコア計算を行ない、その
認識結果を出力する。このような音声認識システムは、
さまざまな機器のコントロールを音声で行う場合や、キ
ーボードなどに変わる入力手段の一つとして、広く用い
られることが期待できる。
【0027】このような音声認識システムにおいて、話
者にあまり煩わしさを与えることなく、必要な音声区間
を抽出することが重要となる。このため、本実施例とな
る音声区間検出装置3が必要となる。
【0028】この音声区間検出装置3は、図2に示すよ
うに、制御部10と、例えばメモリのような記憶部20
とを有して成る。制御部10は、上記図1に示したA/
D変換器2でディジタル信号とされたマイクロホン1か
らの音声信号に対して、有音声と無音声とを常に判定し
ながら、一方で区間指定スイッチ4のスイッチ操作で指
定される検出範囲よりも広い範囲で記憶部20に記憶さ
れている上記音声信号から一つだけ音声区間を抽出し、
出力する。また、制御部10は、環境雑音の観測、内部
パラメータの更新なども行うようにする。記憶部20
は、ある一定時間分の入力音声信号を常に保存してお
く。
【0029】制御部10に入力されるA/D変換器2か
らのディジタル入力音声信号は、サンプリングされたデ
ータであり、例えば128サンプルをまとめて1フレー
ムとされ、1フレームずつ順に送られて来るものとす
る。なお、以下では、時刻tに制御部10に入力される
フレーム信号をFtと表す。
【0030】この制御部10は、図3に示すフローチャ
ートに基づいた動作を行う。
【0031】先ず、このフローチャートが開始される
と、この制御部10は、ステップS1に示すように、上
記フレーム信号Ftを記憶部20に保存する。ここで、
この記憶部20には、常にkフレーム前までの入力信号
を記憶しておくようにする。すなわち、記憶部20は、
時刻tにはk時刻前までのフレーム信号Ft、Ft-1、F
t-2・・・Ft-kを記憶している。
【0032】次に、この制御部10は、ステップS2か
らステップS5までに示すような動作を行い、時刻tの
入力フレーム信号Ftに音声が含まれるかどうか、つま
り有音声か無音声かを判別する。ステップS2からステ
ップS5までに示す動作は、周波数分析を用いる方法を
適用している。
【0033】ステップS2では、入力されたフレーム信
号Ftの周波数分析を行う。具体的には、入力されたサ
ンプル信号に、ハミングウィンドウをかけ、高速フーリ
エ変換(以下、FFTという。)を施すことで、パワー
スペクトルを求めたり、バンドパスフィルタを用いて各
帯域毎のパワースペクトルを抽出する。
【0034】ステップS3では、環境雑音の平均パワー
スペクトルを用いて、雑音除去を行う。具体的に、雑音
除去後のパワースペクトルX(ω)は、入力信号のパワ
ースペクトルをS(ω)、環境雑音の推定パワースペク
トルをN(ω)、オフセットをR、環境雑音の推定パワ
ースペクトルN(ω)にかける重み係数をαとすると、
【0035】
【数1】
【0036】のように求められる。したがって、この制
御部10は、ある帯域ωにおいて、入力信号のパワース
ペクトルS(ω)が環境雑音の推定パワースペクトルN
(ω)のα倍以上ならば、その帯域ωには雑音以外のパ
ワースペクトルが多く含まれていると見なしオフセット
Rを付加して上記入力信号のパワースペクトルS(ω)
をそのまま残し、逆に、もし上記入力信号のパワースペ
クトルS(ω)が上記環境雑音の推定パワースペクトル
N(ω)のα倍よりも小さいならば、その帯域には雑音
しか含まれていないと見なしオフセットRのみとするこ
とで、雑音のパワースペクトルを除去している。これに
より、環境雑音と周波数成分の異なる信号がある程度の
大きさで入力されれば、その周波数成分の存在する帯域
において、入力信号のパワースペクトルS(ω)が残る
ことになる。例えば、静かな環境、ファンノイズの環
境、自動車走行雑音の環境など、さまざまな雑音環境下
において音声が発声された場合、環境雑音が多少大きな
ときでも、音声帯域と環境雑音の帯域の相違から、雑音
除去後のパワースペクトルX(ω)の音声帯域における
入力信号のパワースペクトルS(ω)は除去されずに残
ることになる。
【0037】そこで、制御部10は、ステップS4に示
すように、ステップS3で得られたパワースペクトルX
(ω)からエネルギーEを、
【0038】
【数2】
【0039】のように求めた後、このエネルギーEがあ
るしきい値rより大きいか否かを判定し、ステップS5
に示すように有音声/無音声の判定を行っている。上記
(2)式のエネルギーEが上記しきい値r以上ならば有
音声、上記しきい値未満ならば無音声と判定する。ここ
で、しきい値rとしては、例えば、
【0040】
【数3】
【0041】のような一定値を用いたり、あるいは後述
するような、環境雑音の平均エネルギーに適応して変動
させた値を用いればよい。ただし、δは定数である。
【0042】なお、ここでは、有音声/無音声判定部の
判定方法として、周波数分析により得たパワースペクト
ルを用いる方法を述べたが、これに代わる方法として、
従来のパワーや零交差数などによる判定方法を用いても
よい。
【0043】次に、制御部10は、ステップS6に示す
ように、音声区間の判定を行う。音声区間の判定は、上
述したような有音声と無音声の判定に基づき、有音声部
が最低mフレーム(例えば、30フレーム)以上続く場
合の有音声部の始端から終端までを、基本的に音声区間
として判定するようにする。また、nフレーム(例えば
25フレーム)以上の無音声部が続けば、これを無音声
区間と判定し、上記音声区間が終了したと見なす。
【0044】この時、音声区間の始端をできるだけ早く
検出するため、図4の(A)に示すように、フレームF
tが入力されたときに、フレームFt-mが音声区間のフレ
ームであるかどうかを判定し、その結果を記憶部20に
書き込むようにする。すなわち、時刻tに右端のフレー
ムFtが入力されたときに、m時刻前のフレームFt-m
音声区間かどうかを判定し、その結果を記憶部20に書
き込ませる。図4の(A)の斜線部分は、有音声部を表
す。また、後述する図4の(B)乃至図4の(G)にお
いて、示される斜線部分も有音声部を表し、それを除く
部分は無音声部を表す。
【0045】以下、図4の(B)乃至図4の(G)を参
照しながらステップS6の音声区間判定の動作の詳細を
説明する。図4の(B)は、音声が入力されておらず、
無音声区間中にさらに無音声フレームが入力された場合
であり、Ft-mは無音声区間として判定される。図4の
(C)は、音声が入力され始め、有音声フレームが数フ
レーム連続して入力された場合であるが、まだmフレー
ム以上の有音声部が続いていないので、やはりFt-m
無音声区間として判定される。図4の(D)は、フレー
ムFtが有音声部として判定され、有音声部がちょうど
mフレーム続いたときを示し、このときフレームFt-m
が音声区間の始まりとして検出される。その後、図4の
(E)のように、しばらく入力フレームが有音声と判定
された場合、フレームFt-mは音声区間として判定され
続ける。しばらくして、音声の入力が終了すれば、図4
の(F)のように無音声フレームが入力され始める。し
かし、フレームFt-mはまだ音声区間として判定された
ままとなる。そして、図4の(G)のようにnフレーム
の無音声フレームが続けて入力された場合に、音声区間
の終了が検出される。ただし、図4の(G)はn≦mの
場合を示しており、この場合は、その後m−nフレーム
が音声区間として判定されることになる。そしてしばら
くして、再び図4の(B)に示す状態に戻る。
【0046】また、n>mの場合は、図4の(G)が少
し変わり、音声の入力が終了し、連続してmフレーム無
音声フレームが入力されても、フレームFt-mは音声区
間として判定されたままとなる。そこで、nフレームの
連続した無音声フレームが入力された時点で、Ft-m
無音声区間と判定し、同時に、そのn−mフレーム前ま
での音声区間と判定されたフレームFt-m-1、Ft-m-2
・・Ft-nの判定結果を無音声区間と書き換えるように
する。
【0047】なお、音声区間の判定結果として、音声区
間の始端や終端が検出された時に、どのフレームが始端
であるとか、どのフレームが終端であるとかの情報も記
憶部20に書き込むようにするものとする。
【0048】このステップS6に示すような音声区間の
判定を制御部10が行う場合、連続して有音声部と判定
されるような図5の(A)に示す音声信号に対しては問
題ないが、図5の(B)に示すような音声区間Vの前部
において無音声部Uに分離された短い有音声部vが存在
する場合や、図5の(C)に示すように音声区間V終了
後に無音声部Uが一旦入力され、続いて短い有音声部v
が入力された場合などに、これらを音声区間として含め
るかどうかという問題に対処できない。このような前後
に付加された短い有音声部vは、音声区間として含めた
方が良いものもあれば、誤って有音声部と判定された非
定常ノイズなど、音声区間に含めない方が良いものもあ
る。
【0049】そこで、ステップS6の音声区間判定時
に、以下に述べるような処理を追加する。先ず、問題と
なるのは、mフレーム未満しか連続しない有音声部の後
に無音声部が入力され、その後再び有音声部が入力され
た場合の処理である。そこで、このmフレーム未満の有
音声部のフレーム数とその後に続く無音声部のフレーム
数をカウントするようにし、mフレーム未満の有音声部
の後に、無音声フレームが連続して入力された場合に、
音声区間と見なすか見なさないかを図6の(A)のよう
な関係に基づいて判定する。すなわち、もし、mpre
レーム(例えば3フレーム)未満の有音声部vの後にn
preフレーム以上の無音声部Uが入力された場合は、そ
のmpreフレーム未満の有音声部vは音声区間から除去
するものとする。ただし、mpre<mとする。また、x
フレーム(mpreフレーム以上mフレーム未満)の有音
声部の後に、
【0050】
【数4】
【0051】フレーム以上の無音声が連続して入力され
れば、そのxフレームの有音声部も音声区間から除去す
る。つまり、図6の(A)に示すように、横軸を有音声
部の入力フレーム数、縦軸をその後に続く無音声部のフ
レーム数としたとき、斜線部の関係の場合は、その有音
声部を音声区間に含めず、斜線部より下の関係の場合
は、その有音声部との間にはさまった無音声部を音声区
間に含めるようにする。
【0052】以上のような処理を追加することにより、
図5(B)に示されるような音声区間Vの前部の短い有
音声部vの扱いとして、挿入された無音声部Uが短い時
には該短い有音声部vを音声区間に含め、長い時には該
短い有音声部vを音声区間に含めないようにすることが
可能となる。
【0053】同様に、図5の(C)のような音声区間V
の最後に無音声部Uで分離された短い有音声部vが存在
する場合の処理も同じように行う。すなわち、図6の
(B)に示されるように、mフレーム以上の有音声部の
後に発生した無音声部のフレーム数(縦軸)とその後に
表れるmフレーム未満の有音声部のフレーム数(横軸)
をカウントするようにし、無音声フレームが連続して入
力された後に、mフレーム未満の有音声部vが入力され
た場合に、音声区間と見なすか見なさないかを判定して
いる。つまり、図6の(B)に示す斜線部のような関係
にあれば、その最後の有音声部分は音声区間から除去
し、斜線部の下のような関係にあればその最後の有音声
部分との間に挟まった無音声部を音声区間に含めるよう
にする。すなわち、npostフレーム以上の無音声部Uが
入力された後に、mpostフレーム(例えば3フレーム)
未満の有音声部vが入力された場合は、そのmpostフレ
ーム未満の有音声部vは音声区間から除去する。ただ
し、mpost<mとする。また、xフレーム(mpostフレ
ーム以上mフレーム未満)の有音声部の前に、上記
(4)式と同様の式、すなわち上記(4)式のnpre
post、mpreをmpostと変更した式によって表される
フレーム以上の無音声部が連続して入力されていれば、
そのxフレームの有音声部も音声区間から除去する。
【0054】次に、制御部10は、ステップS7に示す
ように、ステップS6で音声区間と判定されたフレーム
の前後に、さらに音声区間としてのマージンを付加し、
実際の音声区間より少し長めの音声区間を抽出する。こ
れは、ステップS6の検出誤り、すなわち音声区間の始
端が遅れて検出されてしまったり、終端が速く検出され
てしまうのを防ぐために行う。
【0055】例えば、図4の(D)に示すように、音声
区間の始端が検出された時点、すなわち、時刻tにフレ
ームFtが入力され、そのm時刻前のフレームFt-mが音
声区間の始まりとして検出されたときに、記憶部20に
フレームFt-mが音声区間であると書き込むと同時に、
そこからさらにpフレーム前までのフレームに対しても
音声区間であったことを追加して書き込むようにすれば
よい。
【0056】同様に、図4の(E)のような音声区間の
終了が検出され、その終了フレームの判定結果が記憶部
20に書き込まれてから、さらにqフレーム後まで音声
区間とみなして、記憶部20に書き込み続けるようにす
る。以上のようにして、ステップS6において、判定さ
れた音声区間のフレームの前にpフレーム、後ろにqフ
レームのマージンを付加したものが最終的な音声区間と
して記憶部20に記憶されていくことになる。その際、
音声区間の始端や終端の情報も、対応したものに変更し
ておくようにする。ここで、マージンp、qは一定値を
用いたり、あるいは後述するような、環境雑音の平均エ
ネルギーに応じて変動させた値を用いてもよい。
【0057】次に、制御部10は、ステップS8に示す
ように、音声区間の判定のためのパラメータを環境の変
化に応じて更新する。音声区間の判定のためのパラメー
タ、すなわち環境雑音の推定パワースペクトルN(ω)
や環境雑音の平均エネルギーEn、さらに、有音声・無
音声の判定のためのしきい値rや音声区間のマージン
p,qは、環境の変化に応じて変動させることが、耐雑
音性能の向上のために必要となってくる。そこで、これ
らのパラメータの更新は毎フレーム行うことにし、一つ
のフレームの処理が終了した時点で、次フレームの処理
のために新しく更新を行うようにする。
【0058】まず、環境雑音の推定パワースペクトルN
(ω)と環境雑音の平均エネルギーEnの更新について
説明する。これは基本的には、音声区間外において、環
境雑音の推定パワースペクトルN(ω)や環境雑音の平
均エネルギーEnを平均化したものを求めるようにす
る。その求めかたとしては、先ず、入力フレームから求
められるパワースペクトルS(ω)からエネルギーES
を、
【0059】
【数5】
【0060】のように求め、そして、前フレームにおい
て求められた上記環境雑音の推定パワースペクトルN
(ω)と上記環境雑音の平均エネルギーEnを用いて、
例えば、
【0061】
【数6】
【0062】
【数7】
【0063】のように更新する。
【0064】ここで、h(例えば、20)は重み係数で
あり、更新前の値に(h−1)/h、入力フレームの値
に1/hの重みをかけて加え合わせることによって、時
間的に新しいフレームに重みをおいて平均化を行った結
果が得られることになる。
【0065】なお、上記の更新は、音声区間外のフレー
ムにおいてのみ行うものとし、例えば、図4の(B)
や、図4の(G)のように、nフレーム前から連続して
無音声と判定されつづけ、しかも前フレームで求められ
た環境雑音の平均エネルギーEnに比べて入力フレーム
のエネルギーESが急激に大きくなり過ぎないような入
力フレーム、例えば、EnとESを比較したとき、 En/ES>0.5 ・・・(8) を満たすような入力フレームにおいてのみ更新を行うよ
うにする。つまり、有音声と判定されるフレームや、既
に求めてある環境雑音の平均エネルギーから大きく離れ
たエネルギーをもつようなフレームにおいては、環境雑
音のパラメータ更新を行わないようにすることで、ある
程度安定した環境雑音の推定パワースペクトルN(ω)
や環境雑音の平均エネルギーEnが得られることにな
る。
【0066】このようにして得られた環境雑音の平均エ
ネルギーEnに適応させて、他のパラメータを更新する
方法に関して説明する。あるパラメータPを、環境雑音
の平均エネルギーEnが大きなときには大きく、Enが小
さいときには小さくしたい場合、簡単には、パラメータ
Pを環境雑音の平均エネルギーEnやその対数に比例さ
せて変動させる方法が考えられる。この際、パラメータ
Pの変動の範囲を制限するため、パラメータPの上限下
限を設定する。これを示したのが図7の(A)である。
横軸が環境雑音の平均対数エネルギーHであり、この平
均対数エネルギーHは、
【0067】
【数8】
【0068】のように求められる。また、縦軸がパラメ
ータPである。Pmax、Pminは、パラメータPの下限上
限を示している。また、比例定数は、例えば、パラメー
タPを環境雑音がHa[dB]の場合にPa、Hb[d
B]の場合にAbに設定したい場合、
【0069】
【数9】
【0070】のようにして求めることができる。このよ
うにして、図7の(A)のような関係を予め決めておけ
ば、環境雑音の平均エネルギーEnからパラメータPを
求めることが可能となる。同様に、パラメータPを、環
境雑音の平均エネルギーEnが大きいときに小さく、環
境雑音の平均エネルギーEnが小さいときに大きくした
い場合には、図7の(B)のような関係に基づいて求め
れば良い。比例定数はやはり上記(10)式で求められ
る。
【0071】このような環境雑音の平均エネルギーEn
に適応させたパラメータPの更新方法は、例えば、音声
区間の前後に付加するマージンp、qのように、環境雑
音が大きい場合には音声区間の判定の精度が悪くなるの
で大きくし、環境雑音が小さい場合には音声区間の判定
精度が良いので小さくしたいというときなどに用いるこ
とができる。また、上記(1)式の重み係数αや、有音
声・無音声の判定のためのしきい値rなどを、環境雑音
が大きい時には大きく、小さいときには小さくしたい場
合、あるいは逆に、環境雑音が大きいときには小さく、
小さいときには大きくしたい場合などに適用することが
できる。
【0072】以上、環境雑音の平均エネルギーEnの更
新方法と、該エネルギーEnに応じた他のパラメータP
の更新方法に関して述べた。基本的には、あるパラメー
タPを環境に適応させて変動させたい場合、パラメータ
Pと環境雑音の平均エネルギーEnの対応関係である P=f(En) を予め決めておき、環境雑音の平均エネルギーEnから
パラメータPを求めるようにすればよい。
【0073】なお、パラメータPを一定にすることは、
max=Pmin=constantとすることに対応する。
【0074】次に、制御部10は、ステップS8で示し
たパラメータ更新の例外として、音声区間が一定以上長
く続くような場合に、ステップS9に示すように強制的
なパラメータ更新を行う。
【0075】上記ステップS8のパラメータ更新におい
て、環境雑音の推定パワースペクトルN(ω)や環境雑
音の平均エネルギーEnは、音声区間外のフレームにお
いてのみ更新を行うものとしたが、例外として、音声区
間がある一定以上長く続くような場合には、強制的に更
新を行うようにしておく。つまり、図4の(E)のよう
な状態が長く続き、音声区間として判定されるフレーム
がQ(例えば500)フレーム以上続いた場合に、上記
N(ω)や上記Enを強制的に更新するようにする。こ
れは、環境雑音が急激に大きくなった場合などに、誤っ
て有音声と判定し続け、しかも、環境雑音の推定パワー
スペクトルN(ω)や環境雑音の平均エネルギーEn
これに追従できないという問題が生じるのを避けるため
である。このような処理を付加しておくことで、環境雑
音の変動に対してさらに強くすることが可能となる。
【0076】次に、制御部10は、ステップS10に示
すように、最終的に音声区間を検出し、送信を行う。
【0077】上述したステップS9までの処理が終了し
たとき、図2の記憶部20には入力フレームFtからk
フレーム前までのフレーム信号と、その時点までの判定
結果、すなわち、Ft-m、Ft-m-1、・・・Ft-kに対し
て付けられた音声区間の判定結果、及び音声区間の始端
・終端情報が記憶されていることになる。ここで、kは
音声区間として判定するために最低必要なフレーム数m
に、音声区間の始端を前にずらすためのマージンpの最
大値を加えたものより大きく、かつ無音声の区間を判定
するために最低必要なフレーム数nよりも大きいものと
する。これは、音声区間の判定が行われるのが入力され
てからmフレーム後であり、しかもマージンが付加され
る場合は、さらにpフレーム後となるため、そのフレー
ムの判定が確定するのは入力されてからmにpの最大値
を加えたフレーム分だけ遅れてからとなること、及び、
音声区間の終了が検知できるのは入力されてからnフレ
ーム遅れてからとなることから要求される。
【0078】そして、制御部10は、この記憶部20か
ら、ステップS10に示すように、必要な音声区間を検
出して出力する。図1の区間指定スイッチ4が押された
場合、図2の制御部10に対してスイッチ信号が送られ
て来る。これには、ほとんど遅延がない。この区間指定
スイッチ4のスイッチ信号の送られてくる様子を示した
のが、図8の(A)である。横軸が時間、縦軸がスイッ
チ信号であり、区間指定スイッチ4が押されている間
は、“1”、押されていないときは“0”の信号が送ら
れて来るものとする。これに対して、入力フレーム信号
は図8の(B)に示すようにΔ時間毎に送られてくる。
つまり、区間指定スイッチ4が押され出した時点ts
区間指定スイッチ4が離された時点teは、図8の
(C)に示されるように、あるフレームが入力されてか
ら次のフレームが入力されるまでのΔの間に検知される
はずである。
【0079】そこで、区間指定スイッチ4の押され出し
た時点tsの直後に入力されたフレーム(図8の(C)
の場合Ft+1)を区間指定スイッチ4のオンの起点と
し、区間指定スイッチ4が離された時点teの直後のフ
レーム(図8の(C)の場合Ft+4)を区間指定スイッ
チ4のオフの起点とする。そして、図9の(A)に示す
ように、区間指定スイッチ4のオンの起点のkフレーム
前から、区間指定スイッチ4のオフの起点のLフレーム
後ろまでの区間をスイッチ指定区間とする。このとき、
各フレーム信号が入力される度に、区間指定スイッチ4
のオン、オフの起点となるかどうかを調べることがで
き、これを基にして記憶されているkフレーム前から入
力フレームまでの信号がスイッチ指定区間に含まれるか
否かを判定できるので、その判定結果も記憶部20に書
き込むことにする。この際、スイッチ指定区間の始端と
終端の情報も記憶するようにしておく。そして、このス
イッチ指定区間の中に、音声区間の始端が検出されれ
ば、その音声区間の始端から終端までを必要な音声区間
として図10の(A)に示す範囲で検出し、これを送信
する。ここで、音声区間がスイッチ指定区間終了後も続
くような場合でも、図10の(B)に示すように、その
音声区間の終了までは送信するものとする。
【0080】送信の仕方は、図11に示すようにする。
すなわち、送信すべき音声区間の信号を入力させてか
ら、k時刻遅れて送信する。時刻tにおいては、図2の
記憶部20に記憶されているk時刻前のフレームFt-k
を常に着目し、そのフレームが送信すべき音声区間のフ
レームであるときのみ送信し、そうでないときは送信し
ない。こうすることによって、送信すべき音声区間のフ
レームは、入力フレームFtに同期して、k時刻遅れで
送信されることになるわけである。
【0081】次に、送信すべきか否かの判断について述
べる。時刻tにおいて着目するのは、k時刻前のフレー
ムFt-kである。この時点において、記憶部20には、
フレーム信号Ft-kが記憶されていると同時に、これが
スイッチ指定区間であるかどうか、音声区間であるかど
うかも既に判定され記憶されていることになる。また、
音声区間であれば、音声区間の始端・終端であるかどう
かも記憶されていることになる。そこで、図12に示す
ような状態遷移図にしたがって、着目フレームFt-k
どの状態からどの状態に遷移するかを調べ、その状態遷
移に応じて送信すべきかどうかを決定するようにする。
【0082】先ず最初、状態(i)から始める。そして、
区間指定スイッチ4のオンの起点が検知されるまで、状
態(i)で自己遷移する。もし、区間指定スイッチ4のオ
ンの起点が検知されれば、着目フレームFt-kが音声区
間の始端のフレームかどうかを調べ、NOならば状態(i
i)に、YESならば状態(iii)に遷移する。状態(ii)に
遷移した後は、着目フレームFt-kが音声区間の始端の
フレームかどうかを調べ、YESならば状態(iii)へ遷
移する。着目フレームが音声区間の始端でない場合は、
さらに着目フレームがスイッチ指定区間の終了フレーム
かどうかを調べ、NOならば状態(ii)で自己遷移し、Y
ESならば再び状態(i)に戻る。状態(iii)においては、
着目フレームが音声区間の終端フレームかどうかを調
べ、NOならば状態(iii)で自己遷移する。もし、着目
フレームが音声区間の終端フレームとなった場合は、そ
の時点からk時刻前まで、つまりフレームFt-k-1から
tが入力された間に区間指定スイッチ4のオンの起点
が検知されたかどうかを調べ、YESならば状態(ii)
に、NOならば状態(i)に遷移する。そして、このよう
な状態遷移において、状態(iii)への遷移時と状態(iii)
からの遷移時、すなわち、状態(i)から状態(iii)、状態
(ii)から状態(iii)、状態(iii)における自己遷移、状態
(iii)から状態(i)、状態(iii)から状態(ii)の遷移時に
おいて、着目フレームFt-kを送信するようにする。逆
に、それ以外の遷移時には、送信を行わないようにす
る。
【0083】以上のような処理により、着目フレームが
スイッチ指定区間に入った後、音声区間の始端が検知さ
れてから終端が検知されるまで送信が行われるようにな
る。もし、スイッチ指定区間が終了するまでに、音声区
間の始端が検知されないような場合は、何も送信されな
いままとなる。(状態(ii)から状態(i))。また、区間
指定スイッチ4のオンの起点が検出されない限り、状態
(i)から他の状態への遷移は起こらないため、一つのス
イッチ指定区間に送信される音声区間は一つまでとな
る。つまり、区間指定スイッチを一度押しただけで、2
つ以上の発話を行ったとしても、送信されるのは最初に
検出された音声区間だけとなる。ただし、発話終了後、
すぐに、区間指定スイッチ4を押して、再び発話した場
合に、最初の発話に対応する音声区間も二つ目の発話に
対応する音声区間も送信するようにするため、状態(ii
i)から状態(ii)への遷移を設けておく。つまり、音声区
間の信号は、入力時刻よりk時刻遅れてから送信される
ことを考慮して、音声区間の終端のフレームが入力され
てから送信されるまでの間に区間指定スイッチ4のオン
の起点が検出された場合は、状態(iii)から状態(ii)へ
遷移するようにしておく。
【0084】なお、着目フレームがスイッチ指定区間と
して終了していないにも関わらず、再びスイッチが押さ
れるようなことがあれば、スイッチ指定区間を延長し、
再度押された区間指定スイッチ4のオフの起点からさら
にLフレーム後ろまでを図9の(B)に示すように、新
たなスイッチ指定区間とする。
【0085】なお、上述した実施例となる音声区間検出
装置は、音声通信システムに組み込むこともでくる。こ
の場合、音声信号の送受信を行う制御部を図1の音声認
識部5の代わりに設ければよい。このため、入力された
音声信号の中から必要な音声区間だけを抽出し、送信す
ることが可能となる。
【0086】
【発明の効果】本発明に係る音声区間検出装置は、音声
信号が入力され、検出範囲を指定するスイッチ操作に応
じて音声区間を抽出して出力する音声区間検出装置にお
いて、上記入力音声信号を一定時間分記憶する記憶手段
と、上記スイッチ操作で指定される検出範囲よりも広い
範囲で上記記憶手段に記憶されている上記入力音声信号
から一つだけ音声区間を抽出し、出力する制御手段とを
有するので、有音声と無音声の判別による音声区間判定
を常に行いながら、その判定結果と一定時間前までの入
力信号を記憶しておくことで、スイッチが押されるより
早いタイミングで発声が行われた場合でも、語頭を欠く
ことなく音声区間を検出することが可能と成る。又、一
つのスイッチ指定区間に対して一つの音声区間だけを検
出し送信するようにしたことで、話者が発声の少し前
や、少し後に関係のない言葉を発声したとしても、これ
を音声区間として検出することがなくなるため、例えば
音声認識装置に適用した場合などに誤動作を起こしにく
くなる。
【0087】さらに、入力信号を周波数分析して得られ
るパワースペクトルを用いること、及び、環境雑音の平
均エネルギーに適応させてパラメータを更新することな
どを行うことで、環境雑音下においても安定した音声区
間検出が行えるようにすると共に、その適応化を音声区
間の判定と平行して常に行っておくようにすることで、
スイッチを押してから雑音環境の観測を行う必要が特に
なくなるため、ユーザが発声するのを待たされることも
なくなる。つまり、ユーザは、単純にスイッチを押せば
一回だけ発話することができるということだけを覚えて
おけばよく、その発話とスイッチのタイミングをそれほ
ど意識しなくてよいものとなる。しかも、システムは、
必要な音声区間だけを検出することが可能となる。
【0088】そして、この音声区間検出装置を音声認識
システムや音声通信システムに組み込めば、入力信号の
なかから認識処理を行うべき音声区間や送信すべき音声
区間を抽出することができるようになる。
【図面の簡単な説明】
【図1】本発明の音声区間検出装置を音声認識システム
に適用した例を示したブロック図である。
【図2】本発明の実施例の音声区間検出装置のブロック
図である。
【図3】上記実施例の音声区間検出装置の動作を説明す
るためのフローチャートである。
【図4】上記実施例の音声区間検出装置の制御部の音声
区間の判定について説明するための図である。
【図5】無音声部によって音声信号の一部が分離された
状態を示す図である。
【図6】図5に示した分離された音声区間の判定基準を
説明するための図である。
【図7】パラメータ更新における環境雑音のエネルギー
と環境雑音のパラメータの関係を示した図である。
【図8】スイッチ信号と入力フレーム信号の時間的関係
を示した図である。
【図9】スイッチ指定区間を説明するための図である。
【図10】スイッチ指定区間と音声区間の関係を示した
図である。
【図11】音声区間信号の送信の仕方を説明するための
図である。
【図12】音声区間信号の送信の判定について示した図
である。
【符号の説明】
3 音声区間検出装置 10 制御部 20 記憶部

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 音声信号が入力され、検出範囲を指定す
    るスイッチ操作に応じて音声区間を抽出して出力する音
    声区間検出装置において、 上記入力音声信号を記憶する記憶手段と、 上記スイッチ操作で指定される検出範囲よりも広い範囲
    で上記記憶手段に記憶されている上記入力音声信号から
    一つだけ音声区間を抽出し、出力する制御手段とを有す
    ることを特徴とする音声区間検出装置。
  2. 【請求項2】 上記制御手段は、上記記憶手段から上記
    音声区間を抽出し、該音声区間を入力信号から一定時間
    遅らせて送信することを特徴とする請求項1記載の音声
    区間検出装置。
  3. 【請求項3】 上記制御手段は、上記入力された音声信
    号を周波数分析して信号パワースペクトルを求め、環境
    雑音のパワースペクトルの定数倍に対する該信号パワー
    スペクトルの大小に応じて入力時の雑音を除去すること
    を特徴とする請求項1記載の音声区間検出装置。
  4. 【請求項4】 上記制御手段は、上記信号パワースペク
    トルの積算値が所定のしきい値以上ならば有音声、未満
    ならば無音声と判定することを特徴とする請求項3記載
    の音声区間検出装置。
  5. 【請求項5】 上記制御手段は、上記有音声と判定され
    る区間が所定長以上続いたときに、これを音声区間とし
    て検出し、その後に上記無音声と判定される区間が所定
    長以上続いたときに、上記音声区間が終了したと見なす
    ことを特徴とする請求項4記載の音声区間検出装置。
  6. 【請求項6】 上記制御手段は、短い有音声部の後に無
    音声部が続き、その後再び有音声部が続くような場合、
    上記短い有音声部と上記無音声部の長さの比に応じて上
    記短い有音声部を音声区間とするか否かを判定すること
    を特徴とする請求項5記載の音声区間検出装置。
  7. 【請求項7】 上記制御手段は、一定の長さの有音声部
    の後に、無音声部が続き、その後短い有音声が続くよう
    な場合、上記無音声部と上記短い有音声部の長さの比に
    応じて上記短い有音声部を音声区間とするか否かを判定
    することを特徴とする請求項5記載の音声区間検出装
    置。
  8. 【請求項8】 上記制御手段は、上記音声区間と判定さ
    れた区間の前後にマージンを付加して、音声区間を引き
    延ばすことを特徴とする請求項5、6又は7記載の音声
    区間検出装置。
  9. 【請求項9】 上記制御手段は、上記有音声/無音声の
    判定のためのしきい値や、上記マージンのようなパラメ
    ータを環境雑音の平均エネルギーに応じて変動させるこ
    とを特徴とする請求項4又は8記載の音声区間検出装
    置。
  10. 【請求項10】 上記制御手段は、上記パラメータと上
    記環境雑音の平均エネルギーとの関係を比例関係として
    予め決めておき、さらにそのパラメータの上限と下限も
    決めておくことで、上記環境雑音の平均エネルギーから
    上記パラメータを決定することを特徴とする請求項9記
    載の音声区間検出装置。
  11. 【請求項11】 上記制御部は、環境雑音の平均エネル
    ギーや環境雑音の平均パワースペクトルを無音声区間で
    更新することを特徴とする請求項9又は10記載の音声
    区間検出装置。
  12. 【請求項12】 上記制御部は、連続して無音声と判定
    され続け、かつ更新前の環境雑音の平均エネルギーから
    緩やかに変化するようなエネルギーを持つ区間において
    のみ、環境雑音の平均エネルギーや環境雑音の平均パワ
    ースペクトルを更新することを特徴とする請求項11記
    載の音声区間検出装置。
  13. 【請求項13】 上記制御部は、一定時間以上有音声と
    判定され続けるような場合には、強制的に環境雑音の平
    均エネルギーや環境雑音の平均パワースペクトルを更新
    することを特徴とする請求項9、10、11又は12記
    載の音声区間検出装置。
  14. 【請求項14】 上記制御部は、上記音声区間の抽出を
    常に行うことを特徴とする請求項1記載の音声区間検出
    装置。
  15. 【請求項15】 上記制御部は、上記環境雑音の平均エ
    ネルギー、上記環境雑音の平均パワースペクトル及び上
    記パラメータの更新を常に行うことを特徴とする請求項
    9、10、11、12又は13記載の音声区間検出装
    置。
JP6329161A 1994-12-28 1994-12-28 音声区間検出装置 Pending JPH08185196A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6329161A JPH08185196A (ja) 1994-12-28 1994-12-28 音声区間検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6329161A JPH08185196A (ja) 1994-12-28 1994-12-28 音声区間検出装置

Publications (1)

Publication Number Publication Date
JPH08185196A true JPH08185196A (ja) 1996-07-16

Family

ID=18218332

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6329161A Pending JPH08185196A (ja) 1994-12-28 1994-12-28 音声区間検出装置

Country Status (1)

Country Link
JP (1) JPH08185196A (ja)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108390A (ja) * 2000-09-27 2002-04-10 Sharp Corp 音声認識装置及びコンピュータ読み取り可能な記録媒体
JP2002350151A (ja) * 2001-05-24 2002-12-04 Mitsubishi Electric Corp ナビゲーション装置
JP2003241794A (ja) * 2002-02-18 2003-08-29 Nec Corp 音声認識装置及び方法
JP2004302196A (ja) * 2003-03-31 2004-10-28 Nec Corp 音声認識装置、音声認識方法及び音声認識プログラム
WO2005098818A1 (ja) * 2004-04-06 2005-10-20 Matsushita Electric Industrial Co., Ltd. 特定番組検出装置及び方法並びにプログラム
JP2006091130A (ja) * 2004-09-21 2006-04-06 Nissan Motor Co Ltd 音声認識装置および音声認識方法
JP2006133284A (ja) * 2004-11-02 2006-05-25 Kddi Corp 音声情報抽出装置
JP2006308993A (ja) * 2005-04-28 2006-11-09 Teac Corp 音声信号記録再生装置
JP2007264473A (ja) * 2006-03-29 2007-10-11 Toshiba Corp 音声処理装置、音声処理方法および音声処理プログラム
JP2008216273A (ja) * 2007-02-28 2008-09-18 Nippon Telegr & Teleph Corp <Ntt> 通話区間検出装置、その方法、プログラム及び記録媒体
JP2008242082A (ja) * 2007-03-27 2008-10-09 Konami Digital Entertainment:Kk 音声処理装置、音声処理方法、ならびに、プログラム
JP2009175178A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法
US7844452B2 (en) 2008-05-30 2010-11-30 Kabushiki Kaisha Toshiba Sound quality control apparatus, sound quality control method, and sound quality control program
US7856354B2 (en) 2008-05-30 2010-12-21 Kabushiki Kaisha Toshiba Voice/music determining apparatus, voice/music determination method, and voice/music determination program
WO2011145431A1 (ja) * 2010-05-19 2011-11-24 株式会社バンダイ ゲーム装置及びコンピュータプログラム
JP2019215513A (ja) * 2018-06-13 2019-12-19 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声区間の検出方法および装置
WO2020218597A1 (ja) * 2019-04-26 2020-10-29 株式会社Preferred Networks 区間検出装置、信号処理システム、モデル生成方法、区間検出方法およびプログラム
US10854200B2 (en) 2016-08-17 2020-12-01 Panasonic Intellectual Property Management Co., Ltd. Voice input device, translation device, voice input method, and recording medium

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59124397A (ja) * 1982-12-29 1984-07-18 松下電器産業株式会社 無音区間検出回路
JPS60118897A (ja) * 1983-11-30 1985-06-26 日本電気株式会社 音声信号書込み装置
JPH01112299A (ja) * 1987-07-16 1989-04-28 Fujitsu Ltd 音声認識装置
JPH02131300A (ja) * 1988-11-11 1990-05-21 Toshiba Corp 音声認識装置
JPH02184915A (ja) * 1989-01-12 1990-07-19 Toshiba Corp 音声認識装置及び方法
JPH03231295A (ja) * 1990-02-06 1991-10-15 Matsushita Refrig Co Ltd 音声認識装置
JPH05153082A (ja) * 1991-11-29 1993-06-18 Nec Corp 背景雑音電力検出器
JPH06266380A (ja) * 1993-03-12 1994-09-22 Toshiba Corp 音声検出回路

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59124397A (ja) * 1982-12-29 1984-07-18 松下電器産業株式会社 無音区間検出回路
JPS60118897A (ja) * 1983-11-30 1985-06-26 日本電気株式会社 音声信号書込み装置
JPH01112299A (ja) * 1987-07-16 1989-04-28 Fujitsu Ltd 音声認識装置
JPH02131300A (ja) * 1988-11-11 1990-05-21 Toshiba Corp 音声認識装置
JPH02184915A (ja) * 1989-01-12 1990-07-19 Toshiba Corp 音声認識装置及び方法
JPH03231295A (ja) * 1990-02-06 1991-10-15 Matsushita Refrig Co Ltd 音声認識装置
JPH05153082A (ja) * 1991-11-29 1993-06-18 Nec Corp 背景雑音電力検出器
JPH06266380A (ja) * 1993-03-12 1994-09-22 Toshiba Corp 音声検出回路

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108390A (ja) * 2000-09-27 2002-04-10 Sharp Corp 音声認識装置及びコンピュータ読み取り可能な記録媒体
JP2002350151A (ja) * 2001-05-24 2002-12-04 Mitsubishi Electric Corp ナビゲーション装置
JP2003241794A (ja) * 2002-02-18 2003-08-29 Nec Corp 音声認識装置及び方法
JP2004302196A (ja) * 2003-03-31 2004-10-28 Nec Corp 音声認識装置、音声認識方法及び音声認識プログラム
WO2005098818A1 (ja) * 2004-04-06 2005-10-20 Matsushita Electric Industrial Co., Ltd. 特定番組検出装置及び方法並びにプログラム
US8014882B2 (en) 2004-04-06 2011-09-06 Panasonic Corporation Particular program detection device, method, and program
JP2006091130A (ja) * 2004-09-21 2006-04-06 Nissan Motor Co Ltd 音声認識装置および音声認識方法
JP2006133284A (ja) * 2004-11-02 2006-05-25 Kddi Corp 音声情報抽出装置
JP2006308993A (ja) * 2005-04-28 2006-11-09 Teac Corp 音声信号記録再生装置
US7801726B2 (en) 2006-03-29 2010-09-21 Kabushiki Kaisha Toshiba Apparatus, method and computer program product for speech processing
JP2007264473A (ja) * 2006-03-29 2007-10-11 Toshiba Corp 音声処理装置、音声処理方法および音声処理プログラム
JP2008216273A (ja) * 2007-02-28 2008-09-18 Nippon Telegr & Teleph Corp <Ntt> 通話区間検出装置、その方法、プログラム及び記録媒体
JP2008242082A (ja) * 2007-03-27 2008-10-09 Konami Digital Entertainment:Kk 音声処理装置、音声処理方法、ならびに、プログラム
JP4563418B2 (ja) * 2007-03-27 2010-10-13 株式会社コナミデジタルエンタテインメント 音声処理装置、音声処理方法、ならびに、プログラム
JP2009175178A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法
US7844452B2 (en) 2008-05-30 2010-11-30 Kabushiki Kaisha Toshiba Sound quality control apparatus, sound quality control method, and sound quality control program
US7856354B2 (en) 2008-05-30 2010-12-21 Kabushiki Kaisha Toshiba Voice/music determining apparatus, voice/music determination method, and voice/music determination program
WO2011145431A1 (ja) * 2010-05-19 2011-11-24 株式会社バンダイ ゲーム装置及びコンピュータプログラム
US10854200B2 (en) 2016-08-17 2020-12-01 Panasonic Intellectual Property Management Co., Ltd. Voice input device, translation device, voice input method, and recording medium
JP2019215513A (ja) * 2018-06-13 2019-12-19 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声区間の検出方法および装置
WO2020218597A1 (ja) * 2019-04-26 2020-10-29 株式会社Preferred Networks 区間検出装置、信号処理システム、モデル生成方法、区間検出方法およびプログラム

Similar Documents

Publication Publication Date Title
JPH08185196A (ja) 音声区間検出装置
EP0077194B1 (en) Speech recognition system
KR101417975B1 (ko) 오디오 레코드의 엔드포인트를 자동 감지하는 방법 및 시스템
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
US6950796B2 (en) Speech recognition by dynamical noise model adaptation
US11037574B2 (en) Speaker recognition and speaker change detection
US6324509B1 (en) Method and apparatus for accurate endpointing of speech in the presence of noise
US4811399A (en) Apparatus and method for automatic speech recognition
EP0996110A1 (en) Method and apparatus for speech activity detection
JP2768274B2 (ja) 音声認識装置
US5842161A (en) Telecommunications instrument employing variable criteria speech recognition
EP1159737B9 (en) Speaker recognition
US7359856B2 (en) Speech detection system in an audio signal in noisy surrounding
JPH09106296A (ja) 音声認識装置及び方法
US7797157B2 (en) Automatic speech recognition channel normalization based on measured statistics from initial portions of speech utterances
JP2005017932A (ja) 音声認識装置および音声認識用プログラム
EP1022725A1 (en) Selection of acoustic models using speaker verification
CN111145763A (zh) 一种基于gru的音频中的人声识别方法及***
JP3069531B2 (ja) 音声認識方法
JP2002535708A (ja) 音声認識方法及び音声認識装置
EP1001407B1 (en) Speech processing apparatus and method
JPH06214596A (ja) 音声認識装置および話者適応化方法
KR100322202B1 (ko) 신경망을 이용한 음성인식장치 및 그 방법
KR20000056849A (ko) 음향 기기의 음성인식 방법
JPS645320B2 (ja)

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030630