JP3691511B2 - 休止検出を行う音声認識 - Google Patents

休止検出を行う音声認識 Download PDF

Info

Publication number
JP3691511B2
JP3691511B2 JP52084194A JP52084194A JP3691511B2 JP 3691511 B2 JP3691511 B2 JP 3691511B2 JP 52084194 A JP52084194 A JP 52084194A JP 52084194 A JP52084194 A JP 52084194A JP 3691511 B2 JP3691511 B2 JP 3691511B2
Authority
JP
Japan
Prior art keywords
recognition
signal
noise
speech
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP52084194A
Other languages
English (en)
Other versions
JPH08508108A (ja
Inventor
パワー、ケビン・ジョゼフ
ジョンソン、スチーブン・ハワード
スカヒル、フランシス・ジェイムズ
リングランド、サイモン・パトリック・アレキサンダー
タリンタイヤー、ジョン・エドワード
Original Assignee
ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー filed Critical ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー
Publication of JPH08508108A publication Critical patent/JPH08508108A/ja
Application granted granted Critical
Publication of JP3691511B2 publication Critical patent/JP3691511B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Indicating And Signalling Devices For Elevators (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)
  • Time-Division Multiplex Systems (AREA)

Description

本発明は、音声認識のための方法及び機器に関するものである。機械を制御するための入力手段として音声認識を使用する。現在のところ、音声認識機器は、一般的に分離された単一の単語を認識している。また、文、あるいは、語句で連続的に話された複数の単語を認識することを目的とした音声認識機器が開発中である;これは、連結音声認識と呼ばれている。
音声認識では、マイクロフォンが、話者からの音声信号を採取して、次に、音声信号がディジタル化され、認識のために処理される。しかしながら、マイクロフォンは、一般的にバックグラウンドノイズ、あるいは、周囲ノイズも採取して、マイクロフォンと音声認識機器との間の電気システムも同様にノイズ(例えば、熱ノイズ、量子化ノイズ、及び−ここで、音声は、電気通信チャネルを通して伝送される−回線ノイズ)を追加する。ノイズは、例えば、無声音の歯擦音といった音声の部分に似ていることがある。従って、単語の正しい認識は、ノイズ、あるいは、無音の初めと終わりに対応する単語の初めと終わりを区別する能力に大きく依存している。音声認識の信頼性が、著しく、音声の正しい初めと終わりを識別することに依存することが示されている。
分離した単語の認識技術を用いて、単語のシーケンスを認識できるようにすることを目的とした一つの音声認識法が、”分離のための連結”(Connected-For-Isolated)技術であり、それは、EP特許93302538.9に説明してあり、また、参考文献に含めてある。この技術は、マイクロフォンからの信号には、単語とノイズの交代期間が含まれ、交互に音声とノイズを認識しようとする、ということを仮定している。
音声認識の一般的な取り組み方は、統計的処理を使用して、そもそも音声が生じる機構に関する仮定は行わない。例えば、British Telecom Technology J.(英国電気通信ジャーナル)、1988年4月、第6巻、第2号、105ページ、コックスに記述されているように)かくれ(hidden)マルコフモデリング(HMM)を使用する。HMM認識では、各々の到来する音声フレームを幾つかの状態と比較し、そうした状態の各々に対応する音声フレームの可能性を決定し、生成された状態可能性を認識しようとする異なる単語に対応する状態シーケンスで構成される幾つかの予め決定されたモデルと比較する。単語が認識される間、幾つかの異なる状態シーケンス、すなわち、幾つかの異なる単語が同時に可能であり;すべての単語を受け取った時に最も可能性がある状態シーケンスを選択することによって、いずれの状態シーケンスが観察されたかという最終的な決定が行われる。
幾つかのタイプのHMM音声認識は、認識中に、認識されている単語を決定するための現在最も可能性があるシーケンスを含む幾つかの可能な状態シーケンスを維持する。
そうしたシーケンス認識装置では、選択された単語を識別する決定が、生成された状態シーケンスに基づいているので、シーケンスが完了するまで決定を行うことができない。受け取った各々のフレームについて、最も可能性がある状態シーケンスを再計算することができるので、単語の終わりが明確に識別されると直ちに、現在最も可能性がある状態シーケンスに対応する認識信号を出力するだけで、認識を行うことができる。認プロセスそれ自身によって開始点及び終了点が生成されるが、これは、認識された単語の選択と共に行われ、別個の予備的な終了点ステップとして行われる訳ではない。
従って、CFI認識装置は、ノイズに対応する状態シーケンスを維持して、音声信号中のノイズ−単語−ノイズのシーケンスを認識することによって、自動的に単語の開始と終了を突き止めることができる。しかしながら、多くの単語には、単語の部分の間のギャップ、あるいは、休止部が含まれることがあり、これは、単語の終わりとして誤って認識されることがある。従って、話者が確実に発生を終了するまで、単語の最終的識別を行うべきではない、ということが重要である。
これを行う一つの方法は、明瞭にノイズとして識別できる予め決定された期間の後に”タイムアウト”を設けることである。しかしながら、当該の期間を成功を保証するに充分長くすれば、ユーザにとっていらだたしく長い遅延が生じることが判明している。
従って、本発明の一つの観点(特徴)は、最も有望な状態シーケンスを選択するタイプの認識装置のために音声の終わりを検出する手段を提供することである。
一つの観点では、本発明により、入力発声を音声部分とそれに続くノイズ部分に区分することに基づいて連続的に認識出力を生成するための手段で構成される音声認識システムが得られ、入力音声信号に由来するパラメータを用いて区分を試験することによって、続くノイズ部分の存在を検出するための手段が特徴である。そのパラメータが、あるいは、それぞれのパラメータが入力音声信号のエネルギーに基づくことが望ましい。パラメータが、上述の区分によって示される音声部分とノイズ部分の相対的な大きさを示すパラメータで構成されることが望ましい。付加的に、あるいは、代替的に、パラメータによって、区分に従ってノイズ部分のエネルギーの変動の測度が得られる。いずれの事例においても、幾つかの連続した期間に渡って、エネルギーを平滑化、あるいは、平均化することが望ましく、また、連続する平均から外れるエネルギーの短時間のスパイクの影響を限定するために平均が非線形であることが望ましい。
音声認識装置が、最も有望な単語を選択することによって、ある単語を認識した場合、類似の単語を(例えば、認識装置の語彙にない単語)、あるいは、ノイズのいずれかに基づいて、認識を誤ったという可能性がある。
一定の誤って認識した単語の認識を排除するための手段は、”HMMの多段階認知とトレースを用いた無関係の入力の排除”、Mathan及びMiclet、1991年、IEEE ICASSP 91第1巻ページ93〜96、及び”かくれマルコフモデルを用いた連続音声認識における排除技術”、Moreno及びその他、信号処理V:理論及び応用、1990年、Proc.of EUSIPCO-90、第2巻、ページ1383〜1386(Elsevier)に記述されている。
それに応じて、本発明の別の特徴からの目的は、音声認識装置によって識別された後で一定の単語を排除するための改善された手段を提供することである。
従って、本発明の一つの観点によると、音声信号を受け取るための手段;認識しようとする予め決定されたパターンに対する類似性を示すために音声信号を処理するための認識処理手段;上述のパターンのひとつの認識を示す認識信号を供給するための手段手段;及び、予め決定された状態の認識信号を排除するための排除手段で構成される認識システムが得られ、上述の認識手段の出力に依存しない少なくとも一つの信号を受け取るためのパラメータ排除手段が配置されている、ということを特徴とする。
音声信号は、スペクトルについてどちらかといえばゆっくり変動するので、音声認識の際に音声信号を、複数の音声サンプルで構成される、一般的に10〜100ミリ秒の持続時間のフレームの時間連鎖に区分することが知られている。音声信号が著しく以前のフレームから変化した場合に新しいフレームのみを生成することによって、そのようにして生成された幾つかのフレームを制限するために、(”音声認識における可変フレーム率分析の使用”、Ponting及びPeeling、Computer Speech and Language(1991)5、169〜179)が提案されている。
従って、本発明の別の観点によって、可変フレーム率を使用する認識装置に使用するための休止検出手段、及び/あるいは、排除手段が得られる。
本発明の別の観点と実施例は、ここで記述/あるいは、特許請求したとおりであり、下記の記述と図面によって。その利点は明白である。
これから、添付の図面を参照しながら、実例を挙げて本発明を説明する。図面は、次のようなものである:
図1は、本発明に従った認識システムの応用を概略的に示す;
図2は、本発明の実施例に従った図1の認識プロセッサを形成する部分のエレメントを概略的に示すブロック図を示す;
図3は、図2の実施例の分類器を形成する部分のコンポーネントを概略的に示すブロック図を示す;
図4は、図3の分類器の動作を概略的に示すフロー図を示す;
図5は、図2の実施例のシーケンス・パーサを形成する部分の構造を概略的に示すブロック図を示す;
図6は、図5の記憶部を形成する部分内のフィールドの内容を概略的に示す;
図7は、図5のバッファを形成する部分の内容を概略的に示す;
図8は、図5のシーケンス・パーサの動作を概略的に示す;
図9は、図2の実施例の休止検出器を形成する部分の構造を示すブロック図を示す;
図10は、図9の構造の一部を概略的に示すブロック図を更に詳細に示す;
図11は、図10の平均処理部形成部の動作を説明するフロー図である;
図12は、図10の装置によって信号からノイズ率を得るプロセスを説明するフロー図である;
図13は、図10の装置による信号の差異の測度を形成するプロセスを説明するフロー図である;
図14は、図10の構造の部分を更に詳細に示すブロック図である;
図15は、図10の組み合わせロジック形成部を更に詳細に示すブロック図である;
図16は、時間に関する音声信号のエネルギーとエネルギー平均を示し、信号フレームとの一致を示すダイヤグラムである;
図17は、図2のリジェクタを形成する部分の動作を説明するフロー図である;
図18は、本発明の第2の実施例の平均に由来するプロセスを説明する図11に対応するフロー図である;
図19は、図18の実施例における時間に対するエネルギーとエネルギー平均のダイヤグラムであり、図16に対応している。
第1の実施例
図1を参照すると、音声認識を行う電気通信システムは、一般的に、電話の受話器の一般的構成部分であるマイクロフォン1、電気通信ネットワーク(一般的に公共交換回線ネットワーク(PSTN))2、ネットワーク2から音声信号を受信するために接続された認識プロセッサ3、及び、認識プロセッサ3の接続され、そこから認識、あるいは、そうでなければ特定の単語、あるいは、語句を示す音声認識信号を受信し、それに応じて動作を行うために規定された利用装置4で構成される。例えば、利用装置4は、銀行取引を行うための遠隔操作銀行端末であっても良い。
いずれにせよ、利用装置4は、ネットワーク2を介して、一般的に加入者の受話器の一部を形成するスピーカー5に伝送される、話者に対する音響応答を生成する。
動作においては、話者は、マイクロフォン1に向かって話し、アナログ音声信号がマイクロフォン1からネットワーク2を介して認識プロセッサ3に伝達され、そこで、音声信号が分析され、識別、あるいは、特定の単語、あるいは、語句を示す信号が生成され、利用装置4に伝達され、次に、期待する単語、あるいは、語句が認識されると、適切な動作が行われる。
例えば、数字0〜9、”はい”及び”いいえ”を認識して、個人識別番号及び(例えば、明細書、あるいは、特定のサービスを要求する)特定の動作を行うためのコマンド語の範囲を認識できるように、認識プロセッサ3を規定することができる。
図2を参照すると、認識プロセッサ3は、(ディジタル・ネットワークから、あるいは、アナログ−ディジタル・コンバータから)ディジタル形式で音声を受信するための入力31、連続ディジタル・サンプルを連続サンプルのフレームに区分するためのフレーム・プロセッサ32;サンプルのフレームから対応する特徴ベクトルを生成するための特徴抽出器33;連続した特徴ベクトルを受信し、異なる単語、音素、あるいは、語句に対応する複数のモデルを用いて各々に対して動作し、認識結果を生成する分類器34;及び、分類器34から分類結果を受信して、分類器の出力のシーケンスが最大の類似性を示す単語を決定するために規定されたパーサ35で構成される。
また、認識が信頼できない場合にパーサ35によって認識された単語の認識を排除するために規定された認識リジェクタ36、及びパーサ35が単語認識信号を出力できるように単語の終わりに続く休止を検出するために規定された休止検出器37も設けられている。パーサ35からの単語認識信号、あるいは、リジェクタ36からの排除信号が、利用装置4の制御に使用するために、制御信号出力38に出力される。
フレーム発生器32
例えば、8,000サンプル/秒の率で音声サンプルを受信して、1フレーム/26msのフレーム率で256の連続サンプルで構成されるフレームを形成するために、フレーム発生器32が配置されている。望ましくは、各々のフレームにウインドウを開け(すなわち、フレームのエッジに向かうサンプルに予め決定された重み付き定数を掛ける)、例えば、ハミング・ウインドウを使用して、フレーム・エッジによって生成された疑似生成物を削減する。好ましい実施例では、ウインドウを作成した影響を改善するために、(例えば、50%だけ)フレームを重ねる。
特徴抽出器33
特徴抽出器33は、フレーム発生器32からフレームを受信して、各々の事例で特徴のセット、あるいは、ベクトルを生成する。特徴は、例えば、cepstral係数(例えば、”基準システムを用いた音声認識装置及びデータベースの評価について”、Chollet&Gagnoulet、1982年Proc.IEEEp2026に記述されているようなLPC cepstral係数、あるいは、mel周波数cepstral係数)、あるいは、”話者認識における瞬間及び遷移スペクトル情報の利用について”、Soong&Rosenberg、1988年、IEEE翻訳、音響、音声、及び信号処理について、第16巻、No.6、p871に記述されているような各々の係数について係数と先行するフレームの対応する係数値との間の差で構成されるそうした係数の微分値で構成されている。同様に、幾つかのタイプの特徴係数の混合を使用することができる。
下記に論じるので、この実施例では、特徴抽出器33は、各々のフレームのエネルギーに関する値も抽出する(エネルギー値は、認識で使用される特徴係数の一つであっても良いが、そうである必要はない)。エネルギー値は、フレームのサンプルの平方の和として生成することができる。
最後に、特徴抽出器33は、各々の連続するフレームについて増大させたフレーム数を出力する。
フレーム発生器32及び特徴抽出器33は、この実施例では(モトローラDSP56000、テキアスインスツルメンツTNS C 320、あるいは、類似のデバイスといった)適切にプログラムされた単一のディジタル信号プロセッサ(DSP)デバイスで構成される。
分類器34
図3を参照すると、この実施例では、分類器34は、分類プロセッサ341及び状態メモリ342で構成される。
状態メモリ342は、複数の音声状態の各々について状態フィールド3421、3422、.....で構成される。例えば、認識プロセッサによって認識しようとする各々の単語は、6、あるいは、8つの状態で構成され、それに応じて、6、あるいは、8つの状態フィールドが、認識しようとする各々の単語について状態メモリ342に設けられる。また、(実際上、単一のノイズ状態だけを設けることができるが)単語の初めのノイズ/無音のための状態フィールド、及び単語の終わりのノイズ/無音状態のための状態フィールドが設けられる。
状態メモリ342の各々の状態フィールドは、問題の状態を特徴付ける特徴係数値の多次元ガウス分布を規定するデータで構成される。
例えば、異なるd特徴係数がある場合、状態を特徴付けるデータは、定数C、特徴平均値のセットul、及びd特徴偏差のセット、σiである;換言すれば、総計で2d+1数である。
メモリ342内の各々の状態フィールドを代わる代わる読み取るために、分類プロセッサ34が配置されており、現在の入力特徴係数セットを用いて、各々について、入力特徴セット、あるいは、ベクトルが相応する状態に対応するという確率を計算する。それを行うには、図4に示したように、プロセッサ341を配置して、次のような方程式を計算する:
Figure 0003691511
幾つかの異なるモード、あるいは、分布によって単一の状態を表現することができる;それに応じて、各々の状態について、状態メモリ342を上記の状態フィールドに対応する幾つかのモード・フィールドで構成することができる。この場合、各々のモードについて入力ベクトルがそのモードに対応する確率を計算し、次に、(適切に重み付けされた)モードの確率を合計するために、分類プロセッサ341が配置されている。
それに応じて、分類プロセッサ341の出力は、状態メモリ342の各々について一つずつの複数の状態確率であり、入力特徴ベクトルが各々の状態に対応する可能性を示している。
分類プロセッサ341は、適切にプログラムしたディジタル信号処理デバイス(DSP)とすることができ、特に、特徴抽出器33と同じディジタル信号処理デバイスとすることができる。
パーサ35
図5を参照すると、この実施例のパーサ35は、状態シーケンス・メモリ352、文法解析プロセッサ351、及びパーサ出力バッファ354で構成される。
また、処理された各々のフレームについて、確率プロセッサ341によって出力された状態確率を記憶する状態確率メモリ353が設けられている。状態シーケンス・メモリ352は、各々、認識しようとするノイズ−単語−ノイズ・シーケンスに対応する複数の状態シーケンス・フィールド(及び、ノイズのみのシーケンスに対応する一つのフィールド)で構成される。
状態シーケンス・メモリ352の中の各々の状態シーケンスは、図6に示すように、幾つかの状態P1、P2、PN(ここで、Nは、6、あるいは、8である)、各々のシーケンスについて、2つの確率;繰り返し確率(P11)及び次に続く遷移確率(P12)で構成される。CFI認識装置の場合、最初と最後の状態は、ノイズ状態である。従って、一連のフレームと関連した状態の観察したシーケンスは、各々の状態シーケンス・モデル3521、等の各々の状態P1の幾つかの状態の繰り返しで構成される;例えば:
Figure 0003691511
従って、あるフレーム番号では(ここでは、フレーム番号3)、観察したシーケンスは、初期ノイズ状態から、次の音声状態に移動する;この遷移は、認識しようとする単語の始まりを示す。同様に、あるフレームでは(ここでは、フレームZ)、シーケンスは、認識しようとする単語の終わりに続くノイズ、あるいは、無音に対応する最後の状態Pnに到達する。従って、フレームZは、認識しようとする単語の終わりに対応する。
図8に示したように、各々のフレームで、確率プロセッサ341による状態確率出力及び状態確率メモリ353の中の以前に記憶された状態確率を読み取り、最も有望な期間全体に渡って日付に対する状態の推移を計算して、それを、状態シーケンス・メモリ352に記憶された各々の状態シーケンスと比較するために、文法解析プロセッサ351が配置されている。
計算には、上記の参考として挙げたCoxの論文に記述されたよく知られた陰マルコフモデル法を用いる。都合の良いことに、文法解析プロセッサ351によって実行されたHMM処理では、良く知られたヴィテルビ・アルゴリズムが使用される。文法解析プロセッサ351は、例えば、インテル(TM)i−486(TM)マイクロプロセッサ、あるいは、モトローラ(TM)68000マイクロプロセッサとすることができ、あるいは、その代わりに、(例えば、先行するプロセッサのいずれかに使用されたものと同じDSPデバイス)DSPデバイスとすることができる。
それに相応して、(単語に対応する)各々の状態シーケンスについて、入力音声の各々のフレームで、パーサ・プロセッサ351によって確率スコア(得点)が出力される。最も有望な状態シーケンスの一致、すなわち、認識された単語は、話者による発声の持続期間中にかなり変化することがある。
パーサ出力バッファ354は、各々、認識しようとする単語に対応する複数のフィールド3541、3542、...(及び、ノイズのみのシーケンスに対応するフィールド)で構成される。図7に実例として示したように、各々のフィールドは、現在のフレームについて、存在する対応する単語の可能性(見込み、likelihood)、及び2つのフレーム番号を示す確率スコアS;ノイズ−単語−ノイズが観察されたフレームのシーケンスの単語の最初のフレーム(発声開始sp_st);及び単語の最初のフレームを示す第2の(発声終了sp_end)で構成される。発声開始(sp_st)の前に、観察されたシーケンスの状態は、初期ノイズで構成され、発生終了の後で、観察されたシーケンスの状態は、最後のノイズに対応する。もちろん、各々のフィールド3541、3542、・・・のフレーム番号は、互いに異なる。
休止(ポーズ)検出器37
図9を参照すると、休止検出器37は、信号ベース検出器370、及びモデル・ベース検出器375で構成されている。信号ベース検出器370は、音声信号から抽出されたパラメータを受信するために、特徴抽出器33に接続されている。本実施例では、パラメータは、フレーム・エネルギー、あるいは、フレーム・エネルギーに基づいた何らかのパラメータである。
モデル・ベース(モデル応用の)検出器375は、現在の最良状態シーケンスの表示を受信するために、パーサ35に接続されている。特に、モデル・ベース検出器375が配置されており、パーサ出力バッファ354から、もしあるとすれば、現在の最も有望な状態シーケンスの最終ノイズ状態の始まりのフレーム番号を読み取り、現在のフレーム番号(sp_end)からそれを減算して、現在、認識されたと想定される単語の終わりに続く期間の長さを見付け出す。
信号ベース休止検出器370とモデル・ベース休止検出器375の出力は、ロジック378によって組み合わされて、出力379の休止検出信号を生成する。
図10を参照すると、信号ベース休止検出器370は、幾つかの先行するエネルギー値に関する移動平均エネルギー・レベルを保持する移動平均処理部371、SN比(SNR)検出器372、及びノイズ差異(ノイズバリアンス、NVR)検出器373で構成され、ロジック378によって組み合わされるために、その出力が供給される。
また、連続フレームに対応する移動平均エネルギー値を保存するために、平均処理部371の出力に接続された平均エネルギー・レベル・バッファ374が設けられている。
移動平均処理部371
図11に示したプロセスを実行するために、移動平均処理部371が組織的に配置されている。この実施例のプロセスでは、各々のフレームについて、フレームのエネルギーが特徴抽出器33から読み取られ、記憶された移動平均値から減算されて、差分値が得られる。差分値が閾値、あるいは、予め決定された絶対値のステップと比較される。差が+/−ステップ値の範囲内であれば、移動平均は影響を受けないが、定係数、あるいは、図11に示したように、移動平均からのプラスの差については最初の定係数(上方係数)及び移動平均からのマイナスの差については第2の定係数(下方係数)で割られた差に等しく設定することによって、ステップの値が削減される。
他方、現在のフレーム入力値と記憶された移動平均との間の差がステップ値を超過する場合は、差の大きさに応じて、ステップ値だけ移動平均を増大、あるいは、削減する。次に、ステップ値を以前のように更新する。
このプロセスの効果は次のようなものである。まず、移動平均を維持するプロセスによるエネルギー値の平滑化が行われる。従って、瞬間移動平均は、過去のエネルギー・レベルを考慮に入れた現在のフレームのエネルギー・レベルの平滑化された値を示す。
第2に、閾値試験を行うことによって、以前の平均エネルギー・レベルから大幅に異なる高いプラス、あるいは、マイナスのエネルギー・レベルをまず無視するように、非線形性がプロセスに導入される。しかしながら、閾値が大幅に拡大されるので、高エネルギー・レベルが維持されれば、それが結局閾値内に入り、移動平均に影響を与える。
従って、ノイズ・スパイクを原因とする短時間持続する高エネルギー・レベルは、閾値ステージが理由で、移動平均エネルギー・レベルには殆ど、あるいは、全く影響を与えない。しかしながら、例えば、音声への遷移を原因とする純粋に高いエネルギー・レベルは、結局、移動平均エネルギー・レベルに影響を与える。従って、閾値は、時間に適合可能なので、到来するエネルギー・レベルは、現在の平均に密接に対応して、閾値、あるいは、ステップ・レベルが累進的に低レベルに減少するが、到来するエネルギー・レベルが平均からずれる場合は、閾値は始めは低いままであるが、次に拡大する。
平均処理部371は、次に、平均レベルを維持するよう動作し、その平均レベルは、幾分移動平均のような挙動を示す。
SNR検出器372
SNR検出器372が各々のフレームに配置され、パーサ35が現在最も有望な認識された単語の開始及び終了フレームとして識別したフレーム番号を入力して、平均エネルギー・レベル・バッファ374を読み取って、音声として識別された現在のフレームに関する代表的なエネルギー・レベル、及びノイズとして表現された現在のフレームに関する代表的なエネルギー・レベルを決定する。
本実施例では、代表的な測度は、ノイズ・セグメントに関する平均連続エネルギー・レベル、及び音声セグメントに関するピーク平均エネルギー・レベルで構成される。SNR検出器372の動作を図12に示してある。
計算したSN比値、SNRが予め決定された閾値よりも大きい場合は、SNR休止検出器372が、休止が発生したことを示す信号を出力する(すなわち、音声が終わったことである)。SNR値が、閾値以下であった場合は、休止が認識されなかったことを示す信号が出力される。
SNR測度が、正しい単語の終わりが識別されたかどうかの有用な識別子であることが判明した。これは、一部はパーサ35によって単語の始まりと終わり(及び、一致)が誤って認識されることによって、音声フレームが、平均ノイズ・レベルを計算するために使用された音声フレームに含まれることになり、閾値いかに計算されたSNRの値が削減されるので、休止が誤って認識されることはない。SNRを計算する際に音声に関する特性エネルギー・レベルとしてピーク・エネルギー・レベルを使用することによって、一般的に逆効果を避けることができる。というのは、一般的に、(完全に誤った認識を行わない限り)ピークが単語の誤った始まりと終わりの識別の影響を受けないからである。
NVR検出器373
図13を参照すると、NVR検出器373が配置されており、最後のN1(ここで、N1は、予め決定された定数である)移動平均エネルギー・レベルをバッファ374から読み取り、最大及び最小値を見いだし、最大値と最小値との間の比率を計算する。この比率は、最も最近のN1フレームに関するエネルギー・レベルの変動量を示すものである。変動のレベルを閾値と比較した場合;変動が高レベルであることは、先行するN1フレームにある音声が含まれている可能性を示し、他方、予め決定された閾値と比較して変動が低レベルであることは、最後のN1フレームにノイズだけが含まれている可能性を示すので、NVR検出器373が休止検出信号を出力する。
音声の終わりに続く無音期間のエネルギー・レベルが低い場合があるので、比率、状況によっては非常に小さい数の分割に対応することがある。それに相応して、最小平均エネルギーが予め決定された閾値レベル(例えば、1)以下に低下するような計算の単一性を避けるために、最大値と最小値との間ではなく、最大値と決定されたレベルとの間で計算を行う。
差異の他の測度(例えば、最大値と最小値との間の差)を用いることができるが、信号強度全体の全差異が考慮に入れられるので、比率が望ましい。
モデル・ベース検出器375
図14に示したように、モデル・ベース休止検出器は、第1及び第2のタイムアウト検出器376a、376bで構成されており、パーサ35から、現在識別された音声の終了/ノイズの開始のフレーム数を入力して、第1の比較的短い閾値N1と第2の比較的長い閾値N2に対して、このフレームと現在のフレームとの間の差Nを試験するするよう配置されている。例えば、単語内の短いギャップの長さの程度になるように(すなわち、20〜60フレーム、及び、都合良くNVR検出器373に使用した試験と同じ長さ)N1を選択し、大幅に長くなるように(すなわち、2分の1秒程度)N2を選択する。
また、ノイズ・スコア・テスタ377も設けられており、パーサ35から、現在最も有望な状態シーケンスに対応する終わりのノイズに関する可能性スコアを読み取り、予め決定された閾値に対してスコアを試験し、ノイズ・スコアが閾値を越えた場合に”休止検出”信号を出力するよう配置されている。
最後に、第3のタイムアウト検出器376cが設けられており、長いタイムアウトN3に対して、日付に対するフレームの総数(現在のフレーム数)Tを試験して、早期に音声の終わりを検出しなかった場合に、認識プロセスを終了する。
組み合わせロジック378
図15を参照すると、検出器376b、377、372、及び373の出力が、AND関係で接続され、4つの組み合わされた出力がOR関係で検出器376a及び376cの出力と接続される、ということが分かる。
従って、認識の開始から長いタイムアウト(N3フレーム)の終結後か、あるいは、ノイズが始まった後の比較的長いタイムアウト(N2フレーム)の後、あるいは、比較的短いタイムアウト(N1フレーム)の後で休止が検出され、それに続いて、ノイズ・スコアが高に、SN比が高に、及びノイズの差異が低になる。
図16には、単語に関するエネルギー及び平均エネルギーRM(t)を示してある。
リジェクタ36
リジェクタ36が配置されており、休止検出器37の動作後に、パーサ35による単語の識別の信頼性(コンフィデンス、確信度)のレベルを試験する。識別が疑わしい場合は、その識別が排除される。識別に自信がなければ、リジェクタ36によって”照会”信号が発行され、利用装置4が、例えば、”...(識別された単語)と言いましたか”といった語句を合成して、確認の対話を開始するか、あるいは、その単語を繰り返すようユーザに求めることが可能になる。る。
図17を参照すると、リジェクタ36の一般的な動作は、次のようなものである:
第1に、信号が無音、あるいは、ノイズのみの検出に対応するかどうかをリジェクタが試験する。パーサ35によって検出された最も有望なシーケンスがノイズのみの状態を含むシーケンスに対応する場合に、それが行われる。また、SNR検出器372によって計算されたSNRが非常に低い閾値以下であるかどうかを試験することによって、無音も検出される。いずれの場合でも、検出器376aによって行われた試験も満たされるならば、単語が検出されなかった(無音)ことがリジェクタによって表示される。
第2に、リジェクタは、排除試験(下記で詳細に論じる)を行って、比較的緩い閾値に対して結果を試験する。比較的緩い閾値が満たされない場合には、その識別が排除される。
比較的緩い閾値が満たされた場合は、比較的厳しい閾値に対して試験が繰り返される。比較的厳しい閾値が満たされた場合は、識別され単語が合格したことが表示される。厳しい閾値が満たされなかった場合は、照会出力が生成され、利用装置がユーザに照会することが可能になる。
リジェクタによって行われる試験は次のようなもので構成される:
1)パーサ35による最も有望な経路について生成された確率スコアSの試験(語彙にない単語の排除)
2)騒音状態と語彙にない単語を排除するための、SNR休止検出器372によって計算されたSN比を用いた試験。
3)NVRテスタ373によって計算された(騒音状態を排除するための)ノイズ差異を用いた試験。
4)最も有望な経路についてパーサによって生成されたスコアと第2の最も有望な経路について生成されたスコアとの間の比率の試験;及び、オプションとして
5)特定の混同し易い単語間で行われる試験(例えば、パーサ35によって認識された最も有望な単語が”5”であって、第2の最も有望な単語が”9”である場合、2つの間の差、あるいは、比率を試験することができる。)
従って、リジェクタ36は、単語を受け入れるか、この場合、パーサ35の出力は、出力38に伝達される;あるいは、無音が存在することが表示される(すなわち、単語が存在しない)、ここで、無音を識別する信号が出力38に伝達される;あるいは、パーサ35によって、単語の識別が排除、あるいは、照会される。この場合、パーサ35の出力が禁止され、対応する”排除”、あるいは、”照会”制御信号が出力38に伝達され、利用装置4による処置が可能になる。
第2の実施例
第2の実施例では、特徴発生器33が配置されており、新たに生成された特徴係数のセットが、最後の特徴係数の出力セットと比較されて、以前のセットからの全体的差が予め決定された閾値よりも大きければ、特徴係数の新しいセットだけが出力される。例えば、距離は、絶対差の合計、あるいは、”都市ブロック”距離測度、あるいは、その他の好都合な測度とすることができる。
この技術によって、例えば、60%の程度で、分類器34とパーサ35により必要とされる計算の量を大幅に削減することができる、ということが判明している。更に、HMMプロセスで、後の状態が互いに独立しているものと仮定され、それによって、係数の連続した各々のセットが、先行するセットから大幅に異なる原因となるので、本実施例では、ある種の状況では仮定の妥当性を増大させることができる。
この場合、分類器34とパーサ35の動作が大幅には変わらない、ということが判明している。しかしながら、平均には、連続するフレーム間の期間の持続時間を考慮に入れる必要があるので、信号ベース休止検出器370、特に、移動平均処理部371の動作が変わっている。
本実施例では、特徴抽出器33が、休止検出器37に各々のフレームに関連した番号N(t)を生成、供給する。この番号は、そのフレームと特徴抽出器33によって出力された最後のフレームとの間のフレーム数を示している。
また、特徴抽出器33は、各々のフレームのエネルギーを累積して、各々の特徴係数のセットでの累積エネルギーE(t)を供給し、この特徴係数は、その係数のセットを生じさせるエネルギーと、そのフレームと特徴抽出器33によって出力された以前のフレームとの間のすべての別のフレームのエネルギーの合計に相当する出力である。
図18を参照すると、本実施例では、平均処理部371は、累積エネルギーE(t)とVFRフレームで表現されるフレーム数N(t)を読み取って、N(t)でE(t)を除算することによって、各々の介在フレームに関する平均エネルギーを生成する。次に、平均処理部は、主として、各々平均エネルギーを有するN(t)連続フレームを受け取る影響をシミュレーションして、それに応じて、移動平均を増大、あるいは、減少させる。
しかしながら、SN比計算に使用された平均連続エネルギー値が正しいことを保証するために、N連続移動平均を平均化し、移動平均を累積し、次に、計算の終わりでN(t)で正規化することによって、VFRフレームについて計算した最終平均エネルギー・レベルRM(t)を見付ける。
従って、本実施例では、出力バッファ374に保存された数は、係数発生器33によって可変速度で生成された特徴係数の各々のフレームに関する値RM(t)で構成され、この係数は、現在のフレームに先行する信号フレームの平均レベルに対応する。
実際、本実施例では、最小及び最大エネルギー・レベルは、最初の実施例よりも明確に定義されない。というのは、特徴抽出器33で実行された先行するフレームのエネルギーを累積するプロセスが、鋭いピークを平坦化するか、あるいは、入力音声信号のエネルギー・レベルの中に埋め込んでしまう役割を果すからである。
本実施例では、もちろん、そうしたフレームによって、認識のために特徴ベクトルを出力させるかどうかに拘りなく、平均処理部371の代わりに、特徴発生器33が受け取った各々の信号フレームから各々のエネルギー・レベル受け取って、処理することができる。しかしながら、これには、更に計算とバッファ保持の必要がある。
本実施例では、省略したフレームの数N(t)を蓄積して、次に、それを用いて、音声Nの終わりからの時間を計算して算出したフレーム数を維持することによって、現在の係数ベクトルを生成した変動率を考慮に入れるために、検出器376a、376bによって算出された休止試験を計算する。
図19には、単語に関するエネルギー及び平均エネルギーRM(t)を示してある。
発明の利点
前述の実施例から、本発明の観点には幾つかの利点がある、ということが分かる。
能動的に音声信号を吟味する休止検出器を連続音声認識装置に設けることによって、入力された単語、語句、あるいは、文を急速に認識することができる。音声検出器によって想定された音声/ノイズ・モデルとは別個のパラメータを休止検出器に吟味させることによって、より大きい信頼性が保証される。エネルギー・ベースの測度は、音声及びノイズを区別する際に特に有効であるということが判明しており、特に、認識装置によって使用されるノイズ−音声−ノイズ・モデルが正しいという仮定に基づいて生成された信号レベルとノイズ・レベルとの間の差を試験(特に、SN比の測度)することが、その仮定が正しいことを確認する有効な手段であるということが判明している。更に詳しく述べれば、音声期間に関するピーク値とノイズ期間に関する平均値との間で計算されたSN比が有効であることが判明している。
休止の検出、あるいは、識別された単語の排除といったその他の目的の基礎として、信号エネルギーの平均化、あるいは、平滑化された測度を使用するすることが有効であり;特に、移動平均測度、及び更に厳密に言えば、ノイズ・スパイクを濾波する非線形平均が好ましい、ということが判明している。信号のエネルギーの平均ではなく、中央値を近似的に追跡するように、アルゴリズムを定めることが好ましい。
別の観点から見れば、予め決定された量だけ移動平均を増大、あるいは削減するよう、アルゴリズムを規定するか、あるいは、入力エネルギー・レベルと移動平均との間の差に応じて、予め決定された量を適合させることが好ましい。
更に、信号エネルギーの変動(更に詳しく言えば、平滑化、及び平均化された信号エネルギーの変動)の測度を使用すれば、良好な識別が可能になり、ノイズだけが存在するかどうかを決定することができるということ;特に、ノイズだけが存在する場合は、ピーク・エネルギーと最小エネルギーとの間の比率の測度が、一般的に低いということが判明している。それに相応して、認識プロセスで生成されたノイズ−単語−ノイズ・モデルを確認するために、この試験を用いることができる。
上記の試験は、有利ではあるが、必ずしも、ノイズの認識で生成されたスコアの試験及び、認識されたノイズが始まってからの時間の長さの試験といった、認識装置の出力自身に基づいた試験と組み合わせる必要はない。
上記で説明した信号ベースの試験が、異なる閾値を用いて、上記のように不安定な認識条件の下で、認識された単語を後に排除するための基礎を得るために、同様に有効であることが判明している。
発明の別の観点及び実施例
前述から、説明した実施例は、単に本発明の実例であるので、それに限定されるものではない、ということが明らかである。上記で明確に説明したか、あるいは、熟練した人物にとって明確であるかどうかに拘りなく、特に、説明した実施例の様々な新しい特徴には、別個の利点があり、そうした利点のある各々の特徴、及び、そうした特徴の有利な組み合わせに対して別個に保護を求める。
ガウスの連続密度分類器を使用することを、ここに記述したが、ベクトル量子化を用いる分類器も、同様に使用することができる。同様に、別のタイプのシーケンス処理(例えば、ダイナミック・タイム・ワープ)を使用することもできる。
”繰り返し”確率と”遷移”確率のみを論じたが、一つおいて次、及び、二つおいて次(等)の状態への遷移の確率(スキップ遷移)が、良く知られており、同様に使用することができる。同様にまた、単語とノイズについて上記で述べた幾つかの状態も、純粋に実例である。
特定の実施例を詳細に説明したが、適切に構成、あるいは、プログラムしたディジタル、あるいは、アナログ・ハードウエアを用いて、それ以外の実施例を実現することができる。
「ノイズが先行及び後に続く」孤立した単語を認識する認識構文を説明したが、本発明は、同様に連結語認識にも応用することができる。この場合、状態シーケンス・モデルは、ノイズ−単語1−単語2−・・・単語N−ノイズのシーケンスを表現し、SNR及びノイズ差異試験は、音声ポイントの終了後のノイズにのみ応答することが好ましい。
音声認識を説明したが、他のタイプの認識(例えば、話者認識、あるいは、確認)に関連して同じ技術を使用することは排除しない。
保護の範囲は、実質的に同じ結果を達成するか、あるいは、同じ原理、あるいは、動作を用いて、実質的に異なる結果を達成する同等の構造物と共に、ここに添付したクレームの範囲内のすべての構造物を包含することを目的としている。

Claims (6)

  1. a)音声信号を受信するための入力手段(1)と;
    b)音声信号を処理して、該音声信号が対応しているとして認識される所定のパターンを同定識別する認識信号を生成する認識プロセス用手段(3)と;
    c)前記認識信号が供給される出力手段(38)と;を備え、
    前記認識プロセス用手段(3)は該音声信号を継続する時間的部分のシーケンスに区分けして、該シーケンスを、
    i)前音声ノイズもしくは無音部分で区分けされたパターン部分、
    ii)音声パターン部分、及び、
    iii)後音声ノイズもしくは無音部分、
    についての対応するシーケンスと比較するようにされていて、さらに、
    d)前記後音声部分内及びその開始後の時点の到来を検出するための休止検出手段(37)を備え、該休止検出手段(37)は該認識プロセス用手段(3)により実行された後音声部分の開始(sp-end)の認識に応答するものであり、
    該休止検出手段(37)は、前記認識信号の生成後に、前記開始(sp-end)とは独立している前記音声信号から得られた少くとも1つの信号パラメータを受けるようにされており、また、前記開始(sp-end)後に、前記開始(sp-end)と前記信号パラメータとの両方に依存する検出動作を繰返して実行し、前記認識信号を前記出力手段(38)に向けて、前記時点の検出で、ルート設定して、そこに接続された利用装置(4)の即座の動作を可能とするようにされていることを特徴とすろ認識システム。
  2. 前記パラメータは前記音声信号のエネルギーと関係している請求項1記載のシステム。
  3. 前記休止検出手段(37)は前記パラメータを時間にわたり平滑化するため手段(371)を備えている請求項1または2記載のシステム。
  4. 前記認識プロセス用手段(3)はノイズもしくは無音を認識するようにされており、また前記休止検出手段(37)はノイズもしくは無音の前記認識の確信度に応答するようにされている請求項1ないし3のいずれか1項記載のシステム。
  5. 前記休止検出手段(37)は前記パターンを含んでいる部分に続く無音もしくはノイズ部分の継続期間に応答するようにされている請求項1ないし4のいずれか1項記載のシステム。
  6. a)音声信号を受信するための入力手段と、
    b)音声信号を処理するための認識プロセス用手段と、
    c)認識された音声パターンを示すための出力手段とを備えた電子認識システムを動作する方法であって、該方法は音声の終了後の時点の到来を検出するためのものであり、該方法は、
    i)該入力手段で受けた音声信号についての次に生ずる時間的部分を前処理する段階と;
    ii)音声信号が対応しているとして認識されている、所定のパターンを識別する認識信号を生成する時間部分と先行する時間部分について認識プロセスを実行する段階と;
    iii)該時点が発生したかどうかを認識する段階とからなり、該認識する段階iii)は、
    iv)前記認識プロセス用手段によって実行された音声とノイズとの間の区分けとは独立している音声信号から少くとも1つの信号パラメータを求める段階と;
    v)前記区分けに依存する少くとも1つのパラメータを求める段階と;
    vi)前記両パラメータを勘案して前記時点が到来したか否かを判断する段階と;
    の副段階を備えていることを特徴とする電子認識システムを動作する方法。
JP52084194A 1993-03-25 1994-03-25 休止検出を行う音声認識 Expired - Fee Related JP3691511B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP93302302 1993-03-25
EP93302302.0 1993-03-25
EP93302541.3 1993-03-31
EP93302541 1993-03-31
PCT/GB1994/000630 WO1994022131A2 (en) 1993-03-25 1994-03-25 Speech recognition with pause detection

Publications (2)

Publication Number Publication Date
JPH08508108A JPH08508108A (ja) 1996-08-27
JP3691511B2 true JP3691511B2 (ja) 2005-09-07

Family

ID=26134232

Family Applications (1)

Application Number Title Priority Date Filing Date
JP52084194A Expired - Fee Related JP3691511B2 (ja) 1993-03-25 1994-03-25 休止検出を行う音声認識

Country Status (9)

Country Link
US (1) US5848388A (ja)
EP (2) EP0962913B1 (ja)
JP (1) JP3691511B2 (ja)
AU (1) AU6433094A (ja)
CA (1) CA2158849C (ja)
DE (2) DE69432570T2 (ja)
ES (1) ES2141824T3 (ja)
SG (1) SG93215A1 (ja)
WO (1) WO1994022131A2 (ja)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9620082D0 (en) 1996-09-26 1996-11-13 Eyretel Ltd Signal monitoring apparatus
GB9625284D0 (en) * 1996-12-04 1997-01-22 Canon Kk A data processing method and apparatus for identifying a classification to which data belongs
CN1117343C (zh) * 1997-04-30 2003-08-06 日本放送协会 声音区域的检测方法及其装置,以及利用这个方法及装置的话速变换方法及其装置
US5930748A (en) * 1997-07-11 1999-07-27 Motorola, Inc. Speaker identification system and method
US6374219B1 (en) * 1997-09-19 2002-04-16 Microsoft Corporation System for using silence in speech recognition
US6006182A (en) * 1997-09-22 1999-12-21 Northern Telecom Limited Speech recognition rejection method using generalized additive models
US6718302B1 (en) * 1997-10-20 2004-04-06 Sony Corporation Method for utilizing validity constraints in a speech endpoint detector
JP3075250B2 (ja) * 1998-03-04 2000-08-14 日本電気株式会社 話者認識方法及び装置
DE19824353A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
DE19824354A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
DE19939102C1 (de) * 1999-08-18 2000-10-26 Siemens Ag Verfahren und Anordnung zum Erkennen von Sprache
GB2355833B (en) * 1999-10-29 2003-10-29 Canon Kk Natural language input method and apparatus
US6910035B2 (en) * 2000-07-06 2005-06-21 Microsoft Corporation System and methods for providing automatic classification of media entities according to consonance properties
US7035873B2 (en) 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
US20020042709A1 (en) * 2000-09-29 2002-04-11 Rainer Klisch Method and device for analyzing a spoken sequence of numbers
US20030023439A1 (en) * 2001-05-02 2003-01-30 Gregory Ciurpita Method and apparatus for automatic recognition of long sequences of spoken digits
US20040104062A1 (en) * 2002-12-02 2004-06-03 Yvon Bedard Side panel for a snowmobile
DE10220524B4 (de) 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
EP1363271A1 (de) 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
US7356466B2 (en) * 2002-06-28 2008-04-08 Samsung Electronics Co., Ltd. Method and apparatus for performing observation probability calculations
US20040044517A1 (en) * 2002-08-30 2004-03-04 Robert Palmquist Translation system
US7539086B2 (en) * 2002-10-23 2009-05-26 J2 Global Communications, Inc. System and method for the secure, real-time, high accuracy conversion of general-quality speech into text
JP4463526B2 (ja) * 2003-10-24 2010-05-19 株式会社ユニバーサルエンターテインメント 声紋認証システム
CN1890668A (zh) * 2003-12-16 2007-01-03 思比驰盖尔公司 翻译机数据库
US7359849B2 (en) * 2003-12-17 2008-04-15 Speechgear, Inc. Translation techniques for acronyms and ambiguities
US7664642B2 (en) * 2004-03-17 2010-02-16 University Of Maryland System and method for automatic speech recognition from phonetic features and acoustic landmarks
US9117460B2 (en) * 2004-05-12 2015-08-25 Core Wireless Licensing S.A.R.L. Detection of end of utterance in speech recognition system
US7558389B2 (en) * 2004-10-01 2009-07-07 At&T Intellectual Property Ii, L.P. Method and system of generating a speech signal with overlayed random frequency signal
US7584098B2 (en) * 2004-11-29 2009-09-01 Microsoft Corporation Vocabulary-independent search of spontaneous speech
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
EP1708172A1 (en) * 2005-03-30 2006-10-04 Top Digital Co., Ltd. Voiceprint identification system for E-commerce
KR101116363B1 (ko) * 2005-08-11 2012-03-09 삼성전자주식회사 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치
US7603275B2 (en) * 2005-10-31 2009-10-13 Hitachi, Ltd. System, method and computer program product for verifying an identity using voiced to unvoiced classifiers
DE112006002989T5 (de) * 2005-12-14 2009-02-19 Mitsubishi Electric Corp. Spracherkennungsvorrichtung
JP4906379B2 (ja) * 2006-03-22 2012-03-28 富士通株式会社 音声認識装置、音声認識方法、及びコンピュータプログラム
EP1933302A1 (en) * 2006-12-12 2008-06-18 Harman Becker Automotive Systems GmbH Speech recognition method
US20080221882A1 (en) * 2007-03-06 2008-09-11 Bundock Donald S System for excluding unwanted data from a voice recording
US8990073B2 (en) * 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification
DE102008039329A1 (de) * 2008-01-25 2009-07-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Berechnung von Steuerinformationen für ein Echounterdrückungsfilter und Vorrichtung und Verfahren zur Berechnung eines Verzögerungswerts
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
US8838449B2 (en) * 2010-12-23 2014-09-16 Microsoft Corporation Word-dependent language model
US9064492B2 (en) 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US8924213B2 (en) * 2012-07-09 2014-12-30 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US9799328B2 (en) * 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
US20140365068A1 (en) * 2013-06-06 2014-12-11 Melvin Burns Personalized Voice User Interface System and Method
US9928851B2 (en) * 2013-09-12 2018-03-27 Mediatek Inc. Voice verifying system and voice verifying method which can determine if voice signal is valid or not
US10832005B1 (en) 2013-11-21 2020-11-10 Soundhound, Inc. Parsing to determine interruptible state in an utterance by detecting pause duration and complete sentences
US9311932B2 (en) * 2014-01-23 2016-04-12 International Business Machines Corporation Adaptive pause detection in speech recognition
KR102446392B1 (ko) * 2015-09-23 2022-09-23 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
US10339918B2 (en) * 2016-09-27 2019-07-02 Intel IP Corporation Adaptive speech endpoint detector
US9984689B1 (en) * 2016-11-10 2018-05-29 Linearhub Apparatus and method for correcting pronunciation by contextual recognition
US10636421B2 (en) 2017-12-27 2020-04-28 Soundhound, Inc. Parse prefix-detection in a human-machine interface
RU2761940C1 (ru) 2018-12-18 2021-12-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу
KR20210078133A (ko) * 2019-12-18 2021-06-28 엘지전자 주식회사 간투어 검출 모델을 훈련시키기 위한 훈련 데이터 생성 방법 및 장치
US11705125B2 (en) 2021-03-26 2023-07-18 International Business Machines Corporation Dynamic voice input detection for conversation assistants

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE31188E (en) * 1978-10-31 1983-03-22 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system
EP0024837B1 (en) * 1979-08-13 1984-02-08 Linear Pneumatics Inc. Method of removing stuck gaskets and pneumatic impact tool therefor
US4348553A (en) * 1980-07-02 1982-09-07 International Business Machines Corporation Parallel pattern verifier with dynamic time warping
US4761815A (en) * 1981-05-01 1988-08-02 Figgie International, Inc. Speech recognition system based on word state duration and/or weight
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
US4989248A (en) * 1983-01-28 1991-01-29 Texas Instruments Incorporated Speaker-dependent connected speech word recognition method
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
GB2182795B (en) * 1985-11-12 1988-10-05 Nat Res Dev Apparatus and methods for speech analysis
WO1987007749A1 (en) * 1986-06-02 1987-12-17 Motorola, Inc. Continuous speech recognition system
JPH0760318B2 (ja) * 1986-09-29 1995-06-28 株式会社東芝 連続音声認識方式
US4829578A (en) * 1986-10-02 1989-05-09 Dragon Systems, Inc. Speech detection and recognition apparatus for use with background noise of varying levels
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4803729A (en) * 1987-04-03 1989-02-07 Dragon Systems, Inc. Speech recognition method
DE3765639D1 (de) * 1987-06-16 1990-11-22 Santex Ag Verfahren zum glaetten und schrumpfen von textiler schlauchware.
US5228110A (en) * 1989-09-15 1993-07-13 U.S. Philips Corporation Method for recognizing N different word strings in a speech signal
EP0474496B1 (en) * 1990-09-07 1998-03-04 Kabushiki Kaisha Toshiba Speech recognition apparatus
FR2677828B1 (fr) * 1991-06-14 1993-08-20 Sextant Avionique Procede de detection d'un signal utile bruite.
JP2870224B2 (ja) * 1991-06-19 1999-03-17 松下電器産業株式会社 音声認識方法
US5388183A (en) * 1991-09-30 1995-02-07 Kurzwell Applied Intelligence, Inc. Speech recognition providing multiple outputs
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5583961A (en) * 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer

Also Published As

Publication number Publication date
SG93215A1 (en) 2002-12-17
US5848388A (en) 1998-12-08
JPH08508108A (ja) 1996-08-27
AU6433094A (en) 1994-10-11
EP0962913B1 (en) 2003-04-23
DE69421911D1 (de) 2000-01-05
EP0962913A1 (en) 1999-12-08
EP0691022B1 (en) 1999-12-01
DE69432570D1 (de) 2003-05-28
ES2141824T3 (es) 2000-04-01
DE69432570T2 (de) 2004-03-04
CA2158849C (en) 2000-09-05
CA2158849A1 (en) 1994-09-29
WO1994022131A3 (en) 1995-01-12
WO1994022131A2 (en) 1994-09-29
DE69421911T2 (de) 2000-07-20
EP0691022A1 (en) 1996-01-10

Similar Documents

Publication Publication Date Title
JP3691511B2 (ja) 休止検出を行う音声認識
US5732394A (en) Method and apparatus for word speech recognition by pattern matching
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
EP1159737B1 (en) Speaker recognition
US9031841B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
JPH06332492A (ja) 音声検出方法および検出装置
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
KR20130134620A (ko) 디코딩 정보를 이용한 끝점 검출 장치 및 그 방법
JPH0792988A (ja) 音声検出装置と映像切り替え装置
JP4696418B2 (ja) 情報検出装置及び方法
JP2002366192A (ja) 音声認識方法及び音声認識装置
JP2797861B2 (ja) 音声検出方法および音声検出装置
Pfau et al. A combination of speaker normalization and speech rate normalization for automatic speech recognition
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
JP2002189487A (ja) 音声認識装置および音声認識方法
JP7511374B2 (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
JP3428805B2 (ja) 音声認識のための音声区間始端補正方法及び装置並びに音声認識方法
Ouzounov Telephone speech endpoint detection using Mean-Delta feature
Fakotakis et al. A continuous HMM text-independent speaker recognition system based on vowel spotting.
WO1997037345A1 (en) Speech processing
JPH034918B2 (ja)
Manovisut et al. Reducing waiting time in automatic captioned relay service using short pause in voice activity detection
JPH05249987A (ja) 音声検出方法および音声検出装置
Nickel et al. Robust speaker verification with principal pitch components

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050616

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090624

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100624

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110624

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110624

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120624

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120624

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130624

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees