JP2000047696A

JP2000047696A - 情報処理方法及び装置、その記憶媒体

Info

Publication number: JP2000047696A
Application number: JP10214095A
Authority: JP
Inventors: Kenichiro Nakagawa; 賢一郎中川; Tetsuo Kosaka; 哲夫小坂; Yasuhiro Komori; 康弘小森
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1998-07-29
Filing date: 1998-07-29
Publication date: 2000-02-18
Also published as: US6393396B1; EP0977176A3; EP0977176A2; EP0977176B1; DE69928182D1

Abstract

(57)【要約】【課題】入力音声から逐次適切な雑音情報を取り込
み、音声区間の検出及び雑音の除去を可能とする。【解決手段】入力波形から雑音位置を推定する雑音区
間推定部１０４と、その雑音位置のパワー情報から音声
区間を検出する音声区間検出部１０５と、雑音位置のス
ペクトル情報から雑音除去して認識する音声認識部１０
６とを備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術】本発明は、入力に音声認識を用い
て情報を入力する情報処理方法及び装置、その記憶媒体
に関するものである。

【０００２】

【従来の技術】ユーザの発声する音声を認識することに
より情報を入力し、その内容に対応する処理、例えば応
答の音声をシステムが出力するといった対話の可能なシ
ステムはあった。

【０００３】また、入力する音声が雑音環境下で発声さ
れたものであることを考慮して、雑音のデータを用いて
ユーザの発声区間の検出率を向上させたり、音声認識率
を向上させることは考えられてきた。

【０００４】雑音のデータを取得する手法として一般的
なものは次の手法である。１数本の音声入力装置を用意し、一本をユーザの口元
に、その他の入力装置を口元から離した場所に設置する
ことにより、ユーザ音声と雑音とを別個の入力装置から
同時に取得する手法。２ユーザが発声する前にユーザに対して発声を禁止す
る雑音の学習モードを用意し、まず雑音だけを取り込む
手法。

【０００５】

【発明が解決しようとする課題】上記１の手法では、リ
アルタイムに雑音を取得できるという利点があるが、一
度に複数の音声入力装置を利用できるケースは少なく、
特に最近普及しているパーソナルコンピュータではマイ
ク端子が一つしか付いていないことから、この手法を用
いたシステムの普及は難しい。上記２の手法では、雑音
の学習中に突発的で特異な雑音を取り込んでしまった場
合、その、実環境とは異なる雑音データが保持されるの
で、以後の音声認識結果すべてに影響を生じさせる欠点
がある。また、学習が行われた雑音と実際の雑音が異な
ってしまった場合にも音声認識結果に悪影響を生じさせ
る。さらに、雑音の学習はユーザにとって冗長的な作業
となる。

【０００６】本発明は上記の問題点を解決するためのも
のであり、音声入力装置が一つしか使えない場合でも明
示的な雑音の学習を行うことなく、周囲の雑音に適応す
ることが可能となる。

【０００７】

【課題を解決するための手段】上記従来技術の課題を解
決するために、本発明は、予め定められた一定期間の音
声から雑音位置を推定し、前記推定した雑音位置の音声
のパワー情報を抽出し、前記パワー情報を抽出した後の
前記一定期間の入力音声から、当該パワー情報を用いて
音声区間を検出する情報処理方法及び装置、その記憶媒
体を提供する。

【０００８】上記従来技術の課題を解決するために、本
発明は、好ましくは前記雑音位置の推定は前記一定期間
毎に行う。

【０００９】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記一定期間は一発声区間とする。

【００１０】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記抽出したパワー情報と、予め定め
られた値との間に定める閾値を超えた区間を前記音声区
間として検出する。

【００１１】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記一定期間の音声におけるパワーが
最低の位置を前記雑音位置と推定する。

【００１２】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記抽出したパワー情報と前記次の期
間の入力音声のパワー情報とを比較し、前記抽出したパ
ワー情報より小さいパワー情報をその期間から抽出する
パワー情報とする。

【００１３】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記音声は電話回線を介して入力する
音声とする。

【００１４】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記検出した音声区間の音声を認識す
る。

【００１５】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記認識した結果に対応する情報を出
力する。

【００１６】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記推定した雑音位置の音声情報を用
いて前記次の一定期間の入力音声からの雑音除去を行
う。

【００１７】上記従来技術の課題を解決する為に、本発
明は、予め定められた一定期間の音声から雑音位置を推
定し、前記推定した雑音位置の音声のスペクトル情報を
抽出し、前記スペクトル情報を抽出した後の前記一定期
間に含まれる音声区間の入力音声から、当該スペクトル
情報を用いて雑音除去する情報処理方法及び装置、その
制御方法を提供する。

【００１８】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記雑音除去した音声を認識する。

【００１９】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記推定した雑音位置のパワー情報を
用いて前記次の一定期間の入力音声から音声区間検出を
行う。

【００２０】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記雑音除去は、前記検出された音声
区間の音声に対して行う。

【００２１】

【発明の実施の形態】図１は雑音区間の推定を説明する
為の図である。ユーザの背後には必ず環境雑音があると
すると、音声入力装置から取り込まれた入力波形１００
は、ユーザの音声と環境雑音が単純に足されたものと考
えることができる。もしも、ユーザが発声を行っていな
い瞬間があれば、その瞬間に取り込まれたデータ（入力
波形）は環境雑音そのものということになる。

【００２２】そこで、ユーザが発声を行っていない瞬間
を捕らえる必要が生じる。ユーザは息継ぎ等により、数
秒間に一回は発声を行っていないことが予想される為、
ある一定時間取り込まれた観測波形のパワーの最も低い
位置を探すことが非発声の瞬間を見つけることができ
る。

【００２３】図２は本発明に係る装置の機能的構成図で
ある。ここで、この図を用いて実施形態を説明する。

【００２４】音声応答装置（１０９）は、マイクなどの
音声入力装置（１０１）から音声波形を入力し、スピー
カなどの音声出力装置（１０２）によって音声波形を出
力する。これにより、ユーザは音声応答装置（１０９）
と音声を用いた対話を行うことができる。ここで、音声
入力装置（１０１）及び音声出力装置（１０２）を、例
えば公衆回線やＬＡＮ等を介して接続される他端末に備
えられたものとしても良い。そうすることにより、例え
ば電話等で本装置の応答システムを利用することができ
る。

【００２５】音声入力装置（１０１）から入力された観
測波形は、音声区間検出部（１０５）と入力波形メモリ
ー（１０３）に送られる。入力波形メモリ（１０３）に
は、過去一定時間、例えば一発声区間に取り込まれた音
声波形データが格納されている。この一発声区間とは、
音声の入力が開始されてから次の非発声区間への変更点
まで、或はその検出された非発声区間への変更点から次
の非発声区間への変更点までであり、非発声区間と発声
区間との両区間の波形を保持する。雑音区間推定部（１
０４）は入力波形メモリー（１０３）に格納されている
音声波形のうち、もっとも小さいパワーの周辺、例えば
パワーが最小の時を中心にした０．１秒間を非音声区間
（雑音の区間）であると推定し、その区間の波形から得
たパワーを音声区間検出部（１０５）へ、同じ区間の波
形のパワースペクトルを音声認識部（１０６）に送る。
ここで、雑音区間推定部（１０４）が送る非音声のパワ
ー及びパワースペクトルは、推定した非音声区間の波形
のパワー及びパワースペクトルをその区間のフレーム数
で除算して求めた平均データで良い。

【００２６】音声区間検出部（１０５）では、音声入力
装置（１０１）からリアルタイムに入ってくる入力波形
のパワーが雑音区間推定部（１０４）で得られた雑音パ
ワーにより定まる音声区間切出し閾値より大きく、ま
た、その判断が一定時間持続する場合に、その入力波形
を音声区間の波形であると判断するＰｏｗｅｒＳｕｂ
ｔｒａｃｔｉｏｎ（パワーサブトラクション）を行う。
この処理により、音声区間であると判断された入力波形
は音声認識部（１０６）に送る。

【００２７】音声認識部（１０６）では、音声区間検出
部（１０５）から送られてくる音声区間の入力波形のパ
ワースペクトルから雑音区間推定部（１０４）で得られ
た推定雑音パワースペクトルを減算するＳｐｅｃｔｒａ
ｌＳｕｂｔｒａｃｔｉｏｎ（スペクトラルサブトラク
ション）を行うことにより、音声と雑音の混じった観測
パワースペクトルから音声だけのパワースペクトルを算
出する。この雑音が除かれてクリーンになった音声パワ
ースペクトルを用いて音声の辞書データ（音響モデル）
とマッチングする音声認識を行う。認識結果は対話文生
成部（１０７）に送られる。

【００２８】対話文生成部（１０７）は、音声認識部１
０６から送られてくるユーザ発声の認識結果から適当な
応答文を生成する。ここで生成された対話文は、音声合
成部（１０８）に送られ、音声波形に変換されたあと、
スピーカ（１０２）などの音声出力装置に送られる。

【００２９】ここで、図４を用いて本発明に係る装置の
ハード構成を説明する。

【００３０】ＣＰＵ１はＭＥＭ２或は外部記憶装置３に
格納されている制御プログラムに従って各種処理を制
御、実行する。ＭＥＭ２はＲＯＭ及びＲＡＭから成る本
装置が備える記憶部である。本発明に係る処理で用いる
各種パラメータ、音声認識辞書データ（音響モデル）、
認識結果に対して出力する情報、それらの対応表、制御
プログラム、メッセージデータを格納し、また、ワーキ
ングエリアも備える。外部記憶装置３はＣＲ−ＲＯＭ、
ＣＤ−Ｒ、ＦＤ、ＭＯ等の本装置に着脱可能な記憶媒体
であって、ＭＥＭ２に格納されているデータはこの外部
記憶装置３からダウンロードしても良い。通信Ｉ／Ｆ４
は、公衆回線やＬＡＮ等の各種通信手段を介して他端末
との情報の送受信を可能にする為の制御を行う。表示器
５はＣＲＴやＬＣＤ等の表示器であって、ユーザに音声
入力を促す画面や、認識結果、或は認識結果に対応する
出力画面を表示する。音声入力装置６はマイク、音声出
力装置７はスピーカであるが、通信Ｉ／Ｆ４により接続
されている他端末が備えているものを利用しても良い。
キーボード８は数値入力の為のテンキーや各種指示を行
う為のものであり、バス９は各装置間のデータの授受を
行う。

【００３１】図３は本発明に係る処理全体の流れ図であ
って、ＭＥＭ２或は外部記憶装置３に記憶された制御プ
ログラムに従って、ＣＰＵ１により実行される。ここで
は、この流れ図を用いてユーザが発声した氏名を音声認
識し、その人の内線番号を音声出力することによりユー
ザに伝える内線案内システムを例に説明する。

【００３２】また、一発声前のユーザ入力波形の最低パ
ワー付近を雑音パワーとすることにより、音声の切出し
閾値の変更、音声波形の変形を行う例について説明す
る。

【００３３】システムが立ち上がると、ＭＥＭ２中の
“推定雑音”パラメータ格納部にデフォルト値を設定す
る（Ｓ２０１）。この設定するデフォルト値は例えば０
とし、音声入力が開始されてからユーザによる一回目の
発声の区間切出し（ＰｏｗｅｒＳｕｂｔｒｕｃｔｉｏ
ｎ）に用いられる。その後、ユーザからの電話待ちルー
プに入る（Ｓ２０２）。ユーザからの着呼の検知により
電話がかかってきたことが判断されると、ＭＥＭ２から
氏名の発声を促すガイダンスを読み出して出力し（Ｓ２
０３）、ＭＥＭ２中の“推定雑音”パラメータ格納部の
値を初期化する（Ｓ２０４）。ここでの初期化に用いる
値は予め定められ、ＭＥＭ２に格納してある値であり、
例えば入力が予測される最大パワー値である。ＭＥＭ２
中の“推定雑音”パラメータ及び“推定雑音”パラメー
タが定まったら、この２つのパラメータの間の、下から
８０％の値を音声区間切り出しの際の閾値Ｋとして求
め、ＭＥＭ２に格納しておく。この「８０％」という値
はこれに限らず、実験や使用環境等によって適宣定めれ
ば良い。次に一定時間（１０ｍｓ程度）の音声の取り込
みを行い（Ｓ２０５）、取り込まれた音声のパワーと
“推定雑音”パワーとを比較する（Ｓ２０６）。Ｓ２０
６で、取り込んだ音声のパワーの方が小さいと判断され
た場合は、ＭＥＭ２中の“推定雑音”パラメータ格納部
の値をＳ２０５で取り込んだ音声のパワー値に更新する
（Ｓ２０７）。そして、ＭＥＭ２に格納されている切出
し閾値Ｋを用いてＰｏｗｅｒＳｕｂｔｒａｃｔｉｏｎ
を行い、更にＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏ
ｎにより入力波形を変形した後、音声認識を行う（Ｓ２
０８）。もし、今回取り込んだ入力波形が閾値Ｋより小
さく、音声が終了していると判断された場合はそこまで
の波形で音声認識を終了し（Ｓ２０９）、ＭＥＭ２中の
“推定雑音”パラメータ格納内部に“推定雑音”パラメ
ータの値を代入し（Ｓ２１０）、Ｓ２０８で得た認識結
果の氏名の文字列に対してＭＥＭ２に格納されている内
線番号をＭＥＭ２より読み出して出力することによりユ
ーザに伝える（Ｓ２１１）。Ｓ２０９で音声区間の終了
が判断されず、音声認識が終了していない場合は、再び
音声の取り込み処理（Ｓ２０５）を行う。これらの処理
は、ユーザが電話をきると判断されるまで繰り返される
（Ｓ２１２）。

【００３４】これにより、一発声前の“推定雑音”パラ
メータを次に入ってくる音声波形の認識に用いることが
可能となる。

【００３５】また、「これから５秒間音声を取り込みま
すので、その間に発声を行ってください」といったガイ
ダンスをＭＥＭ２より読み出して出力し、５秒間音声を
取り込む。５秒間が経過したら音声の取り込みを終了
し、取り込んだ観測波形中の最低パワーの位置を求め、
そのパワーを雑音パワー、周辺のスペクトル情報を雑音
スペクトル情報としてＭＥＭ２に格納する。

【００３６】今求めた雑音パワーを用い、Ｐｏｗｅｒ
Ｓｕｂｔｒａｃｔｉｏｎを行い、取り込んだ観測波形中
から音声を含んだ部分だけを切り出す。次に、切り出さ
れた波形と雑音スペクトル情報を用いＳｐｅｃｔｒａｌ
Ｓｕｂｔｒａｃｔｉｏｎを行い、雑音の無いクリーン
な波形に変形する。Ｓ２０８で行うＳｐｅｃｔｒａｌＳ
ｕｂｔｒａｃｔｉｏｎによる雑音除去も同様の方法であ
る。その時用いる“推定雑音”パラメータを得た時の波
形から得るスペクトル情報を用いて行う。Ｓ２０７“推
定雑音”パラメータが更新される度にその位置のスペク
トル情報も保持しておき、Ｓ２１０でその情報をＳｐｅ
ｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ用にＭＥＭ２に格
納する。この波形を用いて音声認識を行う。

【００３７】この方法により、音声が発声された時点で
の雑音を用いて認識が行える為、ユーザがその５秒間に
おさまるように発声を行ってくれれば、高い認識成功率
が期待できる。

【００３８】また、図３のフローチャートでは一発声区
間内での最低パワーを識別し、このパワーを得た位置を
雑音波形としてＰｏｗｅｒＳｕｂｔｒａｃｔｉｏｎ
（パワーサブトラクション）、ＳｐｅｃｔｒａｌＳ
ｕｂｔｒａｃｔｉｏｎ（スペクトルサブトラクショ
ン）を行う際に用いるパワー値、スペクトラル情報を得
るように説明したが、本発明はこれに限定されるもので
はない。例えば、予め定めた数秒の区間の中での最低パ
ワーを識別して、その位置を雑音波形としても良い。こ
の場合は、例えばＭＥＭ２中に、波形を取り込むごとに
その波形のパワーを書き込むと、その定められた数秒で
一周するメモリエリアを設けることにより、そのエリア
内での最小値を観測することにより、常に最新の数秒間
での最小値を識別することができる。

【００３９】また、図３のフローチャートではＳ２１１
で内線番号を読み出して、例えば音声や文字で出力する
ことによりユーザに報知する処理例について説明した
が、この時、この読み出した内線番号に従って自動発呼
し、ユーザからの電話を転送することにしても良い。こ
の場合、一定時間転送先で電話がつながらなかった場合
は転送を解除し、新たに他の人の氏名を聞くようＳ２０
３に戻っても良い。

【００４０】また、本発明はユーザがかけてきた電話に
よる内線とりつぎシステムを例に挙げて説明したが、本
発明はこれに限定されるものではない。例えば、ビルの
受付でのフロアー案内、目的地までの交通機関案内、ユ
ーザによる音声入力に対する音声、文字、画像の出力等
ＭＥＭ２に予め格納しておく情報（認識結果のコードに
対して出力する情報）を用意しておけば、どのような実
施形も可能である。

【００４１】

【発明の効果】以上説明したように本発明によれば、予
め定められた一定期間の音声から雑音位置を推定し前記
推定した雑音位置の音声のパワー情報を抽出し、前記パ
ワー情報を抽出した後の前記一定期間の入力音声から、
当該パワー情報を用いて音声区間を検出することによ
り、音声入力端子が一つの装置でも、ユーザに雑音学習
期間を強要することなく、雑音環境下での正確な音声区
間検出を可能とする。

【００４２】以上説明したように本発明によれば、前記
雑音位置の推定は前記一定期間毎に行うことにより、逐
次その時点で適切な雑音情報を得ることができる。

【００４３】以上説明したように本発明によれば、前記
一定期間は一発声区間とすることにより、適当な間隔で
雑音情報を更新していくことができる。

【００４４】以上説明したように本発明によれば、前記
抽出したパワー情報と、予め定められた値との間に定め
る閾値を超えた区間を前記音声区間として検出すること
により、雑音を含む環境を考慮して適切な音声区間を切
出すことができる。

【００４５】以上説明したように本発明によれば、前記
一定期間の音声におけるパワーが最低の位置を前記雑音
位置と推定することにより、適切な雑音位置を推定する
ことができる。

【００４６】以上説明したように本発明によれば、前記
抽出したパワー情報と前記次の期間の入力音声のパワー
情報とを比較し、前記抽出したパワー情報より小さいパ
ワー情報をその期間から抽出するパワー情報とすること
により、適宣学習しながら適切な雑音情報に更新してい
くことができる。

【００４７】以上説明したように本発明によれば、前記
音声は電話回線を介して入力する音声とすることによ
り、電話回線を介して入力した音声に対しても適切な雑
音対策をすることができる。

【００４８】以上説明したように本発明によれば、前記
検出した音声区間の音声を認識することにより、雑音を
考慮して除去した音声を認識することができるので、音
声認識の精度を向上させることができる。

【００４９】以上説明したように本発明によれば、前記
認識した結果に対応する情報を出力することにより、適
切な認識を行った情報に対して適切な情報を出力するこ
とができる。

【００５０】以上説明したように本発明によれば、前記
推定した雑音位置の音声情報を用いて前記次の一定期間
の入力音声からの雑音除去を行うことにより、音声区間
の検出のみならず、雑音の除去も適切に行うことができ
る。

【００５１】以上説明したように本発明によれば、予め
定められた一定期間の音声から雑音位置を推定し、前記
推定した雑音位置の音声のスペクトル情報を抽出し、前
記スペクトル情報を抽出した後の前記一定期間に含まれ
る音声区間の入力音声から、当該スペクトル情報を用い
て雑音除去することにより、音声入力端子が一つの装置
でも、ユーザに雑音学習期間を強要することなく、雑音
環境下での正確な雑音除去を可能とする。

【００５２】以上説明したように本発明によれば、前記
雑音除去した音声を認識することにより、適切な雑音除
去された音声を認識するので、音声認識の精度を向上さ
せることができる。

【図面の簡単な説明】

【図１】入力波形の説明図。

【図２】本発明に係る装置の機能的構成図。

【図３】本発明に係る処理のフローチャート。

【図４】本発明に係る装置のハード構成図。

───────────────────────────────────────────────────── フロントページの続き (72)発明者小森康弘東京都大田区下丸子３丁目30番２号キヤノン株式会社内Ｆターム(参考） 5D015 CC01 CC14 DD03 EE05

Claims

【特許請求の範囲】

【請求項１】予め定められた一定期間の音声から雑音
位置を推定し、前記推定した雑音位置の音声のパワー情報を抽出し、前記パワー情報を抽出した後の前記一定期間の入力音声
から、当該パワー情報を用いて音声区間を検出すること
を特徴とする情報処理方法。
【請求項２】前記雑音位置の推定は前記一定期間毎に
行うことを特徴とする請求項１に記載の情報処理方法。
【請求項３】前記一定期間は一発声区間とすることを
特徴とする請求項１に記載の情報処理方法。
【請求項４】前記抽出したパワー情報と、予め定めら
れた値との間に定める閾値を超えた区間を前記音声区間
として検出することを特徴とする請求項１に記載の情報
処理方法。
【請求項５】前記一定期間の音声におけるパワーが最
低の位置を前記雑音位置と推定することを特徴とする請
求項１に記載の情報処理方法。
【請求項６】前記抽出したパワー情報と前記次の期間
の入力音声のパワー情報とを比較し、前記抽出したパワー情報より小さいパワー情報をその期
間から抽出するパワー情報とすることを特徴とする請求
項１に記載の情報処理方法。
【請求項７】前記音声は電話回線を介して入力する音
声とすることを特徴とする請求項１に記載の情報処理方
法。
【請求項８】前記検出した音声区間の音声を認識する
ことを特徴とする請求項１に記載の情報処理方法。
【請求項９】前記認識した結果に対する情報を出力す
ることを特徴とする請求項８に記載の情報処理方法。
【請求項１０】前記推定した雑音位置の音声情報を用
いて前記次の一定期間の入力音声からの雑音除去を行う
ことを特徴とする請求項１に記載の情報処理方法。
【請求項１１】予め定められた一定期間の音声から雑
音位置を推定し、前記推定した雑音位置の音声のスペクトル情報を抽出
し、前記スペクトル情報を抽出した後の前記一定期間に含ま
れる音声区間の入力音声から、当該スペクトル情報を用
いて雑音除去することを特徴とする情報処理方法。
【請求項１２】前記雑音位置の推定は、前記一定期間
毎に行うことを特徴とすることを特徴とする請求項１１
に記載の情報処理方法。
【請求項１３】前記一定期間は一発声区間とすること
を特徴とする請求項１１に記載の情報処理方法。
【請求項１４】前記雑音位置の推定は、一定期間の音
声におけるパワーが最低の位置とすることを特徴とする
請求項１１に記載の情報処理方法。
【請求項１５】前記音声は電話回線を介して入力する
音声とすることを特徴とする請求項１１に記載の情報処
理方法。
【請求項１６】前記雑音除去した音声を認識すること
を特徴とする請求項１１に記載の情報処理方法。
【請求項１７】前記認識した結果に対応する情報を出
力することを特徴とする請求項１６に記載の情報処理方
法。
【請求項１８】前記推定した雑音位置のパワー情報を
用いて前記次の一定期間の入力音声から音声区間検出を
行うことを特徴とする請求項１１に記載の情報処理方
法。
【請求項１９】前記雑音除去は、前記検出された音声
区間の音声に対して行うことを特徴とする請求項１８に
記載の情報処理方法。
【請求項２０】予め定められた一定期間の音声から雑
音位置を推定する雑音位置推定手段と、前記雑音位置推定手段により推定した雑音位置の音声の
パワー情報を抽出する抽出手段と、前記パワー情報を抽出した後の前記一定期間の入力音声
から、当該パワー情報を用いて音声区間を検出する音声
区間検出手段とを有することを特徴とする情報処理装
置。
【請求項２１】前記雑音位置推定手段は前記一定期間
毎に雑音位置の推定を行うことを特徴とする請求項２０
に記載の情報処理装置。
【請求項２２】前記一定期間は一発声区間とすること
を特徴とする請求項２０に記載の情報処理装置。
【請求項２３】前記音声区間検出手段は、前記抽出し
たパワー情報と、予め定められた値との間に定める閾値
を超えた区間を前記音声区間として検出することを特徴
とする請求項２０に記載の情報処理装置。
【請求項２４】前記雑音位置推定手段は、前記一定期
間の音声におけるパワーが最低の位置を雑音位置と推定
することを特徴とする請求項２０に記載の情報処理装
置。
【請求項２５】前記抽出手段により抽出したパワー情
報と前記次の期間の入力音声のパワー情報とを比較する
比較手段と、前記抽出したパワー情報より小さいと前記比較手段によ
り判断されたパワー情報をその期間から抽出するパワー
情報とすることを特徴とする請求項２０に記載の情報処
理装置。
【請求項２６】前記音声は電話回線を介して入力する
音声とすることを特徴とする請求項２０に記載の情報処
理装置。
【請求項２７】前記検出した音声区間の音声を認識す
る認識手段を有することを特徴とする請求項２０に記載
の情報処理装置。
【請求項２８】前記認識手段により認識した結果に対
応する情報を出力する出力手段を有することを特徴とす
る請求項２７に記載の情報処理装置。
【請求項２９】前記推定した雑音位置の音声情報を用
いて前記次の一定期間の入力音声からの雑音除去を行う
雑音除去手段を有することを特徴とする請求項２０に記
載の情報処理装置。
【請求項３０】予め定められた一定期間の音声から雑
音位置を推定する雑音位置推定手段と、前記雑音位置推定手段により推定した雑音位置の音声の
スペクトル情報を抽出するスペクトル情報抽出手段と、前記スペクトル情報を抽出した後の前記一定期間に含ま
れる音声区間の入力音声から、当該スペクトル情報を用
いて雑音除去する雑音除去手段とを有することを特徴と
する情報処理装置。
【請求項３１】前記雑音位置推定手段は、前記雑音位
置の推定を前記一定期間毎に行うことを特徴とすること
を特徴とする請求項３０に記載の情報処理装置。
【請求項３２】前記一定期間は一発声区間とすること
を特徴とする請求項３０に記載の情報処理装置。
【請求項３３】前記雑音位置推定手段は、一定期間の
音声におけるパワーが最低の位置を前記雑音位置と推定
することを特徴とする請求項３０に記載の情報処理装
置。
【請求項３４】前記音声は電話回線を介して入力する
音声とすることを特徴とする請求項３０に記載の情報処
理装置。
【請求項３５】前記雑音除去した音声を認識する認識
手段を有することを特徴とする請求項３０に記載の情報
処理装置。
【請求項３６】前記認識した結果に対応する情報を出
力する出力手段を有することを特徴とする請求項３５に
記載の情報処理装置。
【請求項３７】前記推定した雑音位置のパワー情報を
用いて前記次の一定期間の入力音声から音声区間検出を
行う音声区間検出手段を有することを特徴とする請求項
２０に記載の情報処理装置。
【請求項３８】前記雑音除去手段は、前記検出された
音声区間の音声に対して行うことを特徴とする請求項３
７に記載の情報処理装置。
【請求項３９】コンピュータにより読取可能な記憶媒
体であって、予め定められた一定期間の音声から雑音位置を推定する
為の制御プログラムと、前記推定した雑音位置の音声のパワー情報を抽出する為
の制御プログラムと、前記パワー情報を抽出した後の前記一定期間の入力音声
から、当該パワー情報を用いて音声区間を検出する為の
制御プログラムとを記憶した記憶媒体。
【請求項４０】コンピュータにより読取可能な記憶媒
体であって、予め定められた一定期間の音声から雑音位置を推定する
為の制御プログラムと、前記推定した雑音位置の音声のスペクトル情報を抽出す
る為の制御プログラムと、前記スペクトル情報を抽出した後の前記一定期間に含ま
れる音声区間の入力音声から、当該スペクトル情報を用
いて雑音除去する為の制御プログラムとを記憶した記憶
媒体。