JP2000047696A - 情報処理方法及び装置、その記憶媒体 - Google Patents

情報処理方法及び装置、その記憶媒体

Info

Publication number
JP2000047696A
JP2000047696A JP10214095A JP21409598A JP2000047696A JP 2000047696 A JP2000047696 A JP 2000047696A JP 10214095 A JP10214095 A JP 10214095A JP 21409598 A JP21409598 A JP 21409598A JP 2000047696 A JP2000047696 A JP 2000047696A
Authority
JP
Japan
Prior art keywords
voice
information
noise
information processing
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10214095A
Other languages
English (en)
Other versions
JP2000047696A5 (ja
Inventor
Kenichiro Nakagawa
賢一郎 中川
Tetsuo Kosaka
哲夫 小坂
Yasuhiro Komori
康弘 小森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP10214095A priority Critical patent/JP2000047696A/ja
Priority to US09/359,398 priority patent/US6393396B1/en
Priority to EP99305952A priority patent/EP0977176B1/en
Priority to DE69928182T priority patent/DE69928182D1/de
Publication of JP2000047696A publication Critical patent/JP2000047696A/ja
Publication of JP2000047696A5 publication Critical patent/JP2000047696A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Abstract

(57)【要約】 【課題】 入力音声から逐次適切な雑音情報を取り込
み、音声区間の検出及び雑音の除去を可能とする。 【解決手段】 入力波形から雑音位置を推定する雑音区
間推定部104と、その雑音位置のパワー情報から音声
区間を検出する音声区間検出部105と、雑音位置のス
ペクトル情報から雑音除去して認識する音声認識部10
6とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術】本発明は、入力に音声認識を用い
て情報を入力する情報処理方法及び装置、その記憶媒体
に関するものである。
【0002】
【従来の技術】ユーザの発声する音声を認識することに
より情報を入力し、その内容に対応する処理、例えば応
答の音声をシステムが出力するといった対話の可能なシ
ステムはあった。
【0003】また、入力する音声が雑音環境下で発声さ
れたものであることを考慮して、雑音のデータを用いて
ユーザの発声区間の検出率を向上させたり、音声認識率
を向上させることは考えられてきた。
【0004】雑音のデータを取得する手法として一般的
なものは次の手法である。 1 数本の音声入力装置を用意し、一本をユーザの口元
に、その他の入力装置を口元から離した場所に設置する
ことにより、ユーザ音声と雑音とを別個の入力装置から
同時に取得する手法。 2 ユーザが発声する前にユーザに対して発声を禁止す
る雑音の学習モードを用意し、まず雑音だけを取り込む
手法。
【0005】
【発明が解決しようとする課題】上記1の手法では、リ
アルタイムに雑音を取得できるという利点があるが、一
度に複数の音声入力装置を利用できるケースは少なく、
特に最近普及しているパーソナルコンピュータではマイ
ク端子が一つしか付いていないことから、この手法を用
いたシステムの普及は難しい。上記2の手法では、雑音
の学習中に突発的で特異な雑音を取り込んでしまった場
合、その、実環境とは異なる雑音データが保持されるの
で、以後の音声認識結果すべてに影響を生じさせる欠点
がある。また、学習が行われた雑音と実際の雑音が異な
ってしまった場合にも音声認識結果に悪影響を生じさせ
る。さらに、雑音の学習はユーザにとって冗長的な作業
となる。
【0006】本発明は上記の問題点を解決するためのも
のであり、音声入力装置が一つしか使えない場合でも明
示的な雑音の学習を行うことなく、周囲の雑音に適応す
ることが可能となる。
【0007】
【課題を解決するための手段】上記従来技術の課題を解
決するために、本発明は、予め定められた一定期間の音
声から雑音位置を推定し、前記推定した雑音位置の音声
のパワー情報を抽出し、前記パワー情報を抽出した後の
前記一定期間の入力音声から、当該パワー情報を用いて
音声区間を検出する情報処理方法及び装置、その記憶媒
体を提供する。
【0008】上記従来技術の課題を解決するために、本
発明は、好ましくは前記雑音位置の推定は前記一定期間
毎に行う。
【0009】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記一定期間は一発声区間とする。
【0010】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記抽出したパワー情報と、予め定め
られた値との間に定める閾値を超えた区間を前記音声区
間として検出する。
【0011】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記一定期間の音声におけるパワーが
最低の位置を前記雑音位置と推定する。
【0012】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記抽出したパワー情報と前記次の期
間の入力音声のパワー情報とを比較し、前記抽出したパ
ワー情報より小さいパワー情報をその期間から抽出する
パワー情報とする。
【0013】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記音声は電話回線を介して入力する
音声とする。
【0014】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記検出した音声区間の音声を認識す
る。
【0015】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記認識した結果に対応する情報を出
力する。
【0016】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記推定した雑音位置の音声情報を用
いて前記次の一定期間の入力音声からの雑音除去を行
う。
【0017】上記従来技術の課題を解決する為に、本発
明は、予め定められた一定期間の音声から雑音位置を推
定し、前記推定した雑音位置の音声のスペクトル情報を
抽出し、前記スペクトル情報を抽出した後の前記一定期
間に含まれる音声区間の入力音声から、当該スペクトル
情報を用いて雑音除去する情報処理方法及び装置、その
制御方法を提供する。
【0018】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記雑音除去した音声を認識する。
【0019】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記推定した雑音位置のパワー情報を
用いて前記次の一定期間の入力音声から音声区間検出を
行う。
【0020】上記従来技術の課題を解決する為に、本発
明は、好ましくは前記雑音除去は、前記検出された音声
区間の音声に対して行う。
【0021】
【発明の実施の形態】図1は雑音区間の推定を説明する
為の図である。ユーザの背後には必ず環境雑音があると
すると、音声入力装置から取り込まれた入力波形100
は、ユーザの音声と環境雑音が単純に足されたものと考
えることができる。もしも、ユーザが発声を行っていな
い瞬間があれば、その瞬間に取り込まれたデータ(入力
波形)は環境雑音そのものということになる。
【0022】そこで、ユーザが発声を行っていない瞬間
を捕らえる必要が生じる。ユーザは息継ぎ等により、数
秒間に一回は発声を行っていないことが予想される為、
ある一定時間取り込まれた観測波形のパワーの最も低い
位置を探すことが非発声の瞬間を見つけることができ
る。
【0023】図2は本発明に係る装置の機能的構成図で
ある。ここで、この図を用いて実施形態を説明する。
【0024】音声応答装置(109)は、マイクなどの
音声入力装置(101)から音声波形を入力し、スピー
カなどの音声出力装置(102)によって音声波形を出
力する。これにより、ユーザは音声応答装置(109)
と音声を用いた対話を行うことができる。ここで、音声
入力装置(101)及び音声出力装置(102)を、例
えば公衆回線やLAN等を介して接続される他端末に備
えられたものとしても良い。そうすることにより、例え
ば電話等で本装置の応答システムを利用することができ
る。
【0025】音声入力装置(101)から入力された観
測波形は、音声区間検出部(105)と入力波形メモリ
ー(103)に送られる。入力波形メモリ(103)に
は、過去一定時間、例えば一発声区間に取り込まれた音
声波形データが格納されている。この一発声区間とは、
音声の入力が開始されてから次の非発声区間への変更点
まで、或はその検出された非発声区間への変更点から次
の非発声区間への変更点までであり、非発声区間と発声
区間との両区間の波形を保持する。雑音区間推定部(1
04)は入力波形メモリー(103)に格納されている
音声波形のうち、もっとも小さいパワーの周辺、例えば
パワーが最小の時を中心にした0.1秒間を非音声区間
(雑音の区間)であると推定し、その区間の波形から得
たパワーを音声区間検出部(105)へ、同じ区間の波
形のパワースペクトルを音声認識部(106)に送る。
ここで、雑音区間推定部(104)が送る非音声のパワ
ー及びパワースペクトルは、推定した非音声区間の波形
のパワー及びパワースペクトルをその区間のフレーム数
で除算して求めた平均データで良い。
【0026】音声区間検出部(105)では、音声入力
装置(101)からリアルタイムに入ってくる入力波形
のパワーが雑音区間推定部(104)で得られた雑音パ
ワーにより定まる音声区間切出し閾値より大きく、ま
た、その判断が一定時間持続する場合に、その入力波形
を音声区間の波形であると判断するPower Sub
traction(パワーサブトラクション)を行う。
この処理により、音声区間であると判断された入力波形
は音声認識部(106)に送る。
【0027】音声認識部(106)では、音声区間検出
部(105)から送られてくる音声区間の入力波形のパ
ワースペクトルから雑音区間推定部(104)で得られ
た推定雑音パワースペクトルを減算するSpectra
l Subtraction(スペクトラルサブトラク
ション)を行うことにより、音声と雑音の混じった観測
パワースペクトルから音声だけのパワースペクトルを算
出する。この雑音が除かれてクリーンになった音声パワ
ースペクトルを用いて音声の辞書データ(音響モデル)
とマッチングする音声認識を行う。認識結果は対話文生
成部(107)に送られる。
【0028】対話文生成部(107)は、音声認識部1
06から送られてくるユーザ発声の認識結果から適当な
応答文を生成する。ここで生成された対話文は、音声合
成部(108)に送られ、音声波形に変換されたあと、
スピーカ(102)などの音声出力装置に送られる。
【0029】ここで、図4を用いて本発明に係る装置の
ハード構成を説明する。
【0030】CPU1はMEM2或は外部記憶装置3に
格納されている制御プログラムに従って各種処理を制
御、実行する。MEM2はROM及びRAMから成る本
装置が備える記憶部である。本発明に係る処理で用いる
各種パラメータ、音声認識辞書データ(音響モデル)、
認識結果に対して出力する情報、それらの対応表、制御
プログラム、メッセージデータを格納し、また、ワーキ
ングエリアも備える。外部記憶装置3はCR−ROM、
CD−R、FD、MO等の本装置に着脱可能な記憶媒体
であって、MEM2に格納されているデータはこの外部
記憶装置3からダウンロードしても良い。通信I/F4
は、公衆回線やLAN等の各種通信手段を介して他端末
との情報の送受信を可能にする為の制御を行う。表示器
5はCRTやLCD等の表示器であって、ユーザに音声
入力を促す画面や、認識結果、或は認識結果に対応する
出力画面を表示する。音声入力装置6はマイク、音声出
力装置7はスピーカであるが、通信I/F4により接続
されている他端末が備えているものを利用しても良い。
キーボード8は数値入力の為のテンキーや各種指示を行
う為のものであり、バス9は各装置間のデータの授受を
行う。
【0031】図3は本発明に係る処理全体の流れ図であ
って、MEM2或は外部記憶装置3に記憶された制御プ
ログラムに従って、CPU1により実行される。ここで
は、この流れ図を用いてユーザが発声した氏名を音声認
識し、その人の内線番号を音声出力することによりユー
ザに伝える内線案内システムを例に説明する。
【0032】また、一発声前のユーザ入力波形の最低パ
ワー付近を雑音パワーとすることにより、音声の切出し
閾値の変更、音声波形の変形を行う例について説明す
る。
【0033】システムが立ち上がると、MEM2中の
“推定雑音”パラメータ格納部にデフォルト値を設定す
る(S201)。この設定するデフォルト値は例えば0
とし、音声入力が開始されてからユーザによる一回目の
発声の区間切出し(PowerSubtructio
n)に用いられる。その後、ユーザからの電話待ちルー
プに入る(S202)。ユーザからの着呼の検知により
電話がかかってきたことが判断されると、MEM2から
氏名の発声を促すガイダンスを読み出して出力し(S2
03)、MEM2中の“推定雑音”パラメータ格納部の
値を初期化する(S204)。ここでの初期化に用いる
値は予め定められ、MEM2に格納してある値であり、
例えば入力が予測される最大パワー値である。MEM2
中の“推定雑音”パラメータ及び“推定雑音”パラメー
タが定まったら、この2つのパラメータの間の、下から
80%の値を音声区間切り出しの際の閾値Kとして求
め、MEM2に格納しておく。この「80%」という値
はこれに限らず、実験や使用環境等によって適宣定めれ
ば良い。次に一定時間(10ms程度)の音声の取り込
みを行い(S205)、取り込まれた音声のパワーと
“推定雑音”パワーとを比較する(S206)。S20
6で、取り込んだ音声のパワーの方が小さいと判断され
た場合は、MEM2中の“推定雑音”パラメータ格納部
の値をS205で取り込んだ音声のパワー値に更新する
(S207)。そして、MEM2に格納されている切出
し閾値Kを用いてPower Subtraction
を行い、更にSpectral Subtractio
nにより入力波形を変形した後、音声認識を行う(S2
08)。もし、今回取り込んだ入力波形が閾値Kより小
さく、音声が終了していると判断された場合はそこまで
の波形で音声認識を終了し(S209)、MEM2中の
“推定雑音”パラメータ格納内部に“推定雑音”パラメ
ータの値を代入し(S210)、S208で得た認識結
果の氏名の文字列に対してMEM2に格納されている内
線番号をMEM2より読み出して出力することによりユ
ーザに伝える(S211)。S209で音声区間の終了
が判断されず、音声認識が終了していない場合は、再び
音声の取り込み処理(S205)を行う。これらの処理
は、ユーザが電話をきると判断されるまで繰り返される
(S212)。
【0034】これにより、一発声前の“推定雑音”パラ
メータを次に入ってくる音声波形の認識に用いることが
可能となる。
【0035】また、「これから5秒間音声を取り込みま
すので、その間に発声を行ってください」といったガイ
ダンスをMEM2より読み出して出力し、5秒間音声を
取り込む。5秒間が経過したら音声の取り込みを終了
し、取り込んだ観測波形中の最低パワーの位置を求め、
そのパワーを雑音パワー、周辺のスペクトル情報を雑音
スペクトル情報としてMEM2に格納する。
【0036】今求めた雑音パワーを用い、Power
Subtractionを行い、取り込んだ観測波形中
から音声を含んだ部分だけを切り出す。次に、切り出さ
れた波形と雑音スペクトル情報を用いSpectral
Subtractionを行い、雑音の無いクリーン
な波形に変形する。S208で行うSpectralS
ubtractionによる雑音除去も同様の方法であ
る。その時用いる“推定雑音”パラメータを得た時の波
形から得るスペクトル情報を用いて行う。S207“推
定雑音”パラメータが更新される度にその位置のスペク
トル情報も保持しておき、S210でその情報をSpe
ctral Subtraction用にMEM2に格
納する。この波形を用いて音声認識を行う。
【0037】この方法により、音声が発声された時点で
の雑音を用いて認識が行える為、ユーザがその5秒間に
おさまるように発声を行ってくれれば、高い認識成功率
が期待できる。
【0038】また、図3のフローチャートでは一発声区
間内での最低パワーを識別し、このパワーを得た位置を
雑音波形としてPower Subtraction
(パワー サブトラクション)、Spectral S
ubtraction(スペクトル サブトラクショ
ン)を行う際に用いるパワー値、スペクトラル情報を得
るように説明したが、本発明はこれに限定されるもので
はない。例えば、予め定めた数秒の区間の中での最低パ
ワーを識別して、その位置を雑音波形としても良い。こ
の場合は、例えばMEM2中に、波形を取り込むごとに
その波形のパワーを書き込むと、その定められた数秒で
一周するメモリエリアを設けることにより、そのエリア
内での最小値を観測することにより、常に最新の数秒間
での最小値を識別することができる。
【0039】また、図3のフローチャートではS211
で内線番号を読み出して、例えば音声や文字で出力する
ことによりユーザに報知する処理例について説明した
が、この時、この読み出した内線番号に従って自動発呼
し、ユーザからの電話を転送することにしても良い。こ
の場合、一定時間転送先で電話がつながらなかった場合
は転送を解除し、新たに他の人の氏名を聞くようS20
3に戻っても良い。
【0040】また、本発明はユーザがかけてきた電話に
よる内線とりつぎシステムを例に挙げて説明したが、本
発明はこれに限定されるものではない。例えば、ビルの
受付でのフロアー案内、目的地までの交通機関案内、ユ
ーザによる音声入力に対する音声、文字、画像の出力等
MEM2に予め格納しておく情報(認識結果のコードに
対して出力する情報)を用意しておけば、どのような実
施形も可能である。
【0041】
【発明の効果】以上説明したように本発明によれば、予
め定められた一定期間の音声から雑音位置を推定し前記
推定した雑音位置の音声のパワー情報を抽出し、前記パ
ワー情報を抽出した後の前記一定期間の入力音声から、
当該パワー情報を用いて音声区間を検出することによ
り、音声入力端子が一つの装置でも、ユーザに雑音学習
期間を強要することなく、雑音環境下での正確な音声区
間検出を可能とする。
【0042】以上説明したように本発明によれば、前記
雑音位置の推定は前記一定期間毎に行うことにより、逐
次その時点で適切な雑音情報を得ることができる。
【0043】以上説明したように本発明によれば、前記
一定期間は一発声区間とすることにより、適当な間隔で
雑音情報を更新していくことができる。
【0044】以上説明したように本発明によれば、前記
抽出したパワー情報と、予め定められた値との間に定め
る閾値を超えた区間を前記音声区間として検出すること
により、雑音を含む環境を考慮して適切な音声区間を切
出すことができる。
【0045】以上説明したように本発明によれば、前記
一定期間の音声におけるパワーが最低の位置を前記雑音
位置と推定することにより、適切な雑音位置を推定する
ことができる。
【0046】以上説明したように本発明によれば、前記
抽出したパワー情報と前記次の期間の入力音声のパワー
情報とを比較し、前記抽出したパワー情報より小さいパ
ワー情報をその期間から抽出するパワー情報とすること
により、適宣学習しながら適切な雑音情報に更新してい
くことができる。
【0047】以上説明したように本発明によれば、前記
音声は電話回線を介して入力する音声とすることによ
り、電話回線を介して入力した音声に対しても適切な雑
音対策をすることができる。
【0048】以上説明したように本発明によれば、前記
検出した音声区間の音声を認識することにより、雑音を
考慮して除去した音声を認識することができるので、音
声認識の精度を向上させることができる。
【0049】以上説明したように本発明によれば、前記
認識した結果に対応する情報を出力することにより、適
切な認識を行った情報に対して適切な情報を出力するこ
とができる。
【0050】以上説明したように本発明によれば、前記
推定した雑音位置の音声情報を用いて前記次の一定期間
の入力音声からの雑音除去を行うことにより、音声区間
の検出のみならず、雑音の除去も適切に行うことができ
る。
【0051】以上説明したように本発明によれば、予め
定められた一定期間の音声から雑音位置を推定し、前記
推定した雑音位置の音声のスペクトル情報を抽出し、前
記スペクトル情報を抽出した後の前記一定期間に含まれ
る音声区間の入力音声から、当該スペクトル情報を用い
て雑音除去することにより、音声入力端子が一つの装置
でも、ユーザに雑音学習期間を強要することなく、雑音
環境下での正確な雑音除去を可能とする。
【0052】以上説明したように本発明によれば、前記
雑音除去した音声を認識することにより、適切な雑音除
去された音声を認識するので、音声認識の精度を向上さ
せることができる。
【図面の簡単な説明】
【図1】入力波形の説明図。
【図2】本発明に係る装置の機能的構成図。
【図3】本発明に係る処理のフローチャート。
【図4】本発明に係る装置のハード構成図。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小森 康弘 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内 Fターム(参考) 5D015 CC01 CC14 DD03 EE05

Claims (40)

    【特許請求の範囲】
  1. 【請求項1】 予め定められた一定期間の音声から雑音
    位置を推定し、 前記推定した雑音位置の音声のパワー情報を抽出し、 前記パワー情報を抽出した後の前記一定期間の入力音声
    から、当該パワー情報を用いて音声区間を検出すること
    を特徴とする情報処理方法。
  2. 【請求項2】 前記雑音位置の推定は前記一定期間毎に
    行うことを特徴とする請求項1に記載の情報処理方法。
  3. 【請求項3】 前記一定期間は一発声区間とすることを
    特徴とする請求項1に記載の情報処理方法。
  4. 【請求項4】 前記抽出したパワー情報と、予め定めら
    れた値との間に定める閾値を超えた区間を前記音声区間
    として検出することを特徴とする請求項1に記載の情報
    処理方法。
  5. 【請求項5】 前記一定期間の音声におけるパワーが最
    低の位置を前記雑音位置と推定することを特徴とする請
    求項1に記載の情報処理方法。
  6. 【請求項6】 前記抽出したパワー情報と前記次の期間
    の入力音声のパワー情報とを比較し、 前記抽出したパワー情報より小さいパワー情報をその期
    間から抽出するパワー情報とすることを特徴とする請求
    項1に記載の情報処理方法。
  7. 【請求項7】 前記音声は電話回線を介して入力する音
    声とすることを特徴とする請求項1に記載の情報処理方
    法。
  8. 【請求項8】 前記検出した音声区間の音声を認識する
    ことを特徴とする請求項1に記載の情報処理方法。
  9. 【請求項9】 前記認識した結果に対する情報を出力す
    ることを特徴とする請求項8に記載の情報処理方法。
  10. 【請求項10】 前記推定した雑音位置の音声情報を用
    いて前記次の一定期間の入力音声からの雑音除去を行う
    ことを特徴とする請求項1に記載の情報処理方法。
  11. 【請求項11】 予め定められた一定期間の音声から雑
    音位置を推定し、 前記推定した雑音位置の音声のスペクトル情報を抽出
    し、 前記スペクトル情報を抽出した後の前記一定期間に含ま
    れる音声区間の入力音声から、当該スペクトル情報を用
    いて雑音除去することを特徴とする情報処理方法。
  12. 【請求項12】 前記雑音位置の推定は、前記一定期間
    毎に行うことを特徴とすることを特徴とする請求項11
    に記載の情報処理方法。
  13. 【請求項13】 前記一定期間は一発声区間とすること
    を特徴とする請求項11に記載の情報処理方法。
  14. 【請求項14】 前記雑音位置の推定は、一定期間の音
    声におけるパワーが最低の位置とすることを特徴とする
    請求項11に記載の情報処理方法。
  15. 【請求項15】 前記音声は電話回線を介して入力する
    音声とすることを特徴とする請求項11に記載の情報処
    理方法。
  16. 【請求項16】 前記雑音除去した音声を認識すること
    を特徴とする請求項11に記載の情報処理方法。
  17. 【請求項17】 前記認識した結果に対応する情報を出
    力することを特徴とする請求項16に記載の情報処理方
    法。
  18. 【請求項18】 前記推定した雑音位置のパワー情報を
    用いて前記次の一定期間の入力音声から音声区間検出を
    行うことを特徴とする請求項11に記載の情報処理方
    法。
  19. 【請求項19】 前記雑音除去は、前記検出された音声
    区間の音声に対して行うことを特徴とする請求項18に
    記載の情報処理方法。
  20. 【請求項20】 予め定められた一定期間の音声から雑
    音位置を推定する雑音位置推定手段と、 前記雑音位置推定手段により推定した雑音位置の音声の
    パワー情報を抽出する抽出手段と、 前記パワー情報を抽出した後の前記一定期間の入力音声
    から、当該パワー情報を用いて音声区間を検出する音声
    区間検出手段とを有することを特徴とする情報処理装
    置。
  21. 【請求項21】 前記雑音位置推定手段は前記一定期間
    毎に雑音位置の推定を行うことを特徴とする請求項20
    に記載の情報処理装置。
  22. 【請求項22】 前記一定期間は一発声区間とすること
    を特徴とする請求項20に記載の情報処理装置。
  23. 【請求項23】 前記音声区間検出手段は、前記抽出し
    たパワー情報と、予め定められた値との間に定める閾値
    を超えた区間を前記音声区間として検出することを特徴
    とする請求項20に記載の情報処理装置。
  24. 【請求項24】 前記雑音位置推定手段は、前記一定期
    間の音声におけるパワーが最低の位置を雑音位置と推定
    することを特徴とする請求項20に記載の情報処理装
    置。
  25. 【請求項25】 前記抽出手段により抽出したパワー情
    報と前記次の期間の入力音声のパワー情報とを比較する
    比較手段と、 前記抽出したパワー情報より小さいと前記比較手段によ
    り判断されたパワー情報をその期間から抽出するパワー
    情報とすることを特徴とする請求項20に記載の情報処
    理装置。
  26. 【請求項26】 前記音声は電話回線を介して入力する
    音声とすることを特徴とする請求項20に記載の情報処
    理装置。
  27. 【請求項27】 前記検出した音声区間の音声を認識す
    る認識手段を有することを特徴とする請求項20に記載
    の情報処理装置。
  28. 【請求項28】 前記認識手段により認識した結果に対
    応する情報を出力する出力手段を有することを特徴とす
    る請求項27に記載の情報処理装置。
  29. 【請求項29】 前記推定した雑音位置の音声情報を用
    いて前記次の一定期間の入力音声からの雑音除去を行う
    雑音除去手段を有することを特徴とする請求項20に記
    載の情報処理装置。
  30. 【請求項30】 予め定められた一定期間の音声から雑
    音位置を推定する雑音位置推定手段と、 前記雑音位置推定手段により推定した雑音位置の音声の
    スペクトル情報を抽出するスペクトル情報抽出手段と、 前記スペクトル情報を抽出した後の前記一定期間に含ま
    れる音声区間の入力音声から、当該スペクトル情報を用
    いて雑音除去する雑音除去手段とを有することを特徴と
    する情報処理装置。
  31. 【請求項31】 前記雑音位置推定手段は、前記雑音位
    置の推定を前記一定期間毎に行うことを特徴とすること
    を特徴とする請求項30に記載の情報処理装置。
  32. 【請求項32】 前記一定期間は一発声区間とすること
    を特徴とする請求項30に記載の情報処理装置。
  33. 【請求項33】 前記雑音位置推定手段は、一定期間の
    音声におけるパワーが最低の位置を前記雑音位置と推定
    することを特徴とする請求項30に記載の情報処理装
    置。
  34. 【請求項34】 前記音声は電話回線を介して入力する
    音声とすることを特徴とする請求項30に記載の情報処
    理装置。
  35. 【請求項35】 前記雑音除去した音声を認識する認識
    手段を有することを特徴とする請求項30に記載の情報
    処理装置。
  36. 【請求項36】 前記認識した結果に対応する情報を出
    力する出力手段を有することを特徴とする請求項35に
    記載の情報処理装置。
  37. 【請求項37】 前記推定した雑音位置のパワー情報を
    用いて前記次の一定期間の入力音声から音声区間検出を
    行う音声区間検出手段を有することを特徴とする請求項
    20に記載の情報処理装置。
  38. 【請求項38】 前記雑音除去手段は、前記検出された
    音声区間の音声に対して行うことを特徴とする請求項3
    7に記載の情報処理装置。
  39. 【請求項39】 コンピュータにより読取可能な記憶媒
    体であって、 予め定められた一定期間の音声から雑音位置を推定する
    為の制御プログラムと、 前記推定した雑音位置の音声のパワー情報を抽出する為
    の制御プログラムと、 前記パワー情報を抽出した後の前記一定期間の入力音声
    から、当該パワー情報を用いて音声区間を検出する為の
    制御プログラムとを記憶した記憶媒体。
  40. 【請求項40】 コンピュータにより読取可能な記憶媒
    体であって、 予め定められた一定期間の音声から雑音位置を推定する
    為の制御プログラムと、 前記推定した雑音位置の音声のスペクトル情報を抽出す
    る為の制御プログラムと、 前記スペクトル情報を抽出した後の前記一定期間に含ま
    れる音声区間の入力音声から、当該スペクトル情報を用
    いて雑音除去する為の制御プログラムとを記憶した記憶
    媒体。
JP10214095A 1998-07-29 1998-07-29 情報処理方法及び装置、その記憶媒体 Pending JP2000047696A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP10214095A JP2000047696A (ja) 1998-07-29 1998-07-29 情報処理方法及び装置、その記憶媒体
US09/359,398 US6393396B1 (en) 1998-07-29 1999-07-23 Method and apparatus for distinguishing speech from noise
EP99305952A EP0977176B1 (en) 1998-07-29 1999-07-27 Speech processing method and apparatus, and recording medium
DE69928182T DE69928182D1 (de) 1998-07-29 1999-07-27 Verfahren und Vorrichtung zur Sprachverarbeitung, sowie Aufzeichnungsmedium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10214095A JP2000047696A (ja) 1998-07-29 1998-07-29 情報処理方法及び装置、その記憶媒体

Publications (2)

Publication Number Publication Date
JP2000047696A true JP2000047696A (ja) 2000-02-18
JP2000047696A5 JP2000047696A5 (ja) 2007-03-01

Family

ID=16650151

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10214095A Pending JP2000047696A (ja) 1998-07-29 1998-07-29 情報処理方法及び装置、その記憶媒体

Country Status (4)

Country Link
US (1) US6393396B1 (ja)
EP (1) EP0977176B1 (ja)
JP (1) JP2000047696A (ja)
DE (1) DE69928182D1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220158595A (ko) * 2018-11-29 2022-12-01 에이엠에스 센서스 유케이 리미티드 노이즈 소거 대응 오디오 시스템을 튜닝하기 위한 방법 및 노이즈 소거 대응 오디오 시스템

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19939102C1 (de) * 1999-08-18 2000-10-26 Siemens Ag Verfahren und Anordnung zum Erkennen von Sprache
JP3728177B2 (ja) * 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
AU2001294989A1 (en) * 2000-10-04 2002-04-15 Clarity, L.L.C. Speech detection
JP2002268681A (ja) * 2001-03-08 2002-09-20 Canon Inc 音声認識システム及び方法及び該システムに用いる情報処理装置とその方法
JP3542578B2 (ja) * 2001-11-22 2004-07-14 キヤノン株式会社 音声認識装置及びその方法、プログラム
JP3885002B2 (ja) * 2002-06-28 2007-02-21 キヤノン株式会社 情報処理装置およびその方法
EP1513137A1 (en) * 2003-08-22 2005-03-09 MicronasNIT LCC, Novi Sad Institute of Information Technologies Speech processing system and method with multi-pulse excitation
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
JP4810343B2 (ja) * 2006-07-20 2011-11-09 キヤノン株式会社 音声処理装置およびその制御方法
JP2008048076A (ja) * 2006-08-11 2008-02-28 Canon Inc 音声処理装置およびその制御方法
EP2107553B1 (en) * 2008-03-31 2011-05-18 Harman Becker Automotive Systems GmbH Method for determining barge-in
GB0919672D0 (en) * 2009-11-10 2009-12-23 Skype Ltd Noise suppression
JP2011191668A (ja) * 2010-03-16 2011-09-29 Sony Corp 音声処理装置、音声処理方法およびプログラム
CN103730118B (zh) * 2012-10-11 2017-03-15 百度在线网络技术(北京)有限公司 语音信号采集方法和移动终端
CN103730126B (zh) * 2012-10-16 2017-04-05 联芯科技有限公司 噪声抑制方法和噪声抑制器
WO2019013811A1 (en) * 2017-07-14 2019-01-17 Hewlett-Packard Development Company, L.P. MICROWAVE IMAGE PROCESSING TO DIRECT THE BEAM DIRECTION OF A MICROPHONE NETWORK

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4696040A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with energy normalization and silence suppression
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
US5761639A (en) * 1989-03-13 1998-06-02 Kabushiki Kaisha Toshiba Method and apparatus for time series signal recognition with signal variation proof learning
US5220629A (en) 1989-11-06 1993-06-15 Canon Kabushiki Kaisha Speech synthesis apparatus and method
JPH03150599A (ja) 1989-11-07 1991-06-26 Canon Inc 日本語音節の符号化方式
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
JPH04362698A (ja) 1991-06-11 1992-12-15 Canon Inc 音声認識方法及び装置
JP3066920B2 (ja) 1991-06-11 2000-07-17 キヤノン株式会社 音声認識方法及び装置
JP3397372B2 (ja) 1993-06-16 2003-04-14 キヤノン株式会社 音声認識方法及び装置
JP3450411B2 (ja) 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
JP3581401B2 (ja) 1994-10-07 2004-10-27 キヤノン株式会社 音声認識方法
US5727072A (en) * 1995-02-24 1998-03-10 Nynex Science & Technology Use of noise segmentation for noise cancellation
JP3453456B2 (ja) 1995-06-19 2003-10-06 キヤノン株式会社 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
JP3522012B2 (ja) * 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
JPH09258771A (ja) 1996-03-25 1997-10-03 Canon Inc 音声処理方法及び装置
JPH10161692A (ja) 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220158595A (ko) * 2018-11-29 2022-12-01 에이엠에스 센서스 유케이 리미티드 노이즈 소거 대응 오디오 시스템을 튜닝하기 위한 방법 및 노이즈 소거 대응 오디오 시스템
KR102653283B1 (ko) * 2018-11-29 2024-04-01 에이엠에스 센서스 유케이 리미티드 노이즈 소거 대응 오디오 시스템을 튜닝하기 위한 방법 및 노이즈 소거 대응 오디오 시스템

Also Published As

Publication number Publication date
US6393396B1 (en) 2002-05-21
EP0977176A3 (en) 2003-07-16
EP0977176A2 (en) 2000-02-02
EP0977176B1 (en) 2005-11-09
DE69928182D1 (de) 2005-12-15

Similar Documents

Publication Publication Date Title
JP2000047696A (ja) 情報処理方法及び装置、その記憶媒体
JP3691511B2 (ja) 休止検出を行う音声認識
JP4838351B2 (ja) キーワード抽出装置
US8660842B2 (en) Enhancing speech recognition using visual information
US8521525B2 (en) Communication control apparatus, communication control method, and non-transitory computer-readable medium storing a communication control program for converting sound data into text data
KR100742888B1 (ko) 음성 인식 방법
US9031841B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
JPH0962293A (ja) 音声認識対話装置および音声認識対話処理方法
JP2007133414A (ja) 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置
JP2007033754A (ja) 音声監視システムと方法並びにプログラム
KR101836430B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
US10229701B2 (en) Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission
CN110663078A (zh) 语音识别装置及语音识别方法
JPH09179581A (ja) 音声認識システム
KR20180127020A (ko) 자연어 대화체 음성 인식 방법 및 장치
CN116312561A (zh) 一种电力调度***人员声纹识别鉴权降噪和语音增强方法、***及装置
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JP2000122678A (ja) 音声認識機器制御装置
JP4449380B2 (ja) 話者正規化方法及びそれを用いた音声認識装置
JP2002041083A (ja) 遠隔制御システムおよび遠隔制御方法、並びに記録媒体
KR20000056849A (ko) 음향 기기의 음성인식 방법
JPH06161488A (ja) 音声認識装置
CN112185346B (zh) 多语种语音关键词检测、模型生成方法及电子设备
JPH0990990A (ja) 音声認識のための音響分析方法および装置
CN115881094A (zh) 智能电梯的语音指令识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050629

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080418

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080715