JP2007199247A - 音響分析装置及びコンピュータプログラム、音声認識システム - Google Patents

音響分析装置及びコンピュータプログラム、音声認識システム Download PDF

Info

Publication number
JP2007199247A
JP2007199247A JP2006016172A JP2006016172A JP2007199247A JP 2007199247 A JP2007199247 A JP 2007199247A JP 2006016172 A JP2006016172 A JP 2006016172A JP 2006016172 A JP2006016172 A JP 2006016172A JP 2007199247 A JP2007199247 A JP 2007199247A
Authority
JP
Japan
Prior art keywords
input signal
noise
acoustic
suppressed
noise component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006016172A
Other languages
English (en)
Other versions
JP4745837B2 (ja
Inventor
Toshiaki Uchibe
利明 内部
Eiji Utsunomiya
栄二 宇都宮
Tsuneo Kato
恒夫 加藤
Masaki Naito
正樹 内藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2006016172A priority Critical patent/JP4745837B2/ja
Publication of JP2007199247A publication Critical patent/JP2007199247A/ja
Application granted granted Critical
Publication of JP4745837B2 publication Critical patent/JP4745837B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】雑音抑圧ありの音響特徴量抽出と、雑音抑圧なしの音響特徴量抽出とを効果的に使い分けることができるようにすることにより、音声認識性能の向上を図る。
【解決手段】マイク入力信号に基づき、背景雑音の大きさが所定レベル以上であるか判定する判定部15と、マイク入力信号に含まれる雑音成分を抑圧する雑音抑圧部16と、判定部15の判定結果に応じて、雑音抑圧部16により雑音成分が抑圧されたマイク入力信号から、若しくは、雑音成分が抑圧されていないマイク入力信号から、音響特徴量を抽出する分析手段と、を備える。
【選択図】図1

Description

本発明は、音声認識用の音響分析装置及びコンピュータプログラム、音声認識システムに関する。
近年、音声認識により情報提供を行うサービスシステムが普及してきている。その音声認識システムの音声認識性能は、音声入力用マイクの周辺の背景雑音が大きい環境において著しく劣化する。そのために背景雑音による性能劣化を抑えるための雑音抑圧手法が従来より提案されている。一般的な雑音抑圧手法では、入力信号から雑音成分を推定し、その推定結果に基づいて入力信号から雑音成分を除去しているが、雑音は常に変動しているために、雑音抑圧後の音声が不自然に聞こえる場合がある。これを音声の歪みとよぶ。音声の歪みは音声認識システムの音声認識性能に悪影響を与える。このため例えば特許文献1記載の従来技術では、信号対雑音比(SNR)が低い場合には雑音区間の推定が難しいので雑音抑圧を停止し、SNRが高い場合にのみ雑音抑圧を行うようにしている。
また、サーバ・クライアント型の音声認識システムにおける通信量削減のための分散型音声認識(DSR)用の符号化方式として、欧州電気通信標準化機構(European Telecommunications Standards institute:ETSI)により、雑音抑圧のない符号化方式(ES201108)と、雑音抑圧付きの符号化方式(ES202050)とが規格化されている。
再表01/024167号公報
通常、音声認識システムにおいては、音声入力用マイクの周辺の背景雑音が大きいときには、雑音抑圧の適用により、音声認識性能は向上する。しかしながら、背景雑音が小さいときに雑音抑圧を適用すると、かえって音声認識性能が低下する場合がある。
また、雑音抑圧付きの符号化方式(ES202050)は、SNRが低いときには、雑音抑圧の効果により、雑音抑圧のない符号化方式(ES201108)よりも音声認識性能が向上する。しかしながら、SNRが高いときには、雑音抑圧の影響により、かえって雑音抑圧のない符号化方式(ES201108)よりも音声認識性能が悪くなる。
したがって、上述した特許文献1記載の従来技術のように、雑音区間の推定が難しいという理由から、SNRの低い場合には雑音抑圧を行わず、SNRの高い場合にのみ雑音抑圧を行うというのは、音声認識性能の向上という観点からは好ましくない。
本発明は、このような事情を考慮してなされたもので、その目的は、雑音抑圧ありの音響特徴量抽出と、雑音抑圧なしの音響特徴量抽出とを効果的に使い分けることができるようにすることにより、音声認識性能の向上を図ることのできる音響分析装置及び音声認識システムを提供することにある。
また、本発明の他の目的は、本発明の音響分析装置をコンピュータを利用して実現するためのコンピュータプログラムを提供することにある。
上記の課題を解決するために、本発明に係る音響分析装置は、音声認識用の音響分析装置において、音声入力手段からの入力信号に基づき、背景雑音の大きさが所定レベル以上であるか判定する判定手段と、前記入力信号に含まれる雑音成分を抑圧する雑音抑圧手段と、前記判定手段の判定結果に応じて、前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から、若しくは、雑音成分が抑圧されていない前記入力信号から、音響特徴量を抽出する分析手段と、を備えたことを特徴とする。
本発明に係る音響分析装置においては、前記分析手段は、背景雑音の大きさが所定レベル以上である場合には前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から音響特徴量を抽出し、それ以外の場合には雑音成分が抑圧されていない前記入力信号から音響特徴量を抽出することを特徴とする。
本発明に係る音響分析装置は、音声認識用の音響分析装置において、音声入力手段からの入力信号に基づき、信号対雑音比が所定レベル未満であるか判定する判定手段と、前記入力信号に含まれる雑音成分を抑圧する雑音抑圧手段と、前記判定手段の判定結果に応じて、前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から、若しくは、雑音成分が抑圧されていない前記入力信号から、音響特徴量を抽出する分析手段と、を備えたことを特徴とする。
本発明に係る音響分析装置においては、前記分析手段は、信号対雑音比が所定レベル未満である場合には前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から音響特徴量を抽出し、それ以外の場合には雑音成分が抑圧されていない前記入力信号から音響特徴量を抽出することを特徴とする。
本発明に係る音響分析装置においては、前記分析手段は、雑音成分が抑圧された前記入力信号から音響特徴量を抽出するときに専用の第1の音響特徴量抽出演算手段と、雑音成分が抑圧されていない前記入力信号から音響特徴量を抽出するときに専用の第2の音響特徴量抽出演算手段と、を有することを特徴とする。
本発明に係る音響分析装置においては、話者に発声を促すタイミングに基づき、発声区間の前記入力信号と非発声区間の前記入力信号とを区別して記憶するバッファ手段を備えたことを特徴とする。
本発明に係る音声認識システムは、前述の音響分析装置を備えたことを特徴とする。
本発明に係る音声認識システムは、音声認識サーバ装置と通信回線を介して接続されるクライアント装置に、前述の音響分析装置を備えたことを特徴とする。
本発明に係るコンピュータプログラムは、音声認識用の音響分析を行うためのコンピュータプログラムであって、音声入力手段からの入力信号に基づき、背景雑音の大きさが所定レベル以上であるか判定する判定機能と、前記入力信号に含まれる雑音成分を抑圧する雑音抑圧機能と、前記判定手段の判定結果に応じて、前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から、若しくは、雑音成分が抑圧されていない前記入力信号から、音響特徴量を抽出する分析機能と、をコンピュータに実現させることを特徴とする。
本発明に係るコンピュータプログラムは、音声認識用の音響分析を行うためのコンピュータプログラムであって、音声入力手段からの入力信号に基づき、信号対雑音比が所定レベル未満であるか判定する判定機能と、前記入力信号に含まれる雑音成分を抑圧する雑音抑圧機能と、前記判定手段の判定結果に応じて、前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から、若しくは、雑音成分が抑圧されていない前記入力信号から、音響特徴量を抽出する分析機能と、をコンピュータに実現させることを特徴とする。
これにより、前述の音響分析装置がコンピュータを利用して実現できるようになる。
本発明によれば、雑音抑圧ありの音響特徴量抽出と、雑音抑圧なしの音響特徴量抽出とを効果的に使い分けすることができる。これにより、音声認識システムの音声認識性能を向上させることが可能になる。
以下、図面を参照し、本発明の各実施形態について説明する。
[第1の実施形態]
図1は、本発明の第1の実施形態に係る音響分析装置1の構成を示すブロック図である。図1において、音響分析装置1は、切替部11、背景雑音バッファ12、入力音声バッファ13、切替制御部14、判定部15、雑音抑圧部16、音響特徴量抽出部17a、17b、及び切替部18−1、18−2を有する。
音響分析装置1には、マイク入力信号が入力される。マイク入力信号は、話者が発声した音声を入力するためのマイクにより入力される信号である。マイク入力信号には、話者の音声とともにマイクで集音された背景雑音が含まれる。
また、音響分析装置1には、発声指示タイミング信号が入力される。発声指示タイミング信号は、話者に対して音声認識入力用の音声の発声を促すタイミングを示す信号である。発声指示タイミング信号が示すタイミングの後に(具体的には数百ミリ秒後に)、話者に対して発声を促す例えば画面表示、電子音出力等が行われる。話者はその画面表示、電子音出力等に従って発声する。
切替部11は、マイク入力信号を記憶するバッファの切り替えを行う。背景雑音バッファ12は、話者の音声を含まないマイク入力信号を記憶するためのバッファである。入力音声バッファ13は、話者の音声を含むマイク入力信号を記憶するためのバッファである。
切替制御部14は、発声指示タイミング信号に基づき、切替部11の制御を行う。切替制御部14は、発声指示タイミング信号が入力されると、先ず、切替部11に対して、マイク入力信号の出力先を背景雑音バッファ12に切り替えるように指示する。次いで、その発声指示タイミング信号が示すタイミングの後に(具体的には数百ミリ秒後であり、この時点で話者に対して発声を促す画面表示等が行われる)、マイク入力信号の出力先を入力音声バッファ13に切り替えるように指示する。これにより、まだ話者が発声していないときの発声前のマイク入力信号は背景雑音バッファ12に記憶され、その後、話者に対して発声を促す画面表示等が行われてからの話者が発声した音声を含むマイク入力信号は入力音声バッファ13に記憶される。この結果、背景雑音バッファ12には、話者の音声を含まない背景雑音のみのマイク入力信号が記憶されることになる。なお、切替制御部14は、話者の発声終了のタイミングに応じて、切替部11に入力音声バッファ13への出力を停止するように指示する。話者の発声終了のタイミングとしては、例えば、マイク入力信号が背景雑音に基づいた所定レベル以下になり数百ミリ秒〜数秒間経過した時点、所定時間のタイムアウト時点などが挙げられる。
本実施形態では、音声認識システムに特有の「話者に発声を促すタイミング」を雑音区間の判別に活用することを着想し、雑音区間と非雑音区間とを区別してマイク入力信号をそれぞれ別のバッファに記憶するように構成している。つまり、話者に発声を促すタイミングに基づき、非発声区間のマイク入力信号については背景雑音バッファ12に記憶し、発声区間のマイク入力信号については入力音声バッファ13に記憶する。これにより、SNRの低い場合においても、雑音区間と非雑音区間とを判別し、雑音区間のマイク入力信号については背景雑音バッファ12に、非雑音区間のマイク入力信号についてはマイク入力信号に、それぞれ記憶することができる。
判定部15は、背景雑音バッファ12に記憶されているマイク入力信号に基づき、背景雑音の大きさが所定レベル以上であるか判定する。この判定処理では、背景雑音バッファ12に記憶されているマイク入力信号の電力レベルを背景雑音レベルとして算出し、この算出した背景雑音レベルを所定レベルと比較する。判定部15は、この比較結果を切替部18−1、18−2に出力する。
上記判定部15が判定に用いる背景雑音バッファ12には非発声区間のマイク入力信号が入力されている。これにより、話者の音声を含まない非発声区間のマイク入力信号に基づいて背景雑音の大きさの判定が行われるので、その判定精度はよい。
切替部18−1、18−2は、判定部15の比較結果に応じて、入出力接続の切替を連動して行う。つまり、切替部18−1が入力音声バッファ13の出力と音響特徴量抽出部17aの入力とを接続するときには、切替部18−2は音響特徴量抽出部17aの出力を自己の出力とする。一方、切替部18−1が入力音声バッファ13の出力と雑音抑圧部16の入力とを接続するときには、切替部18−2は音響特徴量抽出部17bの出力を自己の出力とする。また、音響特徴量抽出部17aと、雑音抑圧部16及び音響特徴量抽出部17bの組とは、切替部18−1、18−2により選択されている一方のみが動作する。
音響特徴量抽出部17aは、入力音声バッファ13からマイク入力信号を読み出し、読み出したマイク入力信号から音響特徴量を抽出する演算を行なう。この音響特徴量抽出部17aとしては、例えばETSI規格の雑音抑圧のない符号化方式(ES201108)が利用できる。音響特徴量抽出部17aは、抽出結果の音響特徴量を切替部18−2に出力する。
雑音抑圧部16は、入力音声バッファ13からマイク入力信号を読み出し、読み出したマイク入力信号から雑音成分を抑圧する。この雑音抑圧後のマイク入力信号は、音響特徴量抽出部17bに出力される。
音響特徴量抽出部17bは、雑音抑圧部16から入力される雑音抑圧後のマイク入力信号から音響特徴量を抽出する演算を行なう。この音響特徴量抽出部17bとしては、例えばETSI規格の雑音抑圧付きの符号化方式(ES202050)が利用できる。なお、ETSIでは、雑音抑圧及び符号化方式の両方を「ES202050」で規格化している。音響特徴量抽出部17bは、抽出結果の音響特徴量を切替部18−2に出力する。
切替部18−2は、判定部15の判定結果に応じて、音響特徴量抽出部17aからの音声特徴量を出力するか、若しくは、音響特徴量抽出部17bからの音声特徴量を出力するか、を切り替える(このとき切替部18−1も連動して入力音声バッファ13の出力の接続先を切り替える)。この切替では、背景雑音の大きさが所定レベル以上である場合には、音響特徴量抽出部17bで抽出された音声特徴量、つまり、雑音成分が抑圧されたマイク入力信号から抽出された音響特徴量を出力する。それ以外の場合、つまり背景雑音の大きさが所定レベル未満である場合には、音響特徴量抽出部17aで抽出された音声特徴量、つまり、雑音成分が抑圧されていないマイク入力信号から抽出された音響特徴量を出力する。切替部18−2から出力された音響特徴量は、本音響分析装置1の出力として音声認識処理に用いられる。
これにより、マイク周辺の背景雑音が大きいときには、雑音抑圧を適用して抽出された音響特徴量を用いることにより、音声認識性能を向上させることができる。一方、背景雑音が小さいときには、雑音抑圧を適用せずに抽出された音響特徴量を用いることにより、音声認識性能の低下を回避することができる。このように本実施形態によれば、背景雑音レベルに応じて、雑音抑圧ありの音響特徴量抽出と、雑音抑圧なしの音響特徴量抽出とを効果的に使い分けすることができる。これにより、音声認識性能の向上に寄与することが可能になる。
[第2の実施形態]
図2は、本発明の第2の実施形態に係る音響分析装置1の構成を示すブロック図である。この図2において図1の各部に対応する部分には同一の符号を付け、その説明を省略する。
第2の実施形態では、信号対雑音比(SNR)に基づいて、雑音抑圧ありの音響特徴量抽出を行うか、若しくは、雑音抑圧なしの音響特徴量抽出を行うか、を判定する。
図2において、判定部15aは、背景雑音バッファ12に記憶されているマイク入力信号と、入力音声バッファ13に記憶されているマイク入力信号とに基づき、SNRが所定レベル未満であるか判定する。この判定処理では、入力音声バッファ13に記憶されているマイク入力信号の電力レベルを信号レベルとして算出し、背景雑音バッファ12に記憶されているマイク入力信号の電力レベルを雑音レベルとして算出し、それら信号レベルと雑音レベルからSNRを算出する。そして、その算出したSNRを所定レベルと比較する。判定部15aは、この比較結果を切替部18a−1、18a−2に出力する。
上記判定部15aが判定に用いる背景雑音バッファ12には非発声区間のマイク入力信号が入力されており、また、入力音声バッファ13には発声区間のマイク入力信号が入力されている。これにより、話者の音声を含まない非発声区間のマイク入力信号から雑音レベルを算出し、話者の音声を含む発声区間のマイク入力信号から信号レベルを算出することができるので、判定対象のSNRは精度よく算出され、その結果、SNRの判定精度はよいものとなる。
切替部18a−1、18a−2は、図1の切替部18−1、18−2と同様に、判定部15aの比較結果に応じて、入出力接続の切替を連動して行う。また、音響特徴量抽出部17aと、雑音抑圧部16及び音響特徴量抽出部17bの組とは、切替部18a−1、18a−2により選択されている一方のみが動作する。
切替部18a−2は、判定部15aの判定結果に応じて、音響特徴量抽出部17aからの音声特徴量を出力するか、若しくは、音響特徴量抽出部17bからの音声特徴量を出力するか、を切り替える(このとき切替部18a−1も連動して入力音声バッファ13の出力の接続先を切り替える)。この切替では、SNRが所定レベル未満である場合には音響特徴量抽出部17bで抽出された音声特徴量、つまり、雑音成分が抑圧されたマイク入力信号から抽出された音響特徴量を出力する。それ以外の場合、つまりSNRが所定レベル以上である場合には、音響特徴量抽出部17aで抽出された音声特徴量、つまり、雑音成分が抑圧されていないマイク入力信号から抽出された音響特徴量を出力する。切替部18a−2から出力された音響特徴量は、本音響分析装置1の出力として音声認識処理に用いられる。
これにより、SNRが低いときには、雑音抑圧を適用して抽出された音響特徴量を用いることにより、音声認識性能を向上させることができる。一方、SNRが高いときには、雑音抑圧を適用せずに抽出された音響特徴量を用いることにより、音声認識性能の低下を回避することができる。このように本実施形態によれば、SNRに応じて、雑音抑圧ありの音響特徴量抽出と、雑音抑圧なしの音響特徴量抽出とを効果的に使い分けすることができる。これにより、音声認識性能の向上に寄与することが可能になる。
次に、上述した各実施形態に係る音響分析装置1を適用した音声認識システムの実施例を説明する。
図3は、本発明に係る音響分析装置1を適用した音声認識システムの一実施例である。図3に示される実施例1では、音声認識システムを単独の装置で実現している。
図3において、音声認識装置100は、本発明に係る音響分析装置1と、マイク101と、音声認識部102と、制御部103と、表示部104とを有する。マイク101から入力されたマイク入力信号は音響分析装置1に入力される。音響分析装置1は、そのマイク入力信号から音声特徴量を抽出し、抽出した音声特徴量を音声認識部102に出力する。音声認識部102は、その音声特徴量に基づき、音声認識処理を行う。その音声認識結果は、制御部103に出力される。制御部103は、音声認識結果を表示部104で表示させる。
また、制御部103は音声認識の実行制御を行う。その実行制御では、話者に対する発声の指示を行う。例えば、表示部104でのプロンプト表示により、話者に発声の開始を合図する。そのプロンプト表示を行うタイミングは、発声指示タイミング信号により、音響分析装置1に通知される。
本実施例1は、携帯型、据置き型のいずれのタイプの音声認識装置にも適用可能である。
図4は、本発明に係る音響分析装置1を適用した音声認識システムの他の実施例である。この図4において図3の各部に対応する部分には同一の符号を付け、その説明を省略する。図4に示される実施例2では、サーバ・クライアント型の音声認識システムを実現している。
図4において、クライアント装置200は、通信部201を有し、通信回線220を介して音声認識サーバ210とデータを送受信する。通信部201は、音響分析装置1で抽出された音声特徴量を音声認識サーバ210に送信して、音声認識要求を行う。音声認識サーバ210は、その音声認識要求に応じて、クライアント装置200から送られた音声特徴量に基づき、音声認識処理を行う。その音声認識結果は、通信回線220を介してクライアント装置200に送信される。クライアント装置200では、通信部201が音声認識サーバ210からの音声認識結果を受信し、該音声認識結果を制御部に出力する。制御部103は、音声認識結果を表示部104で表示させる。
本実施例2は、携帯型、据置き型のいずれのタイプの音声認識装置にも適用可能であるが、特に携帯通信端末のように十分な処理能力を確保することの難しい装置に適用する場合に有用である。
上述したように本発明の実施形態によれば、雑音抑圧ありの音響特徴量抽出と、雑音抑圧なしの音響特徴量抽出とを効果的に使い分けすることができる。これにより、音声認識システムの音声認識性能を向上させることが可能になるという優れた効果が得られる。
なお、図1又は図2に示す音響分析装置1の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音響分析処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、本発明の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
本発明の第1の実施形態に係る音響分析装置1の構成を示すブロック図である。 本発明の第2の実施形態に係る音響分析装置1の構成を示すブロック図である。 本発明に係る音響分析装置1を適用した音声認識システムの一実施例を示すブロック図である。 本発明に係る音響分析装置1を適用した音声認識システムの他の実施例を示すブロック図である。
符号の説明
1…音響分析装置、11…切替部(バッファ手段)、12…背景雑音バッファ(バッファ手段)、13…入力音声バッファ(バッファ手段)、14…切替制御部(バッファ手段)、15,15a…判定部、16…雑音抑圧部、17a、17b…音響特徴量抽出部(分析手段)、18−1〜2,18a−1〜2…切替部(分析手段)、100…音声認識装置、101…マイク(音声入力手段)、102…音声認識部、103…制御部、104…表示部、200…クライアント装置、201…通信部、210…音声認識サーバ、220…通信回線

Claims (10)

  1. 音声認識用の音響分析装置において、
    音声入力手段からの入力信号に基づき、背景雑音の大きさが所定レベル以上であるか判定する判定手段と、
    前記入力信号に含まれる雑音成分を抑圧する雑音抑圧手段と、
    前記判定手段の判定結果に応じて、前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から、若しくは、雑音成分が抑圧されていない前記入力信号から、音響特徴量を抽出する分析手段と、
    を備えたことを特徴とする音響分析装置。
  2. 前記分析手段は、背景雑音の大きさが所定レベル以上である場合には前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から音響特徴量を抽出し、それ以外の場合には雑音成分が抑圧されていない前記入力信号から音響特徴量を抽出することを特徴とする請求項1に記載の音響分析装置。
  3. 音声認識用の音響分析装置において、
    音声入力手段からの入力信号に基づき、信号対雑音比が所定レベル未満であるか判定する判定手段と、
    前記入力信号に含まれる雑音成分を抑圧する雑音抑圧手段と、
    前記判定手段の判定結果に応じて、前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から、若しくは、雑音成分が抑圧されていない前記入力信号から、音響特徴量を抽出する分析手段と、
    を備えたことを特徴とする音響分析装置。
  4. 前記分析手段は、信号対雑音比が所定レベル未満である場合には前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から音響特徴量を抽出し、それ以外の場合には雑音成分が抑圧されていない前記入力信号から音響特徴量を抽出することを特徴とする請求項3に記載の音響分析装置。
  5. 前記分析手段は、
    雑音成分が抑圧された前記入力信号から音響特徴量を抽出するときに専用の第1の音響特徴量抽出演算手段と、
    雑音成分が抑圧されていない前記入力信号から音響特徴量を抽出するときに専用の第2の音響特徴量抽出演算手段と、
    を有することを特徴とする請求項1から4のいずれかの項に記載の音響分析装置。
  6. 話者に発声を促すタイミングに基づき、発声区間の前記入力信号と非発声区間の前記入力信号とを区別して記憶するバッファ手段を備えたことを特徴とする請求項1から5のいずれかの項に記載の音響分析装置。
  7. 請求項1から6のいずれかの項に記載の音響分析装置を備えたことを特徴とする音声認識システム。
  8. 音声認識サーバ装置と通信回線を介して接続されるクライアント装置に、請求項1から6のいずれかの項に記載の音響分析装置を備えたことを特徴とする音声認識システム。
  9. 音声認識用の音響分析を行うためのコンピュータプログラムであって、
    音声入力手段からの入力信号に基づき、背景雑音の大きさが所定レベル以上であるか判定する判定機能と、
    前記入力信号に含まれる雑音成分を抑圧する雑音抑圧機能と、
    前記判定手段の判定結果に応じて、前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から、若しくは、雑音成分が抑圧されていない前記入力信号から、音響特徴量を抽出する分析機能と、
    をコンピュータに実現させることを特徴とするコンピュータプログラム。
  10. 音声認識用の音響分析を行うためのコンピュータプログラムであって、
    音声入力手段からの入力信号に基づき、信号対雑音比が所定レベル未満であるか判定する判定機能と、
    前記入力信号に含まれる雑音成分を抑圧する雑音抑圧機能と、
    前記判定手段の判定結果に応じて、前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から、若しくは、雑音成分が抑圧されていない前記入力信号から、音響特徴量を抽出する分析機能と、
    をコンピュータに実現させることを特徴とするコンピュータプログラム。


JP2006016172A 2006-01-25 2006-01-25 音響分析装置及びコンピュータプログラム、音声認識システム Expired - Fee Related JP4745837B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006016172A JP4745837B2 (ja) 2006-01-25 2006-01-25 音響分析装置及びコンピュータプログラム、音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006016172A JP4745837B2 (ja) 2006-01-25 2006-01-25 音響分析装置及びコンピュータプログラム、音声認識システム

Publications (2)

Publication Number Publication Date
JP2007199247A true JP2007199247A (ja) 2007-08-09
JP4745837B2 JP4745837B2 (ja) 2011-08-10

Family

ID=38453937

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006016172A Expired - Fee Related JP4745837B2 (ja) 2006-01-25 2006-01-25 音響分析装置及びコンピュータプログラム、音声認識システム

Country Status (1)

Country Link
JP (1) JP4745837B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017513411A (ja) * 2014-02-03 2017-05-25 コピン コーポレーション 音声コマンド用スマートブルートゥースヘッドセット

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0635497A (ja) * 1992-07-16 1994-02-10 Nippon Telegr & Teleph Corp <Ntt> 音声入力装置
JPH0863173A (ja) * 1994-08-18 1996-03-08 Oki Electric Ind Co Ltd ノイズ除去装置
JPH08221092A (ja) * 1995-02-17 1996-08-30 Hitachi Ltd スペクトルサブトラクションを用いた雑音除去システム
JP2000047697A (ja) * 1998-07-30 2000-02-18 Nec Eng Ltd ノイズキャンセラ
JP2005130205A (ja) * 2003-10-23 2005-05-19 Chugoku Electric Power Co Inc:The 業務支援システム及び方法
JP2005195955A (ja) * 2004-01-08 2005-07-21 Toshiba Corp 雑音抑圧装置及び雑音抑圧方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0635497A (ja) * 1992-07-16 1994-02-10 Nippon Telegr & Teleph Corp <Ntt> 音声入力装置
JPH0863173A (ja) * 1994-08-18 1996-03-08 Oki Electric Ind Co Ltd ノイズ除去装置
JPH08221092A (ja) * 1995-02-17 1996-08-30 Hitachi Ltd スペクトルサブトラクションを用いた雑音除去システム
JP2000047697A (ja) * 1998-07-30 2000-02-18 Nec Eng Ltd ノイズキャンセラ
JP2005130205A (ja) * 2003-10-23 2005-05-19 Chugoku Electric Power Co Inc:The 業務支援システム及び方法
JP2005195955A (ja) * 2004-01-08 2005-07-21 Toshiba Corp 雑音抑圧装置及び雑音抑圧方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017513411A (ja) * 2014-02-03 2017-05-25 コピン コーポレーション 音声コマンド用スマートブルートゥースヘッドセット

Also Published As

Publication number Publication date
JP4745837B2 (ja) 2011-08-10

Similar Documents

Publication Publication Date Title
US10586534B1 (en) Voice-controlled device control using acoustic echo cancellation statistics
RU2439716C2 (ru) Детектирование автоответчика путем распознавания речи
JP6553111B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US7848314B2 (en) VOIP barge-in support for half-duplex DSR client on a full-duplex network
US7069221B2 (en) Non-target barge-in detection
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
JP7136868B2 (ja) 話者ダイアライゼーション
US9467790B2 (en) Reverberation estimator
JP2013527490A (ja) モバイルデバイスのためのスマートオーディオロギングのシステムおよび方法
JP6408020B2 (ja) 遠隔会議における知覚的に連続的な混合
JP2004502985A (ja) 以後のオフライン音声認識のための音声情報を記録する記録装置
US20230317096A1 (en) Audio signal processing method and apparatus, electronic device, and storage medium
US8793128B2 (en) Speech signal processing system, speech signal processing method and speech signal processing method program using noise environment and volume of an input speech signal at a time point
JP2011248025A (ja) チャネル統合方法、チャネル統合装置、プログラム
JP6524674B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
US20160035359A1 (en) System and method to reduce transmission bandwidth via improved discontinuous transmission
JP2011508897A (ja) 音声コーデックの品質向上装置およびその方法
JP6549009B2 (ja) 通信端末及び音声認識システム
JP6878776B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JP4745837B2 (ja) 音響分析装置及びコンピュータプログラム、音声認識システム
GB2516208B (en) Noise reduction in voice communications
US20180261238A1 (en) Confused state determination device, confused state determination method, and storage medium
JP2019139146A (ja) 音声認識システム、及び、音声認識方法
KR100574883B1 (ko) 비음성 제거에 의한 음성 추출 방법
US6601028B1 (en) Selective merging of segments separated in response to a break in an utterance

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071016

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071016

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20101109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110419

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110512

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140520

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4745837

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees