JP2003337594A

JP2003337594A - 音声認識装置、その音声認識方法及びプログラム

Info

Publication number: JP2003337594A
Application number: JP2002272318A
Authority: JP
Inventors: Osamu Ichikawa; 治市川; Masafumi Nishimura; 雅史西村; Tetsuya Takiguchi; 哲也滝口
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2002-03-14
Filing date: 2002-09-18
Publication date: 2003-11-28
Anticipated expiration: 2022-09-18
Also published as: US20090076815A1; US20030177006A1; JP4195267B2; US7478041B2; US7720679B2

Abstract

(57)【要約】【課題】高精度の音声認識を実現するため、目的方向
音源以外の背景雑音を効率良く除去する方法及びこれを
用いたシステムを提供する。【解決手段】マイクロフォン・アレイの指向性を、想
定される種々の音源方向に向けて観測した角度別パワー
分布が、基準音を用いて事前に測定済みの目的音源方向
の基準角度別パワー分布および無指向性の背景音の基準
角度別パワー分布の係数倍の和で近似できることを用
い、雑音抑圧処理部において、目的音源方向の成分のみ
を抽出する。また、上記目的音源方向が不明の時に、音
源位置探索部において、種々の音源方向の基準角度別パ
ワー分布の中から、上記近似残差を最小にするものを選
択することにより、目的音源方向を推定する。さらに、
これらの処理を経た音源方向の成分の音声データと、こ
の音声データに対し所定のモデル化を行って得られる音
声モデルとを用いて最尤推定を行い、得られた推定値に
基づいて音声認識を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識システム
に関し、特にマイクロフォン・アレイを用いて雑音除去
を行う方法に関する。

【０００２】

【従来の技術】今日、音声認識プログラムの性能の向上
に伴い、多くの場面で音声認識が利用されるようになっ
てきた。しかし、話者にヘッドセットマイクなどの装着
を義務づけることなく、すなわちマイクと話者の間に距
離がある環境で、高精度の音声認識を実現しようとする
場合、背景雑音の除去は重要な課題となる。マイクロフ
ォン・アレイを用いて雑音除去を行う方法は、最も有効
な手段の一つと考えられている。図１８は、マイクロフ
ォン・アレイを使用した従来の音声認識システムの構成
を概略的に示した図である。図１８を参照すると、マイ
クロフォン・アレイを使用した音声認識システムは、音
声入力部１８１と、音源位置探索部１８２と、雑音抑圧
処理部１８３と、音声認識部１８４とを備える。

【０００３】音声入力部１８１は、複数のマイクロフォ
ンで構成されたマイクロフォン・アレイである。音源位
置探索部１８２は、音声入力部１８１による入力に基づ
いて音源の方向（位置）を推定する。音源方向を推定す
る方式として最も良く行われるのは、遅延和法マイクロ
フォン・アレイの出力パワーを縦軸に、指向性を向ける
方向を横軸にとった角度別パワー分布の最大ピークを音
源の到来方向と推定する方式である。より鋭いピークを
得るためには、縦軸にMusic Powerという仮想的なパワ
ーを設定することもある。また、マイクロフォン本数が
３本以上の場合、音源の方向だけでなく距離も推定する
ことができる。

【０００４】雑音抑圧処理部１８３は、音源位置探索部
１８２にて推定された音源の方向（位置）に基づいて、
入力した音に対して雑音抑圧を行い、音声を強調する。
雑音を抑圧する手法としては、通常、以下の手法のいず
れかが使用されることが多い。

【０００５】〔遅延和法〕マイクロフォン・アレイにお
ける個々のマイクロフォンからの入力を、それぞれの遅
延量で遅延させてから和を取ることにより、目的方向か
ら到来する音声のみを同相化して強化する手法である。
この遅延量で、指向性を向ける方向が決まる。目的方向
以外から到来する音声は、位相がずれるために相対的に
弱められる。〔Griffiths Jim法〕遅延和法による出力
から、「雑音成分が主成分となる信号」を差し引く手法
である。マイクロフォンが２本の場合、この信号は、次
のようにして生成される。まず、目的音源に対して同相
化した信号の組の片側の位相を反転して足し合わせ、目
的音声成分をキャンセルする。そして、これを雑音区間
において、雑音が最小になるように適応フィルタを学習
させる。〔遅延和法と２チャンネルのスペクトラムサブトラクシ
ョンとを併用する方法〕目的音源からの音声を主に出力
する主ビームフォーマの出力から、主に雑音成分を出力
する副ビーム・フォーマの出力を減算処理（Spectrum S
ubtraction）する手法である（例えば、非特許文献１、
２参照。）。〔最小分散法〕方向性のある雑音源に対して、指向性の
死角を形成するように、フィルタ設計を行う手法である
（例えば、非特許文献３参照。）。

【０００６】音声認識部１８４は、雑音抑圧処理部１８
３にて雑音成分が極力除去された信号から音声特徴量を
作成し、かかる音声特徴量の時間履歴を、辞書と時間伸
張とを考慮してパターン照合することにより、音声認識
を行う。

【０００７】

【非特許文献１】布田・永田・安倍、「２チャンネル音
声検出を用いた非定常雑音下の音声認識」、電子情報通
信学会技術研究報告SP2001-25

【非特許文献２】水町・赤木、「マイクロフォン対を用
いたスペクトラムサブトラクションによる雑音除去
法」、電子情報通信学会論文誌 A Vol. J82-A No. 4 pp
503-512, 1999

【非特許文献３】浅野・速水・山田・中村、「サブスペ
ース法を用いた音声強調法の音声認識への応用」、電子
情報通信学会技術研究報告 EA97-17

【非特許文献４】永田・安倍、「話者追尾２チャネルマ
イクロホンアレーに関する検討」、電子情報通信学会論
文誌 A Vol. J82-A No. 4 pp503-512, 1999

【０００８】

【発明が解決しようとする課題】上述したように、音声
認識技術において、マイクと話者の間に距離がある環境
で、高精度の音声認識を実現しようとする場合、背景雑
音の除去は重要な課題となる。そして、マイクロフォン
・アレイを用いて音源方向を推定し、雑音除去を行う方
法は、最も有効な手段の一つと考えられている。しか
し、マイクロフォン・アレイで雑音抑圧性能を高めるた
めには、一般的には多数のマイクを必要とし、多チャン
ネル同時入力が可能な特殊ハードウェアを必要とする。
一方、少ないマイク数（例えば２チャンネル・ステレオ
入力）でマイクロフォン・アレイを構成すると、マイク
ロフォン・アレイが持つ指向性のビームは緩やかに広が
ったものとなり、目的音源方向に十分に絞ったものとは
ならないため、周囲から雑音が混入する割合が高い。

【０００９】そのため、音声認識の性能を高めるために
は、混入する雑音成分を推定し減算するような何らかの
処理が必要となる。しかし、上記従来の雑音抑圧処理の
手法（遅延和法、最小分散法など）には、混入する雑音
成分を推定し、積極的に減算する機能はなかった。ま
た、遅延和法に２チャンネルのスペクトラムサブトラク
ションとを併用する方法は、雑音成分を推定してパワー
スペクトル減算を行うため、ある程度背景雑音を抑圧で
きるが、雑音自体は「点」で推定されるので、背景雑音
の推定精度は必ずしも高くなかった。

【００１０】一方、マイクロフォン・アレイでマイク数
を少なくした場合に生じる（特に２チャンネル・ステレ
オ入力で顕著となる）問題として、雑音源の方向に対応
した特定の周波数で、雑音成分の推定精度が悪化するエ
イリアシングの問題がある。このエイリアシングの影響
を抑制する方策としては、マイクロフォン間隔を狭くす
る方法や、マイクロフォンを傾けて配置する方法が考え
られる（例えば、非特許文献４参照。）。

【００１１】しかし、マイクロフォン間隔を狭くする
と、低周波数域を中心とした指向特性を劣化させ、ま
た、話者方向識別の精度を低下させてしまう。このた
め、２チャンネル・スペクトラムサブトラクションなど
のビームフォーマにおいては、マイクロフォン間隔をあ
る程度以上に狭くすることができず、エイリアシングの
影響を抑制する能力にも限界がある。マイクロフォンを
傾けて配置する方法は、２本のマイクロフォンにおい
て、斜め方向から到来する音波に感度の差を設けること
によって、正面から来る音波とはゲインバランスの異な
る音波となるようにすることができる。しかし、通常の
マイクロフォンでは感度の差はわずかであるため、この
方法でも、エイリアシングの影響を抑制する能力には限
界がある。

【００１２】そこで本発明は、高精度の音声認識を実現
するため、目的方向音源以外の背景雑音を効率良く除去
する方法及びこれを用いたシステムを提供することを目
的とする。また、本発明は、ビームフォーマにおけるエ
イリアシングの影響のような避けがたい雑音を効果的に
抑制する方法及びこれを用いたシステムを提供すること
を目的とする。

【００１３】

【課題を解決するための手段】上記の目的を達成する本
発明は、次のように構成された音声認識装置として実現
される。すなわち、この音声認識装置は、音声を収録す
るマイクロフォン・アレイと、想定される種々の音源方
向から発せられた基準音の特性及び無指向性の背景音の
特性を格納したデータベースと、マイクロフォン・アレ
イにて収録された音声の音源方向を推定する音源位置探
索部と、この音源位置探索部にて推定された音源方向と
データベースに格納された基準音の特性及び背景音の特
性とを用いて、収録された音声における推定された音源
方向の成分の音声データを抽出する雑音抑圧処理部と、
音源方向の成分の音声データの認識処理を行う音声認識
部とを備えることを特徴とする。ここで、この雑音抑圧
処理部は、より詳しくは、収録された音声の特性と基準
音の特性及び背景音の特性とを比較し、比較結果に基づ
いて収録された音声の特性を音源方向の音の成分と無指
向性の背景音の成分とに分解し、音源方向の音の成分の
音声データを抽出する。なお、この音源位置探索部は、
音源方向を推定するとしたが、マイクロフォン・アレイ
が３個以上のマイクロフォンからなる場合は、音源まで
の距離を推定することも可能である。以下、音源方向あ
るいは音源位置という場合は、主として音源方向を意味
するものとして説明するが、必要に応じて音源までの距
離についても考慮し得ることは言うまでもない。

【００１４】また、本発明による他の音声認識装置は、
上記と同様のマイクロフォン・アレイと、データベース
とを備えると共に、マイクロフォン・アレイにて収録さ
れた音声の特性とデータベースに格納された基準音の特
性及び背景音の特性とを比較することにより、収録され
た音声の音源方向を推定する音源位置探索部と、この音
源位置探索部にて推定された音源方向の成分の音声デー
タの認識処理を行う音声認識部とを備えることを特徴と
する。ここで、この音源位置認識部は、さらに詳しく
は、所定の音声入力方向ごとに、前記基準音の特性及び
前記背景音の特性と合成して得られた特性と前記収録さ
れた音声の特性とを比較し、比較結果に基づいて所定の
基準音の音源位置を当該収録された音声の音源方向とし
て推定する。

【００１５】本発明によるさらに他の音声認識装置は、
音声を収録するマイクロフォン・アレイと、このマイク
ロフォン・アレイにて収録された収録音声の音源方向を
推定する音源位置探索部と、収録音声から音源位置探索
部にて推定された音源方向以外の成分を除去する雑音抑
圧処理部と、この雑音抑圧処理部にて処理された収録音
声と、この収録音声に対し所定のモデル化を行って得ら
れる音声モデルとを用いて最尤推定を行う最尤推定部
と、この最尤推定部にて推定された最尤推定値を用いて
音声の認識処理を行う音声認識部とを含むことを特徴と
する。ここで、この最尤推定部は、収録音声の音声モデ
ルとして、この収録音声の所定の音声フレームに対して
周波数方向のサブバンドごとに隣接サブバンド数点にわ
たって信号パワーを平均化したスムージング解を用いる
ことができる。また、雑音抑圧部にて処理された収録音
声の雑音区間に関して観測誤差の分散を計測し、収録音
声の音声区間に関してモデル化におけるモデル化誤差の
分散を計測する分散計測部をさらに備え、最尤推定部
は、この分散計測部にて計測された観測誤差の分散また
はモデル化誤差の分散を用いて最尤推定値を計算する。

【００１６】また、上記の目的を達成する他の本発明
は、コンピュータを制御して、マイクロフォン・アレイ
を用いて収録された音声を認識する、次のような音声認
識方法として実現される。すなわち、この音声認識方法
は、マイクロフォン・アレイを用いて音声を収録し、音
声データをメモリに格納する音声入力ステップと、メモ
リに格納された音声データに基づいて、収録された音声
の音源方向を推定し、推定結果をメモリに格納する音源
位置探索ステップと、メモリに格納された推定結果に基
づいて、収録された音声の特性を、推定された音源位置
から発せられた音の成分と、無指向性の背景音の成分と
に分解処理し、処理結果に基づいて収録された音声にお
ける推定された音源方向の成分の音声データを抽出して
メモリに格納する雑音抑圧ステップと、メモリに格納さ
れた音源方向の成分の音声データに基づいて、収録され
た音声を認識する音声認識ステップとを含むことを特徴
とする。ここで、この雑音抑圧ステップは、さらに詳し
くは、想定される種々の音源方向から発せられた基準音
の特性及び無指向性の背景音の特性を格納した記憶装置
から、音源方向の推定結果に合致する音源方向から発せ
られた基準音の特性及び背景音の特性を読み出すステッ
プと、読み出された特性を適当な重み付けを施して合成
し、収録された音声の特性に近似させるステップと、近
似によって得られた基準音及び背景音の特性に関する情
報に基づいて、メモリに格納された音声データのうち、
推定された音源方向から発せられた成分を推定し抽出す
るステップとを含む。

【００１７】また、本発明の他の音声認識方法は、マイ
クロフォン・アレイを用いて音声を収録し、音声データ
をメモリに格納する音声入力ステップと、メモリに格納
された音声データに基づいて、収録された音声の音源方
向を推定し、推定結果をメモリに格納する音源位置探索
ステップと、メモリに格納された推定結果と予め測定さ
れた所定の音声の特性に関する情報とに基づいて、収録
された音声の特性を、推定された音源方向から発せられ
た音の成分と、無指向性の背景音の成分とに分解し、収
録された音声からこの背景音の成分を除去した音声デー
タをメモリに格納する雑音抑圧ステップと、メモリに格
納された背景音の成分を除去した音声データに基づい
て、収録された音声を認識する音声認識ステップとを含
むことを特徴とする。ここで、この雑音抑圧ステップ
は、より好ましくは、特定の方向から雑音が発せられる
ことが想定される場合に、この特定の方向における音の
成分を、収録された音声の特性からさらに分解し除去す
るステップを含む。

【００１８】本発明によるさらに他の音声認識方法は、
マイクロフォン・アレイを用いて音声を収録し、音声デ
ータをメモリに格納する音声入力ステップと、予め測定
された特定の音源方向から発せられた基準音の特性と無
指向性の背景音の特性とを合成して得られる特性を種々
の音声入力方向に対して求め、メモリに格納された音声
データから得られる収録された音声の特性と比較するこ
とにより、収録された音声の音源方向を推定し、推定結
果をメモリに格納する音源位置探索ステップと、メモリ
に格納された音源方向の推定結果と音声データとに基づ
いて、収録された音声における推定された音源方向の成
分の音声データを抽出してメモリに格納する雑音抑圧ス
テップと、メモリに格納された背景音の成分を除去した
音声データに基づいて、収録された音声を認識する音声
認識ステップとを含むことを特徴とする。ここで、この
音源位置探索ステップは、さらに詳しくは、想定される
種々の音源方向から発せられた基準音の特性及び無指向
性の背景音の特性を格納した記憶装置から、音声入力方
向ごとに基準音の特性及び背景音の特性を読み出すステ
ップと、音声入力方向ごとに、読み出された特性を適当
な重み付けを施して合成し、収録された音声の特性に近
似させるステップと、合成により得られた特性と収録さ
れた音声の特性とを比較し、誤差の小さい合成により得
られた特性に対応する基準音の音源方向を、収録された
音声の音源方向として推定するステップとを含む。

【００１９】本発明によるさらに他の音声認識方法は、
マイクロフォン・アレイを用いて音声を収録し、音声デ
ータをメモリに格納する音声入力ステップと、メモリに
格納された音声データに基づいて、収録された音声の音
源方向を推定し、推定結果をメモリに格納する音源位置
探索ステップと、メモリに格納された音源方向の推定結
果と音声データとに基づいて、収録された音声における
推定された音源方向の成分の音声データを抽出してメモ
リに格納する雑音抑圧ステップと、メモリに格納された
音源方向の成分の音声データと、この音声データに対し
所定のモデル化を行って得られる音声モデルとを用いて
最尤推定値を算出しメモリに格納する最尤推定ステップ
と、メモリに格納された最尤推定値に基づいて、収録さ
れた音声を認識する音声認識ステップとを含むことを特
徴とする。

【００２０】また、本発明によるさらに他の音声認識方
法は、マイクロフォン・アレイを用いて音声を収録し、
音声データをメモリに格納する音声入力ステップと、メ
モリに格納された音声データに基づいて、収録された音
声の音源方向を推定し、推定結果をメモリに格納する音
源位置探索ステップと、メモリに格納された音源方向の
推定結果と音声データとに基づいて、収録された音声に
おける推定された音源方向の成分の音声データを抽出し
てメモリに格納する雑音抑圧ステップと、メモリに格納
された音源方向の成分の音声データに関して、所定の音
声フレームに対して周波数方向のサブバンドごとに隣接
サブバンド数点にわたって信号パワーを平均化してスム
ージング解を求め、メモリに格納するステップと、メモ
リに格納されたスムージング解に基づいて、収録された
音声を認識する音声認識ステップとを含むことを特徴と
する。

【００２１】さらにまた、本発明は、コンピュータを制
御して、上述した音声認識装置の各機能を実現させるプ
ログラム、あるいは上述した音声認識方法の各ステップ
に対応する処理を実行させるためのプログラムとして実
現される。これらのプログラムは、磁気ディスクや光デ
ィスク、半導体メモリ、その他の記録媒体に格納して配
布したり、ネットワークを介して配信したりすることに
より提供することができる。

【００２２】

【発明の実施の形態】以下、添付図面に示す第１、第２
の実施の形態に基づいて、この発明を詳細に説明する。
以下に説明する第１の実施の形態は、種々の音源方向か
ら発せられた基準音の特性及び無指向性の背景音の特性
を予め取得し保持しておく。そして、マイクロフォン・
アレイにて音声を収録した際に、収録された音声の音源
方向と保持されている基準音の特性及び背景音の特性と
を用いて、収録された音声における推定された音源方向
の成分の音声データを抽出する。また、収録された音声
の特性と保持されている準音の特性及び背景音の特性と
を比較することにより、収録された音声の音源方向を推
定する。これらの手法により、目的方向音源以外の背景
雑音が効率良く除去される。第２の実施の形態は、収録
音声に関してエイリアシングの影響のような大きな観測
誤差が含まれることが避けられない場合を対象として、
音声データをモデル化した上で最尤推定を行う。そし
て、このモデル化による音声モデルとして、音声フレー
ムに対して周波数方向のサブバンドごとに隣接サブバン
ド数点にわたって信号パワーを平均化したスムージング
解を用いる。最尤推定を行う対象となる音声データは、
前段階で収録音声から雑音成分が抑圧されたものを用い
るが、この雑音成分の抑圧は、第１の実施の形態に示す
手法による他、２チャンネル・スペクトラムサブトラク
ションの手法によっても良い。

【００２３】〔第１の実施の形態〕第１の実施の形態で
は、所定の基準音及び背景音の特性（Profile）を予め
用意し、収録された音声における音源方向の成分の抽出
や音源方向の推定の処理に用いる。この手法をプロファ
イル・フィッティングと呼ぶ。図１は、第１の実施の形
態による音声認識システム（装置）を実現するのに好適
なコンピュータ装置のハードウェア構成の例を模式的に
示した図である。図１に示すコンピュータ装置は、演算
手段であるＣＰＵ（Central ProcessingUnit：中央処理
装置）１０１と、Ｍ／Ｂ（マザーボード）チップセット
１０２及びＣＰＵバスを介してＣＰＵ１０１に接続され
たメインメモリ１０３と、同じくＭ／Ｂチップセット１
０２及びＡＧＰ（Accelerated Graphics Port）を介し
てＣＰＵ１０１に接続されたビデオカード１０４と、Ｐ
ＣＩ（Peripheral Component Interconnect）バスを介
してＭ／Ｂチップセット１０２に接続されたハードディ
スク１０５及びネットワークインターフェイス１０６
と、さらにこのＰＣＩバスからブリッジ回路１０７及び
ＩＳＡ（Industry Standard Architecture）バスなどの
低速なバスを介してＭ／Ｂチップセット１０２に接続さ
れたフロッピー（登録商標）ディスクドライブ１０８及
びキーボード／マウス１０９とを備える。また、処理対
象である音声を入力し、音声データに変換してＣＰＵ１
０１へ供給するためのサウンドカード（サウンドチッ
プ）１１０及びマイクロフォン・アレイ１１１を備え
る。なお、図１は本実施の形態を実現するコンピュータ
装置のハードウェア構成を例示するに過ぎず、本実施の
形態を適用可能であれば、他の種々の構成を取ることが
できる。例えば、ビデオカード１０４を設ける代わり
に、ビデオメモリのみを搭載し、ＣＰＵ１０１にてイメ
ージデータを処理する構成としても良いし、ＡＴＡ（AT
Attachment）などのインターフェイスを介してＣＤ−
ＲＯＭ（CompactDisc Read Only Memory）やＤＶＤ−Ｒ
ＯＭ（Digital Versatile Disc Read Only Memory）の
ドライブを設けても良い。

【００２４】図２は、図１に示したコンピュータ装置に
て実現される本実施の形態による音声認識システムの構
成を示す図である。図２に示すように、本実施の形態に
よる音声認識システムは、音声入力部１０と、音源位置
探索部２０と、雑音抑圧処理部３０と、音声認識部４０
と、空間特性データベース５０とを備えている。上記の
構成において、音源位置探索部２０、雑音抑圧処理部３
０及び音声認識部４０は、図１に示したメインメモリ１
０３に展開されたプログラムにてＣＰＵ１０１を制御す
ることにより実現される仮想的なソフトウェアブロック
である。また、空間特性データベース５０は、メインメ
モリ１０３やハードディスク１０５にて実現される。Ｃ
ＰＵ１０１を制御してこれらの機能を実現させる当該プ
ログラムは、磁気ディスクや光ディスク、半導体メモ
リ、その他の記憶媒体に格納して配布したり、ネットワ
ークを介して配信したりすることにより提供される。本
実施の形態では、図１に示したネットワークインターフ
ェイス１０６やフロッピーディスクドライブ１０８、図
示しないＣＤ−ＲＯＭドライブなどを介して当該プログ
ラムを入力し、ハードディスク１０５に格納する。そし
て、ハードディスク１０５に格納されたプログラムをメ
インメモリ１０３に読み込んで展開し、ＣＰＵ１０１に
て実行することにより、図２に示した各構成要素の機能
を実現する。なお、プログラム制御されたＣＰＵ１０１
にて実現される各構成要素の間でのデータの受け渡し
は、当該ＣＰＵ１０１のキャッシュメモリやメインメモ
リ１０３を介して行われる。

【００２５】音声入力部１０は、Ｎ個のマイクロフォン
により構成されたマイクロフォン・アレイ１１１及びサ
ウンドカード１１０にて実現され、音声を収録する。収
録された音声は、電気的な音声データに変換されて音源
位置探索部２０へ渡される。音源位置探索部２０は、音
声入力部１０にて同時収録されたＮ個の音声データか
ら、目的音声の音源位置（音源方向）を推定する。音源
位置探索部２０で推定された音源位置情報と音声入力部
１０から取得したＮ個の音声データとは、雑音抑圧処理
部３０へ渡される。雑音抑圧処理部３０は、音源位置探
索部２０から受け取った音源位置情報とＮ個の音声デー
タとを用いて、目的音声以外の音源位置から到来する音
声を極力排除（雑音抑圧）した１個の音声データを出力
する。雑音抑圧された１個の音声データは、音声認識部
４０へ渡される。音声認識部４０は、雑音抑圧された１
個の音声データを用いて、音声を文字に変換し、その文
字を出力する。なお、音声認識部４０での音声処理は、
周波数領域（Frequency Domain）で行われるのが一般的
である。一方で、音声入力部１０の出力は時間領域（Ti
me Domain）であるのが一般的である。そのため、音源
位置探索部２０または雑音抑圧処理部３０のいずれかに
おいて、音声データの周波数領域から時間領域への変換
が行われる。空間特性データベース５０は、本実施の形
態における雑音抑圧処理部３０または音源位置探索部２
０の処理において使用される空間特性を格納している。
空間特性については後述する。

【００２６】本実施の形態では、目的方向音源に対する
マイクロフォン・アレイ１１１の空間特性と、無指向性
背景音に対するマイクロフォン・アレイ１１１の空間特
性という２種類のマイクロフォン特性を利用して、目的
方向音源以外の背景雑音を効率良く除去する。具体的に
は、音声認識システムにおける目的方向音源に対するマ
イクロフォン・アレイ１１１の空間特性と無指向性背景
音に対するマイクロフォン・アレイ１１１の空間特性と
を、予めホワイトノイズなどを用いて全周波数帯域に対
して推定しておく。そして、実際に雑音のある環境下で
観測された発話データから推定されるマイクロフォン・
アレイ１１１の空間特性と、上記２つのマイクロフォン
特性の和との差分が最小となるように、上記２つのマイ
クロフォン特性の混合重みを推定する。この操作を、周
波数別に行うことにより、観測データに含まれる目的方
向の発話成分（周波数別の強度）を推定し、音声を再構
成することができる。図２に示した音声認識システムに
おいては、雑音抑圧処理部３０の機能として上記の手法
を実現することができる。また、観測データに含まれる
目的方向の発話成分を推定する操作を、音声入力部１０
であるマイクロフォン・アレイ１１１の周囲の様々な方
向に関して行い、結果を比較することにより、観測デー
タの音源方向を特定することができる。図２に示した音
声認識システムにおいては、音源位置探索部２０の機能
として上記の手法を実現することができる。これらの機
能は独立しており、いずれか一方を使用することもでき
るし、両方を併用することもできる。以下、まず雑音抑
圧処理部３０の機能について説明し、次いで音源位置探
索部２０の機能について説明する。

【００２７】図３は、本実施の形態の音声認識システム
における雑音抑圧処理部３０の構成を示す図である。図
３を参照すると、雑音抑圧処理部３０は、遅延和処理部
３１と、フーリエ変換部３２と、プロファイル・フィッ
ティング部３３と、スペクトル再構成部３４とを備え
る。また、プロファイル・フィッティング部３３は、後
述する成分分解処理に用いられる音源位置情報及び空間
特性を格納した空間特性データベース５０に接続されて
いる。空間特性データベース５０には、後述するよう
に、様々な音源位置からホワイトノイズ等を鳴らして観
測された空間特性が音源位置ごとに格納されている。ま
た、音源位置探索部２０にて推定された音源位置の情報
も格納されている。

【００２８】遅延和処理部３１は、音声入力部１０にて
入力された音声データを、予め設定された所定の遅延時
間で遅延させ、足し合わせる。図３には、設定された遅
延時間（最小遅延時間、・・・、−Δθ、０、＋Δθ、
・・・、最大遅延時間）ごとに遅延和処理部３１が複数
記載されている。例えば、マイクロフォン・アレイ１１
１におけるマイクロフォンどうしの間隔が一定であり、
遅延時間を＋Δθとした場合、ｎ番目のマイクロフォン
にて収録された音声データは、(n-1)×Δθだけ遅延さ
せる。そして、Ｎ個の音声データを同様に遅延させた上
で、足し合わせる。この処理を、最小遅延時間から最大
遅延時間までの予め設定された各遅延時間について行
う。なお、この遅延時間は、マイクロフォン・アレイ１
１１の指向性を向ける方向に相当する。したがって、遅
延和処理部３１の出力は、マイクロフォン・アレイ１１
１の指向性を最小角度から最大角度まで段階的に変化さ
せたときの、各段階における音声データとなる。遅延和
処理部３１から出力された音声データは、フーリエ変換
部３２へ渡される。

【００２９】フーリエ変換部３２は、短時間音声フレー
ムごとの時間領域の音声データをフーリエ変換し、周波
数領域の音声データに変換する。そしてさらに、周波数
領域の音声データを、周波数帯域ごとの音声パワー分布
（パワースペクトル）に変換する。図３には、遅延和処
理部３１に対応してフーリエ変換部３２が複数記載され
ている。フーリエ変換部３２は、マイクロフォン・アレ
イ１１１の指向性を向ける角度ごとに、言い換えれば図
３に記載された個々の遅延和処理部３１の出力ごとに、
周波数帯域ごとの音声パワー分布を出力する。フーリエ
変換部３２から出力された音声パワー分布のデータは、
周波数帯域ごとに整理されてプロファイル・フィッティ
ング部３３へ渡される。図４は、プロファイル・フィッ
ティング部３３へ渡される音声パワー分布の例を示す図
である。

【００３０】プロファイル・フィッティング部３３は、
フーリエ変換部３２から周波数帯域ごとに受け取った音
声パワー分布のデータ（以下、この角度別音声パワー分
布を空間特性（Profile）と呼ぶ）を、既知の空間特性
に近似的に成分分解する。図３には、周波数帯域ごとに
複数記載されている。プロファイル・フィッティング部
３３にて使用される既知の空間特性は、音源位置探索部
２０で推定された音源位置情報と一致するものを、空間
特性データベース５０から選択して取得する。

【００３１】ここで、プロファイル・フィッティング部
３３による成分分解について、さらに詳細に説明する。
まず、予めホワイトノイズなどの基準音を用いて、音声
認識に用いられる範囲の様々な周波数（理想的にはあら
ゆる周波数）ωに対し、方向性音源方向をθ₀とした際
のマイクロフォン・アレイ１１１の空間特性（Ｐ
_ω(θ₀,θ)：以下、この空間特性を方向性音源空間特性
と呼ぶ）を、想定される種々の音源方向（理想的にはあ
らゆる音源方向）θ₀に対して求めておく。一方、無指
向性の背景音に対する空間特性（Ｑ_ω(θ)）も同様に求
めておく。これらの特性は、マイクロフォン・アレイ１
１１自身の持つ特性を示すものであって、雑音や音声の
音響的な特徴を示しているものではない。次に、実際に
観測される音声が、方向性の無い背景雑音と方向性のあ
る目的音声との和から構成されると仮定すると、観測さ
れた音声に対して得られる空間特性Ｘ_ω(θ)は、ある方
向θ₀からの音源に対する方向性音源空間特性Ｐ_ω(θ₀,
θ)と、無指向性背景音に対する空間特性Ｑ_ω(θ)をそ
れぞれある係数倍したものの和で近似することができ
る。

【００３２】図５は、この関係を模式的に表した図であ
る。この関係は次の数１式で表される。

【数１】ここで、α_ωは目的方向の方向性音源空間特性の重み係
数、β_ωは無指向性背景音空間特性の重み係数である。
これらの係数は、次の数２式に示す評価関数Φ _ωを最小
化するように定められる。

【数２】この最小値を与えるα_ωとβ_ωとは、次の数３式により
求められる。

【数３】ただし、α_ω≧０、β_ω≧０でなければならない。

【００３３】係数が求まれば、雑音成分が含まれない目
的音源のみのパワーを求めることができる。その周波数
ωにおけるパワーは、α_ω・Ｐ_ω(θ₀,θ₀)と与えられ
る。また、音声を収録する環境において、雑音源が背景
雑音だけでなく、特定の方向から所定の雑音（方向性雑
音）が発せられることが想定され、その到来方向を推定
することができる場合には、その方向性雑音に対する方
向性音源空間特性を空間特性データベース５０から取得
し、上記数１式の右辺の分解要素として付け加えること
もできる。なお、実音声に対して観測される空間特性
は、音声フレーム（通常は１０ｍｓ〜２０ｍｓ）ごとに
時系列的に得られるが、安定な空間特性を得るために、
成分分解を行う前段階の処理として、複数の音声フレー
ムのパワー分布をまとめて平均化する処理（時間方向の
平滑化処理）を行っても良い。以上の結果、プロファイ
ル・フィッティング部３３は、雑音成分が含まれない目
的音源のみの周波数ωごとの音声パワーを、α_ω・Ｐ_ω
(θ₀,θ₀)と推定する。推定された周波数ωごとの音声
パワーは、スペクトル再構成部３４へ渡される。

【００３４】スペクトル再構成部３４は、プロファイル
・フィッティング部３３にて推定された全周波数帯域分
の音声パワーを集めて、雑音成分が抑圧された周波数領
域の音声データを構成する。なお、プロファイル・フィ
ッティング部３３において平滑化処理を行った場合は、
スペクトル再構成部３４で、平滑化の逆フィルタとして
構成される逆平滑化を行い、時間変動を先鋭化しても良
い。また、Ｚωを逆平滑化の出力（パワースペクトル）
とすると、逆平滑化の際の過剰な変動を抑えるために、
０≦Ｚ_ω及びＺ_ω≦Ｘ_ω(θ₀)に変動を制限するリミッ
タを入れても良い。このリミッタには、逆フィルタの各
段階で制限をかける逐次処理と、逆フィルタをかけおわ
った後で制限をかける後処理との２種類の処理が考えら
れるが、０≦Ｚ_ωを逐次処理、Ｚ_ω≦Ｘ_ω(θ₀) を後処
理とするのが好適であることが、経験的にわかってい
る。

【００３５】図６は、上記のように構成された雑音抑圧
処理部３０による処理の流れを説明するフローチャート
である。図６を参照すると、まず音声入力部１０にて入
力された音声データが雑音抑圧処理部３０に入力され
（ステップ６０１）、遅延和処理部３１による遅延和処
理が行われる（ステップ６０２）。ここでは、Ｎ本のマ
イクロフォンにて構成されたマイクロフォン・アレイ１
１１（音声入力部１０）のｎ番目のマイクロフォンにお
けるｔ番目のサンプリングのＰＣＭ（Pulse Coded Modu
lation）音声データを、変数ｓ(n,t)に格納するものと
する。

【００３６】遅延和処理部３１は、遅延量をサンプル点
数で表現する。この遅延量にサンプリング周波数を掛け
たものが実際の遅延時間となる。変化させる遅延量の刻
み幅をΔθサンプルとし、正の方向および負の方向それ
ぞれにＭ段階に変化させるとすると、最大遅延量はＭ×
Δθサンプル、最小遅延量は−Ｍ×Δθサンプルとな
る。この場合、ｍ段階目の遅延和出力は、次の数４式で
表される値となる。

【数４】（ｍ＝−Ｍ〜＋Ｍの整数）ただし、上記数４式では、音声の収録環境としてマイク
ロフォン間隔一定、遠距離音場を想定している。これ以
外の場合は、公知の遅延和マイクロフォン・アレイ１１
１の理論により、指向性方向を片側Ｍ段階に変化させた
ときのｍ番目の遅延和出力をｘ(ｍ,ｔ)に構成するよう
にする。

【００３７】次に、フーリエ変換部３２によるフーリエ
変換処理が行われる（ステップ６０３）。フーリエ変換
部３２は、時間領域の音声データｘ(ｍ,ｔ)を、短時間
の音声フレーム間隔ごとに切り出し、フーリエ変換によ
り周波数領域の音声データに変換する。そしてさらに、
周波数領域の音声データを周波数帯域ごとのパワー分布
Ｘω_,i(ｍ)に変換する。ここで、添え字ωは各周波数帯
域の代表周波数を表している。また、添え字ｉは音声フ
レームの番号を表す。サンプリング点数で表した音声フ
レーム間隔をframe_sizeとすると、ｔ＝ｉ×frame_size
の関係がある。

【００３８】観測された空間特性Ｘω_,i(ｍ)は、プロフ
ァイル・フィッティング部３３に渡されるが、プロファ
イル・フィッティング部３３での前処理として時間方向
の平滑化を行う場合には、平滑化前の空間特性をＸ^*
_ω,i(ｍ)、フィルタ幅をＷ、フィルタ係数をC_jとして、
次の数５式で表される値となる。

【数５】次に、プロファイル・フィッティング部３３による成分
分解処理が行われる（ステップ６０４）。かかる処理の
ために、プロファイル・フィッティング部３３には、フ
ーリエ変換部３２から取得した、観測された空間特性Ｘ
_ω,i(ｍ)、音源位置探索部２０で推定された音源位置情
報ｍ₀、方向ｍ₀で表される方向からの音源に対する既知
の方向性音源空間特性Ｐ_ω(ｍ₀,ｍ)、及び無指向性背景
音に対する既知の空間特性Ｑ_ω(ｍ)が入力される。ここ
では、既知の空間特性も観測された空間特性と同様に方
向のパラメータｍを片側Ｍ段階のサンプリング点数単位
で採っている。

【００３９】目的方向の方向性音源空間特性の重み係数
α_ω、無指向性背景音空間特性の重み係数β_ωを、次の
数６式にて求める。ただし、式中で、添え字ω、ｉは省
略されている。処理は、周波数帯域ωごと、及び音声フ
レームｉごとに実行する。

【数６】ただし、αとβは負の数であってはならないので、 α＜０ならば、α＝０、β＝ａ₄／ａ₀ β＜０ならば、β＝０、α＝ａ₃／ａ₁ とする。

【００４０】次に、スペクトル再構成部３４によるスペ
クトル再構成処理が行われる（ステップ６０５）。スペ
クトル再構成部３４は、プロファイル・フィッティング
部３３による成分分解の結果に基づいて、雑音が抑圧さ
れた周波数領域の音声出力データＺ_ω,iを次のように求
める。まず、プロファイル・フィッティング部３３にお
いて平滑化処理を行わなかった場合は、そのまま、Ｚ
_ω,i＝Ｙ_ω,iとなる。Ｙ_ω,i＝α_ω,i・Ｐ_ω,i(ｍ₀,ｍ₀) 一方、プロファイル・フィッティング部３３において平
滑化処理を行った場合は、次の数７式で表される変動制
限付きの逆平滑化を行ってＺ_ω,iを求める。

【数７】この音声出力データＺ_ω,iは、処理結果として音声認識
部４０へ出力される（ステップ６０６）。

【００４１】さて、上述した雑音抑圧処理部３０では、
時間領域の音声データを入力として処理を行っていた
が、周波数領域の音声データを入力として処理を行うこ
とも可能である。図７は、周波数領域の音声データを入
力とする場合の雑音抑圧処理部３０の構成を示す図であ
る。図７に示すように、この場合、雑音抑圧処理部３０
には、図２に示した時間領域の処理を行う遅延和処理部
３１に代えて、周波数領域の処理を行う遅延和処理部３
６が設けられる。遅延和処理部３６にて周波数領域の処
理が行われるので、フーリエ変換部３２は不要となる。
遅延和処理部３６は、周波数領域の音声データを受け取
り、予め設定された所定の位相遅延量で遅延させ、足し
会わせる。図７には、設定された位相遅延量（最小位相
遅延量、・・・、−Δθ、０、＋Δθ、・・・、最大位
相遅延量）ごとに遅延和処理部３６が複数記載されてい
る。例えば、マイクロフォン・アレイ１１１におけるマ
イクロフォンどうしの間隔が一定であり、位相遅延量を
＋Δθとした場合、ｎ番目のマイクロフォンにて収録さ
れた音声データは、(n-1)×Δθだけ位相を遅延させ
る。そして、Ｎ個の音声データを同様に遅延させた上
で、足し合わせる。この処理を、最小位相遅延量から最
大位相遅延量までの予め設定された各位相遅延量につい
て行う。なお、この位相遅延量は、マイクロフォン・ア
レイ１１１の指向性を向ける方向に相当する。したがっ
て、遅延和処理部３６の出力は、図３に示した構成の場
合と同様に、マイクロフォン・アレイ１１１の指向性を
最小角度から最大角度まで段階的に変化させたときの、
各段階における音声データとなる。

【００４２】また、遅延和処理部３６は、指向性を向け
る角度ごとに、周波数帯域ごとの音声パワー分布を出力
する。この出力は、周波数帯域ごとに整理してプロファ
イル・フィッティング部３３に渡される。以下、プロフ
ァイル・フィッティング部３３及びスペクトル再構成部
３４の処理は、図３に示した雑音抑圧処理部３０の場合
と同様である。

【００４３】次に、本実施の形態における音源位置探索
部２０について説明する。図８は、本実施の形態の音声
認識システムにおける音源位置探索部２０の構成を示す
図である。図８を参照すると、音源位置探索部２０は、
遅延和処理部２１と、フーリエ変換部２２と、プロファ
イル・フィッティング部２３と、残差評価部２４とを備
える。また、プロファイル・フィッティング部２３は、
空間特性データベース５０に接続されている。これらの
構成のうち、遅延和処理部２１及びフーリエ変換部２２
の機能は,図３に示した雑音抑圧処理部３０における遅
延和処理部３１及びフーリエ変換部３２と同様である。
また、空間特性データベース５０には、様々な音源位置
からホワイトノイズ等を鳴らして観測された空間特性
が、音源位置ごとに格納されている。

【００４４】プロファイル・フィッティング部２３は、
フーリエ変換部２２から渡された音声パワー分布を短時
間平均し、周波数ごとに空間特性の観測値を作成する。
そして、得られた観測値を、既知の空間特性に近似的に
成分分解する。この際、方向性音源空間特性Ｐ_ω(θ₀,
θ)として、空間特性データベース５０に格納されてい
る全ての方向性音源空間特性を順番に選択して適用し、
数２式を中心とする上述の手法により、係数α_ωとβ_ω
とを求める。係数α_ωとβ_ωとが求まれば、数２式に代
入することにより、評価関数Φ_ωの残差を求めることが
できる。得られた周波数帯域ωごとの評価関数Φ_ωの残
差は、残差評価部２４へ渡される。

【００４５】残差評価部２４は、プロファイル・フィッ
ティング部２３から受け取った周波数帯域ωごとの評価
関数Φ_ωの残差を合計する。その際、音源位置探索の精
度を高めるために高周波帯域に重みをかけて合計しても
良い。この合計残差が最小になる時に選択された既知の
方向性音源空間特性が、推定された音源位置を表してい
る。すなわち、この既知の方向性音源空間特性を測定し
た時の音源位置が、ここで推定すべき音源位置である。

【００４６】図９は、上記のように構成された音源位置
探索部２０による処理の流れを説明するフローチャート
である。図９を参照すると、まず音声入力部１０にて入
力された音声データが音源位置探索部２０に入力され
（ステップ９０１）、遅延和処理部２１による遅延和処
理、フーリエ変換部２２によるフーリエ変換処理が行わ
れる（ステップ９０２、９０３）。これらの処理は、図
６を参照して説明した音声データの入力（ステップ６０
１）、遅延和処理（ステップ６０２）及びフーリエ変換
処理（ステップ６０３）と同様であるので、ここでは説
明を省略する。

【００４７】次に、プロファイル・フィッティング部２
３による処理が行われる。プロファイル・フィッティン
グ部２３は、まず、成分分解で使用する既知の方向性音
源空間特性として、空間特性データベース５０に格納さ
れている既知の方向性音源空間特性の中から順に異なる
ものを選択する（ステップ９０４）。具体的には、方向
ｍ₀からの音源に対する既知の方向性音源空間特性Ｐ
_ω(ｍ₀,ｍ)のｍ₀を変えることに相当する。そして、選
択された既知の方向性音源空間特性について成分分解処
理が行われる（ステップ９０５、９０６）。

【００４８】プロファイル・フィッティング部２３によ
る成分分解処理では、図６を参照して説明した成分分解
処理（ステップ６０４）と同様の処理により、目的方向
の方向性音源空間特性の重み係数α_ω、無指向性背景音
空間特性の重み係数β_ωが求められる。そして、求まっ
た目的方向の方向性音源空間特性の重み係数α_ω、無指
向性背景音空間特性の重み係数β_ωを用い、次の数８式
により評価関数の残差が求められる（ステップ９０
７）。

【数８】この残差は、現在選択されている既知の方向性音源空間
特性と関係付けられて、空間特性データベース５０に保
管される。

【００４９】ステップ９０４乃至ステップ９０７の処理
を繰り返し、空間特性データベース５０に格納されてい
る全ての既知の方向性音源空間特性を試したならば、次
に、残差評価部２４による残差評価処理が行われる（ス
テップ９０５、９０８）。具体的には、次の数９式によ
り、空間特性データベース５０に保管されている残差を
周波数帯域ごとに重みをつけて合計する。

【数９】ここで、Ｃ(ω)は重み係数である。簡単には全て１で良
い。そして、このΦ_ALLを最小にする既知の方向性音源
空間特性が選択され、位置情報として出力される（ステ
ップ９０９）。

【００５０】上述したように、雑音抑圧処理部３０の機
能と、音源位置探索部２０の機能とは独立しているの
で、音声認識システムを構成するに当たり、両方を上述
した本実施の形態による構成としても良いし、どちらか
一方のみを上述した本実施の形態による構成要素とし、
他方は従来の技術を用いても良い。いずれか一方を本実
施の形態による構成要素とする場合、例えば上述した雑
音抑圧処理部３０を用いる場合は、収録音声を音源から
の音の成分と背景雑音による音の成分とに分解して音源
からの音の成分を抽出し、音声認識部４０による認識が
行われることにより、音声認識の精度の向上を図ること
ができる。また、本実施の形態の音源位置探索部２０を
用いる場合は、背景雑音を考慮して特定の音源位置から
の音における空間特性と収録音声の空間特性とを比較す
ることにより、正確な音源位置の推定を行うことができ
る。さらに、本実施の形態の音源位置探索部２０及び雑
音抑圧処理部３０を両方用いる場合は、正確な音源位置
の推定と音声認識の精度向上とを期待できるのみなら
ず、空間特性データベース５０と、遅延和処理部２１、
３１やフーリエ変換部２２、３２を共用できることとな
り効率的である。

【００５１】本実施の形態による音声認識システムは、
話者とマイクロフォンとの間に距離がある環境でも雑音
を効率的に除去して高精度な音声認識を実現するのに寄
与するため、コンピュータやＰＤＡ、携帯電話などの電
子情報機器に対する音声入力や、ロボットその他の機械
装置との音声による対話など、多くの音声入力環境で使
用することができるものである。

【００５２】〔第２の実施の形態〕第２の実施の形態で
は、収録音声に関してエイリアシングの影響のような大
きな観測誤差が含まれることが避けられない場合を対象
として、音声データをモデル化した上で最尤推定を行う
ことにより、雑音の減少を図る。本実施の形態の構成及
び動作の説明に先立って、エイリアシングの問題につい
て具体的に説明する。図１７は、２チャンネル・マイク
ロフォン・アレイでエイリアスの発生する状況を説明す
る図である。図１７に示すように、２本のマイクロフォ
ン１７１１、１７１２を約３０ｃｍの間隔で配置し、正
面０°に信号音源１７２０を配置し、右約４０°に雑音
源１７３０を１個配置したケースを考える。この場合、
使用するビームフォーマとして２チャンネル・スペクト
ラムサブトラクション法を想定すると、理想的には、主
ビームフォーマでは、信号音源１７２０の音波は同相化
されて強化されるのに対し、左右のマイクロフォン１７
１１、１７１２に同時に到達しない雑音源１７３０の音
波は、同相化されずに弱化される。また、副ビームフォ
ーマでは、信号音源１７２０の音波は、逆位相で足し合
わされるためにキャンセルされ、ほとんど残らないのに
対し、雑音源１７３０の音波は、元々同相化されていな
いものを逆位相で足し合わせるので、キャンセルされず
に出力に残る。

【００５３】しかし、特定の周波数では、異なる状況と
なる場合がある。図１７のような構成では、雑音源１７
３０の音波は左のマイクロフォン１７１２に約０.５ミ
リ秒遅れて到達する。したがって、約２０００（＝１÷
０．０００５）Ｈｚの音波は、ちょうど一周期遅れて、
同相化されることとなる。すなわち、主ビームフォーマ
で、その雑音成分は弱化されず、また、副ビームフォー
マの出力で残るべき雑音成分が残らなくなってしまうこ
の現象は、その特定周波数（この場合は２０００Ｈｚ）
の倍音（＝Ｎ×２０００Ｈｚ）でも発生する。これによ
り、抽出される音声データにエイリアス（ノイズ）が含
まれてしまう。本実施の形態では、このエイリアスが発
生する特定の周波数で、より精度の高い、雑音成分の推
定を実現する。第２の実施の形態による音声認識システ
ム（装置）は、第１の実施の形態と同様に、図１に示す
ようなコンピュータ装置にて実現される。

【００５４】図１０は、本実施の形態による音声認識シ
ステムの構成を示す図である。図１０に示すように、本
実施の形態による音声認識システムは、音声入力部２１
０と、音源位置探索部２２０と、雑音抑圧処理部２３０
と、分散計測部２４０と、最尤推定部２５０と、音声認
識部２６０とを備えている。上記の構成において、音源
位置探索部２２０、雑音抑圧処理部２３０、分散計測部
２４０、最尤推定部２５０及び音声認識部２６０は、図
１に示したメインメモリ１０３に展開されたプログラム
にてＣＰＵ１０１を制御することにより実現される仮想
的なソフトウェアブロックである。ＣＰＵ１０１を制御
してこれらの機能を実現させる当該プログラムは、磁気
ディスクや光ディスク、半導体メモリ、その他の記憶媒
体に格納して配布したり、ネットワークを介して配信し
たりすることにより提供される。本実施の形態では、図
１に示したネットワークインターフェイス１０６やフロ
ッピーディスクドライブ１０８、図示しないＣＤ−ＲＯ
Ｍドライブなどを介して当該プログラムを入力し、ハー
ドディスク１０５に格納する。そして、ハードディスク
１０５に格納されたプログラムをメインメモリ１０３に
読み込んで展開し、ＣＰＵ１０１にて実行することによ
り、図１０に示した各構成要素の機能を実現する。な
お、プログラム制御されたＣＰＵ１０１にて実現される
各構成要素の間でのデータの受け渡しは、当該ＣＰＵ１
０１のキャッシュメモリやメインメモリ１０３を介して
行われる。

【００５５】音声入力部２１０は、Ｎ個のマイクロフォ
ンにより構成されたマイクロフォン・アレイ１１１及び
サウンドカード１１０にて実現され、音声を収録する。
収録された音声は、電気的な音声データに変換されて音
源位置探索部２２０へ渡される。なお、エイリアシング
の問題が、マイクロフォンの数が２個の場合に顕著に現
れることから、以下では音声入力部２１０が２個のマイ
クロフォンを備える（すなわち、２個の音声データが収
録される）ものとして説明する。音源位置探索部２２０
は、音声入力部１０にて同時収録された２個の音声デー
タから、目的音声の音源位置（音源方向）を推定する。
音源位置探索部２２０で推定された音源位置情報と音声
入力部２１０から取得した２個の音声データとは、雑音
抑圧処理部２３０へ渡される。雑音抑圧処理部２３０
は、収録音声の中から所定の雑音成分を推定して減算す
る種類のビームフォーマである。すなわち、音源位置探
索部２２０から受け取った音源位置情報と２個の音声デ
ータとを用いて、目的音声以外の音源位置から到来する
音声を極力排除（雑音抑圧）した１個の音声データを出
力する。ビームフォーマの種類としては、第１の実施の
形態に示したプロファイル・フィッティングにより雑音
成分を除去するものでも良いし、従来から用いられてい
る２チャンネル・スペクトラムサブトラクションにより
雑音成分を除去するものでも良い。雑音抑圧された１個
の音声データは、分散計測部２４０及び最尤推定部２５
０へ渡される。

【００５６】分散計測部２４０は、雑音抑圧処理部２３
０にて処理された音声データを入力し、雑音抑圧された
当該入力音声が雑音区間（音声フレーム中で目的音声の
ない区間）である場合は観測誤差分散を計測する。ま
た、当該入力音声が音声区間（音声フレーム中で目的音
声のある区間）である場合はモデル化誤差分散を計測す
る。観測誤差分散、モデル化誤差分散及びこれらの計測
方法の詳細については後述する。最尤推定部２５０は、
分散計測部２４０から観測誤差分散及びモデル化誤差分
散を入力し、雑音抑圧処理部２３０にて処理された音声
データを入力して、最尤推定値を算出する。最尤推定値
及びその計算方法の詳細については後述する。算出され
た最尤推定値は、音声認識部２６０へ渡される。音声認
識部２６０は、最尤推定部２５０にて算出された最尤推
定値を用いて、音声を文字に変換し、その文字を出力す
る。なお、本実施の形態では、各構成要素間の音声デー
タの受け渡しに周波数領域のパワー値（パワースペクト
ラム）を想定している。

【００５７】次に、本実施の形態における、収録音声に
対するエイリアシングの影響を減少させる手法について
説明する。第１の実施の形態に示したプロファイル・フ
ィッティング法や、従来から用いられている２チャンネ
ル・スペクトラムサブトラクション法をはじめとする、
雑音成分を推定してスペクトル減算を行うタイプのビー
ムフォーマの出力では、エイリアシングの問題が起こる
特定の周波数のパワーを中心に、時間方向に平均がゼロ
で大きな分散の誤差を含んでいる。そこで、所定の音声
フレームについて、周波数方向のサブバンドごとに、隣
接サブバンド数点に渡って信号パワーを平均化した解を
考える。この解をスムージング解と呼ぶ。音声のスペク
トラム包絡は連続的に変化すると考えられるので、この
周波数方向の平均化により、混入する誤差は平均化され
て小さくなると期待できる。しかし、このスムージング
解は、上記の定義から、スペクトラム分布が鈍るという
性質を持つため、スペクトラムの構造を正確に表現して
いるとは言いがたい。すなわち、スムージング解そのも
のを音声認識に用いたとしても、良い音声認識結果は得
られない。

【００５８】そこで、本実施の形態は、収録音声の観測
値そのものと、上述したスムージング解との線形補間を
考える。そして、観測誤差が小さい周波数では観測値寄
りの値を使用し、観測誤差が大きい周波数ではスムージ
ング解寄りの値を使用する。このときに使用する値とし
て推定される値が最尤推定値である。したがって、最尤
推定値としては、信号に雑音がほとんど含まれていない
Ｓ／Ｎ（信号・ノイズ比）の高いケースでは、ほぼ全周
波数領域で、観測値に極めて近い値が使用されることに
なる。また、雑音が多く含まれるＳ／Ｎの低いケースで
は、エイリアシングが起こる特定の周波数を中心に、ス
ムージング解に近い値が使用されることになる。

【００５９】以下、この最尤推定値を算出する処理の詳
細な内容を定式化する。所定の対象を観測する際に大き
な観測誤差が避けられない場合に備え、観測対象を何ら
かの形でモデル化した上で、最尤推定を行う。本実施の
形態では、観測対象の音声モデルとして「スペクトラム
包絡は連続的に変化する」という性質を利用し、スペク
トラムの周波数方向のスムージング解を定義する。状態
方程式を次の数１０式のように定める。

【数１０】ここで、Ｓ￣は、主ビームフォーマに含まれる目的音声
のパワーＳを隣接サブバンド数点にわたって平均化した
スムージング解である。Ｙは、スムージング解からの誤
差であり、モデル化誤差と呼ぶ。また、ωは周波数、Ｔ
は音声フレームの時系列番号である。

【００６０】観測値であるビームフォーマの出力（パワ
ースペクトル）をＺとすると、観測方程式は、次の数１
１式のように定義される。

【数１１】ここで、Ｖは観測誤差である。この観測誤差は、エイリ
アスが発生する周波数で大きい。観測値Ｚが得られたと
き、目的音声のパワーＳにおける条件付確率分布Ｐ(Ｓ
｜Ｚ)は、ベイズの公式により、次の数１２式で与えら
れる。

【数１２】この時、観測誤差Ｖが大きい場合は、モデルによる推定
値Ｓ￣を使い、観測誤差Ｖが小さい場合は、観測値Ｚそ
のものを使うのが合理的な推定となる。

【００６１】そのようなＳの最尤推定値は、次の数１３
式乃至数１６式にて与えられる。

【数１３】

【数１４】

【数１５】

【数１６】ここで、ｑはモデル化誤差Ｙの分散、ｒは観測誤差Ｖの
分散である。なお、数１５、１６式において、Ｙ、Ｖの
平均値はゼロと仮定した。ここで、Ｅ［］ω_,Tは、分散
計測の範囲を例示する図１１に示すように、ω、Ｔの周
りのｍ×ｎ点の期待値を取る操作を表す。ω_i、Ｔ_jは、
ｍ×ｎ中の各点を表している。

【００６２】数１３式では、スムージング解Ｓ￣は直接
求まらないが、観測誤差Ｖのスムージング解Ｖ￣は、平
均化によりゼロに近い値になると仮定し、次の数１７式
のように、観測値Ｚのスムージング解Ｚ￣で代用する。

【数１７】観測誤差分散ｒについては、まず定常であることを仮定
し、ｒ(ω)とする。雑音区間では目的音声のパワーＳが
ゼロであるので、観測値Ｚを観測することにより、数１
１、１６式から求めることができる。この場合、分散を
計測する操作の範囲は、図１１の範囲（ａ）のようにな
る。モデル化誤差分散ｑについては、モデル化誤差Ｙが
直接観測できないので、次の数１８式で与えられるｆを
観測することにより推定する。

【数１８】ここでは、モデル化誤差Ｙ、観測誤差Ｖが無相関である
と仮定した。既に観測誤差分散ｒが求まっているので、
音声区間でｆを観測することにより、数１８式からモデ
ル化誤差分散ｑを求めることができる。この場合、分散
を計測する操作の範囲は、図１１の範囲（ｂ）のように
なる。

【００６３】本実施の形態では、以上の処理を、分散計
測部２４０及び最尤推定部２５０により行う。図１２
は、分散計測部２４０の動作を説明するフローチャート
である。図１２に示すように、分散計測部２４０は、雑
音抑圧処理部２３０から音声フレームＴの雑音抑圧処理
後のパワースペクトルＺ(ω,Ｔ)を取得すると（ステッ
プ１２０１）、当該音声フレームＴが音声区間に属する
のか雑音区間に属するのか判断する（ステップ１２０
２）。音声フレームＴに対する判断は、従来から公知の
方法を用いて行うことができる。入力した音声フレーム
Ｔが雑音区間であった場合、分散計測部２４０は、上述
した数１１、１６式により、観測誤差分散ｒ(ω)を過去
の履歴と合わせて再計算（更新）する（ステップ１２０
３）。一方、入力した音声フレームＴが音声区間であっ
た場合、分散計測部２４０は、まず数１７式により観測
値であるパワースペクトルＺ(ω,Ｔ)からスムージング
解Ｓ￣(ω,Ｔ)を作成する（ステップ１２０４）。そし
て、数１８式により、モデル化誤差分散ｑ(ω,Ｔ)を再
計算（更新）する。更新された観測誤差分散ｒ(ω)、ま
たは更新されたモデル化誤差分散ｑ(ω,Ｔ)及び作成さ
れたスムージング解Ｓ￣(ω,Ｔ)は、最尤推定部２５０
へ渡される（ステップ１２０６）。

【００６４】図１３は、最尤推定部２５０の動作を説明
するフローチャートである。図１３に示すように、最尤
推定部２５０は、雑音抑圧処理部２３０から音声フレー
ムＴの雑音抑圧処理後のパワースペクトルＺ(ω,Ｔ)を
取得し（ステップ１３０１）、さらに分散計測部２４０
から当該音声フレームＴにおける観測誤差分散ｒ(ω)、
モデル化誤差分散ｑ(ω,Ｔ)及びスムージング解Ｓ￣
(ω,Ｔ)を取得する（ステップ１３０２）。そして、最
尤推定部２５０は、取得した各データを用いて、数１３
式により、最尤推定値Ｓ^(ω,Ｔ)を算出する（ステップ
１３０３）。算出された最尤推定値Ｓ^(ω,Ｔ)は、音声
認識部２６０へ渡される（ステップ１３０４）。

【００６５】図１４は、音声認識システムとして、２チ
ャンネル・スペクトラムサブトラクション・ビームフォ
ーマを用い、これに本実施の形態を適用した構成を示す
図である。図１４に示す２チャンネル・スペクトラムサ
ブトラクション・ビームフォーマは、重みを適応的にか
ける方法である２チャンネル・アダプティブ・スペクト
ラムサブトラクション（2 Channel Adaptive Spectrum
Subtraction）法を使用するビームフォーマである。図
１４において、２つのマイクロフォン（図ではマイクと
表記）１４０１、１４０２が図１０に示した音声入力部
２１０に対応し、主ビームフォーマ１４０３、副ビーム
フォーマ１４０４が音源位置探索部２２０及び雑音抑圧
処理部２３０としての機能を実現する。すなわち、この
２チャンネル・スペクトラムサブトラクション・ビーム
フォーマは、２つのマイクロフォン１４０１、１４０２
によって収録された音声に関し、目的音源方向に指向性
を向けた主ビームフォーマ１４０３の出力から目的音源
方向に死角を構成した副ビームフォーマ１４０４の出力
をスペクトルサブトラクション（減算）する。副ビーム
フォーマ１４０４は、目的音源の音声信号が含まれてい
ない雑音成分のみの信号を出力するとみなされる。主ビ
ームフォーマ１４０３の出力と副ビームフォーマ１４０
４の出力とは、それぞれ高速フーリエ変換（FFT：Fast
Fourier Transform）され、所定の重み（Weight(ω)：
Ｗ(ω)）を着けて減算が行われた後、分散計測部２４
０、最尤推定部２５０による処理を経て、逆高速フーリ
エ変換（I-FFT：Inverse Fast Fourier Transform）さ
れて音声認識部２６０へ出力される。当然ながら、音声
認識部２６０が周波数領域のデータを入力として受け付
ける場合には、この逆高速フーリエ変換は省略すること
ができる。

【００６６】主ビームフォーマ１４０３の出力パワース
ペクトルをＭ_１（ω,Ｔ）、副ビームフォーマ１４０４
の出力パワースペクトルをＭ_２（ω,Ｔ）とする。主ビ
ームフォーマ１４０３に含まれる信号パワーをＳ、雑音
パワーをＮ_１、副ビームフォーマに含まれる雑音パワー
をＮ_２とすると、次のような関係がある。Ｍ₁(ω,Ｔ)＝Ｓ(ω,Ｔ)＋Ｎ₁(ω,Ｔ) Ｍ₂(ω,Ｔ)＝Ｎ₂(ω,Ｔ) ここでは、信号と雑音は無相関であると仮定している。

【００６７】主ビームフォーマ１４０３の出力から副ビ
ームフォーマ１４０４の出力を、重み係数Ｗ(ω)を掛け
て減算すると、その出力Ｚは、Ｚ(ω,Ｔ)＝Ｍ₁(ω,Ｔ)−Ｗ(ω)・Ｍ₂(ω,Ｔ) ＝Ｓ(ω,Ｔ)＋｛Ｎ₁(ω,Ｔ)−Ｗ(ω)・Ｎ₂(ω,Ｔ)｝と表される。重みＷ(ω)は、Ｅ［］を期待値操作とし
て、Ｅ［[Ｎ₁(ω,Ｔ)−Ｗ(ω)・Ｎ₂(ω,Ｔ)]²］を最小とするように学習される。図１５は、例として、
雑音源を右４０°に１個配置した時の学習済みの重み係
数Ｗ(ω)を示す図である。図１５を参照すると、特定の
周波数で、特に大きな値を持つことがわかる。このよう
な周波数では、上式で期待される雑音成分のキャンセル
の精度が著しく低下する。すなわち、観測される主ビー
ムフォーマ１４０３の出力パワーＳ(ω,Ｔ)の値に大き
な誤差を伴うこととなる。

【００６８】そこで、上述した数１０、１１式のように
状態方程式及び観測方程式を定める。この時、観測誤差
Ｖ(ω,Ｔ)は、次のように定義される。Ｖ(ω,Ｔ)＝Ｎ₁(ω,Ｔ)・Ｗ(ω)・Ｎ₂(ω,Ｔ) そして、分散計測部２４０及び最尤推定部２５０が、上
述した数１３乃至数１６式により最尤推定値を算出す
る。これにより、主ビームフォーマ１４０３の出力パワ
ーＳ(ω,Ｔ)の値に大きな誤差を伴わない場合、すなわ
ち、収録音声に信号にエイリアシングによる雑音がほと
んど含まれていない場合には、観測値に近い最尤推定値
が逆高速フーリエ変換されて音声認識部２６０へ出力さ
れる。一方、主ビームフォーマ１４０３の出力パワーＳ
(ω,Ｔ)の値に大きな誤差を伴う場合、すなわち、収録
音声に信号にエイリアシングによる雑音が多く含まれて
いる場合には、当該エイリアシングが起こる特定の周波
数を中心としてスムージング解に近い最尤推定値が逆高
速フーリエ変換されて音声認識部２６０へ出力される。

【００６９】図１６は、音声認識システムとして、図１
４に示した２チャンネル・スペクトラムサブトラクショ
ン・ビームフォーマを備えたコンピュータ装置の外観を
例示する図である。図１６に示すコンピュータ装置は、
ディスプレイ（ＬＣＤ）１６１０の上部にステレオマイ
クロフォン１６２１、１６２２が設けられている。この
ステレオマイクロフォン１６２１、１６２２は、図１４
に示したマイクロフォン１４０１、１４０２に相当し、
これを図１０に示した音声入力部２１０として用いる。
そして、プログラム制御されたＣＰＵにより、音源位置
探索部２２０及び雑音抑圧処理部２３０として機能する
主ビームフォーマ１４０３、副ビームフォーマ１４０４
と、分散計測部２４０及び最尤推定部２５０の機能とを
実現する。これにより、エイリアシングの影響を極力減
少させた音声認識が可能となる。

【００７０】なお、上記において本実施の形態は、特に
２チャンネルのビームフォーマにおいて顕著に発生する
エイリアシングによる雑音を減少させる場合を例として
説明したが、本実施の形態によるスムージング解及び最
尤推定を用いた雑音除去の技術は、その他、２チャンネ
ル・スペクトラムサブトラクションや第１の実施の形態
によるプロファイル・フィッティング等の手法でも除去
できない種々の雑音を減少させるためにも用いることが
できるのは言うまでもない。

【００７１】

【発明の効果】以上説明したように、本発明によれば、
収録音声から目的方向音源以外の背景雑音を効率良く除
去し、高精度の音声認識を実現することができる。ま
た、本発明によれば、ビームフォーマにおけるエイリア
シングの影響のような避けがたい雑音を効果的に抑制す
る方法及びこれを用いたシステムを提供することができ
る。

【図面の簡単な説明】

【図１】第１の実施の形態による音声認識システムを
実現するのに好適なコンピュータ装置のハードウェア構
成の例を模式的に示した図である。

【図２】図１に示したコンピュータ装置にて実現され
る第１の実施の形態による音声認識システムの構成を示
す図である。

【図３】第１の実施の形態の音声認識システムにおけ
る雑音抑圧処理部の構成を示す図である。

【図４】第１の実施の形態で用いられる音声パワー分
布の例を示す図である。

【図５】予め測定された方向性音源空間特性及び無指
向性背景音に対する空間特性と収録音声の空間特性との
関係を模式的に表す図である。

【図６】第１の実施の形態における雑音抑圧処理部に
よる処理の流れを説明するフローチャートである。

【図７】周波数領域の音声データを入力とする場合の
雑音抑圧処理部の構成を示す図である。

【図８】第１の実施の形態の音声認識システムにおけ
る音源位置探索部の構成を示す図である。

【図９】第１の実施の形態における音源位置探索部に
よる処理の流れを説明するフローチャートである。

【図１０】第２の実施の形態による音声認識システム
の構成を示す図である。

【図１１】第２の実施の形態による分散計測の範囲を
例示する図である。

【図１２】第２の実施の形態における分散計測部の動
作を説明するフローチャートである。

【図１３】第２の実施の形態における最尤推定部２５
０の動作を説明するフローチャートである。

【図１４】第２の実施の形態による音声認識システム
を２チャンネル・スペクトラムサブトラクション・ビー
ムフォーマに適用した構成を示す図である。

【図１５】第２の実施の形態において、雑音源を右４
０°に１個配置した時の学習済みの重み係数Ｗ(ω)を示
す図である。

【図１６】図１４に示した２チャンネル・スペクトラ
ムサブトラクション・ビームフォーマを備えたコンピュ
ータ装置の外観を例示する図である。

【図１７】２チャンネル・マイクロフォン・アレイで
エイリアスの発生する状況を説明する図である。

【図１８】マイクロフォン・アレイを使用した従来の
音声認識システムの構成を概略的に示した図である。

【符号の説明】

１０、２１０…音声入力部、２０、２２０…音源位置探
索部、２１、３１、３６…遅延和処理部、２２、３２…
フーリエ変換部、２３、３３…プロファイル・フィッテ
ィング部、２４…残差評価部、３０、２３０…雑音抑圧
処理部、３４…スペクトル再構成部、４０、２６０…音
声認識部、５０…空間特性データベース、１０１…ＣＰ
Ｕ、１０２…Ｍ／Ｂチップセット、１０３…メインメモ
リ、１０５…ハードディスク、１１０…サウンドカー
ド、１１１…マイクロフォン・アレイ、２４０…分散計
測部、２５０…最尤推定部

───────────────────────────────────────────────────── フロントページの続き (72)発明者市川治神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者西村雅史神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者滝口哲也神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内Ｆターム(参考） 5D015 DD02 EE05

Claims

【特許請求の範囲】

【請求項１】音声を収録するマイクロフォン・アレイ
と、想定される種々の音源方向から発せられた基準音の特性
及び無指向性の背景音の特性を格納したデータベース
と、前記マイクロフォン・アレイにて収録された音声の音源
方向を推定する音源位置探索部と、前記音源位置探索部にて推定された前記音源方向と前記
データベースに格納された前記基準音の特性及び前記背
景音の特性とを用いて、前記収録された音声における前
記推定された音源方向の成分の音声データを抽出する雑
音抑圧処理部と、前記音源方向の成分の音声データの認識処理を行う音声
認識部とを備えることを特徴とする音声認識装置。
【請求項２】前記雑音抑圧処理部は、前記収録された
音声の特性と前記基準音の特性及び前記背景音の特性と
を比較し、比較結果に基づいて前記収録された音声の特
性を前記音源方向の音の成分と無指向性の背景音の成分
とに分解し、前記音源方向の音の成分の音声データを抽
出することを特徴とする請求項１に記載の音声認識装
置。
【請求項３】音声を収録するマイクロフォン・アレイ
と、想定される種々の音源方向から発せられた基準音の特性
及び無指向性の背景音の特性を格納したデータベース
と、前記マイクロフォン・アレイにて収録された音声の特性
と前記データベースに格納された前記基準音の特性及び
前記背景音の特性とを比較することにより、前記収録さ
れた音声の音源方向を推定する音源位置探索部と、前記音源位置探索部にて推定された音源方向の成分の音
声データの認識処理を行う音声認識部とを備えることを
特徴とする音声認識装置。
【請求項４】前記音源位置探索部は、所定の音声入力
方向ごとに、前記基準音の特性及び前記背景音の特性と
合成して得られた特性と前記収録された音声の特性とを
比較し、比較結果に基づいて所定の基準音の音源位置を
当該収録された音声の音源方向として推定することを特
徴とする請求項３に記載の音声認識装置。
【請求項５】音声を収録するマイクロフォン・アレイ
と、前記マイクロフォン・アレイにて収録された収録音声の
音源方向を推定する音源位置探索部と、前記収録音声から前記音源位置探索部にて推定された音
源方向以外の成分を除去する雑音抑圧処理部と、前記雑音抑圧処理部にて処理された前記収録音声と、当
該収録音声に対し所定のモデル化を行って得られる音声
モデルとを用いて最尤推定を行う最尤推定部と、前記最尤推定部にて推定された最尤推定値を用いて音声
の認識処理を行う音声認識部とを含むことを特徴とする
音声認識装置。
【請求項６】前記最尤推定部は、前記収録音声の音声
モデルとして、当該収録音声の所定の音声フレームに対
して周波数方向のサブバンドごとに隣接サブバンド数点
にわたって信号パワーを平均化したスムージング解を用
いることを特徴とする請求項５に記載の音声認識装置。
【請求項７】前記雑音抑圧処理部にて処理された前記
収録音声の雑音区間に関して観測誤差の分散を計測し、
当該収録音声の音声区間に関して前記モデル化における
モデル化誤差の分散を計測する分散計測部をさらに備
え、前記最尤推定部は、前記分散計測部にて計測された前記
観測誤差の分散または前記モデル化誤差の分散を用いて
前記最尤推定値を計算することを特徴とする請求項５に
記載の音声認識装置。
【請求項８】コンピュータを制御して、マイクロフォ
ン・アレイを用いて収録された音声を認識する音声認識
方法において、前記マイクロフォン・アレイを用いて音声を収録し、音
声データをメモリに格納する音声入力ステップと、前記メモリに格納された音声データに基づいて、収録さ
れた音声の音源方向を推定し、推定結果をメモリに格納
する音源位置探索ステップと、前記メモリに格納された推定結果に基づいて、前記収録
された音声の特性を、推定された音源位置から発せられ
た音の成分と、無指向性の背景音の成分とに分解処理
し、処理結果に基づいて前記収録された音声における前
記推定された音源方向の成分の音声データを抽出してメ
モリに格納する雑音抑圧ステップと、前記メモリに格納された前記音源方向の成分の音声デー
タに基づいて、前記収録された音声を認識する音声認識
ステップとを含むことを特徴とする音声認識方法。
【請求項９】前記雑音抑圧ステップは、想定される種々の音源方向から発せられた基準音の特性
及び無指向性の背景音の特性を格納した記憶装置から、
前記音源方向の推定結果に合致する音源方向から発せら
れた基準音の特性及び背景音の特性を読み出すステップ
と、読み出された前記特性を適当な重み付けを施して合成
し、前記収録された音声の特性に近似させるステップ
と、近似によって得られた前記基準音及び前記背景音の特性
に関する情報に基づいて、前記メモリに格納された音声
データのうち、前記推定された音源方向から発せられた
成分を推定し抽出するステップとを含むことを特徴とす
る請求項８に記載の音声認識方法。
【請求項１０】コンピュータを制御して、マイクロフ
ォン・アレイを用いて収録された音声を認識する音声認
識方法において、前記マイクロフォン・アレイを用いて音声を収録し、音
声データをメモリに格納する音声入力ステップと、前記メモリに格納された音声データに基づいて、収録さ
れた音声の音源方向を推定し、推定結果をメモリに格納
する音源位置探索ステップと、前記メモリに格納された推定結果と予め測定された所定
の音声の特性に関する情報とに基づいて、前記収録され
た音声の特性を、推定された音源方向から発せられた音
の成分と、無指向性の背景音の成分とに分解し、前記収
録された音声から当該背景音の成分を除去した音声デー
タをメモリに格納する雑音抑圧ステップと、前記メモリに格納された前記背景音の成分を除去した音
声データに基づいて、前記収録された音声を認識する音
声認識ステップとを含むことを特徴とする音声認識方
法。
【請求項１１】前記雑音抑圧ステップは、特定の方向
から雑音が発せられることが想定される場合に、当該特
定の方向における音の成分を、前記収録された音声の特
性からさらに分解し除去するステップを含むことを特徴
とする請求項１０に記載の音声認識方法。
【請求項１２】コンピュータを制御して、マイクロフ
ォン・アレイを用いて収録された音声を認識する音声認
識方法において、前記マイクロフォン・アレイを用いて音声を収録し、音
声データをメモリに格納する音声入力ステップと、予め測定された特定の音源方向から発せられた基準音の
特性と無指向性の背景音の特性とを合成して得られる特
性を種々の音声入力方向に対して求め、前記メモリに格
納された音声データから得られる収録された音声の特性
と比較することにより、収録された音声の音源方向を推
定し、推定結果をメモリに格納する音源位置探索ステッ
プと、前記メモリに格納された音源方向の推定結果と前記音声
データとに基づいて、前記収録された音声における前記
推定された音源方向の成分の音声データを抽出してメモ
リに格納する雑音抑圧ステップと、前記メモリに格納された前記背景音の成分を除去した音
声データに基づいて、前記収録された音声を認識する音
声認識ステップとを含むことを特徴とする音声認識方
法。
【請求項１３】前記音源位置探索ステップは、想定される種々の音源方向から発せられた基準音の特性
及び無指向性の背景音の特性を格納した記憶装置から、
前記音声入力方向ごとに前記基準音の特性及び前記背景
音の特性を読み出すステップと、前記音声入力方向ごとに、読み出された前記特性を適当
な重み付けを施して合成し、前記収録された音声の特性
に近似させるステップと、前記合成により得られた特性と前記収録された音声の特
性とを比較し、誤差の小さい当該合成により得られた特
性に対応する基準音の音源方向を、当該収録された音声
の音源方向として推定するステップとを含むことを特徴
とする請求項１２に記載の音声認識方法。
【請求項１４】コンピュータを制御して、マイクロフ
ォン・アレイを用いて収録された音声を認識する音声認
識方法において、前記マイクロフォン・アレイを用いて音声を収録し、音
声データをメモリに格納する音声入力ステップと、前記メモリに格納された音声データに基づいて、収録さ
れた音声の音源方向を推定し、推定結果をメモリに格納
する音源位置探索ステップと、前記メモリに格納された音源方向の推定結果と前記音声
データとに基づいて、前記収録された音声における前記
推定された音源方向の成分の音声データを抽出してメモ
リに格納する雑音抑圧ステップと、前記メモリに格納された音源方向の成分の音声データ
と、当該音声データに対し所定のモデル化を行って得ら
れる音声モデルとを用いて最尤推定値を算出しメモリに
格納する最尤推定ステップと、前記メモリに格納された前記最尤推定値に基づいて、前
記収録された音声を認識する音声認識ステップとを含む
ことを特徴とする音声認識方法。
【請求項１５】前記最尤推定ステップは、前記収録された音声の雑音区間に関して観測誤差の分散
を計測し、当該収録された音声の音声区間に関して前記
モデル化におけるモデル化誤差の分散を計測するステッ
プと、計測された前記観測誤差の分散または前記モデル化誤差
の分散を用いて前記最尤推定値を計算するステップとを
含むことを特徴とする請求項１４に記載の音声認識方
法。
【請求項１６】コンピュータを制御して、マイクロフ
ォン・アレイを用いて収録された音声を認識する音声認
識方法において、前記マイクロフォン・アレイを用いて音声を収録し、音
声データをメモリに格納する音声入力ステップと、前記メモリに格納された音声データに基づいて、収録さ
れた音声の音源方向を推定し、推定結果をメモリに格納
する音源位置探索ステップと、前記メモリに格納された音源方向の推定結果と前記音声
データとに基づいて、前記収録された音声における前記
推定された音源方向の成分の音声データを抽出してメモ
リに格納する雑音抑圧ステップと、前記メモリに格納された音源方向の成分の音声データに
関して、所定の音声フレームに対して周波数方向のサブ
バンドごとに隣接サブバンド数点にわたって信号パワー
を平均化してスムージング解を求め、メモリに格納する
ステップと、前記メモリに格納された前記スムージング解に基づい
て、前記収録された音声を認識する音声認識ステップと
を含むことを特徴とする音声認識方法。
【請求項１７】コンピュータを制御して、マイクロフ
ォン・アレイを用いて収録された音声を認識するプログ
ラムにおいて、前記マイクロフォン・アレイを用いて音声を収録し、音
声データをメモリに格納する音声入力処理と、前記メモリに格納された音声データに基づいて、収録さ
れた音声の音源方向を推定し、推定結果をメモリに格納
する音源位置探索処理と、前記メモリに格納された推定結果に基づいて、前記収録
された音声の特性を、推定された音源方向から発せられ
た音の成分と、無指向性の背景音の成分とに分解処理
し、処理結果に基づいて前記収録された音声における前
記推定された音源方向の成分の音声データを抽出してメ
モリに格納する雑音抑圧処理と、前記メモリに格納された前記音源方向の成分の音声デー
タに基づいて、前記収録された音声を認識する音声認識
処理とを前記コンピュータに実行させることを特徴とす
るプログラム。
【請求項１８】前記プログラムによる前記雑音抑圧処
理は、想定される種々の音源方向から発せられた基準音の特性
及び無指向性の背景音の特性を格納した記憶装置から、
前記音源方向の推定結果に合致する音源方向から発せら
れた基準音の特性及び背景音の特性を読み出す処理と、読み出された前記特性を適当な重み付けを施して合成
し、前記収録された音声の特性に近似させる処理と、近似によって得られた前記基準音及び前記背景音の特性
に関する情報に基づいて、前記メモリに格納された音声
データのうち、前記推定された音源方向から発せられた
成分を推定し抽出する処理とを含むことを特徴とする請
求項１７に記載のプログラム。
【請求項１９】コンピュータを制御して、マイクロフ
ォン・アレイを用いて収録された音声を認識するプログ
ラムにおいて、前記マイクロフォン・アレイを用いて音声を収録し、音
声データをメモリに格納する音声入力処理と、前記メモリに格納された音声データに基づいて、収録さ
れた音声の音源方向を推定し、推定結果をメモリに格納
する音源位置探索処理と、前記メモリに格納された推定結果と予め測定された所定
の音声の特性に関する情報とに基づいて、前記収録され
た音声の特性を、推定された音源方向から発せられた音
の成分と、無指向性の背景音の成分とに分解し、前記収
録された音声から当該背景音の成分を除去した音声デー
タをメモリに格納する雑音抑圧処理と、前記メモリに格
納された前記背景音の成分を除去した音声データに基づ
いて、前記収録された音声を認識する音声認識処理とを
前記コンピュータに実行させることを特徴とするプログ
ラム。
【請求項２０】前記プログラムによる前記雑音抑圧処
理は、特定の位置から雑音が発せられることが想定され
る場合に、当該特定の方向における音の成分を、前記収
録された音声の特性からさらに分解し除去する処理を含
むことを特徴とする請求項１９に記載のプログラム。
【請求項２１】コンピュータを制御して、マイクロフ
ォン・アレイを用いて収録された音声を認識するプログ
ラムにおいて、前記マイクロフォン・アレイを用いて音声を収録し、音
声データをメモリに格納する音声入力処理と、予め測定された特定の音源方向から発せられた基準音の
特性と無指向性の背景音の特性とを合成して得られる特
性を種々の音声入力方向に対して求め、前記メモリに格
納された音声データから得られる収録された音声の特性
と比較することにより、収録された音声の音源方向を推
定し、推定結果をメモリに格納する音源位置探索処理
と、前記メモリに格納された音源方向の推定結果と前記音声
データとに基づいて、前記収録された音声における前記
推定された音源方向の成分の音声データを抽出してメモ
リに格納する雑音抑圧処理と、前記メモリに格納された前記背景音の成分を除去した音
声データに基づいて、前記収録された音声を認識する音
声認識処理とを前記コンピュータに実行させることを特
徴とするプログラム。
【請求項２２】前記音源位置探索処理は、想定される種々の音源方向から発せられた基準音の特性
及び無指向性の背景音の特性を格納した記憶装置から、
前記音声入力方向ごとに前記基準音の特性及び前記背景
音の特性を読み出す処理と、前記音声入力方向ごとに、読み出された前記特性を適当
な重み付けを施して合成し、前記収録された音声の特性
に近似させる処理と、前記合成により得られた特性と前記収録された音声の特
性とを比較し、誤差の小さい当該合成により得られた特
性に対応する基準音の音源方向を、当該収録された音声
の音源方向として推定する処理とを含むことを特徴とす
る請求項２１に記載のプログラム。
【請求項２３】コンピュータを制御して、マイクロフ
ォン・アレイを用いて収録された音声を認識するプログ
ラムにおいて、前記マイクロフォン・アレイを用いて音声を収録し、音
声データをメモリに格納する音声入力処理と、前記メモリに格納された音声データに基づいて、収録さ
れた音声の音源方向を推定し、推定結果をメモリに格納
する音源位置探索処理と、前記メモリに格納された音源方向の推定結果と前記音声
データとに基づいて、前記収録された音声における前記推定された音源方向の
成分の音声データを抽出してメモリに格納する雑音抑圧
処理と、前記メモリに格納された音源方向の成分の音声データ
と、当該音声データに対し所定のモデル化を行って得ら
れる音声モデルとを用いて最尤推定値を算出しメモリに
格納する最尤推定処理と、前記メモリに格納された前記最尤推定値に基づいて、前
記収録された音声を認識する音声認識処理とを含むこと
を特徴とするプログラム。
【請求項２４】前記プログラムによる最尤推定処理
は、前記収録された音声の雑音区間に関して観測誤差の分散
を計測し、当該収録された音声の音声区間に関して前記
モデル化におけるモデル化誤差の分散を計測する処理
と、計測された前記観測誤差の分散または前記モデル化誤差
の分散を用いて前記最尤推定値を計算する処理とを含む
ことを特徴とする請求項２３に記載のプログラム。
【請求項２５】コンピュータを制御して、マイクロフ
ォン・アレイを用いて収録された音声を認識するプログ
ラムにおいて、前記マイクロフォン・アレイを用いて音声を収録し、音
声データをメモリに格納する音声入力処理と、前記メモリに格納された音声データに基づいて、収録さ
れた音声の音源方向を推定し、推定結果をメモリに格納
する音源位置探索処理と、前記メモリに格納された音源方向の推定結果と前記音声
データとに基づいて、前記収録された音声における前記
推定された音源方向の成分の音声データを抽出してメモ
リに格納する雑音抑圧処理と、前記メモリに格納された音源方向の成分の音声データに
関して、所定の音声フレームに対して周波数方向のサブ
バンドごとに隣接サブバンド数点にわたって信号パワー
を平均化してスムージング解を求め、メモリに格納する
処理と、前記メモリに格納された前記スムージング解に基づい
て、前記収録された音声を認識する音声認識処理とを含
むことを特徴とするプログラム。
【請求項２６】コンピュータを制御してマイクロフォ
ン・アレイを用いて収録された音声を認識するプログラ
ムを、当該コンピュータが読み取り可能に記録した記録
媒体において、前記プログラムは、前記マイクロフォン・アレイを用いて音声を収録し、音
声データをメモリに格納する音声入力処理と、前記メモリに格納された音声データに基づいて、収録さ
れた音声の音源方向を推定し、推定結果をメモリに格納
する音源位置探索処理と、前記メモリに格納された推定結果に基づいて、前記収録
された音声の特性を、推定された音源方向から発せられ
た音の成分と、無指向性の背景音の成分とに分解処理
し、処理結果に基づいて前記収録された音声における前
記推定された音源方向の成分の音声データを抽出してメ
モリに格納する雑音抑圧処理と、前記メモリに格納された前記音源方向の成分の音声デー
タに基づいて、前記収録された音声を認識する音声認識
処理とを前記コンピュータに実行させることを特徴とす
る記録媒体。
【請求項２７】コンピュータを制御してマイクロフォ
ン・アレイを用いて収録された音声を認識するプログラ
ムを、当該コンピュータが読み取り可能に記録した記録
媒体において、前記プログラムは、前記マイクロフォン・アレイを用いて音声を収録し、音
声データをメモリに格納する音声入力処理と、予め測定された特定の音源方向から発せられた基準音の
特性と無指向性の背景音の特性とを合成して得られる特
性を種々の音声入力方向に対して求め、前記メモリに格
納された音声データから得られる収録された音声の特性
と比較することにより、収録された音声の音源方向を推
定し、推定結果をメモリに格納する音源位置探索処理
と、前記メモリに格納された音源方向の推定結果と前記音声
データとに基づいて、前記収録された音声における前記
推定された音源方向の成分の音声データを抽出してメモ
リに格納する雑音抑圧処理と、前記メモリに格納された前記背景音の成分を除去した音
声データに基づいて、前記収録された音声を認識する音
声認識処理とを前記コンピュータに実行させることを特
徴とする記録媒体。
【請求項２８】コンピュータを制御して、マイクロフ
ォン・アレイを用いて収録された音声を認識するプログ
ラムを、当該コンピュータが読み取り可能に記録した記
録媒体において、前記プログラムは、前記マイクロフォン・アレイを用いて音声を収録し、音
声データをメモリに格納する音声入力処理と、前記メモリに格納された音声データに基づいて、収録さ
れた音声の音源方向を推定し、推定結果をメモリに格納
する音源位置探索処理と、前記メモリに格納された音源方向の推定結果と前記音声
データとに基づいて、前記収録された音声における前記
推定された音源方向の成分の音声データを抽出してメモ
リに格納する雑音抑圧処理と、前記メモリに格納された音源方向の成分の音声データ
と、当該音声データに対し所定のモデル化を行って得ら
れる音声モデルとを用いて最尤推定値を算出しメモリに
格納する最尤推定処理と、前記メモリに格納された前記最尤推定値に基づいて、前
記収録された音声を認識する音声認識処理とを前記コン
ピュータに実行させることを特徴とする記録媒体。