JP3925734B2

JP3925734B2 - 対象音検出方法、信号入力遅延時間検出方法及び音信号処理装置

Info

Publication number: JP3925734B2
Application number: JP2005504296A
Authority: JP
Inventors: 一哉武田; 潔多々良; 文忠板倉
Original assignee: Nagoya Industrial Science Research Institute; Yamaha Motor Co Ltd
Current assignee: Nagoya Industrial Science Research Institute; Yamaha Motor Co Ltd
Priority date: 2003-03-17
Filing date: 2004-03-17
Publication date: 2007-06-06
Anticipated expiration: 2024-03-17
Also published as: JPWO2004084187A1; WO2004084187A1; US20080120100A1

Description

【０００１】
【発明の属する技術分野】
本発明は、検出対象音を検出する対象音検出方法、複数のマイクロホンに入力される音信号間の遅延時間を検出する信号入力遅延時間検出方法、入力された音信号を処理する音信号処理装置、並びに発話音を検出し、その発話音について音声認識処理を行う音声認識装置に関する。
【０００２】
【従来の技術】
音声は、人間の用いる種々の通信の形態の中でも最も根源的であると同時に、他のどの情報送出方法よりも高速度に情報を送り出すことのできる優れた通信手段である。このよ
うなことから、音声は、古くから現在に至るまで人間の通信手段の根幹を担ってきた。
【０００３】
また、そのような音声を認識するための音声認識技術がある。音声認識とは、その音声に含まれる情報の中で、最も基本的な意味内容に関する情報、つまり音韻情報をコンピュータなどにより抽出し、その抽出内容を判定することである。近年では、計算機プロセッサ技術の飛躍的な発達と、インターネットに代表される高度な情報ネットワークの構築により、様々な分野においてマン・マシンインタフェースとしての音声認識技術の適用が試みられている。
現在の音声認識システムの認識性能は、確率・統計的手法により格段に向上しており、理想的な環境下での音声や接話マイクロホンで収録された近距離音声などでは、非常に高い認識率が得られるようになっている。
【０００４】
【発明が解決しようとする課題】
ところで、実環境下の音声認識は、学習データと観測データとの間の環境、発話内容などのミスマッチにより、その認識率が劣化する。また、受音系となる接話マイクヘッドセットの装着によりユーザが受ける負担や不快感は大きく、音声認識システム実用化の大きな障害のひとつになっている。
【０００５】
また、Ｓ／Ｎ比の低下や背景雑音、室内残響の影響などにより認識が困難な遠隔音声に関し、複数の遠隔マイクロホンを用いた音声認識手法の研究が多くなされている。その代表的なものとして、マイクロホンアレーを用いる手法が挙げられる。この手法では、音源位置検出処理、目的音強調処理、雑音抑制処理、の３つの空間的な信号処理を行なうことができる。このような手法により遠隔音声の音声認識が盛んに研究されている。
しかし、この手法は、正確な話者方向同定処理のために複数のマイクロホンを一定間隔にて固定配置する必要があり、小型化、携帯化が困難であるため、様々な環境・状況下での音声入力への応用が難しく、用途が限定されるという問題がある。
【０００６】
ここで、いつでもどこでも音声入力を可能にするユビキタスな受音系として、（１）小型・軽量で脱着が容易、（２）接話マイクとほぼ同等の近距離音声を確保することができる、（３）接話マイクヘッドセットに比べ、装着時のユーザの負担や不快感を軽減できる、という点で、衣服や眼鏡などに取り付けることができる装着型マイクロホンが期待されている。
本発明は、前述の問題に鑑みてなされたものであり、複数の装着型マイクロホンを用いた環境変動に対してもロバストな受音系の構築を可能にする対象音検出方法、信号入力遅延時間検出方法、音信号処理装置、音声認識装置の提供を目的とする。
【０００７】
【課題を解決するための手段】
本発明に係る対象音検出方法は、検出対象音源から出力された検出対象音が複数のマイクロホンに入力されており、前記複数のマイクロホンに入力された音信号間のクロススペクトルの位相を検出し、前記検出対象音源と前記複数のマイクロホンとの間のそれぞれの距離に起因して発生する前記クロススペクトルの位相の周波数に対する傾きを検出し、その傾きに基づいて、当該複数のマイクロホンが受音した前記検出対象音を検出することを特徴とする。
【０００８】
また、前記対象音検出方法において、前記周波数を帯域分割して、その分割した帯域毎の前記傾きに基づいて、前記検出対象音を検出することを特徴とする。
また、前記対象音検出方法において、前記帯域毎のそれぞれの傾きが特定の傾きに集中する傾向が強くなったときに検出対象音を検出することを特徴とする。
また、前記対象音検出方法において、複数のマイクロホンに入力された音信号を所定時間ごとに区切り、各区間の音信号毎に前記クロススペクトルの位相を検出していることを
特徴とする。
【０００９】
また、本発明に係る信号入力遅延時間検出方法は、音源から出力された音が複数のマイクロホンに入力されており、前記複数のマイクロホンに入力された音信号間のクロススペクトルの位相を検出し、前記音源と前記複数のマイクロホンとの間のそれぞれの距離に起因して発生する前記クロススペクトルの位相の周波数に対する傾きを検出し、その傾きに基づいて、前記複数のマイクロホン間での前記音源からの受音の遅延時間を検出することを特徴とする。
【００１０】
また、前記信号入力遅延時間検出方法において、前記周波数を帯域分割して、その分割した帯域毎の前記傾きに基づいて、前記受音の遅延時間を検出することを特徴とする。
また、前記信号入力遅延時間検出方法において、前記帯域毎のそれぞれの傾きが特定の傾きに集中する傾向が強くなったときに、前記受音の遅延時間を検出することを特徴とする。
【００１１】
また、前記信号入力遅延時間検出方法において、複数のマイクロホンに入力された音信号を所定時間ごとに区切り、各区間の音信号毎に前記クロススペクトルの位相を検出していることを特徴とする。
また、本発明に係る音信号処理装置は、複数のマイクロホンに入力された音信号間のクロススペクトルの位相を検出するクロススペクトル位相検出手段と、前記クロススペクトル位相検出手段が検出したクロススペクトルの位相の周波数に対する傾きを検出する傾き検出手段と、前記傾き検出手段が検出した前記周波数に対する傾きに基づいて、前記複数のマイクロホンが受音した検出対象音源から出力された検出対象音を検出する対象音検出手段と、を備えたことを特徴とする。
【００１２】
また、前記音信号処理装置において、前記傾き検出手段は、前記クロススペクトルの位相の周波数を帯域分割し、分割した帯域毎に傾きを検出しており、前記対象音検出手段は、前記傾き検出手段が検出した前記帯域毎の傾きに基づいて、前記検出対象音を検出することを特徴とする。
また、前記音信号処理装置において、前記帯域毎のそれぞれの傾きが特定の傾きに集中する傾向が強くなったときに検出対象音を検出することを特徴とする。
【００１３】
また、本発明に係る音信号処理装置は、音源から出力された音が複数のマイクロホンに入力され、前記複数のマイクロホンに入力された音を処理する音信号処理装置において、前記複数のマイクロホンに入力された音信号間のクロススペクトルの位相を検出するクロススペクトル位相検出手段と、前記クロススペクトル位相検出手段が検出したクロススペクトルの位相の周波数に対する傾きを検出する傾き検出手段と、前記傾き検出手段が検出した前記周波数に対する傾きに基づいて、前記複数のマイクロホン間での前記音源からの受音の遅延時間を検出する遅延時間検出手段と、前記遅延時間検出手段が検出した遅延時間に基づいて、前記複数のマイクロホンに入力された音信号同士を合成する音信号合成手段と、を備えたことを特徴とする。
【００１４】
また、前記音信号処理装置において、前記傾き検出手段は、前記クロススペクトルの位相を帯域分割し、分割した帯域毎に傾きを検出しており、前記遅延時間検出手段は、前記傾き検出手段が検出した前記帯域毎の傾きに基づいて、前記受音の遅延時間を検出することを特徴とする。
また、前記音信号処理装置において、前記帯域毎のそれぞれの傾きが特定の傾きに集中する傾向が強くなったときに前記受音の遅延時間を検出することを特徴とする。
【００１５】
また、本発明に係る音信号処理装置は、検出対象音源から出力された検出対象音が複数
のマイクロホンに入力され、前記複数のマイクロホンに入力された検出対象音を処理する音信号処理装置において、前記複数のマイクロホンに入力された音信号間のクロススペクトルの位相を検出するクロススペクトル位相検出手段と、前記クロススペクトル位相検出手段が検出したクロススペクトルの位相の周波数に対する傾きを検出する傾き検出手段と、前記傾き検出手段が検出した前記周波数に対する傾きに基づいて、前記複数のマイクロホン間での前記検出対象音源からの受音の遅延時間を検出する遅延時間検出手段と、前記遅延時間検出手段が検出した遅延時間に基づいて、前記複数のマイクロホンに入力された音信号同士を合成する音信号合成手段と、前記傾き検出手段が検出した前記周波数に対する傾きに基づいて、前記音信号合成手段が合成した合成音信号中の前記検出対象音を検出する対象音検出手段と、を備えたことを特徴とする。
【００１６】
また、前記音信号処理装置おいて、前記傾き検出手段は、前記クロススペクトルの位相を帯域分割し、分割した帯域毎に傾きを検出しており、前記遅延時間検出手段は、前記傾き検出手段が検出した前記帯域毎の傾きに基づいて、前記受音の遅延時間を検出し、前記対象音検出手段は、前記傾き検出手段が検出した前記帯域毎の傾きに基づいて、前記検出対象音を検出することを特徴とする。
また、前記音信号処理装置において、前記帯域毎のそれぞれの傾きが特定の傾きに集中する傾向が強くなったときに前記受音の遅延時間を検出し、かつ前記帯域毎のそれぞれの傾きが特定の傾きに集中する傾向が強くなったときに検出対象音を検出することを特徴とする。
【００１７】
また、本発明に係る音声認識装置は、発話源から出力された発話音が複数のマイクロホンに入力され、前記複数のマイクロホンに入力された発話音を処理する音声認識装置において、前記複数のマイクロホンに入力された音信号間のクロススペクトルの位相を検出するクロススペクトル位相検出手段と、前記クロススペクトル位相検出手段が検出したクロススペクトルの位相の周波数に対する傾きを検出する傾き検出手段と、前記傾き検出手段が検出した前記周波数に対する傾きに基づいて、前記複数のマイクロホンが受音した前記発話音を検出する発話音検出手段と、前記発話音検出手段が検出した前記発話音について、音声認識処理を行う音声認識処理手段と、を備えたことを特徴とする。
【００１８】
また、前記音声認識装置において、前記傾き検出手段は、前記クロススペクトルの位相の周波数を帯域分割し、分割した帯域毎に傾きを検出しており、前記発話音検出手段は、前記傾き検出手段が検出した前記帯域毎の傾きに基づいて、前記発話音を検出することを特徴とする。
また、前記音声認識装置において、前記帯域毎のそれぞれの傾きが特定の傾きに集中する傾向が強くなったときに発話音を検出することを特徴とする。
【００１９】
また、本発明に係る音声認識装置は、発話源から出力された発話音が複数のマイクロホンに入力され、前記複数のマイクロホンに入力された発話音を処理する音声認識装置において、前記複数のマイクロホンに入力された音信号間のクロススペクトルの位相を検出するクロススペクトル位相検出手段と、前記クロススペクトル位相検出手段が検出したクロススペクトルの位相の周波数に対する傾きを検出する傾き検出手段と、前記傾き検出手段が検出した前記周波数に対する傾きに基づいて、前記複数のマイクロホン間での前記発話源からの受音の遅延時間を検出する遅延時間検出手段と、前記遅延時間検出手段が検出した遅延時間に基づいて、前記複数のマイクロホンに入力された音信号同士を合成する音信号合成手段と、前記傾き検出手段が検出した前記周波数に対する傾きに基づいて、前記音信号合成手段が合成した合成音信号中の前記発話音を検出する発話音検出手段と、前記発話音検出手段が検出した前記発話音について、音声認識処理を行う音声認識処理手段と、を備えたことを特徴とする。
【００２０】
また、前記音声認識装置において、前記傾き検出手段は、前記クロススペクトルの位相を帯域分割し、分割した帯域毎に傾きを検出しており、前記遅延時間検出手段は、前記傾き検出手段が検出した前記帯域毎の傾きに基づいて、前記受音の遅延時間を検出し、前記発話音検出手段は、前記傾き検出手段が検出した前記帯域毎の傾きに基づいて、前記発話音を検出することを特徴とする。
【００２１】
また、前記音声認識装置において、前記帯域毎のそれぞれの傾きが特定の傾きに集中する傾向が強くなったときに前記受音の遅延時間を検出し、かつ前記帯域毎のそれぞれの傾きが特定の傾きに集中する傾向が強くなったときに発話音を検出することを特徴とする。
ここで、複数のマイクロホンで受音した複数の音信号のクロススペクトルの位相をみた場合、音源と各マイクロホンとの間のそれぞれの距離の差に対応して、その位相の周波数に対する傾きが一定になる。そして、音源と各マイクロホンとの間のそれぞれの距離の差は、複数のマイクロホン間での受音の遅延時間として現れる。さらに、複数のマイクロホンで受音した音声のＳ／Ｎ比が高ければ、そのように傾きが一定となる傾向が顕著になる。本発明はこのような関係を利用したものである。
【００２２】
すなわち、本発明では、複数のマイクロホンに入力された音信号間のクロススペクトルの位相を検出し、音源と前記複数のマイクロホンとの間のそれぞれの距離に起因して発生する前記クロススペクトルの位相の周波数に対する傾きを検出し、その傾きに基づいて、当該複数のマイクロホンが受音した検出対象音や発話音を検出している。なお、検出対象音には、人間が発する発話音の他、物体が発する音も含まれる。
【００２３】
この発明は、複数のマイクロホンで受音した複数の音信号のクロススペクトルの位相をみた場合、音源から各マイクロホンとの距離の差に対応して、その位相の周波数に対する傾きが一定になり、その一方で、複数のマイクロホンで受音した音のＳ／Ｎが高ければ、そのように傾きが一定となる傾向が顕著になること、を原理としたものである。
また、本発明では、複数のマイクロホンに入力された音信号間のクロススペクトルの位相を検出し、音源と前記複数のマイクロホンとの間のそれぞれの距離の差に起因して発生する前記クロススペクトルの位相の周波数に対する傾きを検出し、その傾きに基づいて、前記複数のマイクロホン間での受音の遅延時間を検出している。
【００２４】
この発明は、複数のマイクロホンで受音した複数の音信号のクロススペクトルの位相をみた場合、音源と各マイクロホンとの間のそれぞれの距離の差に対応して、その位相の周波数に対する傾きが一定になり、その一方で、音源と各マイクロホンとの間のそれぞれの距離の差が、複数のマイクロホン間での受音の遅延時間として現れること、を原理とするものである。
また、本発明では、クロススペクトルの位相の周波数を帯域分割し、分割した帯域毎の前記傾きに基づいて処理を行っている。これにより、精度を上げて前記傾きを検出している。
【００２５】
【発明の効果】
本発明によれば、装着型マイクロホンを用いた環境変動に対してもロバストな受音系の構築を可能にすることができる。
【００２６】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照しながら詳細に説明する。この実施の形態は、図１に示すように、２つのマイク１，２で受音した音声信号を処理する音声信号処理装置１０である。ここで、第１及び第２マイク１，２は音源（ユーザ）自体に比較的自由度を持たせた位置に装着可能な装着型マイクである。
【００２７】
図２は、第１の実施の形態の音声信号処理装置１０の構成を示す。図２に示すように、音声信号処理装置１０は、第１及び第２フレーム化部１１，１２と、第１及び第２周波数分析部１３，１４と、クロススペクトル計算部１５と、位相抽出処理部１６と、位相unwrap処理部１７と、主計算部３０と、音入力オン／オフ制御部１８とを備えている。また、主計算部３０については、周波数帯域分割部３１と、第１乃至第Ｎ傾き計算部３２₁〜３
２_Nと、ヒストグラム等計算部３３と、音声／非音声判定部３４とを備えている。以下、
各部の処理内容を説明する。
【００２８】
第１及び第２マイク１，２から入力された２ｃｈの音声信号はそれぞれ、第１及び第２フレーム化部１１，１２に入力される。また、第１マイク１から入力された音声信号は、音入力オン／オフ制御部１８に入力される。
第１及び第２フレーム化部１１，１２、第１及び第２周波数分析部１３，１４及びクロススペクトル計算部１５により、第１及び第２マイク１，２から入力された２ｃｈの音声信号のクロススペクトルを算出する。
【００２９】
例えば、第１マイク１と第２マイク２といった複数のマイクで受音した音声信号を時間軸上でみた場合、受音した音声信号間に位相差が生じる。これは、音源から各マイク１，２までの距離の違いにより、音源から各マイク１，２までの音声信号の到達時間に差が生じた結果である。
ここで、第１マイク１と第２マイク２とにより受音した音声信号間の遅延時間を計測し、その計測した遅延時間に基づいて位相を同相化し、その後、第１マイク１と第２マイクとでそれぞれ受音した音声信号を加算して同期加算音声を得る場合を考える。例えば、M.Omologo，P.Svaizerらの文献「"Acoustic event loocalization using a crosspower-spectruum phase based technique"，Proc.ICASSP94，pp.274-276，(1994)」に、そのように同期加算音声を得る技術が記載されている。
【００３０】
ここで、２つのマイク１，２で受音した音声信号をそれぞれｘ₁（ｔ），ｘ₂（ｔ）とし、これらｘ₁（ｔ），ｘ₂（ｔ）をフーリエ変換して得られる周波数関数をＸ₁（ω），Ｘ₂（ω）とする。ここで、ｘ₂（ｔ）は、下記（１）式のようにｘ₁（ｔ）の時間移動波形であると仮定する。
ｘ₂（ｔ）＝ｘ_１（ｔ-ｔ₀）・・・（１）
【００３１】
このように仮定した場合、周波数関数Ｘ₁（ω）と周波数関数Ｘ₂（ω）との関係は下記（２）式のようになる。
Ｘ₂（ω）＝ｅ^-jω^t0Ｘ₁（ω）・・・（２）
【００３２】
そして、この周波数関数Ｘ₁（ω）と周波数関数Ｘ₂（ω）とからクロススペクトルＧ₁₂（ω）が下記（３）式として得られる。
Ｇ₁₂（ω）＝Ｘ₁（ω）Ｘ₂ ^*（ω）＝Ｘ₁（ω）ｅ^jω^t0Ｘ₁ ^*（ω）＝｜Ｘ₁｜²ｅ^jω^t0 ・・・（３）
【００３３】
ここで、クロススペクトルＧ₁₂（ω）の指数項はスペクトル領域のチャネル間の時間遅れに対応する。したがって、周波数関数Ｘ₂に遅延項ｅ^jω^t0をかけたＸ₂（ω）ｅ^jω^t0
は、周波数関数Ｘ₁と同相化され、これにより、Ｘ₁（ω）＋Ｘ₂（ω）ｅ^jω^t0の逆フー
リエ変換をチャネル同期加算音声として扱うことができるようになる。
クロススペクトル計算部１５により、このようなクロススペクトルＧ₁₂（ω）を得る。
【００３４】
そのため、先ず、第１フレーム化部１１では、後段の第１周波数分析部１３のために、第１マイク１から入力される音声信号をフレーム化（或いはフレーム分割）して、当該第１周波数分析部１３に出力する。また、第２フレーム化部１２では、後段の第２周波数分
析部１４のために、第２マイク２から入力される音声信号をフレーム化（或いはフレーム分割）して、当該第２周波数分析部１４に出力する。第１及び第２フレーム化部１１，１２は、所定のサンプル数を１フレームとして、入力されてくる音声信号を次々にフレーム化していく。
【００３５】
例えば、マイク１，２に音声が入力（発話入力）されていない場合には、フレームは、音声の入力されていない非音声区間フレームとなり、マイク１，２に音声が入力されている場合には、フレームは、音声の入力（発話入力）されている音声区間フレームとなる。
第１周波数分析部１３は、第１フレーム化部１１からの音声信号をフーリエ変換して周波数関数Ｘ₁（ω）を算出して、後段のクロススペクトル計算部１５に出力する。また、
第２周波数分析部１４は、第２フレーム化部１２からの音声信号をフーリエ変換して周波数関数Ｘ₂（ω）を算出して、後段のクロススペクトル計算部１５に出力する。ここで、
第１及び第２周波数分析部１３，１４は、フレーム毎に音声信号をフーリエ変換する。
【００３６】
クロススペクトル計算部１５は、第１及び第２周波数分析部１３，１４からの周波数関数Ｘ₁（ω）、Ｘ₂（ω）に基づいて、前記（３）式によりクロススペクトルＧ₁₂（ω）を算出する。
なお、図３には、１フレームについての音声信号のクロススペクトルの位相を示しており、図３中（Ａ）は自動車内で発した音声について得たクロススペクトルの位相であり、図３中（Ｂ）はオフィススペース内で発した音声について得たクロススペクトルの位相であり、図３中（Ｃ）は防音室内で発した音声について得たクロススペクトルの位相であり、図３中（Ｄ）は歩道（屋外）で発した音声について得たクロススペクトルの位相である。この図３に示すように、フレーム内で、すなわち局所的に、音源と第１マイク１までの距離と音源と第２マイク２までの距離との差に対応して、クロススペクトルの位相が周波数に対してほぼ一定の傾きを示すことがわかる。すなわち、音源と第１マイク１までの距離と音源と第２マイク２までの距離との差に対応して、クロススペクトルの位相成分が一定の傾きを有している。
【００３７】
また、第１及び第２マイク１，２で受音した音声信号のＳ／Ｎ比が高ければ、そのように傾きが一定となる傾向は顕著になるのである。ここで、第１及び第２マイク１，２が装着型マイクなので、第１及び第２マイク１，２により音声を受音した場合のその音声信号はＳ／Ｎ比が高くなり、このようなことから、明らかに一定の傾きを示すものになっている。
クロススペクトル計算部１５は、このような特性を有するクロススペクトルＧ₁₂（ω）を位相抽出部１６に出力する。
【００３８】
位相抽出部１６では、クロススペクトル計算部１５からのクロススペクトルＧ₁₂（ω）から位相を抽出（検出）して、その抽出結果を位相unwrap処理部１７に出力する。
位相unwrap処理部１７では、位相抽出部１６の位相抽出結果に基づいて、クロススペクトルＧ₁₂（ω）をunwrap処理して、主計算部３０の周波数帯域分割部３１に出力する。
周波数帯域分割部３１は、帯域分割（セグメント分割）した位相を第１乃至第Ｎ傾き計算部３２₁〜３２_Nそれぞれに出力する。
【００３９】
ここで、音声の入力されていない非音声区間フレームと音声が入力されている音声区間フレームとで、クロススペクトルの位相成分に大きな違いがある。すなわち、音声区間フレームでは、前述したようにクロススペクトルの位相が周波数に対してほぼ一定の傾きを示すが、非音声区間フレームでは、そのようにはならない。ここで、図４を用いて説明する。
【００４０】
図４はクロススペクトル（CRS）の位相を示しており、図４中（Ａ）は、音声区間フレ
ームのクロススペクトルの位相であり、図４中（Ｂ）は、非音声区間フレームのクロススペクトルの位相である。
この図４中（Ａ）と図４中（Ｂ）との比較からもかわるように、非音声区間フレームでは、クロススペクトルの位相は、周波数に対して特定のトレンドをもたないのである。すなわち、周波数に対してクロススペクトルの位相が一定の傾きを持つ結果とはならない。これは、ノイズの位相がランダムだからである。
【００４１】
これに対して、音声区間フレームでは、周波数に対してクロススペクトルの位相が一定の傾きをもつようになる。そして、この傾きは、音源から各マイク１，２までの距離の差に対応した大きさになる。
このように、音声の入力されていない非音声区間フレームと音声が入力されている音声区間フレームとでは、クロススペクトルの位相成分に大きな違いがある。
【００４２】
このようなことから、位相の回転が生じた場合にも正確にトレンドを追随するために、周波数帯域分割部３１により、位相成分を小さな周波数セグメントに分割（或いは帯域分割）し、後段の第１乃至第Ｎ傾き計算部３２₁〜３２_Nで、最小２乗法を適用することでセグメント毎に傾きを計算している。この第１乃至第Ｎ傾き計算部３２₁〜３２_Nはそれぞれ、算出した傾きをヒストグラム等計算部３３に出力する。
【００４３】
ここで、最小２乗法によりセグメント毎に傾きを求める手法は、公知の技術であり、例えば、『「信号処理」「画像処理」のための入門工学社，高井信勝著，工学社，（２０００）』にその技術が記載されている。
ヒストグラム等計算部３３は、第１乃至第Ｎ傾き計算部３２₁〜３２_Nが算出した前記傾きについて、ヒストグラムを得る。
【００４４】
図５は、ヒストグラム等計算部３３が得たヒストグラムで、セグメント毎に得た傾きについてのヒストグラムを示している。すなわち、この図５は、位相の傾きの分布を示し、全セグメントに対する、各傾きのセグメント数の割合、すなわち頻度を縦軸にとっている。ここで、図５中（Ａ）は、音声区間フレームについてのヒストグラムを示し、図５中（Ｂ）は、非音声区間フレームについてのヒストグラムを示す。
【００４５】
この図５中（Ａ）と図５中（Ｂ）との比較からもかわるように、音声区間フレームでは、ヒストグラムに明らかにピーク値があり、すなわち傾きがごく狭い範囲に局在して、これにより、ある傾きについて頻度が高くなっている。すなわち、帯域毎のそれぞれの傾きが特定の傾きに集中する傾向が強くなっている。一方、非音声区間フレームでは、ヒストグラムが平滑となり、傾きが広い範囲にわたって分布している。
このヒストグラム等計算部３３は、このようなヒストグラム化して得た頻度を音声／非音声判定部３４に出力する。なお、このヒストグラム等計算部３３の処理については後で具体例を説明する。
【００４６】
音声／非音声判定部３４は、ヒストグラム等計算部３３からの前記頻度に基づいて、音声区間と非音声区間とを判定する。例えば、前記頻度の平均値周辺の所定の範囲に含まれる傾きの出現頻度が所定の閾値以上の場合、音声区間と判定し、頻度が所定の閾値未満の場合、非音声区間と判定する。
なお、ここでは、前段の処理がフレーム単位の処理となっているので、当該フレームが、音声区間フレーム又は非音声区間フレームのいずれかであるかを判定する。音声／非音声判定部３４は、その判定結果を音入力オン／オフ制御部１８に出力する。
【００４７】
音入力オン／オフ制御部１８には、第１マイク１からの音声信号が入力されており、音入力オン／オフ制御部１８は、音声／非音声判定部３４の判定結果に基づいて、その第１
マイク１からの音声信号の後段への出力をオンとオフとを切り換える。具体的には、音声／非音声判定部３４が音声区間と判定した場合、音入力オン／オフ制御部１８は、オンにして音声信号を後段に出力して、音声／非音声判定部３４が非音声区間と判定した場合、音入力オン／オフ制御部１８は、オフにして音声信号を後段に出力しないようにする。
【００４８】
なお、前段の処理がフレーム単位の処理となっているので、音入力オン／オフ制御部１８は、判定対象のフレームに対応した第１マイク１からの音声信号の部位を単位としてオンとオフとを切り換える。
ヒストグラム等計算部３３の処理の具体例を説明する。図６は、その処理を実現するヒストグラム等計算部３３の構成を示す。
【００４９】
ヒストグラム等計算部３３は、第１乃至第Ｎ傾き計算部３２₁〜３２_Nが算出した前記傾きのうちから頻度が高い（最頻度の）傾きを算出する構成として、第１スイッチ３３Ｓ１、第２スイッチ３３Ｓ２及び最頻値計算部３３Ｃを備えている。これにより、第１スイッチ３３Ｓ１を一定時間オン（閉）にして、第１乃至第Ｎ傾き計算部３２₁〜３２_Nが算出した一定時間の前記傾きのデータ（或いはデータベース）３３Ｄ１を作成する。このとき、第２スイッチ３３Ｓ２については、オフ（開）にしておく。そして、データ３３Ｄ１を作成したら、第２スイッチ３３Ｓ２をオン（閉）にして、そのデータ３３Ｄ１を最頻値計算部３３Ｃに出力する。
【００５０】
最頻値計算部３３Ｃでは、データ３３Ｄ１から前記図５に示すような前記傾きについてのヒストグラムを作成して、そのヒストグラム中の最頻度の傾き（以下、最頻傾きという。）τ０を算出する。なお、最頻度の傾きを算出するようにしてもよいが、平均値の傾きτ０を算出したり、或いは最頻度の傾きと傾きの平均値とを組み合わせた傾きτ０を算出するようにしてもよい。これにより、各帯域の傾きが特定の傾きに集中する傾向が強くなったとき、当該特定の傾きの値そのもの或いはそれに近い傾きの値を得ることができる。なお、本実施の形態では、最頻値計算部３３Ｃが最頻傾きτ０を算出しているものとする。
【００５１】
そして、最頻値計算部３３Ｃは、算出した最頻傾きτ０を前記音声／非音声判定部３４に出力する。ここで、最頻傾きτ０をデータ３３Ｄ２として前記音声／非音声判定部３４に出力する。
以上がヒストグラム等計算部３３の処理の具体例である。
前記音声／非音声判定部３４では、ヒストグラム等計算部３３からの最頻傾きτ０に基づいて、音声区間と非音声区間とを判定する。
【００５２】
なお、先の説明では、音声／非音声判定部３４がヒストグラム等計算部３３からの前記頻度に基づいて音声区間と非音声区間とを判定する場合について説明した。ここでは、音声／非音声判定部３４は、ヒストグラム等計算部３３からの最頻傾きτ０と第１乃至第Ｎ傾き計算部３２_１〜３２_Ｎが算出した前記傾き（各帯域の傾き）τiに基づいて、音声区
間と非音声区間とを判定しており、これに対応して、音声／非音声判定部３４に、第１乃至第Ｎ傾き計算部３２₁〜３２_Nが算出した前記傾きが入力されるようになっている。
【００５３】
すなわち、音声／非音声判定部３４は、第１乃至第Ｎ傾き計算部３２₁〜３２_Nが算出した前記傾きτｉと最頻傾きτ０とを下記（４）式により比較する。
｜τｉ−τ０｜＜δ ・・・（４）
ここで、δは判定用の閾値（傾き閾値）である。
【００５４】
音声／非音声判定部３４は、この（４）式の条件が満たされていることが所定の割合を超えた場合（ＹＥＳ）、音声区間と判定し、そうでない場合（ＮＯ）、非音声区間と判定
する。そして、音声／非音声判定部３４は、その判定結果を音入力オン／オフ制御部１８に出力する。
【００５５】
以上のように構成した音声信号処理装置１０の一連の動作は次のようになる。
先ず、第１及び第２フレーム化部１１，１２、第１及び第２周波数分析部１３，１４及びクロススペクトル計算部１５が、第１及び第２マイク１，２から入力された２ｃｈの音声信号のクロススペクトルＧ₁₂（ω）を算出する。
そして、位相抽出部１６、位相unwrap処理部１７及び周波数帯域分割部３１が、そのように算出したクロススペクトルＧ₁₂（ω）の位相を帯域分割（セグメント分割）して、第１乃至第Ｎ傾き計算部３２₁〜３２_Nが、帯域毎（セグメント毎）の位相の傾きを算出する。
【００５６】
そして、ヒストグラム等計算部３３が、第１乃至第Ｎ傾き計算部３２₁〜３２_Nそれぞれが算出した前記帯域毎（セグメント毎）の傾きからヒストグラムを生成して、音声／非音声判定部３４が、そのヒストグラムから得られる頻度と最頻傾きτ０に基づいて、音声区間と非音声区間とを判定する。この判定結果に基づいて、音入力オン／オフ制御部１８では、第１マイク１からの音声信号の後段への出力をオンとオフとを切り換える。具体的には、音声／非音声判定部３４が音声区間と判定した場合、音入力オン／オフ制御部１８は、オンにして音声信号を後段に出力して、音声／非音声判定部３４が非音声区間と判定した場合、音入力オン／オフ制御部１８は、オフにして音声信号を後段に出力しないようにする。
【００５７】
このように、音声信号処理装置１０は、第１マイク１，２が受音した音声中の発話区間（音声区間）を検出することができる。
例えば、第１マイク１，２と音声アプリケーションとの間にこのような音声信号処理装置１０を備えることで、音声アプリケーションは、確実に発話区間についての処理を行うことができる。ここで、音声アプリケーションとしては、音声認識システム、放送システム、携帯電話及びトランシーバが挙げられる。例えば、音声アプリケーションが音声認識システムであるとすれば、音声認識システムは、音声信号処理装置１０が出力する発話区間の音声信号に基づいて音声認識することができるようになる。
【００５８】
次に効果を説明する。
前述したように、第１及び第２マイク１，２に入力された音信号間のクロススペクトルの位相を検出し、その検出したクロススペクトルの位相の周波数に対する傾きに基づいて、当該複数のマイクロホンが受音した音声信号中の発話区間を検出している。すなわち、音声が入力（発話入力）されていない音声信号と音声が入力（発話入力）されている音声信号とをクロススペクトルでみた場合に、そのクロススペクトルの位相成分に大きな違いがあることを利用して、当該複数のマイクロホンが受音した音声信号中の発話区間を検出している。
【００５９】
具体的には、クロススペクトルの位相を帯域分割（セグメント分割）し、帯域毎（セグメント毎）の位相の傾きからヒストグラムを生成し、そのヒストグラムから頻度（具体的には最頻値）を得て、その頻度に基づいて、発話区間を検出している。
これにより、精度よく発話区間を検出することができる。そして、このように音声信号処理装置１０が検出した発話区間の音声信号を利用することにより、音声認識システムでは、高認識率、低誤認識率の音声認識が可能になり、また、携帯電話やトランシーバでは、信頼性の高いハンズフリー半二重通信が可能になり、放送システムでは、通信システムの送信電力低減が可能になる。
また、マイクの取り付け位置等の環境の変化や、話者の移動や姿勢の変化等の音源の移動に対しても、ロバストな音声入力を実現することができる。
【００６０】
前述したように、クロススペクトルの位相の周波数に対する傾きは、音源と第１マイク１までの距離と音源と第２マイク２までの距離との差に対応して変化する値になっている。これにより、例えば、音源に対する第１及び第２マイク１，２の取り付け位置を変更した場合、クロススペクトルの位相の周波数に対する傾きはその位置の変更に対応して変化するようになる。その一方で、前述したように、クロススペクトルの位相を帯域分割（セグメント分割）し、帯域毎（セグメント毎）の位相の傾きからヒストグラムを生成し、そのヒストグラムから頻度（具体的には最頻度）を得て、その頻度に基づいて、発話区間を検出している。すなわち、クロススペクトルの位相の傾きの大きさ自体に拠ることなく、つまり、音源とマイク１，２との間の距離に左右されることなく、最終的に、発話区間の検出を行っている。よって、音源に対する第１及び第２マイク１，２の取り付け位置を変更した場合でも、発話区間の検出結果への影響はない。
【００６１】
このようなことから、マイクの取り付け位置等の環境の変化や、話者の移動や姿勢の変化等の音源の移動に対しても、ロバストな音声入力を実現することができる。すなわち、マイクの位置の自由度を高くしつつ、ロバストな音声入力を実現することができる。
以上のように、小型・軽量で脱着が容易であり、接話マイクとほぼ同等の近距離音声を確保することができ、接話マイクヘッドセットに比べ、装着時のユーザの負担や不快感を軽減できる装着型マイクを用いることを前提としつつも、前述した種々の効果を得ることができる。
【００６２】
（実施例（第１の実施の形態））
本発明を適用したシステムにより音声の発話区間の検出を行った。各文章間に１秒程度の無発話区間を含む合計４０文をサンプルの使用音声とした。実験環境は、防音室内、自動車内、オフィススペース内及び歩道上といった環境とした。評価方法は、（１）無音声区間フレームを音声区間フレームであると誤判別した場合、（２）発話区間の始端・終端において、発話区間を無発話区間であると誤判別した場合、このような（１）や（２）に該当する場合のフレームをエラーフレームとした。また、比較対象（従来例）として、平均ゼロ交差回数と対数パワーとを変数としたフィッシャーの線形判別関数による手法を用いた。
【００６３】
図７は、その結果を示す。この図７は、総フレームに対するエラーフレームの割合の百分率（発話区間誤検出率）を示す。図７中、ＬＤＦの値は、前記線形判別関数による手法の値であり、ＣＲＳの値はクロススペクトルを用いた手法（本発明）の値である。
この図７に示すように、防音室内やオフィススペース内においては、発話区間誤検出率の結果に、平均ゼロ交差回数と対数パワーによる方法と本発明による手法とで大きな差はみられない。しかし、自動車内や歩道では、発話区間誤検出率の結果が本発明による手法により改善される結果を示すようになった。このように、本発明は、特に雑音環境下において有効に作用する。
【００６４】
次に第２の実施の形態を説明する。
図８は、この第２の実施の形態の音声信号処理装置１０の構成を示す。この第２の実施の形態では、第１マイク１と第２マイク２とで受音した音声信号を合成して後段の音声アプリケーションに出力する構成になっている。このため、この第２の実施の形態では、遅延処理部５１と波形合成部５２とを備え、遅延処理部５１で第２マイク２からの音声信号を遅延させて波形合成部５２に出力して、波形合成部５２で、遅延処理部５１で遅延されて入力された第２マイク２の音声信号と第１マイク１からの音声信号とを合成して出力している。
【００６５】
第１マイク１と第２マイク２といった複数のマイクで受音した音声信号間には、音源か
ら各マイク１，２までの距離の違いに起因する位相差が生じる。このようなことから、第１マイク１と第２マイク２といった複数のマイクで受音した音声信号を合成しようとする場合には、音源から各マイク１，２までの音声信号の到達時間差を補正し、位相を同相化したのちに音声信号を加算する、という遅延和処理が必要になる。このようなことから、前述したように、第２の実施の形態では、遅延処理部５１と波形合成部５２とを備えている。
【００６６】
そして、前述の第１の実施の形態では（図６参照）では、最頻値計算部３３Ｃがヒストグラムから最頻傾きτ０を算出しているが、第２の実施の形態では、そのような最頻傾きτ０に基づいて、遅延処理部５１で遅延処理しているのである。以下に具体的に説明する。
前記図３や図４中（Ａ）に示すように音声区間ではクロススペクトルの位相成分が一定の傾きを有するが、この傾きは、第１マイク１と第２マイク２とのチャネル間の遅延時間を示すものとなる。
【００６７】
このような関係を利用して、遅延処理部５１では、ヒストグラム等計算部３３が算出した前記最頻傾きτ０に基づいて、遅延処理している。具体的には、図６に示すように、最頻値計算部３３Ｃから遅延処理部５１に最頻傾きτ０が出力されており、遅延処理部５１は、入力されたこの最頻傾きτ０に基づいて遅延処理している。
τ０＝ｘ／ｎ＝２π・ｎ₀／Ｎ [rad／point] ・・・（５）
ここで、ｘ，ｎの単位はそれぞれラジアン、周波数ポイント（point）であり、Ｎは、
ＦＦＴポイント数であり、ｎ₀は遅延サンプリングポイント数である。
【００６８】
この関係から、下記（６）式として、最頻傾きτ０を変数とした遅延サンプリングポイント数ｎ₀を得ることができる。
ｎ₀＝τ０／（２π／Ｎ） [point] ・・・（６）
【００６９】
そして、この遅延サンプリングポイント数ｎ₀を用いて、下記（７）式により、遅延時
間ｔ₀を得ることができる。
ｔ₀＝ｎ₀／Ｆ_s ・・・（７）
ここで、Ｆ_sは、サンプリング周波数であり、例えば１６ｋＨｚである。
【００７０】
遅延処理部５１では、このようにして得た遅延時間ｔ₀に基づいて、入力される第２マ
イク２の音声信号を遅延して、波形合成部５２に出力する。
波形合成部５２は、遅延処理部５１で遅延されて入力された第２マイク２の音声信号と第１マイク１からの音声信号とを合成して出力する。
なお、音声信号の合成信号を次のようにして得ることもできる。
【００７１】
前述したように、周波数関数Ｘ₂に遅延項ｅ^jω^t0をかけたＸ₂（ω）ｅ^jω^t0は、周波数関数Ｘ₁と同相化され、これにより、Ｘ₁（ω）＋Ｘ₂（ω）ｅ^jω^t0の逆フーリエ変換を
チャネル同期加算音声として扱うことができる。この関係を利用して、音声信号の合成信号を得る。
すなわち、先ず遅延時間ｔ₀を用いることで、下記（８）式により、周波数軸上でチャ
ネル同期加算音声Ｘ₁（ω）＋Ｘ₂（ω）ｅ^jω^t0を得る。ここで、遅延時間ｔ₀は、前記（６）式及び（７）式に示すように最頻傾きτ０を変数とする値である。
【００７２】
Ｘ₁（ω）＋Ｘ₂（ω）ｅ^jω^t0＝｛Ｒｅ[Ｘ₁（ω）]＋ｊＩｍ[Ｘ₁（ω）]｝＋｛Ｒｅ[Ｘ₂（ω）]（cosωｔ₀＋ｊsinωｔ₀）＋ｊＩｍ[Ｘ₂（ω）]（cosωｔ₀＋ｊsinωｔ₀）｝・・・（８）
ここで、チャンネル同期音声スペクトルは、実部、虚部にそれぞれ
Ｒｅ：Ｒｅ[Ｘ₂（ω）]cosωｔ₀−Ｉｍ[Ｘ₂（ω）]sinωｔ₀＋Ｒｅ[Ｘ₁（ω）]
Ｉｍ：Ｒｅ[Ｘ₂（ω）]sinωｔ₀＋Ｉｍ[Ｘ₂（ω）]cosωｔ₀＋Ｒｅ[Ｘ₁（ω）]
を持つ複素スペクトルになる。この処理をフレーム毎に施し、それぞれのフレーム毎にＩＦＦＴ（インバースＦＦＴ）をし、同期加算音声のフレーム列を得る。
【００７３】
そして、そのようにして得たフレーム列にオーバーラップアッド法（Overlap-add method）を適用して同期加算音声、すなわち第１マイク１の音声信号と第２マイク２の音声信号との合成信号を得る。
ここで、オーバーラップアッド法とは、図９に示すように、入力データ列ｓ_n(ｔ)を重
ね合わせながら加算する方法である。ここで、ｓ_n(ｔ)はn番目の合成音声波形フレーム
を示す。また、図中Ｌは定数である。
【００７４】
以上のように音声信号処理装置１０を構成することで、遅延処理部５１が第２マイク２からの音声信号を遅延させて波形合成部５２に出力して、波形合成部５２が、遅延処理部５１により遅延されて入力された第２マイク２からの音声信号と第１マイク１からの音声信号とを合成して出力する。
【００７５】
これによる効果は次のようになる。
前述の第１の実施の形態で説明したように、クロススペクトルの位相の周波数に対する傾きは、音源と第１マイク１までの距離と音源と第２マイク２までの距離との差に対応して変化する値である。このようなクロススペクトルの位相の周波数に対する傾きから前記遅延時間を推定している。そして、実際に推定の際に用いる値を、最頻傾きτ０としている。このように最頻傾きτ０を用いて、遅延時間を推定しているので、精度を高くして遅延時間の推定を行うことができる。
【００７６】
そして、このような遅延時間に基づいて、第１マイクと第２マイクとの音声信号を合成することで、高品質の合成音声信号を提供することができる。例えば、このような合成音声信号を利用した場合、音声認識システムでは、高認識率、低誤認識率の音声認識が可能になり、また、携帯電話やトランシーバでは、高品質の音声による通話が可能になり、放送システムでは、高品質の放送や録音が可能になる。
【００７７】
また、遅延時間を推定に用いる前記傾きを、最頻傾きτ０とした結果、前述の第１の実施の形態と同様に、マイクの取り付け位置等の環境の変化や、話者の移動や姿勢の変化等の音源の移動に対しても、ロバストな音声入力を実現することができる。すなわち、マイクの位置の自由度を高くしつつ、ロバストな音声入力を実現することができる。
以上のように、小型・軽量で脱着が容易であり、接話マイクとほぼ同等の近距離音声を確保することができ、接話マイクヘッドセットに比べ、装着時のユーザの負担や不快感を軽減できる装着型マイクを用いることを前提としつつも、前述した種々の効果を得ることができる。
【００７８】
（実施例（第２の実施の形態））
本発明を適用したシステムにより生成した同期加算音声（合成音声信号）を用いて、音響モデルによる音声認識の実験をした。
音響モデルによる音声認識実験では、先ず、同期加算音声による学習データにより、音響モデルを作成した。作成した音響モデルは次のようになる。
（１）収録環境毎に作成した4種類の収録環境依存型ＨＭＭ（hidden Markov model）
（２）すべて環境の収録音声により学習した収録環境非依存型ＨＭＭ
ここで、前記収録環境とは、前記防音室内、自動車内、オフィススペース内及び歩道上である。
【００７９】
そして、作成した音響モデルを用いて、音声認識実験を行った。
認識タスクは連続音声認識であり、評価用データ（評価用音声）は学習時と異なる音声としている。図１０は、その音声認識実験で得た認識率の結果を示す。ここで、比較対象（従来例）として、第１マイク１と第２マイク２とからの単チャンネル音声による認識率の結果も示す。例えば、第１マイク１は眼鏡マイクであり、第２マイク２は胸元マイクである。ここで、眼鏡マイクとは、眼鏡のフレームに装着したマイクである。
【００８０】
この図１０に示すように、車内以外の、防音室内、歩道上及びすべての環境で、本発
明により得た同期加算音声による認識率が、単チャネル音声の認識率を上回る結果となっている。これにより、実環境においても、本発明を適用したシステムが生成した同期加算音声が高品質であることがわかる。
【００８１】
次に第３の実施の形態を説明する。
図１１は、この第３の実施の形態の音声信号処理装置１０の構成を示す。この第２の実施の形態の音声信号処理装置１０は、前述の第１の実施の形態の音声信号処理装置１０の構成と、第２の実施の形態の音声信号処理装置１０の構成とを組み合わせた構成になっている。すなわち、第３の実施の形態の音声信号処理装置１０は、音声／非音声判定部３４、遅延処理部５１、波形合成部５２及び音声入力オン／オフ制御部１８を同時に備えている。
【００８２】
このように構成することで、第３の実施の形態の音声信号処理装置１０は以下のように動作する。なお、特に言及しない部分については、前述の第１の実施の形態の音声信号処理装置１０や第２の実施の形態の音声信号処理装置１０と同様に動作するものとする。
遅延処理部５１が、ヒストグラム等計算部３３（最頻値計算部３３Ｃ）が算出した最頻傾きτ０に基づいて、第２マイク２の音声信号を遅延し、波形合成部５２が、遅延処理部５１で遅延されて入力された第２マイク２からの音声信号と第１マイク１からの音声信号とを合成して、合成音声信号を音入力オン／オフ制御部１８に出力する。
【００８３】
一方、音声／非音声判定部３４が、ヒストグラム等計算部３３が得た頻度に基づいて、音声区間と非音声区間とを判定し、音入力オン／オフ制御部１８では、その判定結果に基づいて、波形合成部５２から出力される音声信号（同期加算音声信号）の出力をオン又はオフする。
このように構成することで、第３の実施の形態の音声信号処理装置１０は、前述の第１の実施の形態の音声信号処理装置１０が有する効果と、第２の実施の形態の音声信号処理装置１０が有する効果とを発揮することができる。
【００８４】
すなわち、高品質の合成音声信号を生成するとともに、その合成音声信号中の発話区間を精度よく検出することができる。さらに、マイクの取り付け位置等の環境の変化や、話者の移動や姿勢の変化等の音源の移動に対しても、ロバストな音声入力を実現することができる。すなわち、マイクの位置の自由度を高くしつつ、ロバストな音声入力を実現することができる。
【００８５】
以上、本発明の実施の形態について説明した。しかし、本発明は、前述の実施の形態として実現されることに限定されるものではない。
例えば、図１２に示すように、前記音声／非音声判定部３４が、第１乃至第Ｎ傾き計算部３２₁〜３２_Nが算出した前記傾きτｉと最頻傾きτ０とを下記（９）式により比較する。
｜τｉ−τ０｜＜ασ ・・・（９）
【００８６】
ここで、αは係数であり、σは前記判定用の閾値（傾き閾値）δに物理的に内包される
値である。例えば、 δとασとを用意した意味は、δを固定値とし、 ασをリアルタイム学習により随時更新する変数とし、これにより、各値による音声区間の検出の効果の違いを区別するためである。
【００８７】
ασのσを更新することで、静粛な環境では、音声区間判定条件を厳しくし、より非
音声区間の誤判定を防止することができる。すなわち、バックグランドノイズのある環境では判定条件を甘くすることで、音声区間を安定して検出することが可能になる。仮に、バックグランドノイズのある環境にもかかわらず静粛環境のσを用いてしまうと、この場合固定値のδを用いることと等価となるが、この場合には、ノイズと音声とが重なっているようなとき、音声区間が棄却されてしまうおそれがある。
【００８８】
すなわち、固定値としてのδは、その値を設定した条件に近い環境での音声区間を検出に用いるときに当該音声区間の検出に有効に作用し、変数であるασは、環境の変化に対し動的に対応するシステムに用いるときに音声区間の検出に有効に作用する。
また、係数αを変更することでも、判定を厳しくしたり、甘くしたりすることもできる。
【００８９】
また、前述の実施の形態では、前記帯域毎の傾きをヒストグラム化することで、帯域毎のそれぞれの傾きが特定の傾きに集中する傾向をみている。しかし、他の手法により、帯域毎のそれぞれの傾きが特定の傾きに集中する傾向をみるようにしてもよい。
また、前述の実施形態では、検出対象音が人間が発する発話音である場合を説明したが、検出対象音は、人間以外の物体が発する音でもよい。
【００９０】
また、前述の実施の形態の説明において、第１及び第２フレーム化部１１，１２、第１及び第２周波数分析部１３，１４及びクロススペクトル計算部１５が、複数のマイクロホンに入力された音信号間のクロススペクトルの位相を検出するクロススペクトル位相検出手段を実現しており、位相抽出部１６、位相unwrap処理部１７、周波数帯域分割部３１及び第１乃至第Ｎ傾き計算部３２₁〜３２_Nが、前記クロススペクトル位相検出手段が検出したクロススペクトルの位相の周波数に対する傾きを検出する傾き検出手段を実現しており、ヒストグラム等計算部３３及び音声／非音声判定部３４が、前記傾き検出手段が検出した前記周波数に対する傾きに基づいて、当該複数のマイクロホンが受音した発話音の発話区間を検出する発話音検出手段を実現している。
【００９１】
また、ヒストグラム等計算部３３及び遅延処理部５１が、前記傾き検出手段が検出した前記周波数に対する傾きに基づいて、前記複数のマイクロホン間での受音の遅延時間を検出する遅延時間検出手段を実現しており、波形合成部５２が、前記遅延時間検出手段が検出した遅延時間に基づいて、前記複数のマイクロホンに入力された音信号同士を合成する音信号合成手段を実現している。
【００９２】
また、前述の実施形態の音声信号処理装置１０を音声認識装置に適用することができる。この場合、音声認識装置は、前述したような音声信号処理装置１０の構成に加えて、音声信号処理装置１０が検出した発話区間の音声信号（発話音）について音声認識処理をする音声認識処理手段を備える。
ここで、音声認識技術としては、例えば、旭化成株式会社が提供する音声認識技術「ＶＯＲＥＲＯ」（商標）（http://www.asahi-kasei.co.jp/vorero/jp/vorero/feature.html参照）等があり、このような音声認識技術の用いた音声認識装置に適用することもできる。
【００９３】
また、前述の実施形態の音声信号処理装置１０をコンピュータで実現することができる。そして、前述したような音声信号処理装置１０の処理内容をコンピュータが所定のプログラムにより実現する。この場合、プログラムは、検出対象音源から出力された検出対象音が複数のマイクロホンに入力されており、前記複数のマイクロホンに入力された音信号間のクロススペクトルの位相を検出し、前記検出対象音源と前記複数のマイクロホンとの間のそれぞれの距離に起因して発生する前記クロススペクトルの位相の周波数に対する傾きを検出し、その傾きに基づいて、当該複数のマイクロホンが受音した前記検出対象音源から出力された検出対象音を検出する処理をコンピュータに実行させるプログラムになる。又は、プログラムは、音源から出力された音が複数のマイクロホンに入力されており、前記複数のマイクロホンに入力された音信号間のクロススペクトルの位相を検出し、前記音源と前記複数のマイクロホンとの間のそれぞれの距離に起因して発生する前記クロススペクトルの位相の周波数に対する傾きを検出し、その傾きに基づいて、前記複数のマイクロホン間での前記音源からの受音の遅延時間を検出する処理をコンピュータに実行させるプログラムになる。
【図面の簡単な説明】
【００９４】
【図１】本発明の実施の形態の音声信号処理装置を含むシステム全体の構成を示すブロック図である。
【図２】本発明の第１の実施の形態の音声信号処理装置の構成を示すブロック図である。
【図３】各環境のクロススペクトルの位相を示す特性図である。
【図４】クロススペクトルの位相を示す特性図であり、（Ａ）は、音声区間フレームのクロススペクトルの位相を示す特性図であり、（Ｂ）は、非音声区間フレームのクロススペクトルの位相を示す特性図である。
【図５】クロススペクトルの位相に基づいて得たヒストグラムを示す特性図であり、（Ａ）は、音声区間フレームのヒストグラムを示す特性図であり、（Ｂ）は、非音声区間フレームのヒストグラムを示す特性図である。
【図６】音声信号処理装置のヒストグラム等計算部などの構成を示すブロック図である。
【図７】第１の実施の形態の音声信号処理装置の効果の説明に用いた特性図である。
【図８】本発明の第２の実施の形態の音声信号処理装置の構成を示すブロック図である。
【図９】合成信号を生成するためのオーバーラップアッド法の説明に用いた図である。
【図１０】第２の実施の形態の音声信号処理装置の効果の説明に用いた特性図である。
【図１１】本発明の第３の実施の形態の音声信号処理装置の構成を示すブロック図である。
【図１２】音声信号処理装置の音声／非音声判定部の他の構成を示すブロック図である。
【符号の説明】
【００９５】
１，２マイク、１０音声信号処理装置、１１，１２フレーム化部、１３，１４周波数分析部、１５クロススペクトル計算部、１６位相抽出処理部、１７位相unwrap処理部、１８音入力オン／オフ制御部、３０主計算部、３１周波数大域分割部、３２₁〜３２_N 傾き計算部、３３ヒストグラム等計算部、３３Ｃ最頻値計算部、３３Ｓ１，３３Ｓ２スイッチ、３４音声／非音声判定部、５１遅延処理部、５２波形合成部

Claims

検出対象音源から出力された検出対象音が複数のマイクロホンに入力されており、前記複数のマイクロホンに入力された音信号間のクロススペクトルの位相を検出し、前記検出対象音源と前記複数のマイクロホンとの間のそれぞれの距離に起因して発生する前記クロススペクトルの位相の周波数に対する傾きを検出し、その傾きに基づいて、当該複数のマイクロホンが受音した前記検出対象音を検出しており、
前記クロススペクトルの位相の周波数を帯域分割し、その分割した帯域毎の周波数それぞれに対する傾きを検出し、その検出した帯域毎の周波数それぞれに対する傾きが特定の傾きに集中する傾向が強くなったときに、当該複数のマイクロホンが受音した前記検出対象音を検出することを特徴とする対象音検出方法。
複数のマイクロホンに入力された音信号を所定時間ごとに区切り、各区間の音信号毎に前記クロススペクトルの位相を検出していることを特徴とする請求項１に記載の対象音検出方法。
音源から出力された音が複数のマイクロホンに入力されており、前記複数のマイクロホンに入力された音信号間のクロススペクトルの位相を検出し、前記音源と前記複数のマイクロホンとの間のそれぞれの距離に起因して発生する前記クロススペクトルの位相の周波数に対する傾きを検出し、その傾きに基づいて、前記複数のマイクロホン間での前記音源からの受音の遅延時間を検出しており、
前記クロススペクトルの位相の周波数を帯域分割し、その分割した帯域毎の周波数それぞれに対する傾きを検出し、その検出した帯域毎の周波数それぞれに対する傾きが特定の傾きに集中する傾向が強くなったときに、前記複数のマイクロホン間での前記音源からの受音の遅延時間を検出することを特徴とする信号入力遅延時間検出方法。
複数のマイクロホンに入力された音信号を所定時間ごとに区切り、各区間の音信号毎に前記クロススペクトルの位相を検出していることを特徴とする請求項３に記載の信号入力遅延時間検出方法。
複数のマイクロホンに入力された音信号間のクロススペクトルの位相
を検出するクロススペクトル位相検出手段と、
前記クロススペクトル位相検出手段が検出したクロススペクトルの位相の周波数に対する傾きを検出する傾き検出手段と、
前記傾き検出手段が検出した前記周波数に対する傾きに基づいて、前記複数のマイクロホンが受音した検出対象音源から出力された検出対象音を検出する対象音検出手段と、
を備え、
前記傾き検出手段は、前記クロススペクトル位相検出手段が検出したクロススペクトルの位相の周波数を帯域分割し、その分割した帯域毎の周波数それぞれに対する傾きを検出し、前記対象音検出手段は、前記傾き検出手段が検出した帯域毎の周波数それぞれに対する傾きが特定の傾きに集中する傾向が強くなったときに、前記複数のマイクロホンが受音した検出対象音源から出力された検出対象音を検出することを特徴とする音信号処理装置。
音源から出力された音が複数のマイクロホンに入力され、前記複数のマイクロホンに入力された音を処理する音信号処理装置において、
前記複数のマイクロホンに入力された音信号間のクロススペクトルの位相を検出するクロススペクトル位相検出手段と、
前記クロススペクトル位相検出手段が検出したクロススペクトルの位相の周波数に対する傾きを検出する傾き検出手段と、
前記傾き検出手段が検出した前記周波数に対する傾きに基づいて、前記複数のマイクロホン間での前記音源からの受音の遅延時間を検出する遅延時間検出手段と、
前記遅延時間検出手段が検出した遅延時間に基づいて、前記複数のマイクロホンに入力された音信号同士を合成する音信号合成手段と、
を備え、
前記傾き検出手段は、前記クロススペクトル位相検出手段が検出したクロススペクトルの位相の周波数を帯域分割し、その分割した帯域毎の周波数それぞれに対する傾きを検出し、前記遅延時間検出手段は、前記傾き検出手段が検出した帯域毎の周波数それぞれに対する傾きが特定の傾きに集中する傾向が強くなったときに、前記複数のマイクロホン間での前記音源からの受音の遅延時間を検出することを特徴とする音信号処理装置。
検出対象音源から出力された検出対象音が複数のマイクロホンに入力され、前記複数のマイクロホンに入力された検出対象音を処理する音信号処理装置において、
前記複数のマイクロホンに入力された音信号間のクロススペクトルの位相を検出するクロススペクトル位相検出手段と、
前記クロススペクトル位相検出手段が検出したクロススペクトルの位相の周波数に対する傾きを検出する傾き検出手段と、
前記傾き検出手段が検出した前記周波数に対する傾きに基づいて、前記複数のマイクロホン間での前記検出対象音源からの受音の遅延時間を検出する遅延時間検出手段と、
前記遅延時間検出手段が検出した遅延時間に基づいて、前記複数のマイクロホンに入力された音信号同士を合成する音信号合成手段と、
前記傾き検出手段が検出した前記周波数に対する傾きに基づいて、前記音信号合成手段が合成した合成音信号中の前記検出対象音を検出する対象音検出手段と、
を備え、
前記傾き検出手段は、前記クロススペクトル位相検出手段が検出したクロススペクトルの位相の周波数を帯域分割し、その分割した帯域毎の周波数それぞれに対する傾きを検出し、前記遅延時間検出手段は、前記傾き検出手段が検出した帯域毎の周波数それぞれに対する傾きが特定の傾きに集中する傾向が強くなったときに、前記複数のマイクロホン間での前記検出対象音源からの受音の遅延時間を検出し、前記対象音検出手段は、前記傾き検出手段が検出した帯域毎の周波数それぞれに対する傾きが特定の傾きに集中する傾向が強くなったときに、前記音信号合成手段が合成した合成音信号中の前記検出対象音を検出することを特徴とする音信号処理装置。
発話源から出力された発話音が複数のマイクロホンに入力され、前記複数のマイクロホンに入力された発話音を処理する音声認識装置において、
前記複数のマイクロホンに入力された音信号間のクロススペクトルの位相を検出するクロススペクトル位相検出手段と、
前記クロススペクトル位相検出手段が検出したクロススペクトルの位相の周波数に対する傾きを検出する傾き検出手段と、
前記傾き検出手段が検出した前記周波数に対する傾きに基づいて、前記複数のマイクロホンが受音した前記発話音を検出する発話音検出手段と、
前記発話音検出手段が検出した前記発話音について、音声認識処理を行う音声認識処理手段と、
を備え、
前記傾き検出手段は、前記クロススペクトル位相検出手段が検出したクロススペクトルの位相の周波数を帯域分割し、その分割した帯域毎の周波数それぞれに対する傾きを検出し、前記発話音検出手段は、前記傾き検出手段が検出した帯域毎の周波数それぞれに対する傾きが特定の傾きに集中する傾向が強くなったときに、前記複数のマイクロホンが受音した前記発話音を検出することを特徴とする音声認識装置。
発話源から出力された発話音が複数のマイクロホンに入力され、前記複数のマイクロホンに入力された発話音を処理する音声認識装置において、
前記複数のマイクロホンに入力された音信号間のクロススペクトルの位相を検出するクロススペクトル位相検出手段と、
前記クロススペクトル位相検出手段が検出したクロススペクトルの位相の周波数に対する傾きを検出する傾き検出手段と、
前記傾き検出手段が検出した前記周波数に対する傾きに基づいて、前記複数のマイクロホン間での前記発話源からの受音の遅延時間を検出する遅延時間検出手段と、
前記遅延時間検出手段が検出した遅延時間に基づいて、前記複数のマイクロホンに入力された音信号同士を合成する音信号合成手段と、
前記傾き検出手段が検出した前記周波数に対する傾きに基づいて、前記音信号合成手段が合成した合成音信号中の前記発話音を検出する発話音検出手段と、
前記発話音検出手段が検出した前記発話音について、音声認識処理を行う音声認識処理手段と、
を備え、
前記傾き検出手段は、前記クロススペクトル位相検出手段が検出したクロススペクトルの位相の周波数を帯域分割し、その分割した帯域毎の周波数それぞれに対する傾きを検出し、前記遅延時間検出手段は、前記傾き検出手段が検出した帯域毎の周波数それぞれに対する傾きが特定の傾きに集中する傾向が強くなったときに、前記複数のマイクロホン間での前記発話源からの受音の遅延時間を検出し、前記発話音検出手段は、前記傾き検出手段が検出した帯域毎の周波数それぞれに対する傾きが特定の傾きに集中する傾向が強くなったときに、前記音信号合成手段が合成した合成音信号中の前記発話音を検出することを特徴とする音声認識装置。