JP2005354223A - 音源情報処理装置、音源情報処理方法、音源情報処理プログラム - Google Patents

音源情報処理装置、音源情報処理方法、音源情報処理プログラム Download PDF

Info

Publication number
JP2005354223A
JP2005354223A JP2004170429A JP2004170429A JP2005354223A JP 2005354223 A JP2005354223 A JP 2005354223A JP 2004170429 A JP2004170429 A JP 2004170429A JP 2004170429 A JP2004170429 A JP 2004170429A JP 2005354223 A JP2005354223 A JP 2005354223A
Authority
JP
Japan
Prior art keywords
sound source
information
sound
processing
source information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004170429A
Other languages
English (en)
Inventor
Masahide Arisei
政秀 蟻生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2004170429A priority Critical patent/JP2005354223A/ja
Publication of JP2005354223A publication Critical patent/JP2005354223A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】周囲の環境を考慮して、より確実性の高く、目的にあった処理を行うことができる実用性の高い音源情報処理装置、音源情報処理方法、及び音源情報処理プログラムを得る。
【解決手段】複数の音源の音声信号を収音する複数の収音手段(101−1〜101−N)と、前記複数の収音手段で収音された音声信号に基づいて少なくとも1つの音源の方向を推定する音源推定手段104と、前記推定した方向の音源のうち目的音源に関する音源情報を抽出する音源情報抽出手段108と、前記抽出した音源情報に対して施す処理内容を選択するための、1つまたは複数の音源と周囲の状況のうち少なくとも一方に関する音源状況情報を取得する音源状況情報取得手段109と、前記音源状況情報に基づいて、前記抽出された音源情報に対して所定の処理を施す処理手段110と、を備える。
【選択図】 図1

Description

本発明は、複数の収音手段からの入力信号を用いて推定された音源情報を、目的や状況にあわせて適切に処理するための音源情報処理装置、音源情報処理方法、及び音源情報処理プログラムに関するものである。
従来、周囲雑音のある環境下において目的音のみを収音する方法であり、複数のマイクを使ったマイクロホンアレイの技術は様々なものが提案されている(例えば非特許文献1参照)。これらは主に、複数のマイクから入力された信号の中から目的となる音声を判断及びその音源方向を定位して、その定位方向に指向性をあわせたフィルタ処理をかけることで目的となる音声を収音するものである。ここではこのように複数の音源が考えられる中で、対象となる音源の情報を取り出す問題を音源分離問題と呼ぶことにする。目的によっては音源方向の定位のみである場合や、音源からの音声情報の抽出までを指す場合を含むこともある。
このような音源分離問題においては、現実の環境下では音源分離に大きな影響を与える問題がいくつかある。このような問題としては音源の数とマイクの数との関係、雑音や残響、音源の移動が主要なものとして挙げられる。これらの問題に対応するものとして例えば短時間で所望の方向に指向性を得る手段、音源方向が時間と共に変化する場合にも指向性を得るための手段を提供しているものがある(例えば、特許文献1参照)。また、少ない演算量で安定して目的音源の方向検出と雑音抑圧を行う方法について扱っているものがある(例えば、特許文献2参照)。
特開2002―186084号公報 特開平10−207490号公報 金田豊著「騒音下音声認識のためのマイクロホンアレー技術」 日本音響学会誌53巻11号(1997)、pp.872−876
このように現実の環境下で問題となるいくつかの項目について、それぞれ効果のある手法や手段が提案されているが、実際には問題となる原因が複合的に発生することにより、提案されている手法で仮定している条件を逸脱する場合が生じる。特にこれらの解決手段として適応的な信号処理手法を用いている場合には、ある制約のもとでの最適化問題を解くという定式化が一般的であるため、制約を満たせないような環境になると推定自体もうまくいかなくなる可能性がある。このような場合には、上記のような音源分離技術を用いても十分な性能が得られない以外に、想定外の動作や、結果として全く用をなさなくなってしまうことは十分考えられることである。つまり、推定された音源に関する情報を、目的と周囲の環境の様子によっては修正した方が実際の使用時に適切であると考えられ、従来の技術では必ずしもそのような点に留意していなかったという問題がある。
すなわち、上述したように、音源分離問題を処理する音源情報処理システムが実際に使われる環境において、音源を推定する手法自体が十分に対応できない状況になったり、周囲環境によってはシステムに期待される動作が規定されたりすることが考えられる。したがって、周囲の環境を考慮し実用性に優れる音源情報処理システムは未だ確立されていないのが現状である。
本発明は、上記に鑑みてなされたものであって、周囲の環境を考慮した、より確実性の高い処理を行うことができる実用性の高い音源情報処理装置、音源情報処理方法、及び音源情報処理プログラムを得ることを目的とする。
上述した課題を解決し、目的を達成するために、本発明にかかる音源情報処理装置は、複数の音源の音声信号を収音する複数の収音手段と、複数の収音手段で収音された音声信号に基づいて少なくとも1つの音源の方向を推定する音源推定手段と、推定した方向の音源のうち目的音源に関する音源情報を抽出する音源情報抽出手段と、抽出した音源情報に対して施す処理内容を選択するための、1つまたは複数の音源と周囲の状況のうち少なくとも一方に関する音源状況情報を取得する音源状況情報取得手段と、音源状況情報に基づいて、抽出された音源情報に対して所定の処理を施す処理手段と、を備えることを特徴とする。
また、本発明にかかる音源情報処理方法は、複数の音源の音声信号を収音する収音工程と、収音工程で収音された音声信号に基づいて少なくとも1つの音源の方向を推定する音源推定工程と、推定した方向の音源のうち出力対象に関する音源情報を抽出する音源情報抽出工程と、抽出した音源情報に対して施す処理内容を選択するための、1つまたは複数の音源と周囲の状況のうち少なくとも一方に関する音源状況情報を取得する音源状況情報取得工程と、音源状況情報に基づいて、抽出された音源情報に対して所定の処理を施す処理工程と、を備えることを特徴とする。
また、本発明にかかる音源情報処理プログラムは、複数の音源の音声信号を収音する収音工程と、収音工程で収音された音声信号に基づいて少なくとも1つの音源の方向を推定する音源推定工程と、推定した方向の音源のうち出力対象に関する音源情報を抽出する音源情報抽出工程と、抽出した音源情報に対して施す処理内容を選択するための、1つまたは複数の音源と周囲の状況のうち少なくとも一方に関する音源状況情報を取得する音源状況情報取得工程と、音源状況情報に基づいて、抽出された音源情報に対して所定の処理を施す処理工程と、をコンピュータに実行させることを特徴とする。
この発明によれば、所定の判断基準に基づいて、音源推定手段で推定した出力対象となる音源情報に適切な処理を施す。具体的には、音源状況情報取得手段により所定の音源状況情報が取得され、該音源状況情報に基づいて、推定された音源の情報(出力対象となる音源情報)に対して施す所定の処理を選択して該処理を施す。したがって、この発明において出力される音源情報は、目的や周囲の状況に合わせて適切な処理が施された情報となる。
上記の音源状況情報は、最終的な出力には直接は含まれないが音源及びその周囲の情報を知るため、すなわち処理手段での処理を選択する判断に用いられるために抽出される情報である。この音源状況情報は音源情報から得られた情報でも良く、また、音声情報以外の他の情報であっても良い。このような音源状況情報に基づいて、出力対象となる音源情報に目的や周囲の状況に合わせた適切な処理を施す。
この発明によれば、目的や周囲の状況に合わせて出力対象となる音源情報に適切な処理を施すため、より周囲の状況に沿った、より確実性の高い処理を行うことができ、実用性に優れた音源情報処理装置、音源情報処理方法、及び音源情報処理プログラムを得ることができる。
以下に、本発明にかかる音源情報処理装置、音源情報処理方法、及び音源情報処理プログラムについて図面を参照しながら詳細に説明する。なお、本発明は、以下の記述に限定されるものではなく、本発明の要旨を逸脱しない範囲において適宜変更可能である。
まず、本発明の基本的な概念を説明する。本発明にかかる音源情報処理装置は、複数の音源の音声信号を収音する複数の収音手段と、前記複数の収音手段で収音された音声信号に基づいて少なくとも1つの音源の方向を推定する音源推定手段と、推定した方向の音源のうち目的音源に関する音源情報を抽出する音源情報抽出手段と、抽出した音源情報に対して施す処理内容を選択するための、1つまたは複数の音源と周囲の状況のうち少なくとも一方に関する音源状況情報を取得する音源状況情報取得手段と、音源状況情報に基づいて、抽出された音源情報に対して所定の処理を施す処理手段と、を備えることを特徴とするものである。
ここで、音源推定手段では、例えば1つまたは複数の音源の方向を推定すること、推定された方向の音声を強調して出力すること、を一般的な機能として備える。この音源推定手段は、例えばマイクロホンアレイによって実現できる。
音源情報抽出手段で抽出する音源情報は、音源情報処理装置からの出力に関わる情報であり、音源情報処理装置が出力する目的とする情報である。例えば2つのマイクロホンで音声を収音して、音声の来た方向のみの音声を音源情報処理装置が出力する場合には、推定された音声の到来方向について強調された音声が該当し、音源情報処理装置がロボットや応答システムに適用された場合に、どの方向から話しかけられているかのみを音源情報処理装置が出力する場合には、推定された音声の到来方向の角度が該当する。
音源状況情報取得手段が取得する、抽出した音源情報に対して施す処理内容を選択するための音源状況情報は、音源情報処理装置からの最終的な出力には直接は含まれないが音源及びその周囲の情報を知るため、すなわち処理手段での判断に用いられるために抽出される情報である。例えば、音源推定手段によって複数の音源を推定して、その推定された中である一つの音声が音源情報処理装置から出力されるとした場合に、推定された複数の音源のそれぞれの音量を音源状況情報として用いることができる。この音量は音源推定手段で推定した推定音源から容易に得ることができる。
また、例えば、音源推定手段によって複数の音源を推定して、その推定された中である一つの音声が音源情報処理装置から出力されるとした場合に、推定された複数の音源についてそれぞれ、人間の声らしいかどうかの情報を抽出して音源状況情報として用いることができる。この人間の声らしいかどうかの情報の抽出は、例えば波形のゼロ交差や調波構造を推定するなどの既存の技術で実現できる。
また、例えば音源推定手段によって複数の音源を推定して、その推定された中である一つの音声が音源情報処理装置から出力されるとした場合に、推定された複数の音声についてそれぞれ、話者認証を行い、この話者認証の結果を音源状況情報として用いることができる。認証には話者ごとのHMM(Hidden Markov Modeling)のスコアを用いるなど既存の技術を用いることができる。
また、処理手段では、音源状況情報取得手段が取得した音源状況情報に基づいて、音源情報抽出手段で抽出された音源情報に対してどのような処理を施すかを判断、選択し、その結果に従って、音源情報抽出手段で抽出された音源情報に対して所定の処理を施す。すなわち、音源情報抽出手段で抽出された音源情報を入力として、この入力に対して所定の処理を施す。そして、この処理手段において所定の処理が施された音源情報が最終的な出力内容とされる。ここでは、入力に対して何の処理も施さないことも所定の処理の一形態としてもよい。その場合には、処理手段に入力された情報がそのままの状態で出力されることになる。
また、例えば音源状況情報に基づいて抽出された音源情報に対して施す処理内容を保持する保持手段を装置が備え、処理手段がこの保持手段から音源状況情報に基づいて所定の処理手続を呼び出して処理を実行することができる。この保持手段には、例えば入力がある閾値以上である場合にはこの処理、入力が閾値未満である場合には他の処理というように、表引きやツリー構造(例えば一例として、「男性ですか?」→「年齢は?」→…のように、判断条件が階層的に構成されている構造)の情報がテーブルとして保持されており、このテーブルを用いることにより処理手段における入力と出力との対応付けを行うことができる。
このような処理手段での判断としては、上述したように推定された複数の音源のそれぞれの音量を音源状況情報として用いる場合には、例えばその複数の音源の音量に注目して、出力する予定の推定音源の音量が他の音源の音量より一定値以上大きければ、音源推定には有利な環境であるとして推定音源の情報をそのまま出力し、そうでない場合には音源推定が困難であるとして予め規定された初期値方向の音源情報のみを出力する、というような処理を施すことができる。このような処理を行うことにより、音源推定が容易な場合は推定情報をそのまま使用して出力し、音源推定が困難な場合は音源推定のミスがあってもシステム全体として確実な動作を行えるようにすることができる。
また、上述したように推定された音声の人間の声らしさを音源状況情報として用いる場合には、入力に対して例えば以下のような処理を施すことができる。人間の声らしさの情報について各候補に対して一定時間保存できるものとし、この人間の声らしさの度合いが所定の閾値を越え、且つ所定の時間の閾値を越えて継続される候補が一つしかない場合には、音源推定手段の音源推定の第一候補がその方向の音声でなくてもその候補を出力する。
一方、人間の声らしさの度合いが所定の閾値を越える音源が一定個数以上ある場合には、初期値方向の音源情報のみを出力するようにする。そして、上記のどちらにも当てはまらない場合には、音源推定手段の音源推定の第一候補を出力する。このような処理を行うことにより、音源推定手段が音源推定を誤った場合でも、極力人間の音声を捉えられるようにすることができる。そして人間の声らしい音源が複数ある場合には、無理に一つの音声を推定せずに特定の動作(例えば予め規定された初期値方向の音源情報のみを出力する)を行うことにより、音源情報処理装置全体の挙動に一定の規則性を付与することが可能となり、且つその挙動を理解し易くなる。
また、上述したように話者認証の結果を音源状況情報として用いる場合には、入力に対して例えば以下のような処理を施すことができる。例えば音源情報処理装置が対話装置に用いられている場合、音源推定された音源が現在話しているはずの話者であると認証された場合にはその推定された音源情報を出力し、音源推定された音源が現在話しているはずの話者ではないと判断された場合には無音を返すなどしてその音声を出力しないようにする。このような処理を行うことにより、周りの雑音に対して誤って音源推定してしまうような場合でも、目的の音源以外には反応しないようにすることができる。
また、推定音源方向の音声を出力するシステムとして用いた場合に、推定された音源の方向によって出力の音量を変えることも可能である。例えば音源方向が正面であると推定された音源の音量が強められて出力され、推定された音源方向が横方向にずれるにつれて出力の音量を小さくなるようにする。音源情報処理装置からの出力が推定音源からの音声そのままだけである場合にはどの方向から音が来たのかがわからなくなるが、上記のような形態とすることでシステムが左右に向きを変えれば同じ音源でも音量が変わる。これにより、例えばこのシステムをロボットに適用した場合には人間の聴覚に近い状況を実現することができ、音源方向に関する情報を後段のシステムで知覚することができる。
また、推定音源方向の音声を出力するシステムとして用いた場合には、ある方向の音声強調を行って出力することができる。すなわち、処理手段において、ある方向の音声を収音して出力すると判断された場合には、処理手段において複数のマイクロホンからの入力に遅延和処理を行うなどして、推定方向の音声を得てそれを出力する。例えば、音源推定手段において10度方向に音源があると推定されて、その方向の音声を出力しようとしても、音源に関する音源状況情報からその出力はふさわしくないと判断して90度方向の音声を出力すると判断したとする。この場合は処理手段においてマイクロホンからの音声に遅延和処理等を行うことで、該当方向の音声を強調して出力する。これにより、音源推定手段における音源推定に推定誤りが生じやすい状況下においても目的に合わせた出力を行うことができる。
(第1の実施の形態)
次に、本発明にかかる音源情報処理装置、音源情報処理方法、及び音源情報処理プログラムについて、具体的な実施の形態に基づいてより詳細に説明する。
図1は、本発明を適用した音源情報処理システムの一構成例を示すブロック図である。図1に示した本発明を適用した音源情報処理システム100は、N個のマイクロホン(N≧2)101−1〜101−Nと、入力処理部102と、マイクロホンアレイ処理部104と音源情報処理部105とを有する信号処理部103と、を備えて構成されている。ここで、音源情報処理部105は、マイクロホンアレイ処理部104で推定した音源のうち音源情報処理システム100から出力する出力情報、すなわち音源情報処理システム100が出力する目的とする音源情報を抽出する音源情報抽出手段(機能)108と、抽出した音源情報に対して施す処理内容を選択するための音源状況情報を取得する音源状況情報取得手段(機能)109と、音源状況情報に基づいて、抽出された音源情報に対して所定の処理を施す処理手段(機能)110と、を有するものである。
このように構成された音源情報処理システム100においては、まずN個のマイクロホン101−1〜101−Nにより音声が収音され、入力処理部102に入力される。このマイクロホンは特に限定されるものではなく、音声を確実に収音可能なものであれば通常用いられるマイクロホンを用いることができる。また、このN個のマイクロホンとしては、すべて同じ種類のマイクロホンを使用しても良く、また、周波数特性などが計測されることで後段の信号処理で収音特性の違いを吸収することが可能ならば、異なる種類のマイクロホンを使用することも可能である。
マイクロホン101−1〜101−Nで収音されたこれらの音声は、入力処理部102において増幅回路やA/Dコンバータ等によってデジタル信号処理可能な形式に変換される。入力処理部102は、マイクロホンで収音された音声をデジタル信号処理可能な形に変換することが可能であれば、その構成は特に限定されるものではなく、既存の電子回路や、マイクロホンアレイの入力システム等の種々の手段により実現可能である。また、マイクロホン101−1〜101−Nと入力処理部102との信号の伝達は有線であっても無線であっても構わない。これについても入力処理部102に信号が伝達可能であれば特に限定はなく、既存の信号伝達技術で実現可能である。
入力処理部102においてデジタル信号処理可能な形式に変換された音声信号は、信号処理部103に入力される。信号処理部103においては次のような信号処理がなされる。まず、マイクロホンアレイ処理部104においてマイクロホンアレイ処理が行われる。マイクロホンアレイ処理では、音源情報処理システム100の使用目的によるが、音源定位を行ったり、さらにその定位方向の音声を強調したり、あるいは指定方向の音声を強調して他の方向からの音声を抑圧したりすることができる。すなわち、マイクロホンアレイ処理部104では、音源情報処理システム100で必要とする特徴量を得るための信号処理が行われ、特に複数マイクロホンで収音された音声信号から音源情報を得るための処理が行われる。
そしてマイクロホンアレイ処理部104からの情報をうけて音源情報処理部105では、音源情報抽出機能によりマイクロホンアレイ処理部104からの音源情報のうち音源情報処理システムから出力する目的音源に関する音源情報を抽出し、音源状況情報取得機能により前記の抽出した音源情報に対して施す処理内容を選択するための音源状況情報を取得し、処理機能により音源状況情報に基づいて、前記の抽出された音源情報に対して所定の処理を施して、音源情報処理システムの出力対象に合わせた情報を所定の形式で出力106する。
これらのマイクロホンアレイ処理部104及び音源情報処理部105を含む信号処理部103は、上述した処理が可能な形態であれば特に限定されるものではなく既存の信号処理チップ、電子回路等を用いて実現することが可能であり、また、デジタル化された信号をコンピュータ内でデジタル信号処理を行う形態とすることもできる。さらにコンピュータ内のプロセスによって実現することも可能である。
上述した入力処理部102、信号処理部103、マイクロホンアレイ処理部104、音源情報処理部105においては、本発明の機能において個別に名前を付けたが、実現形態においてはプログラムのプロセスであったり、ネットワーク上で情報の授受を可能とする関係において分散配置されたりしても構わないものとする。また機能において名前付けられた個々の処理部の調整を行うために、音源情報処理システムの上位のシステムで全体の処理を管理してもよい。また、本明細書においては、上記の音源情報処理システム100において、マイクロホンアレイ処理部104と音源情報処理部105とを有する信号処理部103を音源情報処理装置とする。
次に、上述した音源情報処理システム100を自動車201に適用した場合の具体的な実施の形態について説明する。図2は本発明を適用した音源情報処理システムを自動車内において適用した形態例について説明する図である。自動車201内の運転席202aと助手席203aとにはそれぞれ運転席のユーザ202及び助手席のユーザ203が居る。また、自動車201内の天井部分には、マイクロホンが一体化された音源情報処理システム204が配置されている。そして、音源情報処理システム204は車載情報システム205と情報伝達を行って所定の処理を行うことができる。音源情報処理システム204と車載情報システム205との情報伝達は無線により行っても良く、また有線により行っても良い。また、車載情報システム205は自動車の操作系206からも各種の情報を得ることが可能であり、これにより車載情報システム205では自動車201の運転状況を知ることができ、さらにこの運転状況の情報を音源情報処理システム204に伝達することも可能である。なお、音源情報処理システム204の詳細については、上記において説明した図1に示す音源情報処理システム100と同じ構成を有するものである。
ここでは、ユーザ202、203と車載情報システム205とは音源情報処理システム204を介して音声で情報のやり取りができるものとする。ユーザ202、203の音声による命令は、周囲の雑音や車載情報システム205と対話中以外の話者からの発声による影響を受ける可能性がある。そして、このような影響を受けた音声がそのまま伝えられた場合には車載情報システム205において十分な性能が得られないこと以外に、想定外の動作や結果として全く用をなさなくなってしまう虞もある。すなわち、周囲の環境によっては車載情報システム205が正常に機能できない虞がある。
そこで、音源情報処理システム204において、現在の音声による命令がどこからの発声かということを正確に処理できれば、適切な話者からの発声を収音することができ、その結果を車載情報システム205に送ることが可能となる。このような音源に関する情報とその利用については例を挙げて後述する。
ここで、図3に示したフローチャートを用いて音源情報処理システム204における処理の流れを説明する。まず、ユーザ202、203と車載情報システム205との対話が開始されると(S301)、音源情報処理システム204は予め決められたN本(2本以上)のマイクロホンが車内音を収音する(S302)。収音された音声の信号は入力処理部102に入力される。入力処理部102ではマイクロホンからの音声信号を取り込んで、これをデジタル信号処理可能な形式に変換する(S303)。入力処理部102における受信信号の増幅については、音源情報処理システム204を構成した際に、どのマイクロホンも一定の方向に一定の音量があるときに同程度の音量が得られるように校正されているとする。あるいは、所定の操作により、システムやユーザが任意に校正できるようにしてもよい。校正法自体は本発明とは直接に関係ないので、詳細は省略する。
次に、入力処理部102においてデジタル信号処理可能な形式に変換された音声信号は信号処理部103に入力される。このようにして信号処理部103に入力された音声信号からは、マイクロホンアレイ処理部104での信号処理により、音源情報処理システム204の目的に沿った音源の推定が行われる(S304)。
マイクロホンアレイ処理部104では、受信した信号の位相差や音量などによって、音源位置を定位したり、目的方向の音声を収音したりすることができる。マイクロホンアレイ処理部104での信号処理、すなわちマイクロホンアレイ処理は以降の実施の形態で説明するように、目的に合った音源情報を得られるものなら、実現手法自体は本発明では問わない。非特許文献1の公知文献で挙げられているような、遅延和アレーや適応形アレーによる手法で実現できるものとする。ここではその詳細は省略する。また、N本のマイクの配置や向きについても同様に、本発明については目的に合わせて対応可能であればよいとする。ここでは、マイクロホンは2本で特許文献2に従ったマイクロホンアレイ処理を行ったものとして説明する。この場合、2本のマイクロホンに対して適応ビームフォーマを2つ構成して、一方が目的音源、他方が雑音源を抑圧するようにお互いに制御するような構成となる。
そして、マイクロホンアレイ処理部104で推定された音源の情報は、音源情報処理部105に入力される。音源情報処理部105では、マイクロホンアレイ処理部104で推定した音源のうち音源情報処理システム100からの出力対象とする目的音源の音源情報を抽出し、抽出した音源情報に対して施す処理内容を選択するための音源状況情報を取得する。この音源状況情報は、マイクロホンアレイ処理部104で推定された音源の情報、他の音源の情報、または音源の情報以外の他の情報など、種々の情報を用いることができる。そして、この音源状況情報に基づいて、推定された音源情報に対して所定の処理を施す必要があるか否か、どのような処理を施すかを判断する。この判断についての詳細と、処理内容については後述する。
この判断結果を受けて、抽出した音源情報に対して所定の処理を施す必要があると判断された場合には(S305肯定)、音源情報処理部105では該音源情報に対して所定のルールに従って処理を施す(S306)。そして、所定の処理が施された音源情報を音源情報処理システム204からの最終的な出力情報として所定の出力形式に変換して(S307)、車載情報システム205に対して出力して(S308)一連の処理が終了する。ここで音源情報処理システム204からの出力形式は、目的によって適宜変更することが可能である。
一方、抽出した音源情報に対して所定の処理を施す必要がないと判断された場合には(S305否定)、抽出した音源情報をそのまま音源情報処理システム204からの最終的な出力情報として所定の出力形式に変換して(S307)、車載情報システム205に対して出力して(S308)一連の処理が終了する。
本実施の形態での説明においては、音源情報処理システム204からの出力は目的音源と推定した方向の音声とする。そして、以上の処理は一定時間ごと、あるいは任意の時間ごとに処理することができるものとする。また、ここで説明する実施の形態においての出力は連続的なものとする。すなわち、ある単位時間ごとの音源を推定し、その単位時間の間は目的音源方向の音声が収音、処理されて、音源情報処理システム204の出力とされる。
次に、前述の抽出された音源情報に対して所定の処理を施す必要があるか否かの判断、及びその処理について説明する。以下ではマイクロホンアレイ処理部104の出力を、車内でのユーザの発声を定位して、その方向に指向性を当てて収音した結果とした場合について図4及び図5を用いて説明する。また、2つのビームフォーマが、一方は雑音方向を抑圧して目的音声を収音し、他方が目的音源方向を抑圧して雑音を収音するものとする。そして目的音源ではない雑音の強さを測定し、所定の閾値を設定して目的音源以外の周囲の雑音が強いか否かを判断し、抽出された音源情報(目的音源の情報)に所定の処理を施すか否かを判断するものとする。ここで、図4は、雑音の強さを音源状況情報とした場合の判断条件と音源情報に対する処理内容とを関連付ける手続情報をまとめたテーブルである。このテーブルは、例えば音源情報処理部105内の情報保持手段107に保持されており、この情報が音源情報処理部105により適宜呼び出され、所定の処理が行われる。また図5は、抽出された音源情報に対して所定の処理を施す必要があるか否かの判断、及びその処理の流れを示すフローチャートである。
まず、音源情報処理部105が所定の処理を施す必要があるか否かの音源状況情報として、目的音源ではない雑音の強さを取得する。そして雑音の強さが所定の閾値よりも低い値となっているか否かを判断する(S501)。ここで、雑音の強さが所定の閾値よりも低いと判断された場合は(S501肯定)、抽出された音源情報はユーザからの発声とみなして所定の処理は不要と判断され(S502)、抽出された音源情報がそのまま音源情報処理システム204からの最終的な出力となる。したがって、抽出した音源情報をそのまま所定の出力形式に変換して(S307)、車載情報システム205に対して出力して(S308)一連の処理が終了する。その結果、その出力を受けた車載情報システム側では、自動車内の任意の位置でのユーザの発声を収音することができ、その内容を音声認識する、ハンズフリー電話に利用するなどの音声利用をすることができる。
一方、雑音の強さが所定の閾値よりも高いと判断された場合は(S501否定)、周囲の雑音が強くて目的音声の音源定位などの推定精度が落ちる状況である。特に自動車においては、高速走行中や外の天気が悪い場合などは、音声情報を利用するには困難な状況であると予想される。このような場合に推定された目的音源情報をそのまま出力すると、推定が困難なために誤った推定結果の出力が音源情報処理システムから出ることで、後段の車載情報システム205での処理に悪い影響が出る虞がある。具体的には、高速走行中の対向車とのすれ違い音をユーザの発声と誤推定して車載情報システムに送ってしまい、車載情報システムではそれを音声認識してユーザの意図しない命令を解釈してしまうことなどが考えられる。
そこで、雑音の強さを判断した結果、雑音の強さが所定の閾値よりも高いと判断された場合は(S501否定)、抽出された音源情報に対する所定の処理が必要と判断され(S503)、推定した目的音声の音源情報を無視して運転席方向のみに目的音声のビームフォーマを向け、運転席方向の音声のみを収音、抽出する処理を施す(S504)。そして、前記の処理が施された音源情報を音源情報処理システム204からの最終的な出力情報として所定の出力形式に変換して(S307)、車載情報システム205に対して出力して(S308)一連の処理が終了する。
このような処理を施すことにより、運転席方向以外の方向からの雑音で、車載情報システム205が誤動作する可能性が大幅に減少する。もちろん、運転席方向以外から、ユーザの音声が入る可能性もあるが、雑音の強いような状況、前述のような高速走行などのような場合では運転席以外からの音声入力の必要性はあまり考えられない。そしてそれ以上に、雑音が強い状況で音源情報に所定の処理を施すことにより、音源推定誤りによる車載情報システムの誤動作の可能性を減少させることと、運転席からの音声は少なくとも確実に収音するという効果を得ることができる。以上のように出力対象となる音源情報に所定の処理を施すことにより、より周囲の状況に沿った、より実用性の高い処理を行うことができるという効果が得られる。
また、音源情報処理システム204から、推定音源方向の音声(または所定の処理が施された特定方向の音声)を出力する場合に、処理による時間差を考慮しなければならない場合が考えられる。例えば、時刻0で音が入ってきたとして、音源推定に1秒かかり、音源に関する情報を抽出して判断するのに2秒かかるとする。この判断によって、ある方向の音声を強調して出力するとした場合、(1秒+2秒)後の音声からしか反映されないことになってしまう。したがって、このような場合には信号処理部103にリングバッファを配置し、N本のマイクからの情報を適当な形式で(1秒+2秒)分以上の音声を保存できるようにしておき、保存した音声に対して処理を行うことで、本発明に対応する出力を得ることができる。
図6は、実施の形態1に係る音源情報処理システム204のハードウェア構成を示す図である。音源情報処理システム204は、ハードウェア構成として、音源情報処理システム204におけるマイクロホンアレイ処理を実行するマイクロホンアレイ処理プログラムや音源情報処理部105における上述した音源情報抽出機能、音源状況情報取得機能、処理機能にかかる処理を実行するプログラムなどが格納されているROM252と、ROM252内のプログラムに従って音源情報処理システム204の各部を制御し、バッファリング時間変更処理等を実行するCPU251と、ワークエリアが形成され、音源情報処理システム204の制御に必要な種々のデータを記憶するRAM253と、ネットワークに接続して通信を行う通信I/F257と、音源からの音声信号を収音するマイクロホン258と、各部を接続するバス262とを備えている。
先に述べた音源情報処理システム204におけるマイクロホンアレイ処理プログラムなどのプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フロッピー(登録商標)ディスク(FD)などの磁気ディスク、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。
この場合には、マイクロホンアレイ処理プログラムなどのプログラムは、音源情報処理システム204において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。
また、本実施の形態のマイクロホンアレイ処理プログラムなどのプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。
以上、本発明を第1の実施の形態を用いて説明したが、上記実施の形態に多様な変更または改良を加えることができる。
(第2の実施の形態)
次に本発明を適用した音源情報処理システムの第2の実施の形態について説明する。理解の容易のため、本実施の形態の音源情報処理システムの構成やその処理の流れは第1の実施の形態と同様とし、上記の説明を参照することとしてここではその詳細な説明は省略する。したがって、以下においては第1の実施の形態と異なる点について説明する。
第2の実施の形態が第1の実施の形態と異なる点は、過去の音源情報の履歴を上述した音源状況情報として用いることである。すなわち、第2の実施の形態においては、図1に示した音源情報処理部105が過去の音源情報を記憶することができる記憶領域を備え、該記憶領域に記録された過去の音源情報を用いて抽出された音源情報に対して所定の処理を施すものである。以下ではこの記憶領域として上述した情報保持手段107を利用するものとする。
本実施の形態にかかる音源情報処理システムが図3に示した流れで処理をしていくときに、音源情報を抽出してその情報を一定個数または一定時間分だけ情報保持手段107に記憶する。本実施の形態においては、一例として種々の音源情報の中でも推定した目的音源の方向を記憶しておくものとする。図7は、情報保持手段107に記憶された、推定した目的音源の方向の情報の履歴を示す特性図である。図7においては、過去の一定時期から現在までの一定時間分だけ、時間ごとの推定した音源方向の情報(図7における星印)の履歴が記憶されている。そして推定した目的音源の方向の情報の履歴を音源状況情報として用いて、一定時間毎もしくは任意のタイミングで抽出された音源情報に対して所定の処理を施すことができる。
そして、本実施の形態にかかる音源情報処理システム204においては、前述の記憶された過去の音源方向の情報に対して図7に示す実線のように関数近似を行い、この関数をもとに音源情報に対して所定の処理を施す必要があるか否かを判断する。具体的には、推定した目的音源の方向(角度)が近似関数による推定値より一定値以内の範囲に入っている場合には、推定した目的音源の方向(角度)をそのまま音源情報処理システム204からの最終的な出力情報として用いる。
一方、推定した目的音源の方向(角度)が近似関数による推定値より一定値以上離れている場合には、最終的な出力情報となる目的音源の方向は近似関数の値を使用することとし、その方向の音声をビームフォームで収音して出力する、または、毎回近似関数の推定方向の音声を収音して出力するなどの処理を施すこともできる。
関数近似については、移動平均や局所的に線形関数や多項式関数を当てはめるものや、音源の移動にモデルを仮定してそのモデルから推定するものなどを用いることができる。このように関数近似を用いることで、外乱等により目的音源の推定方向が大きく撹乱されることはなくなる。すなわち、過去の推定結果と比較して特異な推定結果が生じた場合などには、その推定結果をそのまま用いるのではなく、過去の経緯を考慮した出力を行うことが可能となる。したがって、上記のように過去の音源情報を上述した音源状況情報として用いて出力対象となる音源情報に所定の処理を施すことにより、より周囲の状況に沿った、より実用性の高い処理を行うことができるという効果が得られる。
(第3の実施の形態)
次に本発明の第3の実施形態について説明する。理解の容易のため、本実施の形態の音源情報処理システムの構成やその処理の流れは第1の実施の形態と同様とし、上記の説明を参照することとしてここではその詳細な説明は省略する。したがって、以下においては第1の実施の形態と異なる点について説明する。
第3の実施の形態が第1の実施の形態と異なる点は、マイクロホン以外の情報入力装置を用いる点である。すなわち、図1に示した構成において、マイクロホンと同様に一つもしくは複数の情報入力装置をさらに用いることである。本実施の形態では図2に示した形態において、自動車内の各座席にユーザが居るか否かを判断するための対人センサが各座席に備えられているものとする。このような対人センサを用いて自動車内の各座席にユーザが居るか否かを判断する手法としては、例えば図8に示すように運転席202aにユーザ202が座ったことを感知する圧力センサ202bを用いることができる。また、カメラで自動車内を撮影して画像認識技術によって各座席にユーザが居るか否かを判断してもよい。このように自動車内の各座席にユーザが居るか否かを判断する手法は特に限定されるものではなく、種々の手法を用いることが可能である。このようにしてマイクロホンにより収音した音声入力以外の情報、すなわちここでは自動車内の各座席にユーザが居るか否かという情報を得ることができる。
以下では、図3に示した流れに従って前記の対人センサ202bを用いて音源情報に対して所定の処理を施す必要があるか否かの判断を行う処理について、図9に示したフローチャートを用いて説明する。
まず、ユーザ202、203と車載情報システム205との対話が開始されると(S901)、第1の実施形態と同様に目的音源の情報、特にその推定方向を得る(S902)。次に対人センサ202bから自動車内の各座席にユーザが居るか否かという情報が得られているかどうかを判断する(S903)。ここでその情報が得られていない場合には(S903否定)、前記のステップ902において推定音源情報(推定方向)が得られていても、ユーザからの発声はなかったものとして音源情報処理システム204から出力する(S905)。また、前記のステップ902とステップ903との順序を入れ替えて、対人センサ202bからの情報があると判断してから目的音声の音源情報を得てもよい。
そして、対人センサ202bから自動車内の各座席にユーザが居るか否かという情報が得られている場合(S903肯定)、すなわち推定した目的音源の情報(推定方向)と対人センサ202bからの情報との双方が得られた場合には、反応のあった対人センサの座席ごとに許容される音源方向の角度と、前記の推定方向とを比較し(S904)、目的音源の推定方向が、反応した対人センサ202bの座席に対応しているか否かを判断する(S906)。この結果、目的音源の推定方向が、反応した対人センサ202bの座席に対応していない場合には(S906否定)、推定した音源は推定誤りであったか、またはユーザ以外の音声だったと判断して、前記と同様にユーザからの発声はなかったものとして音源情報を出力する(S905)。
一方、目的音源の推定方向が、反応した対人センサ202bの座席に対応している場合は(S906肯定)、該当する座席のユーザからの発声だったと判断して、該当する方向にビームフォームをあてた収音を行い、その音源情報を出力する(S907)。
以上のような本実施の形態にかかる音源情報処理システム204では、上述したようにマイクロホン以外の情報入力装置からの入力情報を用いることにより、マイクロホンアレイ処理で得られる音源情報に所定の処理を施して適切な出力情報を出力することができる。その結果、外乱等によってマイクロホンアレイ処理結果に誤りが生じた場合においても、異常な出力をして後段の車載情報システム205での処理に悪い影響を与えることを防止することができる。したがって、上記のように出力対象となる音源情報に対して所定の処理を施すことにより、より周囲の状況に沿った、より実用性の高い処理を行うことができるという効果が得られる。
(第4の実施の形態)
次に本発明の第4の実施形態について説明する。理解の容易のため、本実施の形態の音源情報処理システムの構成やその処理の流れは第1の実施の形態と同様とし、上記の説明を参照することとしてここではその詳細な説明は省略する。したがって、以下においては第1の実施の形態と異なる点について説明する。
第4の実施の形態が第1の実施の形態と異なる点は、推定した目的音源と目的音源ではない雑音にあたる音源(非目的音源)の音源情報のいずれか、あるいは両方の内容を推定して、その内容に基づいて、前述の抽出された音源情報に対して所定の処理を施すことである。ここでは理解の容易のため、両方の音源情報の内容から推定する例を図10及び図11を用いて説明する。ここで、図10は、目的音源と非目的音源の音源情報の内容を音源状況情報とした場合の判断条件と音源情報に対する処理内容とを関連付ける手続情報をまとめたテーブルである。このテーブルは、例えば上述した情報保持手段107に保持されており、適宜呼び出され、所定の処理が行われる。また図11は、抽出された音源情報に対して所定の処理を施す必要があるか否かの判断、及びその処理の流れを示すフローチャートである。
図3の処理の流れに従ってマイクロホンアレイ処理により、目的音源の音源情報とその方向を死角とするビームフォームから得られる音源情報が得られたものとする。ここで、「その方向を死角とする」とは、「その特定の方向について指向性を外して収音すること」を意味する。これにより、その特定の方向以外の音声を収音することができる。すなわち、目的音声の音源情報と、雑音にあたる非目的音源の音源情報とが得られる。
そして、この両者の音源情報から、目的音声、非目的音源(雑音)の内容をそれぞれ推定する。ここでは目的音声は自動車内のユーザの発声であって人間の声であるので、収音された音声が人間の声であるか否かに焦点をあてて収音された音源情報の内容を推定する。音源情報の内容の推定は、例えば音声波形の零交差やスペクトラムを利用するなど既存の技術で実現できるが、このような判断手法自体は本発明とは直接は関係ないのでここでは詳細な説明は省略する。
一方、非目的音源(雑音)については、非目的音源(雑音)の発生の様子、すなわち該非目的音源(雑音)が定常的なものであるか、非定常なものであるかに焦点をあてて内容を推定する。非目的音源(雑音)の内容の推定は、例えば音量の時間的な変化などを利用するなど既存の技術で実現できるが、このような定常雑音か否かの判断手法自体は本発明と直接は関係ないので、その詳細は省略する。
以上のようにして目的音声と非目的音源(雑音)との内容が推定されたときに、その内容に基づいて前述の抽出された音源情報に対して以下に説明するような所定の処理が施される。
まず、目的音源の内容を推定して(S1101)、推定された目的音源が人の発声であるか否かを判断する(S1102)。推定された目的音源が人の発声である場合には(S1102肯定)、次に非目的音源の内容を推定し、推定された非目的音源が定常雑音であるか否かを判断する(S1103)。ここで、推定された非目的音源が定常雑音である場合には(S1103肯定)、音源情報抽出にとっては都合の良い状況であり、推定誤りが生じる可能性は少ない。したがって、この場合には推定された通りの音源情報を用いて座席方向のみの音声を収音して(S1104)、それを音源情報処理システム204の出力として扱う。
一方、推定された非目的音源が定常雑音であるか否かを判断した結果、推定された非目的音源が定常雑音でないと判断された場合は(S1103否定)、音源情報抽出においては推定誤りが生じやすい状況であると考えられる。例えば、突発的な雑音を人の発声と推定してしまい、人の発声を非定常音と推定してしまうという状況が発生し得る。そこでこのような場合は後段での誤動作を防ぐために、当初の目的音源の推定方向を修正して運転席方向のみに注目して収音を行うという処理を施し(S1105)、それを音源情報処理システム204の出力として扱う。このような処理を施すことで、突発的な雑音を誤って人の発声と推定して音源情報処理システムから出力してしまう可能性を効果的に減少させることができる。
また、目的音源の内容を推定し(S1101)、推定された目的音源が人の発声ではないと判断された場合においても(S1102否定)、次に非目的音源の内容を推定し、推定された非目的音源が定常雑音であるか否かを判断する(S1106)。ここで、推定された非目的音源が定常雑音である場合には(S1106肯定)、定常雑音であることを明示してそれを音源情報処理システムの出力として扱う(S1107)。これにより後段のシステムでは、得られた定常雑音から雑音の内容を推定することで、一般に用いられる雑音抑圧法を用いることができ、音声認識や音声強調などの自身の行う処理の精度をより高めることができる。
一方、推定された非目的音源が定常雑音であるか否かを判断した結果、推定された非目的音源が定常雑音でないと判断された場合には(S1106否定)、2通りの状況が考えられる。すなわち、第1の状況は、実際にユーザの発声がなく非定常雑音があった場合である。そして第2の状況は、音源定位に誤りがあって雑音を目的音源として推定し、ユーザの発声を非定常雑音として推定してしまった場合である。そこで、この場合には、推定内容のチェックを行う(S1108)。すなわち、目的音源と非目的音源の推定方向を入れ替えて、最初の非目的音源方向を目的音源方向とみなして人の発声か否かを再度判断するという処理を行い、非目的音源方向が人の発声か否かを判断する(S1109)。
この場合の判断において非目的音源が人の発声と推定された場合には(S1109肯定)、非目的音源方向からの音声をユーザからの発声とみなしてこれを音源情報処理システム204の出力として扱う(S1110)。一方、ここでの判断においても人の発声と推定されない場合には(S1109否定)、ユーザからの発声はなかったものとして扱う(S1111)。
以上のような本実施の形態にかかる音源情報処理システム204では、上述したように音源の内容を推定し、これを音源状況情報として用いることにより、マイクロホンアレイ処理で得られる音源情報に所定の処理を施して適切な出力情報を出力することができる。したがって、上記のように出力対象となる音源情報に対して所定の処理を施すことにより、より周囲の状況に沿った、より実用性の高い処理を行うことができるという効果が得られる。
(第5の実施の形態)
次に本発明の第5の実施形態について説明する。理解の容易のため、本実施の形態の音源情報処理システムの構成やその処理の流れは第1の実施の形態と同様とし、上記の説明を参照することとしてここではその詳細な説明は省略する。したがって、以下においては第1の実施の形態と異なる点について説明する。
第5の実施の形態が第1の実施の形態と異なる点は、推定された音源情報の確信度を上述した音源状況情報として用いることである。また、本実施の形態においては、音源情報処理システム204からの出力は、車の中のどこからユーザの発声が来ているのかとその方向、あるいはユーザの発声がない(有益な情報がない)、または車載情報システム205を介してユーザの確認を要求するという、大別して3種の意味を持つものとする。こうすることにより、車載情報システム205において、擬人化エージェントを用いてユーザと対話をする際に、発声したユーザに対して擬人化エージェントが適切に処理を行うことを可能とする。
音源情報処理システム204においてはユーザが車内で発声したということを推定すると、その音源方向を求める。この場合の車内における音源方向の規定を図12に示す。ここでは、右ハンドル215を備えた自動車の場合について説明する。
自動車の幅方向における中心部を通って自動車の後方に延びる仮想線の方向を0度としたときに、運転席方向を正方向、助手席方向を負方向とする。音源方向が+15度〜+45度の範囲は運転席202aに対応するものとし、−15度〜−45度の範囲は助手席203aに対応するものとする。また、音源方向が−15度〜+15度の範囲は後部座席220に対応するものとする。これらの音源方向情報から該当座席情報への変換は、音源情報処理部105が音源状況情報取得機能により、マイクロホンアレイ処理部104で推定した音源の方向情報を入力として情報保持手段107に格納された所定の写像情報のテーブル(図示せず)を参照することにより行うことができる。そして、音源情報処理部105では、その処理機能によりこの変換した音源状況情報として用いることができる。ここでの写実情報とは、音源方向が何度から何度までの範囲は運転席に対応する、何度から何度までの範囲は助手席に対応する、といった音源方向情報から該当座席情報への変換を可能とする手続情報である。
また、この写実情報は、音源情報処理システム204の外部から書き換え可能とする。このように写実情報を音源情報処理システム204の外部から書き換え可能とすることにより、周囲の環境が変化した場合においても音源の情報に対する処理の判断を的確に行うことができる。例えば今まで右ハンドルの自動車で使っていた音源情報処理システム204を左ハンドルの自動車に持っていった場合に、角度に対応した写像情報を書き換えるだけで、音源の情報に対する処理内容を書き換えることなく、目的にあった処理を行うことができる。すなわち、使用環境が変化した際の利便性に優れた音源情報処理システム204が実現できる。
例えばロボットに音源情報処理システム204が使われている場合に、音源方向が何度から何度までの範囲はロボットの顔が向いている方向であるということがわかるとする。こうすることで、顔の向いている方向ならば音源推定の確信度が高くなくても確実に応答するようにし、確信度が高くない場合には音源推定の確信度が所定の閾値以上でないとその方向の音声は無視するような処理を施すことで、外乱に強くすることができる。また、上記のような角度に対応した写像情報を書き換えるだけで、「ロボットにとっての顔の向いている方向」の概念を適宜変更することができ、ロボットの使用形態の自由度を大きくすることができる。
なお、当然のことながらここでの角度の規定は本実施の形態を説明するための一例であり、自動車の形態によって変更する、左右ハンドルに合わせて正負方向を変えるなど適宜変更することが可能である。すなわち音源方向に応じてなんらかの意味付けができ、それが音源情報と関連づけができればよい。
本実施の形態においては、音源方向を推定すると同時にその推定の確信度を見積もるものとする。この確信度の見積もりは、マイクロホンアレイ処理部104において音源方向の推定と共に行われる。この確信度は、音源定位に用いる適応フィルタの収束後の残差、推定に用いたモデルとの誤差、音量と相関をもつ値、人間の声らしさの尺度、音源方向の時間的な変化やその分散など音源情報抽出に関連する特徴量から設定されるものとして既存の技術で実現できるが、このような確信度の算出手法自体は本発明とは直接は関係ないのでここでは詳細な説明は省略する。
本実施の形態における確信度はこれらの組み合わせから得られるものとし、その確信度は高、中、低の3つの離散値をとるものとする。また、確信度が関数で連続的に得られていたものを閾値で離散化したものとしてもよい。そして、ここでは確信度を離散値で説明するが、連続値を用いたものについても本発明は問題なく適用することができる。
このようにして得られた音源方向の情報と、音源方向の推定の確信度を用いて前述の抽出された音源情報に対して所定の処理を施す処理について図13を参照して説明する。まず、音源方向の推定の確信度が高である(高レベルである)場合について説明する。音源方向の推定の確信度が高である場合であって、推定された音源方向が−15〜+15度の範囲にある場合は上述した写実情報により音源の座席は後部座席220と判断され、後部座席220のユーザから発声があったものと判断してマイクロホンアレイ処理部104で推定された音源情報をその音源方向の情報とともに出力する。
また、音源方向の推定の確信度が高である場合であって、推定された音源方向が−15〜+15度の範囲外である場合には、上述した写実情報により音源の座席は運転席202aあるいは助手席203aと判断され、運転席あるいは助手席でユーザからの発声があったものと判断してマイクロホンアレイ処理部104で推定された音源情報を音源方向(角度)の情報とともに出力する。特に推定された音源方向が+45〜+90度のように座席から離れた方向である場合においても、ユーザが移動したものと判断して、運転席あるいは助手席でユーザからの発声があったものと判断してマイクロホンアレイ処理部104で推定された音源情報を音源方向の情報とともに出力する。
次に、音源方向の推定の確信度が中である(中レベルである)場合について説明する。音源方向の推定の確信度が中である場合であって、+15度〜+45度または−15度〜−45度の範囲にある場合は、上述した写実情報により音源の座席は運転席202a、助手席203a、または後部座席220と判断され、運転席202a、助手席203a、または後部座席220からユーザの発声があったものと判断してマイクロホンアレイ処理部104で推定された音源情報を音源方向の情報とともに出力する。
また、音源方向の推定の確信度が中である場合であって、推定された音源方向が+15度〜+45度または−15度〜−45度の範囲外である場合には、ユーザからの発声があったか否かは確実に判断することができない。したがって、この場合は音源情報処理システム204からは、推定した音源方向をそのまま出力するのでなく、音源の確認を要求する出力情報を出力する。例えば情報保持手段107に予め格納されている所定の情報(「判断不能」や「音源再確認」などの趣旨の情報)を出力する。このような処理を行うことにより、例えば車載情報システム205ではユーザに対して音源の確認を要求するために「もう一度発声してください」と呼びかけることもできる。これにより、音源情報処理システム204からの不確定な情報に起因して車載情報システム205が誤作動を起こすことを防止することができる。
次に、音源方向の推定の確信度が低である(低レベルである)場合について説明する。音源方向の推定の確信度が低である場合であって、推定された音源方向が+15度〜+45度または−15度〜−45度の範囲にある場合は、推定された音源がユーザの発声であるかもしれないが確実に判断することができない。したがって、この場合は音源情報処理システム204からは、推定した音源方向をそのまま出力するのでなく、音源の確認を要求する出力情報を出力する。例えば情報保持手段107に予め格納されている所定の情報(「判断不能」や「音源再確認」などの趣旨の情報)を出力する。このような処理を行うことにより、上記と同様に車載情報システム205ではユーザに対して音源の確認を要求することができる。これにより、音源情報処理システム204からの不確定な情報に起因して車載情報システム205が誤作動を起こすことを防止することができる。
また、音源方向の推定の確信度が低である場合であって、推定された音源方向が+15度〜+45度または−15度〜−45度の範囲外である場合には、確信度が低く、且つ音源方向もユーザからの発声とは考えにくい。したがって、この場合は音源情報処理システム204からは、推定した音源方向をそのまま出力するのでなく、ユーザからの発声が無い(有益な音源がない)ものとして、ユーザからの発声が無いという出力情報を出力する。例えば情報保持手段107に予め格納されている所定の情報(「音声入力無し」や「出力無し」などの趣旨の情報)を出力する。このような処理を行うことにより、車載情報システム205では音源情報処理システム204からの不確定な情報に起因して車載情報システム205が誤作動を起こすことを防止することができる。
以上のような本実施の形態にかかる音源情報処理システム204では、ユーザからの発声に対して、その推定された音源角度や推定の確信度を上述した音源状況情報として用いて、前述の抽出された音源情報に対して所定の処理を施すことができる。そして、この音源情報処理システム204を用いた擬人化エージェントでは、音源情報処理システム204からの出力に基づいて処理を行うことにより、より適切な処理を行うことができる。すなわち、車載情報システム205において擬人化エージェントを用いてユーザと対話をする際に、発声したユーザに対して擬人化エージェントがより周囲の状況に沿った、より確実性の高い応答を行うことができるという効果が得られる。
以上のように、本発明にかかる音源情報処理装置は、周囲雑音のある環境下で目的音のみを収音する場合に有用であり、特に、カーナビゲーションシステムやテレビ電話などの用途に適している。
本発明を適用した音源情報処理システムの一構成例を示すブロック図である。 本発明を適用した音源情報処理システムを自動車内において適用した形態例について説明する図である。 音源情報処理システムにおける処理の流れを説明するフローチャートである。 雑音の強さを音源状況情報とした場合の判断条件と音源情報に対する処理内容とを関連付ける手続情報をまとめたテーブルを示す図である。 抽出された音源情報に対して所定の処理を施す必要があるか否かの判断、及びその処理の流れを示すフローチャートである。 実施の形態1に係る音源情報処理システムのハードウェア構成を示す図である。 情報保持手段に記憶された、推定した目的音源の方向の情報の履歴を示す特性図である。 ユーザが座ったことを感知する圧力センサが運転席に配置された状態を示す図である。 対人センサを用いて音源情報に対して所定の処理を施す必要があるか否かの判断を行う処理の流れを説明するフローチャートである。 目的音源と非目的音源の音源情報の内容を音源状況情報とした場合の判断条件と音源情報に対する処理内容とを関連付ける手続情報をまとめたテーブルを示す図である。 抽出された音源情報に対して所定の処理を施す必要があるか否かの判断、及びその処理の流れを示すフローチャートである。 車内における音源方向の規定を表した図である。 音源方向と音源情報推定の確信度とを音源状況情報とした場合の判断条件と音源情報に対する処理内容とを関連付ける手続情報をまとめたテーブルを示す図である。
符号の説明
101−1〜101−N マイクロホン
102 入力処理部
103 信号処理部
104 マイクロホンアレイ処理部
105 音源情報処理部
106 出力
107 情報保持手段
201 自動車
202 運転席のユーザ
202a 運転席
203 助手席のユーザ
203a 助手席
204 音源情報処理システム
205 車載情報システム
206 自動車の操作系

Claims (12)

  1. 複数の音源の音声信号を収音する複数の収音手段と、
    前記複数の収音手段で収音された音声信号に基づいて少なくとも1つの音源の方向を推定する音源推定手段と、
    前記推定した方向の音源のうち目的音源に関する音源情報を抽出する音源情報抽出手段と、
    前記抽出した音源情報に対して施す処理内容を選択するための、1つまたは複数の音源と周囲の状況のうち少なくとも一方に関する音源状況情報を取得する音源状況情報取得手段と、
    前記音源状況情報に基づいて、前記抽出された音源情報に対して所定の処理を施す処理手段と、
    を備えることを特徴とする音源情報処理装置。
  2. 前記音源状況情報に基づいて前記抽出された音源情報に対して施す処理内容を保持する保持手段を備え、
    前記処理手段が、前記保持手段から所定の処理手続を呼び出して処理を実行すること
    を特徴とする請求項1に記載の音源情報処理装置。
  3. 前記音源状況情報取得手段が、前記音源推定手段で推定された音源の音源情報の履歴を保持し、
    前記処理手段が、前記音源情報の履歴を前記音源状況情報として用いること
    を特徴とする請求項1に記載の音源情報処理装置。
  4. 前記処理手段が、一定時間毎もしくは任意のタイミングで前記抽出された音源情報に対して所定の処理を施すこと
    を特徴とする請求項1に記載の音源情報処理装置。
  5. 前記音源状況情報取得手段が、前記収音手段以外の情報入力手段から前記音源状況情報を取得すること
    を特徴とする請求項1に記載の音源情報処理装置。
  6. 前記音源状況情報取得手段が、前記音源推定手段で推定された音源の音声信号から該音源の内容を推定し、
    前記処理手段が、前記音源の内容を前記音源状況情報として用いること
    を特徴とする請求項1に記載の音源情報処理装置。
  7. 前記音源状況情報取得手段が、前記音源推定手段で推定された音源の音源方向について指向性を外して収音された音声信号から、前記推定された音源の音源方向以外の音源の内容を推定し、
    前記処理手段が、前記推定された音源の音源方向以外の音源の内容を前記音源状況情報として用いること
    を特徴とする請求項1に記載の音源情報処理装置。
  8. 前記音源状況情報取得手段が、前記音源推定手段で推定した音源の方向情報を入力として所定の音源状況情報に変換し、
    前記処理手段が、前記変換した音源状況情報として用いること
    を特徴とする請求項1に記載の音源情報処理装置。
  9. 前記音源推定手段が、音源を推定するとともに推定の確信度を見積もり、
    前記音源状況情報取得手段が、前記推定の確信度を前記音源状況情報として取得し、
    前記処理手段が、前記推定の確信度を前記音源状況情報として用いること
    を特徴とする請求項1に記載の音源情報処理装置。
  10. 前記処理手段が、予め格納されている所定の情報を出力すること
    を特徴とする請求項1に記載の音源情報処理装置。
  11. 複数の音源の音声信号を収音する収音工程と、
    前記収音工程で収音された音声信号に基づいて少なくとも1つの音源の方向を推定する音源推定工程と、
    前記推定した方向の音源のうち出力対象に関する音源情報を抽出する音源情報抽出工程と、
    前記抽出した音源情報に対して施す処理内容を選択するための、1つまたは複数の音源と周囲の状況のうち少なくとも一方に関する音源状況情報を取得する音源状況情報取得工程と、
    前記音源状況情報に基づいて、前記抽出された音源情報に対して所定の処理を施す処理工程と、
    を備えることを特徴とする音源情報処理方法。
  12. 複数の音源の音声信号を収音する収音工程と、
    前記収音工程で収音された音声信号に基づいて少なくとも1つの音源の方向を推定する音源推定工程と、
    前記推定した方向の音源のうち出力対象に関する音源情報を抽出する音源情報抽出工程と、
    前記抽出した音源情報に対して施す処理内容を選択するための、1つまたは複数の音源と周囲の状況のうち少なくとも一方に関する音源状況情報を取得する音源状況情報取得工程と、
    前記音源状況情報に基づいて、前記抽出された音源情報に対して所定の処理を施す処理工程と、
    をコンピュータに実行させることを特徴とする音源情報処理プログラム。
JP2004170429A 2004-06-08 2004-06-08 音源情報処理装置、音源情報処理方法、音源情報処理プログラム Pending JP2005354223A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004170429A JP2005354223A (ja) 2004-06-08 2004-06-08 音源情報処理装置、音源情報処理方法、音源情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004170429A JP2005354223A (ja) 2004-06-08 2004-06-08 音源情報処理装置、音源情報処理方法、音源情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2005354223A true JP2005354223A (ja) 2005-12-22

Family

ID=35588330

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004170429A Pending JP2005354223A (ja) 2004-06-08 2004-06-08 音源情報処理装置、音源情報処理方法、音源情報処理プログラム

Country Status (1)

Country Link
JP (1) JP2005354223A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007208503A (ja) * 2006-01-31 2007-08-16 Yamaha Corp 音声会議装置
WO2009157195A1 (ja) * 2008-06-24 2009-12-30 パナソニック株式会社 マイクロホン装置
WO2012023268A1 (ja) * 2010-08-16 2012-02-23 日本電気株式会社 多マイクロホン話者分類装置、方法およびプログラム
JP2012257076A (ja) * 2011-06-09 2012-12-27 Sony Corp 音制御装置、プログラム及び制御方法
WO2018043235A1 (ja) * 2016-08-29 2018-03-08 Groove X株式会社 音源の方向を認識する自律行動型ロボット
JP2018536365A (ja) * 2015-09-29 2018-12-06 トムソン ライセンシングThomson Licensing プレノプティック・カメラによりキャプチャされた画像をリフォーカシングする方法及びオーディオに基づくリフォーカシング画像システム
CN112312014A (zh) * 2020-10-23 2021-02-02 移康智能科技(上海)股份有限公司 一种声音与摄像头联动***
WO2021019717A1 (ja) * 2019-07-31 2021-02-04 三菱電機株式会社 情報処理装置、制御方法、及び制御プログラム
JP7211649B1 (ja) 2022-01-14 2023-01-24 株式会社マリネックス 自動診断システム、自動診断プログラムおよび自動診断方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09140000A (ja) * 1995-11-15 1997-05-27 Nippon Telegr & Teleph Corp <Ntt> 会議用拡聴器
JP2000047699A (ja) * 1998-07-31 2000-02-18 Toshiba Corp 雑音抑圧処理装置および雑音抑圧処理方法
JP2001352530A (ja) * 2000-06-09 2001-12-21 Nippon Telegr & Teleph Corp <Ntt> 通信会議装置
JP2002091469A (ja) * 2000-09-19 2002-03-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識装置
JP2002312796A (ja) * 2001-04-09 2002-10-25 Canon Inc 主被写体推定装置、撮像装置、撮像システム、主被写体推定方法、撮像装置の制御方法、及び制御プログラムを提供する媒体
JP2003008974A (ja) * 2001-06-22 2003-01-10 Nippon Telegr & Teleph Corp <Ntt> ズーム推定方法、装置、ズーム推定プログラム、および同プログラムを記録した記録媒体
JP2003114699A (ja) * 2001-10-03 2003-04-18 Auto Network Gijutsu Kenkyusho:Kk 車載音声認識システム
JP2003270034A (ja) * 2002-03-15 2003-09-25 Nippon Telegr & Teleph Corp <Ntt> 音情報解析方法、装置、プログラム、および記録媒体
JP2004004239A (ja) * 2002-05-31 2004-01-08 Nec Corp 音声認識対話装置およびプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09140000A (ja) * 1995-11-15 1997-05-27 Nippon Telegr & Teleph Corp <Ntt> 会議用拡聴器
JP2000047699A (ja) * 1998-07-31 2000-02-18 Toshiba Corp 雑音抑圧処理装置および雑音抑圧処理方法
JP2001352530A (ja) * 2000-06-09 2001-12-21 Nippon Telegr & Teleph Corp <Ntt> 通信会議装置
JP2002091469A (ja) * 2000-09-19 2002-03-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識装置
JP2002312796A (ja) * 2001-04-09 2002-10-25 Canon Inc 主被写体推定装置、撮像装置、撮像システム、主被写体推定方法、撮像装置の制御方法、及び制御プログラムを提供する媒体
JP2003008974A (ja) * 2001-06-22 2003-01-10 Nippon Telegr & Teleph Corp <Ntt> ズーム推定方法、装置、ズーム推定プログラム、および同プログラムを記録した記録媒体
JP2003114699A (ja) * 2001-10-03 2003-04-18 Auto Network Gijutsu Kenkyusho:Kk 車載音声認識システム
JP2003270034A (ja) * 2002-03-15 2003-09-25 Nippon Telegr & Teleph Corp <Ntt> 音情報解析方法、装置、プログラム、および記録媒体
JP2004004239A (ja) * 2002-05-31 2004-01-08 Nec Corp 音声認識対話装置およびプログラム

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8144886B2 (en) 2006-01-31 2012-03-27 Yamaha Corporation Audio conferencing apparatus
JP2007208503A (ja) * 2006-01-31 2007-08-16 Yamaha Corp 音声会議装置
WO2009157195A1 (ja) * 2008-06-24 2009-12-30 パナソニック株式会社 マイクロホン装置
WO2012023268A1 (ja) * 2010-08-16 2012-02-23 日本電気株式会社 多マイクロホン話者分類装置、方法およびプログラム
US10542369B2 (en) 2011-06-09 2020-01-21 Sony Corporation Sound control apparatus, program, and control method
JP2012257076A (ja) * 2011-06-09 2012-12-27 Sony Corp 音制御装置、プログラム及び制御方法
US9055157B2 (en) 2011-06-09 2015-06-09 Sony Corporation Sound control apparatus, program, and control method
US10880466B2 (en) 2015-09-29 2020-12-29 Interdigital Ce Patent Holdings Method of refocusing images captured by a plenoptic camera and audio based refocusing image system
JP2018536365A (ja) * 2015-09-29 2018-12-06 トムソン ライセンシングThomson Licensing プレノプティック・カメラによりキャプチャされた画像をリフォーカシングする方法及びオーディオに基づくリフォーカシング画像システム
JP2021090208A (ja) * 2015-09-29 2021-06-10 インターディジタル・シーイー・パテント・ホールディングス・ソシエテ・パ・アクシオンス・シンプリフィエ プレノプティック・カメラによりキャプチャされた画像をリフォーカシングする方法及びオーディオに基づくリフォーカシング画像システム
JP7178435B2 (ja) 2015-09-29 2022-11-25 インターディジタル・シーイー・パテント・ホールディングス・ソシエテ・パ・アクシオンス・シンプリフィエ プレノプティック・カメラによりキャプチャされた画像をリフォーカシングする方法及びオーディオに基づくリフォーカシング画像システム
GB2567600A (en) * 2016-08-29 2019-04-17 Groove X Inc Autonomous behavior robot recognizing direction of sound source
WO2018043235A1 (ja) * 2016-08-29 2018-03-08 Groove X株式会社 音源の方向を認識する自律行動型ロボット
GB2567600B (en) * 2016-08-29 2022-05-04 Groove X Inc Autonomously acting robot that recognizes direction of sound source
US11376740B2 (en) 2016-08-29 2022-07-05 Groove X, Inc. Autonomously acting robot that recognizes direction of sound source
WO2021019717A1 (ja) * 2019-07-31 2021-02-04 三菱電機株式会社 情報処理装置、制御方法、及び制御プログラム
JPWO2021019717A1 (ja) * 2019-07-31 2021-11-11 三菱電機株式会社 情報処理装置、制御方法、及び制御プログラム
CN112312014A (zh) * 2020-10-23 2021-02-02 移康智能科技(上海)股份有限公司 一种声音与摄像头联动***
JP7211649B1 (ja) 2022-01-14 2023-01-24 株式会社マリネックス 自動診断システム、自動診断プログラムおよび自動診断方法
JP2023103760A (ja) * 2022-01-14 2023-07-27 株式会社マリネックス 自動診断システム、自動診断プログラムおよび自動診断方法

Similar Documents

Publication Publication Date Title
JP6520878B2 (ja) 音声取得システムおよび音声取得方法
JP4779748B2 (ja) 車両用音声入出力装置および音声入出力装置用プログラム
JP5018773B2 (ja) 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
JP6450139B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2005084253A (ja) 音響処理装置、方法、プログラム及び記憶媒体
CN110120217B (zh) 一种音频数据处理方法及装置
JP2008299221A (ja) 発話検知装置
US20060143017A1 (en) Interactive robot, speech recognition method and computer program product
JP2006030447A (ja) 音声認識システムと該音声認識システムを備える移動体及び車両
US11089404B2 (en) Sound processing apparatus and sound processing method
JP2005195895A (ja) 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置
WO2006082764A1 (en) Method and system for controlling a vehicle using voice commands
JP7326627B2 (ja) オーディオ信号処理方法、装置、機器及びコンピュータプログラム
JP5431282B2 (ja) 音声対話装置、方法、プログラム
JP2005354223A (ja) 音源情報処理装置、音源情報処理方法、音源情報処理プログラム
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
KR20240017404A (ko) 탠덤 네트워크들을 사용한 잡음 억제
US20220415337A1 (en) Acoustic crosstalk suppression device and acoustic crosstalk suppression method
JP2006243555A (ja) 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法
JP6755843B2 (ja) 音響処理装置、音声認識装置、音響処理方法、音声認識方法、音響処理プログラム及び音声認識プログラム
JP5979303B2 (ja) 音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラム
JPH11352987A (ja) 音声認識装置
JP2004318026A (ja) セキュリティペットロボット及びその装置に関する信号処理方法
JP2001188551A (ja) 情報処理装置および方法、並びに記録媒体
JP6332072B2 (ja) 対話装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080610

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081104