JP2012109643A - Sound reproduction system, sound reproduction device and sound reproduction method - Google Patents
Sound reproduction system, sound reproduction device and sound reproduction method Download PDFInfo
- Publication number
- JP2012109643A JP2012109643A JP2010254608A JP2010254608A JP2012109643A JP 2012109643 A JP2012109643 A JP 2012109643A JP 2010254608 A JP2010254608 A JP 2010254608A JP 2010254608 A JP2010254608 A JP 2010254608A JP 2012109643 A JP2012109643 A JP 2012109643A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- data
- angle
- filter
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Stereophonic System (AREA)
Abstract
Description
この発明は音再現システム、音再現装置および音再現方法に関し、特にたとえば、複数のマイクロホンを有するマイクロホンユニットと複数のラウドスピーカを有するスピーカユニットを用いた、音再現システム、音再現装置および音再現方法に関する。 The present invention relates to a sound reproduction system, a sound reproduction device, and a sound reproduction method, and in particular, for example, a sound reproduction system, a sound reproduction device, and a sound reproduction method using a microphone unit having a plurality of microphones and a speaker unit having a plurality of loudspeakers. About.
この種の従来の音再現システムの一例が非特許文献1に開示されている。この非特許文献1に開示される3次元音場通信システムでは、70ch(チャネル)のマイクロホンアレイで収録した音響データを62chのラウドスピーカで再現する音場制御(Boundary Surface Control:BoSC)再生システムを用いて、遠隔地に存在する利用者が音響空間を共有しながら会話を行うことが可能である。具体的には、予め収録し逆フィルタが畳み込まれた62chの音場データがサーバに記憶される。このサーバには、インターネットおよびLANのようなネットワークを介して、異なる場所に配置された2台のクライアントマシン(PC)が接続される。各クライアントマシンには、3次元の音場再現システムが接続されている。サーバは、利用者が選択した再現音場を双方の音場再現システム(スピーカアレイシステム)に同時に伝送する。各音場再現システムの利用者の音声に対応する音声データは、ネットワークを介して、それぞれ他方のクライアントマシンに伝送される。各クライアントマシンでは、他方の利用者の音声に対応する音声データ(1ch)が、実時間で畳み込まれた後に、音場データ(62ch)に重ね合わせて出力される。したがって、異なる場所に存在する利用者は、サーバから出力される音場データを共有するとともに、会話することができる。
An example of this type of conventional sound reproduction system is disclosed in Non-Patent
しかし、非特許文献1の3次元音場通信システムでは、各クライアントマシンでは、他方の利用者の音声に対応する音声データ(1ch)は、予め用意された音声フィルタを用いて畳み込まれた後に、音場データ(62ch)に重ね合わせて出力されるだけであるため、当該他方の利用者がどこを向いて話しているのかを再現された音声から認識することができない。したがって、背景技術の3次元音場通信システムにさらにクライアントマシンおよび音場再現システムなどを接続して、三者以上の利用者が会話する場合には、誰が誰に話し掛けているのかを、認識するのが困難である。このため、円滑に会話することができない。
However, in the three-dimensional sound field communication system of Non-Patent
それゆえに、この発明の主たる目的は、新規な、音再現システム、音再現装置および音再現方法を提供することである。 Therefore, the main object of the present invention is to provide a novel sound reproduction system, sound reproduction device and sound reproduction method.
また、この発明の他の目的は、再現された音でその音の発生者の向きを認識できる、音再現システム、音再現装置および音再現方法を提供することである。 Another object of the present invention is to provide a sound reproduction system, a sound reproduction device, and a sound reproduction method capable of recognizing the direction of the sound generator from the reproduced sound.
本発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、本発明の理解を助けるために後述する実施の形態との対応関係を示したものであって、本発明を何ら限定するものではない。 The present invention employs the following configuration in order to solve the above problems. The reference numerals in parentheses, supplementary explanations, and the like indicate correspondence relationships with embodiments described later to help understanding of the present invention, and do not limit the present invention in any way.
第1の発明は、少なくとも、複数の第1ラウドスピーカを有するスピーカアレイを備える音再現装置を複数備える、音再現システムであって、各音再現装置は、角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段、使用者の発生する音に対応する音データを検出する音検出手段、他の使用者の方向を基準として、使用者が音を発生した方向に対応する角度データを検出する角度検出手段、音検出手段によって検出された音データと角度検出手段によって検出された角度データとを他の音再現装置に送信するデータ送信手段、他の音再現装置からの音データと角度データとを受信する第1データ受信手段、第1データ受信手段によって受信された角度データが示す角度に応じた音声フィルタデータをフィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、データ受信手段によって受信された音データに畳み込み処理を施す音処理手段、および音処理手段によって畳み込み処理が施された音データをスピーカアレイに出力する音出力手段を備える、音再現システムである。 A first invention is a sound reproduction system including at least a plurality of sound reproduction devices including a speaker array having a plurality of first loudspeakers, and each sound reproduction device corresponds to an audio filter provided for each angle. Filter storage means for storing sound filter data to be performed, sound detection means for detecting sound data corresponding to sound generated by the user, and corresponding to the direction in which the user has generated sound with reference to the direction of other users Angle detection means for detecting angle data, data transmission means for transmitting sound data detected by the sound detection means and angle data detected by the angle detection means to another sound reproduction device, sound from other sound reproduction devices First data receiving means for receiving the data and angle data, and voice filter data corresponding to the angle indicated by the angle data received by the first data receiving means. Sound processing means for performing convolution processing on the sound data received by the data receiving means using the sound filter corresponding to the read sound filter data read from the filter storage means, and the sound subjected to the convolution processing by the sound processing means A sound reproduction system including sound output means for outputting data to a speaker array.
第1の発明では、音再現システム(10)では、少なくとも、複数の第1ラウドスピーカ(230)を有するスピーカアレイ(20、28、36)を備える音再現装置(18、20、26、28、34、36)を複数備える。各音再現装置は、フィルタ記憶手段、音検出手段、角度検出手段、データ送信手段、第1データ受信手段、音処理手段、および音出力手段を備える。フィルタ記憶手段は、角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶する。音検出手段は、使用者の発生する音、たとえば、当該使用者の音声や当該使用者が演奏する楽器の音に対応する音データを検出する。角度検出手段は、他の使用者の方向を基準として、使用者が音を発生した方向に対応する角度データを検出する。データ送信手段は、音検出手段によって検出された音データと角度検出手段によって検出された角度データとを他の音再現装置に送信する。第1データ受信手段は、他の音再現装置からの音データと角度データとを受信する。音処理手段は、第1データ受信手段によって受信された角度データが示す角度に応じた音声フィルタデータをフィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、第1データ受信手段によって受信された音データに畳み込み処理を施す。音出力手段は、音処理手段によって畳み込み処理が施された音データをスピーカアレイに出力する。 In the first invention, in the sound reproduction system (10), at least a sound reproduction device (18, 20, 26, 28) including a speaker array (20, 28, 36) having a plurality of first loudspeakers (230). 34, 36). Each sound reproduction device includes filter storage means, sound detection means, angle detection means, data transmission means, first data reception means, sound processing means, and sound output means. The filter storage means stores audio filter data corresponding to the audio filter provided for each angle. The sound detection means detects sound data corresponding to a sound generated by the user, for example, a sound of the user or a sound of an instrument played by the user. The angle detection means detects angle data corresponding to the direction in which the user has generated a sound with reference to the direction of another user. The data transmission means transmits the sound data detected by the sound detection means and the angle data detected by the angle detection means to another sound reproduction device. The first data receiving means receives sound data and angle data from another sound reproduction device. The sound processing means reads the sound filter data corresponding to the angle indicated by the angle data received by the first data receiving means from the filter storage means, and uses the sound filter corresponding to the read sound filter data to receive the first data The sound data received by the means is subjected to a convolution process. The sound output means outputs the sound data subjected to the convolution processing by the sound processing means to the speaker array.
第1の発明によれば、角度毎に対応する音声フィルタを記憶しておき、他の音再現装置からの音データを、同じく他の音声再現装置からの角度データが示す角度に対応する音声フィルタを用いて畳み込むので、スピーカアレイによってその角度が示す方向の音を再現することができる。このため、再現される音によってその音の発生者の向きを知ることができる。したがって、スピーカアレイのユーザは、たとえば、誰が誰に話し掛けているのかを再現された音から認識することができ、円滑に会話することができる。 According to the first invention, the sound filter corresponding to each angle is stored, and the sound data from the other sound reproduction device is stored in the sound filter corresponding to the angle indicated by the angle data from the other sound reproduction device. The sound in the direction indicated by the angle can be reproduced by the speaker array. For this reason, the direction of the sound generator can be known from the reproduced sound. Therefore, the user of the speaker array can recognize, for example, who is talking to whom from the reproduced sound, and can talk smoothly.
第2の発明は、第1の発明に従属し、音声フィルタは、或る場所において、複数のマイクロホンを有するマイクロホンアレイを所定の向きで配置し、当該マイクロホンアレイに対向するように第2ラウドスピーカを配置し、当該第2ラウドスピーカから刺激音を発生させるとともに所定角度ずつ回転させたときに、当該マイクロホンアレイによって測定されるインパルス応答に基づいて生成される。 A second invention is dependent on the first invention, and the audio filter is arranged such that a microphone array having a plurality of microphones is arranged in a predetermined direction at a certain location, and the second loudspeaker is arranged so as to face the microphone array. Is generated based on an impulse response measured by the microphone array when a stimulus sound is generated from the second loudspeaker and rotated by a predetermined angle.
第2の発明では、或る場所において、複数のマイクロホンを有するマイクロホンアレイを所定の向きで配置し、当該マイクロホンアレイに対向するように第2ラウドスピーカを配置する。つまり、マイクロホンアレイが聴者として配置され、第2ラウドスピーカが話者として配置される。そして、当該第2ラウドスピーカから刺激音を発生させるとともに所定角度ずつ回転させたときに、マイクロホンアレイによって測定されるインパルス応答が測定される。各マイクロホンで測定されたインパルス応答から伝達特性が測定され、第2ラウドスピーカの回転角度毎の音声フィルタが生成されるのである。 In the second invention, in a certain place, a microphone array having a plurality of microphones is arranged in a predetermined direction, and the second loudspeaker is arranged so as to face the microphone array. That is, the microphone array is arranged as a listener and the second loudspeaker is arranged as a speaker. Then, an impulse response measured by the microphone array is measured when a stimulation sound is generated from the second loudspeaker and rotated by a predetermined angle. The transfer characteristic is measured from the impulse response measured by each microphone, and an audio filter for each rotation angle of the second loudspeaker is generated.
第2の発明によれば、或る場所においてラウドスピーカおよびマイクロホンアレイを用いて予め測定したインパルス応答に基づいて音声フィルタを生成するので、音再現装置を使用して会話するユーザは、或る場所で会話しているような臨場感を得ることができる。 According to the second invention, the voice filter is generated based on the impulse response measured in advance using a loudspeaker and a microphone array in a certain place. You can get a sense of realism as if you were talking.
第3の発明は、第2の発明に従属し、第2ラウドスピーカは、マイクロホンアレイの正面方向から所定角度の方向に、所定距離を隔てて配置される。 A third invention is dependent on the second invention, and the second loudspeaker is arranged at a predetermined distance in a direction at a predetermined angle from the front direction of the microphone array.
第3の発明では、第2ラウドスピーカは、マイクロホンアレイの正面方向から所定の角度の方向に、所定距離を隔てて配置される。この音再現装置を用いて、たとえば、遠隔地に存在する三者間で会話する場合には、仮想の位置関係として、所定長さの辺を有する正三角形の頂点の位置に各ユーザの位置が想定される。したがって、そのような位置関係を再現するように、第2ラウドスピーカおよびマイクロホンアレイが配置されるのである。 In the third invention, the second loudspeaker is arranged at a predetermined distance in a direction at a predetermined angle from the front direction of the microphone array. For example, in the case of a conversation between three parties in a remote place using this sound reproduction device, the position of each user is at the position of the vertex of an equilateral triangle having a side of a predetermined length as a virtual positional relationship. is assumed. Therefore, the second loudspeaker and the microphone array are arranged so as to reproduce such a positional relationship.
第3の発明によれば、仮想の位置関係を再現するように、ラウドスピーカおよびマイクロホンアレイを配置するので、この位置関係で測定されたインパルス応答に基づいて生成された音声フィルタを用いた場合には、或る場所にその位置関係で会話しているような臨場感を得ることができる。 According to the third aspect of the invention, the loudspeaker and the microphone array are arranged so as to reproduce the virtual positional relationship. Therefore, when the sound filter generated based on the impulse response measured in this positional relationship is used. Can get a sense of realism as if they are talking to a certain place in that positional relationship.
第4の発明は、第1ないし第3の発明のいずれかに従属し、マイクロホンアレイは、或る音場に配置され、マイクロホンアレイによって検出された音場データを収録し、当該音場データに畳み込みの処理を施して各音再現装置に伝送するサーバをさらに備え、各音再現装置は、サーバから伝送された音場データを受信する第2データ受信手段をさらに備え、音出力手段は、第2データ受信手段によって受信された音場データを、音処理手段によって畳み込み処理が施された音データに重畳してスピーカアレイに出力する。 A fourth invention is dependent on any one of the first to third inventions, and the microphone array is arranged in a certain sound field and records sound field data detected by the microphone array, and the sound field data is recorded in the sound field data. Each of the sound reproduction devices further includes a second data receiving unit that receives sound field data transmitted from the server, and the sound output unit includes: 2 The sound field data received by the data receiving means is superimposed on the sound data subjected to the convolution processing by the sound processing means and output to the speaker array.
第4の発明では、マイクロホンアレイは、或る音場に配置される。音再現システムは、さらに、サーバ(12)を備える。このサーバは、マイクロホンアレイによって検出された音場データを収録し、当該音場データに畳み込みの処理を施して各音再現装置に伝送する。各音再現装置は、第2データ受信手段をさらに備える。第2データ受信手段は、サーバから伝送された音場データを受信する。音出力手段は、第2データ受信手段によって受信された音場データを、音処理手段によって畳み込み処理が施された音データに重畳してスピーカアレイに出力する。したがって、或る音場が再現されるとともに、他の音再現装置からの音が再現される。 In the fourth invention, the microphone array is arranged in a certain sound field. The sound reproduction system further includes a server (12). This server records the sound field data detected by the microphone array, convolves the sound field data, and transmits it to each sound reproduction device. Each sound reproduction device further includes second data receiving means. The second data receiving means receives the sound field data transmitted from the server. The sound output means superimposes the sound field data received by the second data receiving means on the sound data subjected to the convolution processing by the sound processing means and outputs the sound data to the speaker array. Accordingly, a certain sound field is reproduced, and sounds from other sound reproduction devices are reproduced.
第4の発明によれば、たとえば、音再現装置を用いて会話しているユーザは、音場を共有しながら、会話することができる。 According to the fourth aspect of the invention, for example, a user who is having a conversation using a sound reproduction device can have a conversation while sharing a sound field.
第5の発明は、第4の発明に従属し、スピーカアレイは、第1所定数の第1ラウドスピーカを有し、マイクロホンアレイは、第2所定数のマイクロホンを有し、線形独立性の高い、第1所定数よりも少ない第3所定数の第1ラウドスピーカを選択するスピーカ選択手段、および線形独立性の高い、第2所定数よりも少ない第4所定数のマイクロホンを選択するマイクロホン選択手段をさらに備え、サーバは、第4所定数のマイクロホンを用いて音場データを収録して、畳み込み処理を施し、音出力手段は、第2データ受信手段によって受信された音場データを第3所定数の第1ラウドスピーカを使用して出力する。 A fifth invention is according to the fourth invention, wherein the speaker array has a first predetermined number of first loudspeakers, the microphone array has a second predetermined number of microphones, and is highly linearly independent. Speaker selection means for selecting a third predetermined number of first loudspeakers less than the first predetermined number, and microphone selection means for selecting a fourth predetermined number of microphones less than the second predetermined number that are highly linearly independent. And the server records the sound field data using a fourth predetermined number of microphones, performs convolution processing, and the sound output means outputs the sound field data received by the second data receiving means to a third predetermined value. The number of first loudspeakers is used to output.
第5の発明では、スピーカアレイは、第1所定数の第1ラウドスピーカを有し、マイクロホンアレイは、第2所定数のマイクロホンを有している。スピーカ選択手段は、線形独立性の高い、第1所定数よりも少ない第3所定数の第1ラウドスピーカを選択する。同様に、マイクロホン選択手段は、線形独立性の高い、第2所定数よりも少ない第4所定数のマイクロホンを選択する。したがって、サーバは、第4所定数のマイクロホンを用いて音場データを収録して、畳み込み処理を施す。また、音出力手段は、第2データ受信手段によって受信された音場データを第3所定数の第1ラウドスピーカを使用して出力する。 In the fifth invention, the speaker array has a first predetermined number of first loudspeakers, and the microphone array has a second predetermined number of microphones. The speaker selecting means selects a third predetermined number of first loudspeakers that are highly linearly independent and less than the first predetermined number. Similarly, the microphone selection means selects a fourth predetermined number of microphones that are highly linearly independent and less than the second predetermined number. Therefore, the server records the sound field data using the fourth predetermined number of microphones and performs a convolution process. The sound output means outputs the sound field data received by the second data receiving means using the third predetermined number of first loudspeakers.
第5の発明によれば、使用するラウドスピーカおよびマイクロホンの数を低減するので、畳み込みの処理負荷を軽減するとともに、データの伝送量を低減することができる。したがって、リアルタイムに音場を共有したり、会話したりすることができる。また、線形独立性の高い、ラウドスピーカおよびマイクロホンをそれぞれ選択するので、それらの数を低減したとしても、臨場感を損なうことがない。 According to the fifth aspect, since the number of loudspeakers and microphones to be used is reduced, the processing load of convolution can be reduced and the amount of data transmission can be reduced. Therefore, it is possible to share the sound field or have a conversation in real time. In addition, since loudspeakers and microphones having high linear independence are respectively selected, even if the number thereof is reduced, the sense of reality is not impaired.
第6の発明は、複数のラウドスピーカを有するスピーカアレイ、角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段、使用者の発生する音に対応する音データを検出する音検出手段、他の使用者の方向を基準として、使用者が音を発生した方向に対応する角度データを検出する角度検出手段、音検出手段によって検出された音データと角度検出手段によって検出された角度データとを他の音再現装置に送信するデータ送信手段、他の音再現装置からの音データと角度データとを受信するデータ受信手段、データ受信手段によって受信された角度データが示す角度に応じた音声フィルタデータをフィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、データ受信手段によって受信された音データに畳み込み処理を施す音処理手段、および音処理手段によって畳み込み処理が施された音データをスピーカアレイに出力する音出力手段を備える、音再現装置である。 6th invention detects the sound data corresponding to the sound which the speaker array which has a several loudspeaker, the audio | voice filter data corresponding to the audio | voice filter provided for every angle, and the sound which a user produces | generates Sound detection means, angle detection means for detecting angle data corresponding to the direction in which the user has generated sound with reference to the direction of the other user, sound data detected by the sound detection means and detected by the angle detection means The angle data received by the data receiving means, the data receiving means for receiving the sound data and the angle data from the other sound reproducing apparatus, and the angle indicated by the angle data received by the data receiving means. The corresponding voice filter data is read from the filter storage means, and the voice filter data corresponding to the read voice filter data is used to Comprising a sound output means for outputting sound processing unit performs a convolution process on the sound data received by the signal unit, and sound data convolution processing is performed by the sound processing means in the loudspeaker array, a sound reproduction device.
第7の発明は、複数のラウドスピーカを有するスピーカアレイおよび角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段を備える音再現装置を複数備える、音再現システムの音再現方法であって、各音再現装置は、(a)使用者の発生する音に対応する音データを検出し、(b)他の使用者の方向を基準として、使用者が音を発生した方向に対応する角度データを検出し、(c)ステップ(a)によって検出された音データとステップ(b)によって検出された角度データとを他の音再現装置に送信し、(d)他の音再現装置からの音データと角度データとを受信し、(e)ステップ(d)によって受信された角度データが示す角度に応じた音声フィルタデータをフィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、ステップ(d)によって受信された音データに畳み込み処理を施し、そして(f)ステップ(e)によって畳み込み処理が施された音データをスピーカアレイに出力する、音再現方法である。 The seventh invention provides a sound reproduction of a sound reproduction system comprising a plurality of sound reproduction devices comprising a speaker array having a plurality of loudspeakers and filter storage means for storing sound filter data corresponding to the sound filters provided for each angle. Each of the sound reproduction devices is a method in which (a) sound data corresponding to a sound generated by a user is detected, and (b) a direction in which the user generates a sound with reference to the direction of another user. (C) transmitting the sound data detected in step (a) and the angle data detected in step (b) to another sound reproduction device, and (d) other sound data. Sound data and angle data are received from the reproduction device, and (e) audio filter data corresponding to the angle indicated by the angle data received in step (d) is read from the filter storage means and read. Using the audio filter corresponding to the output audio filter data, the sound data received in step (d) is subjected to convolution processing, and (f) the sound data subjected to the convolution processing in step (e) is applied to the speaker array. This is a sound reproduction method that is output to.
第6および第7の発明においても、再現される音によってその音の発生者の向きを知ることができる。 In the sixth and seventh inventions, the direction of the sound generator can be known from the reproduced sound.
この発明によれば、音の発生者の角度に応じた音声フィルタを用いるので、再現される音によってその音の発生者の向きを知ることができる。したがって、たとえば、異なる場所に存在する複数の人間が音再現装置を用いて会話するような場合には、誰が誰に話し掛けているのかを再現された音によって知ることができ、円滑に会話することができる。 According to the present invention, since the sound filter corresponding to the angle of the sound generator is used, the direction of the sound generator can be known from the reproduced sound. Therefore, for example, when multiple people in different places have a conversation using a sound reproduction device, it is possible to know who is talking to whom by the reproduced sound, and to have a smooth conversation Can do.
この発明の上述の目的,その他の目的,特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。 The above object, other objects, features and advantages of the present invention will become more apparent from the following detailed description of embodiments with reference to the drawings.
図1を参照して、この実施例の音場共有システム10は音再現システムとしても機能し、サーバ12を含む。サーバ12は、汎用のサーバであり、このサーバ12には、マイクロホンアレイ14が接続される。また、サーバ12は、インターネットまたはLAN或いはその両方のようなネットワーク16を介して、コンピュータ18、コンピュータ26およびコンピュータ34に接続される。コンピュータ18、26、34は、汎用のPCまたはワークステーションである。コンピュータ18には、スピーカアレイシステム20、マイクロホン22およびカメラ24が接続される。また、コンピュータ26には、スピーカアレイシステム28、マイクロホン30およびカメラ32が接続される。そして、コンピュータ34にも、スピーカアレイシステム36、マイクロホン38およびカメラ40が接続される。
Referring to FIG. 1, the sound
この図1に示す音場共有システム10は、3つのBoSC再生システム10a、10bおよび10cを含む。図1の点線枠で囲むように、BoSC再生システム10aは、サーバ12、マイクロホンアレイ14、ネットワーク16、コンピュータ18、スピーカアレイシステム20、マイクロホン22およびカメラ24によって構成される。また、図1の一点鎖線枠で囲むように、BoSC再生システム10bは、サーバ12、マイクロホンアレイ14、ネットワーク16、コンピュータ26、スピーカアレイシステム28、マイクロホン30およびカメラ32によって構成される。さらに、図1の二点鎖線枠で囲むように、BoSC再生システム10cは、サーバ12、マイクロホンアレイ14、ネットワーク16、コンピュータ34、スピーカアレイシステム36、マイクロホン38およびカメラ40によって構成される。
The sound
ただし、コンピュータ18およびスピーカアレイ20、コンピュータ26およびスピーカアレイ28、コンピュータ34およびスピーカアレイ36のそれぞれの組は、マイクロホンアレイ14で検出された音場データまたは他のBoSCシステム10a、10b、10cからの音声データ或いはそれらの両方を再現するための音再現装置として機能する。
However, each set of
図2に示すように、マイクロホンアレイ14は、球形に近い形状の骨格14aおよびこの骨格14aを支持するスタンド14bを含む。骨格14aは、C80 フラーレン(Fullerene)の構造を基に、底部の10個の頂点を切り取った70個の頂点を有している。図示は省略するが、骨格14aの表面(外面)であり、70個の頂点の各々には1個の無指向性のマイクロホンが取り付けられる。たとえば、マイクロホンとしては、DPA 4060−BMを用いることができる。スタンド14bは、支持軸140および三脚142によって構成され、支持軸140は、骨格14aの切り取った底部を通ってこの骨格14aの天井をその内側から支持している。
As shown in FIG. 2, the
なお、骨格14aは、前面側と重なる部分以外は、背面側であっても正面から見えるが、分かり易く示すために、図2では、背面側に相当する部分を点線で示してある。
The
また、図3に示すように、スピーカアレイシステム20、28、36は、楕円形のドーム部220およびこれを支える4本の柱部222を含む。この楕円形のドーム部220は、たとえば木製の4層の架台220a、220b、220c、220dによって構成される。ただし、図3では、ドーム部220の内部をその斜め下方から見た図であり、架台220dおよび柱部222についてはその一部を示してある。図示は省略するが、ドーム部220および柱部222の内部は空洞にされ、架台(220a−220d)自体が密室型エンクロージャの役割を果たす。
As shown in FIG. 3, the
また、スピーカアレイシステム20、28、36の各々には、70個のラウドスピーカ230が設置される。具体的には、架台220aには6個のフルレンジユニット(Fostex FE83E)すなわちラウドスピーカ230が設置され、架台220bには16個のラウドスピーカ230が設置され、架台220cには24個のラウドスピーカ230が設置され、そして、架台220dには16個のラウドスピーカ230が設置される。さらに、4本の柱部222の各々には、低域を補うため、2個のサブウーファーユニット(Fostex FW108N)すなわちラウドスピーカ230が設置される。
In addition, 70
このようなスピーカアレイシステム20、28、36は、それぞれ、音場再現ルーム(図示せず)内に設置される。音場再現ルームは、1.5帖の防音室であり、YAMAHAウッディボックス(遮音性能Dr−30)が用いられる。また、音場再現ルーム内には、リフト付きの椅子(図示せず)が設けられる。これは、スピーカアレイシステム20、28、36のドーム部220内であり、ラウドスピーカ230の数が最大となる架台220cの高さに、椅子に座ったユーザの耳の位置(高さ)を設定するためである。
Such
なお、マイクロホンアレイ14、およびコンピュータ(18、26、34)とスピーカアレイシステム(20、28、36)とを含む音場再現ルーム(音場再現システム)については、「1.数値解析技術と可視化・可聴化 1.7三次元音場通信システム」 榎本成悟 音響技術 No.148/Dec.2009 pp37-42に開示されているため、さらなる詳細な説明は省略することにする。
For the sound field reproduction room (sound field reproduction system) including the
たとえば、図1に示した音場共有システム10では、マイクロホンアレイ14は、オーケストラの演奏会場などの音場に配置される。サーバ12は、マイクロホンアレイ14からアンプ(図示せず)を介して入力される音場信号をディジタルの音場データに変換し、この音場データに対して逆システムの畳み込み処理を実行する。サーバ12は、畳み込み処理を実行した音場データを、ネットワーク16を介して、コンピュータ18、26および34に送信する。
For example, in the sound
コンピュータ18、26、34は、それぞれ、サーバ12からの音場データをアナログの音場信号に変換し、スピーカアレイシステム20、28、36に出力する。したがって、スピーカアレイシステム20、28、36では、上述の音場が再現される。このため、スピーカアレイシステム20、28、36を使用する各ユーザ(図示せず)は、遠隔地に存在している場合であっても、スピーカアレイシステム20、28、36を介して、たとえば演奏会場で収録した生のオーケストラを楽しむことができる。
The
また、各ユーザは、マイクロホン22、30、38を通して音声を入力することができる。マイクロホン22で検出された音声信号はコンピュータ18でディジタルの音声データに変換され、ネットワーク16を介してコンピュータ26、34に送信される。コンピュータ26は、受信した音声データと音声フィルタを畳み込み演算し、アナログの音声信号に変換して、スピーカアレイシステム28に出力する。同様に、コンピュータ34は、受信した音声データと音声フィルタを畳み込み演算し、アナログの音声信号に変換して、スピーカアレイシステム36に出力する。ただし、コンピュータ26、34は、それぞれ、音場データと音声データとを重畳し、重畳したデータ(以下、「音データ」という)をアナログの信号(以下、「音信号」という)に変換する。以下、同様である。したがって、音場が再現されるとともに、他のユーザの音声が再現される。
Each user can input sound through the
また、マイクロホン30で検出された音声信号はコンピュータ26でディジタルの音声データに変換され、ネットワーク16を介してコンピュータ18、34に送信される。コンピュータ18は、受信した音声データと音声フィルタを畳み込み演算し、アナログの音声信号に変換して、スピーカアレイシステム20に出力する。同様に、コンピュータ34は、受信した音声データと音声フィルタを畳み込み演算し、アナログの音声信号に変換して、スピーカアレイシステム36に出力する。つまり、コンピュータ18、34は、それぞれ、音場データと音声データとを重畳した音データを音信号に変換する。
Also, the audio signal detected by the
さらに、マイクロホン38で検出された音声信号はコンピュータ34でディジタルの音声データに変換され、ネットワーク16を介してコンピュータ18、26に送信される。コンピュータ18、26は、上述したように、それぞれ、受信した音声データと音声フィルタを畳み込み演算し、アナログの音声信号に変換して、スピーカアレイシステム20、28に出力する。
Further, the audio signal detected by the
したがって、スピーカアレイシステム20のユーザ、スピーカアレイシステム28のユーザ、およびスピーカアレイシステム36のユーザは、音場を共有するとともに、三者間で会話することが可能である。
Therefore, the user of the
なお、詳細な説明は省略するが、たとえば、マイクロホン22、30、38としては、ヘッドセットのマイクロホンを用いることができる。
Although a detailed description is omitted, for example, as the
また、詳細な説明は省略するが、各コンピュータ18、26、34は、他のコンピュータ18、26、34からの音声データを個別の音声フィルタを用いて畳み込む。たとえば、各コンピュータ18、26、34は、使用する通信ポートやIPアドレスによって、他のコンピュータ18、26、34を識別することが可能である。
Although not described in detail, each
ここで、BoSCの原理およびBoSCを用いた音場再現システムについて簡単に説明する。境界音場制御では、キルヒホッフ・ヘルムホルツ積分方程式(KHIE)に基づき、図4の左側に示す原音場内の領域V内の音場が、図4の右側に示す際現音場内の領域V´において再現される。ただし、領域Vを囲む境界S上の収録点rと、領域V’を囲む境界S’上の制御点r’との相対的な位置は等しいものとする。つまり、数1が成立すると仮定する。ただし、点sおよび点s’は各領域内部の任意の点である。
Here, the principle of BoSC and the sound field reproduction system using BoSC will be briefly described. In the boundary sound field control, based on the Kirchhoff-Helmholtz integral equation (KHIE), the sound field in the region V in the original sound field shown on the left side of FIG. 4 is reproduced in the region V ′ in the current sound field shown on the right side of FIG. Is done. However, the relative positions of the recording point r on the boundary S surrounding the region V and the control point r ′ on the boundary S ′ surrounding the region V ′ are equal. That is, it is assumed that
[数1]
|r−s|=|r’−s’|,s∈V,s’∈V’
このとき、内部に音源を含まない領域内の音圧p(s),p(s’)はKHIEより、数2および数3のそれぞれで示される。
[Equation 1]
| R−s | = | r′−s ′ |, s∈V, s′∈V ′
At this time, the sound pressures p (s) and p (s ′) in the region that does not include the sound source are expressed by
ただし、ωは角周波数であり、ρ0は媒質の密度であり、p(r),vn(r)はそれぞれ境界上の点rにおける音圧と法線nの方向の粒子速度であり、G(r|s)は自由空間グリーン関数である。 Where ω is the angular frequency, ρ 0 is the density of the medium, p (r) and v n (r) are the sound pressure at the point r on the boundary and the particle velocity in the direction of the normal n, respectively. G (r | s) is a free space Green's function.
ここで、数1より、数4に示す関係が成立する。さらに、数4に従って、数5が成立する。
Here, from
この数5から、原音原で収音された境界面S上の音圧と粒子速度が再現音場において等しくなるように、2次音源から信号を出力すれば、領域V内の音場が領域V’において再現されることが分かる。
From
ただし、2次音源の出力は、すべての2次音源からすべての制御点までの伝達特性を打ち消す逆フィルタと収録点で観測された信号を畳み込むことにより決定される。したがって、図4に示すような、BoSC音場再現システムを実現するためには、安定であり、かつ頑健な逆フィルタ(pinv(H))を設計することが重要になる。 However, the output of the secondary sound source is determined by convolving the inverse filter that cancels the transfer characteristics from all secondary sound sources to all control points and the signal observed at the recording point. Therefore, in order to realize a BoSC sound field reproduction system as shown in FIG. 4, it is important to design a stable and robust inverse filter (pinv (H)).
なお、逆フィルタの設計方法は、文献(S.Enomoto et al., "Three-dimensional sound field reproduction and recording systems based on boundary surface control principle", Proc. of 14th ICAD, Presentation o 16, 2008 Jun.)に詳細に開示されているため、ここでは、簡単に説明することにする。
The inverse filter design method is described in the literature (S. Enomoto et al., “Three-dimensional sound field reproduction and recording systems based on boundary surface control principle”, Proc. Of 14th ICAD,
図4に示すような、2次音源数M、制御点数Nの多チャネル−多点制御逆システム(以下、単に「逆システム」という)を周波数領域で設計する方法について簡単に説明する。ただし、逆システムとは、M×N個の逆フィルタ群の総称である。 A method for designing a multichannel-multipoint control inverse system (hereinafter simply referred to as “inverse system”) having the number M of secondary sound sources and the number N of control points as shown in FIG. 4 will be briefly described. However, the inverse system is a general term for M × N inverse filter groups.
2次音源iから制御点jまでの伝達関数をHji(ω)とし、入力信号をXj(ω)とし、そして、観測信号をPj(ω)とすると、これらの関係は、数6で表すことができる。ただし、iは2次音源番号(1、2、…、M)であり、jは制御点番号(1、2、…、N)であり、そして、W(ω)は逆システムである。 When the transfer function from the secondary sound source i to the control point j is Hji (ω), the input signal is Xj (ω), and the observation signal is Pj (ω), these relations are expressed by Equation 6. Can do. Where i is the secondary sound source number (1, 2,..., M), j is the control point number (1, 2,..., N), and W (ω) is the inverse system.
このとき、P(ω)=X(ω)とするためには、数7を満たす必要がある。ただし、+は疑似逆行列を意味する。これによって、[W(ω)]は、[H(ω)]の逆システムとして定義される。 At this time, in order to satisfy P (ω) = X (ω), Equation 7 must be satisfied. However, + means a pseudo inverse matrix. Thus, [W (ω)] is defined as the inverse system of [H (ω)].
[数7]
[W(ω)] = [H(ω)]+
ここで、正則化法が逆問題を解決する合理的な方法であることは良く知られている。これは既に音再生システムに適用されている(TOKUNO et al., "Inverse Filter of Sound Reproduction Systems Using Regularization" EIEIC TRANS. FUNDAMENTALS, Vol.E80-A, NO.5 MAY 1997など)。正則化法を用いることにより、ランク([H(ω)])=Nについての算出された逆行列[W^(ω)](表記の都合上、“^”をWの横に示してあるが、実際には数8に示すように、Wの上に記載される。以下、同じ。)は数8で与えられる。ただし、数8において、#は共役転置を意味し、−1は逆行列を意味し、β(ω)は正則化パラメータであり、IMはM×Mの単位行列である。以下、同様である。
[Equation 7]
[W (ω)] = [H (ω)] +
Here, it is well known that the regularization method is a rational method for solving the inverse problem. This has already been applied to sound reproduction systems (TOKUNO et al., “Inverse Filter of Sound Reproduction Systems Using Regularization” EIEIC TRANS. FUNDAMENTALS, Vol.E80-A, NO.5 MAY 1997, etc.). By using the regularization method, the calculated inverse matrix [W ^ (ω)] for rank ([H (ω)]) = N (“^” is shown next to W for convenience of description. Is actually written on W as shown in
一方、数7の右辺に示される、ランク([H(ω)])=Mについての逆行列[H(ω)]+は、数9として導かれる。 On the other hand, the inverse matrix [H (ω)] + for rank ([H (ω)]) = M shown on the right side of Equation 7 is derived as Equation 9.
数8および数9は、それぞれ、最小二乗解および最小ノルム解(ノルム最小型一般逆行列)として解釈される。ただし、ランク([H(ω)])=N=Mであり、[H(ω)]は特異行列(非正則行列)では無く、そして[W(ω)]=[H(ω)]−1で与えられる。また、時間領域逆フィルタ係数は、[W^(ω)]の逆離散フーリエ変換から得られる。
なお、BoSC再生システムにおいては、スピーカアレイシステム(20、28、36)のラウドスピーカ230の配置およびマイクロホンアレイ14のマイクロホンの配置は、空間サンプリングに影響を及ぼす。
In the BoSC playback system, the arrangement of the
数8および数9においては、適切な正則化パラメータβ(ω)が選択されることにより、逆システムの不安定性を緩和する(取り除く)ことができる。この実施例では、正則化パラメータβ(ω)は、各オブターブの周波数帯域で定義される。さらに、逆フィルタは、予め防音室でそれぞれのラウドスピーカ230とマイクロホンアレイ14の各マイクロホンとの組の間で測定されたインパルス応答を使用することによって、計算された。測定されたインパルス応答を使用したため、環境の変化によって引き起こされた変動には追従しなかった。ただし、変動する実際の環境においては、MIMO(Multiple-Input Multiple-Output)の適応型の逆フィルタをBoSC再生システムに適用することができる。
In the equations (8) and (9), the instability of the inverse system can be reduced (removed) by selecting an appropriate regularization parameter β (ω). In this embodiment, the regularization parameter β (ω) is defined in the frequency band of each object. Furthermore, the inverse filter was calculated by using the impulse response measured in advance between each
ここで、図1−図3に示したマイクロホンアレイ14およびスピーカアレイシステム20、28、36をそのまま使用する場合には、サーバ12における処理負荷がかなり大きい。具体的には、マイクロホンアレイ14が70chであり、スピーカアレイシステム20、28、36が62chであるため、サーバ12は、マイクロホンアレイ14の各マイクロホンの音場信号(音場データ)と、逆システムとの畳み込み処理を62×70回行う必要があり、また、各回の畳み込み処理は、逆システムのタップ数(この実施例では、2048ポイント×2タップ=4096)分実行する必要がある。
Here, when the
また、伝送する音場データの量(データ量)が膨大であるため、各クライアント(コンピュータ18、26、34)において、約45Mbpsの帯域を必要とする。
Also, since the amount of sound field data to be transmitted (data amount) is enormous, each client (
さらに、コンピュータ18、26、34によって、ユーザの音声に対応する音声データと音声フィルタを畳み込み演算する場合にも、70chをフルに使用する場合には、処理負荷が比較的大きくなってしまう。
Furthermore, even when the
したがって、サーバ12からコンピュータ18、26、34に音場データをリアルタイムに送信するのは困難であり、当然のことながら、スピーカアレイシステム20、28、36を使用するユーザがリアルタイムにオーケストラ等を楽しむことも困難である。つまり、リアルタイムに音場を共有することができない。また、リアルタイムに会話することもできない。
Therefore, it is difficult to transmit the sound field data from the
これを回避するため、たとえば、マイクロホンアレイ14で使用するマイクロホンの数やスピーカアレイシステム20、28、36で使用するラウドスピーカ230の数を減らすことにより、畳み込み処理の処理負荷および伝送するデータ量を低減することが考えられる。しかし、使用するマイクロホンおよびラウドスピーカ230の数を単に減らせば良いということでは無く、再現される音場の臨場感を損なわない必要がある。
In order to avoid this, for example, by reducing the number of microphones used in the
そこで、この実施例では、臨場感を損なうことなく、使用するマイクロホンおよびラウドスピーカ230を低減するようにしてある。
Therefore, in this embodiment, the number of microphones and
この実施例では、まず、グラムシュミットの直交化法を用いて、70chのマイクロホンアレイ14を用いた場合に、スピーカアレイシステム22で使用するラウドスピーカ230が抽出(選出)される。そして、選出されたラウドスピーカ230を用いる場合に、グラムシュミットの直交化法を用いて、マイクロホンアレイ14で使用するマイクロホンが抽出(選出)される。
In this embodiment, first, the
詳細な説明は省略するが、使用するラウドスピーカ230およびマイクロホンの抽出(選出)は、サーバ12、コンピュータ18、26、34または図示しない別のコンピュータを用いて実行することができる。
Although detailed description is omitted, extraction (selection) of the
ここでは、単一の周波数について、グラムシュミットの直交化法を使用することでラウドスピーカ230を選択する場合の基本的なアルゴリズムを説明する。N×Mに含まれるN次元の縦ベクトルからの線形独立性が低ければ、行列式は悪い状態であると言われる。[H(ω)]において線形独立性の劣化は、BoSC再生システム10a、10b、10cの不安定性を引き起こす。ここで、数6に示した[H(ω)]は、数10のように書くことができる。
Here, a basic algorithm in the case of selecting the
[数10]
P(ω) = [H(ω)]Y(ω)
= {h1(ω),…,hM(ω)}Y(ω)
ただし、Y(ω)=[W(ω)]X(ω)およびhi(ω)は、[H(ω)]に含まれるN次元の縦ベクトルである。この縦ベクトルh(ω)は、周波数ωにおける、或るラウドスピーカ230とマイクロホンアレイ14の各々のマイクロホンとの間の伝達関数である。それゆえに、グラムシュミットの直交化法を用いたラウドスピーカ230の選択は、[H(ω)]から高い線形独立を有する縦ベクトルh(ω)の組を選択することを意味する。以下、グラムシュミットの直交化法のアルゴリズムについて簡単に説明することにする。
[Equation 10]
P (ω) = [H (ω)] Y (ω)
= {h 1 (ω),…, h M (ω)} Y (ω)
However, Y (ω) = [W (ω)] X (ω) and h i (ω) are N-dimensional vertical vectors included in [H (ω)]. This vertical vector h (ω) is a transfer function between a
ラウドスピーカ230を選択するn番目のステップにおいては、既にn−1個のラウドスピーカ230が選択されている。[H]に含まれる縦ベクトルの集合は、τ={h1,…,hM}で示される。Sn−1は、n−1番目のステップまでに選択されたベクトルの部分集合を示し、τn−1は、n−1番目のステップまでに未使用のベクトルの部分集合を示す。vn−1={v1,…,vn−1}は、部分集合Sn−1によって張られる平面の正規直交基底を示す。
In the n-th step of selecting the
たとえば、最初のステップでは、すべてのラウドスピーカ230のうちの1つのラウドスピーカ230が基準ラウドスピーカ230として選択され、基準ラウドスピーカ230以外のすべてのラウドスピーカ230が評価対象のラウドスピーカ230(評価対象ラウドスピーカ230)として選択される。後述するように、グラムシュミットの直交化法により、基準ラウドスピーカ230との関係において、複数の評価対象ラウドスピーカ230から1の評価対象ラウドスピーカ230が選択される。次のステップでは、同じくグラムシュミットの直交化法により、最初に選択された基準ラウドスピーカ230および先のステップで選択された評価対象ラウドスピーカ230との関係において、残りの複数の評価対象ラウドスピーカ230から1の評価対象ラウドスピーカ230が選択される。つまり、このステップでは、先のステップで選択された評価対象ラウドスピーカ230は、基準ラウドスピーカ230と言える。これが繰り返されるのである。
For example, in the first step, one of the
ただし、低域を補う8個のラウドスピーカ230は、基準ラウドスピーカ230や評価対象ラウドスピーカ230の対象外である。
However, the eight
図5は、部分集合Sn−1によって張られた平面の一例である。n番目のステップでは、部分集合Sn−1によって張られた平面に対するhn^(数11に示すように、実際には“^”はhの上に表記される。以下、同じ。)の垂直成分が最大となるように、hn^が選択される。部分集合τn−1に含まれる任意のベクトルhiの垂直成分riは数11で表される。 FIG. 5 is an example of a plane spanned by the subset S n−1 . In the n-th step, h n ^ for the plane stretched by the subset S n−1 (in fact, “^” is written on h as shown in Equation 11. The same applies hereinafter). H n ^ is selected so that the vertical component is maximized. A vertical component r i of an arbitrary vector h i included in the subset τ n−1 is expressed by Equation 11.
[数11]
ri = zi - p
ただし、pは部分集合Sn−1によって張られた平面上の投影(射影)を示す。n番目のラウドスピーカ230は、たとえば数12で示される、垂直成分riのノルムが最大となるように決定される。
[Equation 11]
r i = z i -p
Here, p represents a projection (projection) on a plane stretched by the subset S n−1 . The n-
ただし、評価指標の値であるJ(hi)は数13で定義される。 However, J (h i ), which is the value of the evaluation index, is defined by Equation 13.
[数13]
J(hi) = ||ri||
hi^の垂直成分がrn^(実際には“^”の記号はrの上に表記される。以下、同じ。)として示される場合には、n番目の正規直交ベクトルvnは数14に従って決定される。
[Equation 13]
J (h i ) = || r i ||
If the vertical component of h i ^ is indicated as r n ^ (actually, the symbol “^” is written on r. The same applies hereinafter), the nth orthonormal vector v n is a number. 14 is determined.
n番目のステップで最大化された評価指標の値Jn^(実際には“^”の記号はJの上に表記される。以下、同じ。)は数15で示される。
The evaluation index value J n ^ maximized in the n-th step (actually, the symbol “^” is written on J. The same applies hereinafter) is expressed by
このような数11−数15に従う処理は、評価指標の値Jn^が予め設定された閾値Jthr^よりも小さくなるまで繰り返される。ただし、周波数帯域[ωl,ωh]について、2つの評価指標の値が数16に従って求められる。
Such processing according to Equation 11 to
ただし、hi ̄={hi(ωl),…,hi(ωh)}であり(実際には、数16に示すように、“ ̄”はhの上に表記される。)、Kは離散周波数ωkの数であり、akは離散周波数ωkに対する任意の重み係数を示す。垂直成分ri(ωk)と正規直交ベクトルvi(ωk)は、単一の周波数の場合と同様に、離散周波数毎に分離して求められる。最適化処理では、評価指標の値Javgは最大化される。一方、評価指標の値Jminは最適化処理の終了判定に用いられる。つまり、Jmin^<Jthr^となったときにラウドスピーカ230の選択を終了する。
However, h i  ̄ = {h i (ω l ),..., H i (ω h )} (in practice, “ ̄” is written on h as shown in Equation 16). , K is the number of discrete frequencies ω k and a k is an arbitrary weighting factor for the discrete frequency ω k . The vertical component r i (ω k ) and the orthonormal vector v i (ω k ) are obtained separately for each discrete frequency as in the case of a single frequency. In the optimization process, the evaluation index value J avg is maximized. On the other hand, the evaluation index value J min is used to determine the end of the optimization process. That is, selection of the
ただし、最適化処理については、文献(Asano, Suzuki, and Swanson " Optimization of control source configuration in active control systems using Gram-Schmidt orthogonalization", Speech and Audio Processing, IEEE Transactions on, Mar. 1999)に開示されている。 However, optimization processing is disclosed in the literature (Asano, Suzuki, and Swanson "Optimization of control source configuration in active control systems using Gram-Schmidt orthogonalization", Speech and Audio Processing, IEEE Transactions on, Mar. 1999). Yes.
この文献においては、評価指標の値が閾値以上(Jmin^≧Jthr^)である場合には、ラウドスピーカ230の選択は継続される。しかし、適切な閾値を決定する方法は確認されていない。したがって、この実施例では、音場共有システム10において、リアルタイムに音場を共有することができるスピーカアレイシステム(20、28、36)のラウドスピーカ230の最大数とマイクロホンアレイ14のマイクロホンの最大数とを検証した。そして、グラムシュミットの直交化法を使用することで、最大数までのラウドスピーカ230の番号(配置位置)を決定した。
In this document, when the value of the evaluation index is equal to or greater than the threshold (J min ^ ≧ J thr ^), the selection of the
ここで、上述したように、グラムシュミットの直交化法では、スピーカ位置は、それ以前に選択されたスピーカ位置に基づいて決定されるため、その選択結果は、1番目に選択されるスピーカ位置に強い影響を及ぼされる。 Here, as described above, in the Gram Schmidt orthogonalization method, the speaker position is determined based on the speaker position previously selected, and therefore, the selection result is the first selected speaker position. Has a strong influence.
たとえば、使用するラウドスピーカ230の個数を、半数程度(32個)、3分の1程度(24個)、4分の1程度(16個)に削減する場合について検討した。図6は、24個のラウドスピーカ230が選択された(24ステップの選択処理を実行した)場合の評価指標の値Javg,Jminの変化である。図6において、横軸は最初に選択されたラウドスピーカ230(基準ラウドスピーカ230)のスピーカ位置(図10参照)を示し、縦軸は評価値(dB)を示す。ただし、2本の実線のうち、細い実線が評価指標の値Javgを示し、細い実線が評価指標の値Jminの変化を示す。
For example, the case where the number of the
詳細な説明は省略するが、たとえば、最初に選択される基準ラウドスピーカ230は「1」番(図7参照)から順次変化(2、3、…、62)され、それぞれの場合について、選択された24個のスピーカ位置(ラウドスピーカ230の番号)の組が選択されるとともに、各組について評価指標の値Javg,Jminが算出される。ただし、選択された24個のスピーカ位置(ラウドスピーカ230の番号)の組と、各組について算出された評価指標の値Javg,Jminは、上述したコンピュータのメモリ(図示は省略するが、ハードディスクやRAM)に記憶される。そして、後述するように、複数の組のうち、評価指標の値Javg,Jminが所定の条件を満たす一組が選択される。したがって、選択された一組の24個のラウドスピーカ230を用いて音場が再現されるのである。
Although detailed explanation is omitted, for example, the
また、自由空間グリーン関数は、スピーカアレイシステム(20、28、36)の各ラウドスピーカ230とマイクロホンアレイ14のマイクロホンとの間の伝達関数を得るのに使用された。後述する刺激のための上限周波数は、ここでは制限されなかった。しかし、ラウドスピーカ230の構成(設定)は、20Hzから1kHzまでの範囲を、20Hz毎の周波数で決定された。図示は省略するが、上限周波数が制限されない場合には、上側の層(架台220a、架台220b)に配置されたラウドスピーカ230が、多く選択された。ラウドスピーカ230が全く無い方向から来る波面を統合するのは立体音の再生系においては困難である。したがって、ラウドスピーカ230は、マイクロホンアレイ14に囲まれるあらゆる可能な方向に位置されるべきである。
The free space Green function was also used to obtain the transfer function between each
上述したように、図6には、ラウドスピーカ230について、24ステップ(回)の選択処理を実行した場合の評価指標の値Javg,Jminを折れ線で示したグラフである。この図6からも分かるように、スピーカ位置が「60」(図7参照)であるラウドスピーカ230を最初に選択し、全部で24個のラウドスピーカ230を選択した場合の評価指標の値Javg,Jminが最大である。
As described above, FIG. 6 is a graph showing the evaluation index values J avg and J min in a broken line when the selection process of 24 steps (times) is performed for the
この実施例では、複数の組(この実施例では、62個の組)のうち、評価指標の値Javg,Jminが所定の条件を満たす一組の24個のラウドスピーカ230が選択される。具体的には、評価指標の値Javgが最大である組が選択される。ただし、評価指標の値Javgが最大である組についての評価指標の値Jminが極端に低い場合には、線形独立性の低い周波数が存在するため、評価指標の値Javgが最大であっても、選択するのは適切ではない。正しく音場を再現できないと考えられるからである。かかる場合には、次に評価指標の値Javgが大きい組が選択される。ただし、次に評価指標の値Javgが大きい組についての評価指標の値Jminが極端に低い場合には、その次に評価指標の値Javgが大きい組が選択される。それ以降も同様である。たとえば、評価指標の値Jminが極端に低いかどうかについては、予め設定された閾値によってコンピュータは判断する。この閾値は、音場共有システム10の開発者ないし使用者が設定する値である。ただし、図示は省略するが、選択するラウドスピーカ230の個数が増えるに従って、評価指標の値Javg,Jminは次第に低下するため、選択するラウドスピーカ230の個数に応じて、閾値も可変的に設定する必要がある。
In this embodiment, among a plurality of sets (62 sets in this embodiment), a set of 24
予備試験の結果では、サーバ12およびコンピュータ18、26、34の性能およびネットワーク16を含む通信速度の制約から、[W(ω)]における要素の数がM×N=192以内で、スピーカアレイシステム(20、28、36)のラウドスピーカ230の数(M)およびマイクロホンアレイ14のマイクロホンの数(N)が決定されるべきであることが示された。したがって、上述したように、ラウドスピーカ230の数(M)を「24」に決定したため、選択されるマイクロホンの数(N)は最大で「8」である。
As a result of the preliminary test, the number of elements in [W (ω)] is within M × N = 192 due to the performance of the
ただし、この実施例では、サーバ12およびコンピュータ18、26、34のCPU(図示せず)はXeon(登録商標) QuadCore×2であり、メモリ(図示せず)は4GBである。また、サーバ12には、オペレーティングシステムとして、Windows(登録商標) XP 64bitが採用された。また、サーバ12とコンピュータ18、26、34とを結ぶネットワーク16としては、超高速・高機能研究開発テストベッドネットワーク(JGN2plus:1Gbps)およびLAN(100Mbps)が用いられた。
However, in this embodiment, the CPU (not shown) of the
なお、図示は省略するが、予備実験においては、サーバ12とコンピュータ18とは、上述のLANを用いて接続され、サーバ12とコンピュータ26、34とは、上述のJGN2plusおよびLANを用いて接続される。
Although not shown, in the preliminary experiment, the
図7(A)および(B)には、上述したように、スピーカ位置が「60」のラウドスピーカ230が最初に選択し、全部で24個のラウドスピーカ230を選択した場合の24個のラウドスピーカ230の位置の分布が示される。図7(A)は、ラウドスピーカ230の配置を真上から見た場合の模式図であり、図7(B)は、ラウドスピーカ230の配置を真横から見た場合の模式図である。つまり、図7(A)は、ラウドスピーカ230の水平方向の分布を示し、図7(B)は、ラウドスピーカ230の垂直方向の分布を示す。
In FIGS. 7A and 7B, as described above, the
図7(B)からも分かるように、図7(A)に示す分布においては、スピーカ位置が中央に向かうに従って高さ方向(Z方向)の値は大きくなる。つまり、架台220aに設けられたラウドスピーカ230のスピーカ位置は、「1」−「6」である。また、架台220bに設けられたラウドスピーカ230のスピーカ位置は、「7」−「22」である。さらに、架台220cに設けられたラウドスピーカ230のスピーカ位置は、「23」−「46」である。そして、架台220dに設けられたラウドスピーカ230のスピーカ位置は、「47」−「62」である。
As can be seen from FIG. 7B, in the distribution shown in FIG. 7A, the value in the height direction (Z direction) increases as the speaker position moves toward the center. That is, the loudspeaker positions of the
なお、低域を補うために、4本の柱部222に設けられた8個のラウドスピーカ230は選択の対象では無いため、図7(A)および(B)には示されていない。
In order to compensate for the low frequency, the eight
また、図7(A)および(B)では、Y軸のマイナス方向がユーザの顔が向く前方であり、Y軸のプラス方向がユーザの後頭部の向く後方である。さらに、図7(A)に示すように、X軸のマイナス方向がユーザの右方であり、X軸のプラス方向がユーザの左方である。そして、図7(B)に示すように、Z軸のマイナス方向がユーザの耳の位置からの下方であり、Z軸のプラス方向がユーザの耳の位置からの上方である。 In FIGS. 7A and 7B, the negative direction of the Y axis is the front toward the user's face, and the positive direction of the Y axis is the rear toward the back of the user. Further, as shown in FIG. 7A, the minus direction of the X axis is the right side of the user, and the plus direction of the X axis is the left side of the user. As shown in FIG. 7B, the minus direction of the Z axis is below the position of the user's ear, and the plus direction of the Z axis is above the position of the user's ear.
図7(A)においては、最初に選択されたラウドスピーカ230のスピーカ位置を示す丸印(「60」が記載された丸印)に網掛模様が付される。また、これに続いて、グラムシュミットの直交化法に基づく繰り返しの結果として選ばれたラウドスピーカ230のスピーカ位置を示す丸印(ここでは、「1」−「6」、「7」、「9」、「11」、「13」、「15」、「17」、「19」、「21」、「23」、「31」、「35」、「48」、「51」、「54」、「56」、「58」、「62」が記載された丸印)に斜線模様が付されている。さらに、模様が付されていない丸印は、選択されなかったラウドスピーカ230のスピーカ位置を示す。
In FIG. 7 (A), a circle pattern indicating a speaker position of the first selected loudspeaker 230 (a circle having “60” written thereon) is given a shaded pattern. Further, following this, a circle indicating the speaker position of the
また、図7(B)においては、配置されるラウドスピーカ230のZ方向の位置に応じて、異なる図形(円、三角形、四角形、菱形)を示してある。また、図7(B)では、最初に選択されたラウドスピーカ230のスピーカ位置は、黒色を付した図形の位置で示される。そして、図7(B)では、2番目以降に選択されたラウドスピーカ230のスピーカ位置は、灰色を付した図形の位置で示される。
Further, in FIG. 7B, different figures (circle, triangle, quadrangle, rhombus) are shown depending on the position of the arranged
図7(A)および(B)からは、各方向と高さに分布されたラウドスピーカ230が規則的に観測される。図7(A)に示すように、ラウドスピーカ230の分布を真上から平面的に見た場合には、縦方向および横方向のそれぞれにおいて、選択されたラウドスピーカ230が略対称に分布していることが分かる。このことは、図7(B)に示すように、ラウドスピーカ230の分布を真横から平面的に見た場合も同様である。
7A and 7B, the
また、スピーカアレイシステム(20、28、36)のラウドスピーカ230とマイクロホンアレイ14のマイクロホンとの構成を入れ替えることによって、上述したグラムシュミットの直交化法を適用することにより、マイクロホンを選択した。ただし、グラムシュミットの直交化法を用いた選択方法については既に説明したため、重複した説明は省略することにする。
In addition, the microphones were selected by applying the Gramschmitt orthogonalization method described above by switching the configuration of the
図8は、図7(A)および(B)に示した24個のラウドスピーカ230の配列に対して、選択された8個のマイクロホンの配列を示す。図示は省略するが、マイクロホンの位置は、ラウドスピーカ230のスピーカ位置と同様に、番号が割り当てられている。図8では少し分かり難いが、XY平面を真上から平面的に見た場合には、選択されたマイクロホンはすべての方向に均等に分布している。
FIG. 8 shows an array of eight selected microphones with respect to the array of 24
このように、グラムシュミットの直交化法を使用することによって、マイクロホンおよびラウドスピーカ230の数を低減するようにしたが、この低減による影響を評価するために、水平面の音源定位テストが行われた。この音源定位テストの方法および評価結果については、発明者等によって2010年8月に公開された「Optimization of loudspeaker and microphone configurations for sound reproduction system based on boundary surface control principle - An optimizing approach using Gram-Schmidt orthogonalization and its evaluation -」に開示されているため、その説明は省略することにする。上述したように、この音源定位テストの結果、ラウドスピーカ230の個数が24個に決定され、サーバ12等の性能および通信速度の制約によって、マイクロホンの個数が8個に決定される。
In this way, the number of microphones and
詳細な説明は省略するが、選択されたマイクロホンで検出された音場信号がマイクロホンアレイ14からサーバ12に与えられる。このとき、選択されていないマイクロホンは不能化される。つまり、サーバ12は、選択されていないマイクロホンからの音場信号を検出しない。一方、コンピュータ18、26、34は、選択されたラウドスピーカ230のみに、音場データや音声データを出力する。
Although a detailed description is omitted, the sound field signal detected by the selected microphone is supplied from the
上述したように、この実施例では、各スピーカアレイシステム20、28、36では、他のユーザが発生した音声に対応する音声データは音場データとともに出力(再現)される。したがって、話者の顔の向きを何ら考慮せずに、コンピュータ18、26、34で、他のコンピュータ18、26、34から受信した音声データと音声フィルタを畳み込んだだけでは、誰が誰に向かって話し掛けているのかを認識するのが困難である。たとえば、話者が自分の名前と聴者(相手)の名前とを毎回発話することも考えられるが、自然な会話とは言えない。
As described above, in this embodiment, in each
したがって、この実施例では、話者の顔の向き(発話の方向)を考慮した音声フィルタを用いるようにしてある。簡単に言うと、音響信号(この実施例では、音声信号)の伝達特性を考慮した音声フィルタが用いられる。 Therefore, in this embodiment, an audio filter that takes into account the direction of the speaker's face (the direction of speech) is used. In short, an audio filter that takes into account the transfer characteristics of an acoustic signal (in this embodiment, an audio signal) is used.
図3では省略したが、図1に示したように、BoSC再生システム10a、10b、10cは、それぞれ、カメラ24、32、40を有している。図9に示すように、カメラ24は、スピーカアレイシステム20を使用するユーザが正面を向いた状態で、そのレンズ(撮影方向)が対向するように、当該スピーカアレイシステム20の架台220dに取り付けられる。
Although omitted in FIG. 3, the
なお、図9では、上述のように選択した24個のラウドスピーカ230がユーザの周囲を均等に囲むように模式的に示してある。
In FIG. 9, the 24
また、カメラ24と同様に、カメラ32、40は、それぞれ、スピーカアレイシステム28、36の架台220dに取り付けられる。
Similarly to the
さらに、上述したように、ユーザは、ヘッドセットのマイクロホン22、30、38を装着してある。これは、ラウドスピーカ230から出力される音がマイクロホン22、30、38で検出されるのを出来る限り防止して、ユーザが発生する音声のみを検出するようにするためである。
Further, as described above, the user is wearing
コンピュータ18、26、34は、各々に接続されたカメラ24、32、40で撮影された映像(顔画像)を解析することにより、ユーザの顔の向き、すなわち正面方向に対する顔の角度を求める。顔画像から顔の向き等を求める方法は、既に周知であるため、その説明は省略するが、たとえば、特開平10−274516号に開示の技術を用いることができる。
The
ただし、他のコンピュータ18、26、34に送信される角度データは、他のユーザ(聴者)の位置を基準とした場合の自身のユーザ(話者)の顔の向きについての角度である。したがって、顔画像から顔の向きを求めた後に、他のユーザの位置(方向)を基準(0°)とした場合の角度に変換される。
However, the angle data transmitted to the
このように検出された角度を、再現する音声に反映させるために、音声の伝達特性が検出され、上述したように、この伝達特性を考慮した音声フィルタが用いられる。この実施例では、音声の伝達特性を検出するのであるが、簡単のため、音再現システム10を利用する三者が、或る空間において、各辺が所定長さ(2m)を有する正三角形の頂点の位置に存在すると仮定してある。
In order to reflect the detected angle in the reproduced sound, the transfer characteristic of the sound is detected, and as described above, the sound filter considering the transfer characteristic is used. In this embodiment, sound transfer characteristics are detected, but for simplicity, the three parties using the
つまり、図10に示すように、ユーザA、B、Cは、辺の長さが2mの正三角形の頂点の位置に存在し、各ユーザA、B、Cの正面方向は、頂点から当該頂点に対向する辺に垂下する方向に設定される。したがって、この仮想の位置関係においては、ユーザAがユーザBに話し掛ける場合には、ユーザAは正面方向から右に30°の方向を向いて発話する。また、ユーザAがユーザCに話し掛ける場合には、ユーザAは正面方向から左に30°の方向を向いて発話する。説明は省略するが、ユーザBおよびユーザCについても同様である。 That is, as shown in FIG. 10, the users A, B, and C exist at the positions of the vertices of an equilateral triangle whose side length is 2 m, and the front direction of each user A, B, and C is from the vertex to the corresponding vertex. It is set in a direction depending on the side opposite to. Therefore, in this virtual positional relationship, when the user A speaks to the user B, the user A speaks in the direction of 30 ° to the right from the front direction. Further, when the user A talks to the user C, the user A speaks in the direction of 30 ° to the left from the front direction. Although the description is omitted, the same applies to user B and user C.
この仮想の位置関係を再現するべく、或る場所において、音声の伝達特性を検出した。図11は、音声の伝達特性を検出した環境を真上から見た図である。図11に示す或る場所は、小会議室であり、横が10mで縦が3.9mの長方形状を有している。ただし、図11からも分かるように、小会議室は、長方形の左上部において、内側に少し凹んでいる。 In order to reproduce this virtual positional relationship, sound transmission characteristics were detected at a certain place. FIG. 11 is a view of the environment in which the sound transfer characteristic is detected as seen from directly above. A certain place shown in FIG. 11 is a small meeting room having a rectangular shape with a width of 10 m and a length of 3.9 m. However, as can be seen from FIG. 11, the small meeting room is slightly recessed inward in the upper left corner of the rectangle.
また、小会議室には、音声の伝達特性を検出するためのラウドスピーカ50およびマイクロホンアレイ52が配置される。ラウドスピーカ50としては、たとえば、人間が発生する音声に近似する音を再現可能なスピーカ(YAMAHA MSP−3)が用いられる。また、マイクロホンアレイ52としては、上述したマイクロホンアレイ14と同じものが用いられる。ただし、音再現システム10に用いられる場合と音声の伝達特性の検出に用いられる場合とを区別するために、異なる参照符号を付してある。
In the small conference room, a
図11からも分かるように、マイクロホンアレイ52は、小会議室の下側の壁際の中央に配置される。ラウドスピーカ50は、マイクロホンアレイ52の正面方向を真上方向とした場合に、左に30°回転した方向であり、ラウドスピーカ50の正面がマイクロホンアレイ52に向いたときに、その正面とマイクロホンアレイ52の中心との距離が2mになる位置に配置される。そして、ラウドスピーカ50は、その位置で15°刻みで、一周(360°)回転される。15°毎に、ラウドスピーカ50から刺激としてスイープ音を出力し、そのときマイクロホンアレイ52の各マイクロホンm(m=1,2,…,M)で検出されるインパルス応答を伝達特性Hang[m]として検出する。ただし、この実施例では、上述したように、M=70である。また、angは、音源の指向性を模擬する角度であり、上述した使用者A、B、Cの正面方向に対する角度である。ただし、この実施例では、ラウドスピーカ50は、左回り(反時計回り)に15°刻みで回転される。さらに、スイープ音には、Time Stretched Pulse法を用いて作成した24kHzまでの信号を用いた。また、この小会議室の残響時間は、約0.6秒である。
As can be seen from FIG. 11, the
なお、15°刻みでラウドスピーカ50を回転させるのは、人間の聴覚によって識別可能な角度が20°程度だからである。
The reason why the
つまり、図11に示す場合には、ラウドスピーカ50が話者であり、マイクロホンアレイ52の内部の中心に聴者の頭部(耳の高さ)が来るように当該聴者が存在するものとして、伝達特性が測定されるのである。したがって、図10に示したような仮想の位置関係において、すべての場合について、伝達特性Hang[m]を検出するためには、ラウドスピーカ50とマイクロホンアレイ52の配置位置を逆にしたり、ラウドスピーカ50を点線で示す位置(マイクロホンアレイ52の正面方向から右に30°回転した位置)に移動させたり、点線で示すラウドスピーカ50とマイクロホンアレイ52との配置位置を逆にしたりして、伝達特性Hang[m]を測定する必要がある。ただし、この実施例では、簡単のため、図11に実線で示したラウドスピーカ50とマイクロホンアレイ52との配置位置でのみ、伝達特性Hang[m]を測定し、これを各コンピュータ18、26、34で使用するようにしてある。
That is, in the case shown in FIG. 11, it is assumed that the
ここで、図12には、マイクロホンアレイ52の或るマイクロホンで検出されたインパルス応答(後述する「減衰されたインパルス応答」と区別するために、ここでは「元のインパルス応答」という)の波形が点線で示される。この元のインパルス応答では、初期反射音と後期反射音とを含んでいる。上述したように、図11で示したような小会議室では、残響時間があるため、減衰するのに時間がかかってしまい、これを正しく再現するためには、逆フィルタの長さが2048ポイントを超えてしまう。これでは、リアルタイムでの処理を実現できなくなってしまう。したがって、この実施例では、ハニング窓を用いることにより、逆フィルタの長さが2048ポイントを超えないようにしてある。ハニング窓を用いることによって減衰されたインパルス応答は、図12において、実線で示される。ただし、ハニング窓は、各マイクロホンで記録されるインパルス応答の直接音をその中央に有している。また、図12から分かるように、この減衰されたインパルス応答は、初期反射音を十分含んでいて、後期反射音を何ら含んでいない。しかし、減衰されたインパルス応答に基づく伝達特性Hang[m]を用いた場合であっても、図11で示した小会議室でユーザが会話しているように、話者と聴者との位置関係をほぼ正確に再現することができる。 Here, FIG. 12 shows a waveform of an impulse response detected by a certain microphone of the microphone array 52 (here, referred to as “original impulse response” in order to be distinguished from “attenuated impulse response” described later). Indicated by dotted lines. This original impulse response includes early reflections and late reflections. As described above, in the small conference room as shown in FIG. 11, since there is a reverberation time, it takes time to attenuate, and in order to reproduce this correctly, the length of the inverse filter is 2048 points. Will be exceeded. This makes it impossible to realize real-time processing. Therefore, in this embodiment, the Hanning window is used so that the length of the inverse filter does not exceed 2048 points. The impulse response attenuated by using the Hanning window is shown as a solid line in FIG. However, the Hanning window has a direct sound of an impulse response recorded by each microphone at its center. Further, as can be seen from FIG. 12, this attenuated impulse response sufficiently includes the early reflection sound and does not include any late reflection sound. However, even when the transfer characteristic H ang [m] based on the attenuated impulse response is used, the positions of the speaker and the listener are as if the user is speaking in the small conference room shown in FIG. The relationship can be reproduced almost accurately.
図示は省略するが、各コンピュータ18、26、34では、メモリ(ハードディスクやRAM)に伝達特性Hang[m]に対応するデータ(伝達特性データ)が記憶される。したがって、コンピュータ18、26、34は、他のコンピュータ18、26、34から送信される角度データが示す角度angに応じた伝達特性データを読み出し、読み出した伝達特性データに対応する伝達特性Hang[m]を考慮した音声フィルタを用いて音声信号を再現する。したがって、指向性を有する音声が再現される。
Although illustration is omitted, in each of the
ここで、具体的に説明する。単一のマイクロホン22(30、38)で収録された音響信号(この実施例では、ユーザが発生した音声に対応する音声信号)をSとする。また、BoSC再生システム内の2次音源スピーカs(s=1,2,…,N)と制御点i(i=1,2,…,M)に対する逆フィルタをGinv[s,i]とする。ただし、制御点iの配置は、マイクロホンアレイ52と合同であり、m=iが成り立つ。また、2次音源スピーカsは、ラウドスピーカ230であり、この実施例では、N=24である。
Here, it demonstrates concretely. Let S be an acoustic signal recorded in the single microphone 22 (30, 38) (in this embodiment, an audio signal corresponding to the voice generated by the user). In addition, an inverse filter for the secondary sound source speaker s (s = 1, 2,..., N) and the control point i (i = 1, 2,..., M) in the BoSC playback system is denoted by G inv [s, i]. To do. However, the arrangement of the control point i is congruent with the
図13(A)のように、話者から見た聴者の位置する方向をθとし、話者が向いている方向をαとすると、聴者に対する話者の向き(角度)はα−θで表される。ここで、図13(A)に示す話者と聴者とを上述したラウドスピーカ50とマイクロホンアレイ52とで表すと、図13(B)のように示される。したがって、角度ang=α−θの伝達特性Hang[m]を用いて、発話方向を含む音声を再現すると、BoSC再生システム内の2次音源sからの出力信号R(s)は、数17で示される。ただし、V[s]は、伝達特性Hang[m]を考慮した音声フィルタである。
As shown in FIG. 13A, when the direction of the listener as viewed from the speaker is θ and the direction of the speaker is α, the direction (angle) of the speaker with respect to the listener is expressed by α−θ. Is done. Here, the speaker and the listener shown in FIG. 13A are represented by the above-described
つまり、コンピュータ18、26、34は、RAMやハードディスクのような内部メモリに、角度に応じた音声フィルタV[s]または伝達特性Hang[m]に対応するデータ(音声フィルタデータまたは伝達特性データ)を記憶しておき、他のコンピュータ18,26、34から受信した角度データが示す角度に応じた角度に応じた音声フィルタV[s]を用いて、受信した音声データを畳み込むのである。ただし、上述したように、15°刻みで伝達特性Hang[m]は測定されるため、音声フィルタV[s]の15°刻みである。したがって、角度データが示す角度に応じた音声フィルタV[s]を選択する場合には、0°、15°、…、330°、345°のうち、角度データが示す角度が最も近い角度に応じた音声フィルタV[s]が選択される。ただし、7.5°、22.5°などのように、角度データが示す角度が、隣接する2つの角度の中間値である場合には、この2つの角度のうちから所定のルールに従って選択した一つの角度に応じた音声フィルタV[s]が選択される。たとえば、所定のルールとしては、前回の角度に近い方を選択したり、角度の小さい(または大きい)方を選択したり、ランダムに選択したりすることが考えられる。いずれのルールを採用したとしても、上述したように、人間の聴覚で識別可能な範囲内であるため、不都合が生じることはない。
That is, the
このように、この実施例では、図11に示したような小会議室で測定したインパルス応答に基づいて伝達特性Hang[m]を有する音声フィルタV[s]を生成するため、スピーカアレイ20、28、36を使用するユーザは、この小会議室で、辺の長さが2mの正三角形の頂点の位置で会話しているような臨場感を得ることができる。 As described above, in this embodiment, since the sound filter V [s] having the transfer characteristic H ang [m] is generated based on the impulse response measured in the small meeting room as shown in FIG. , 28, and 36, the user can obtain a sense of presence in the small conference room as if he / she is talking at the position of the apex of an equilateral triangle having a side length of 2 m.
したがって、他の場所でインパルス応答の検出を行えば、当該他の場所で会話しているような臨場感を得ることができる。たとえば、マイクロホンアレイ14が配置されるオーケストラの会場の客席でインパルス応答を検出して音声フィルタを生成しておければ、当該オーケストラの会場で生のオーケストラを聴きながら、会話をしている臨場感を得ることができる。
Therefore, if the impulse response is detected at another place, it is possible to obtain a sense of presence as if talking at the other place. For example, if an impulse response is generated by detecting an impulse response at a seat in an orchestra venue where the
ここで、話者の顔の角度と音声再現の主観評価を行うために、以下のような実験を行った。実験では、ラウドスピーカ50から出力する刺激(刺激音)として、一般的な挨拶(ここでは、「こんにちは」)を言う30代の男性の音声が用いられた。実験における被験者は、20代または30代の10人の日本人である。ただし、5人は女性であり、5人は男性である。 Here, in order to perform subjective evaluation of the speaker's face angle and speech reproduction, the following experiment was conducted. In the experiment, as a stimulus to be output from the loudspeaker 50 (stimulus sound), general greeting (in this case, "Hello") voice of men in their 30s say was used. The test subjects were 10 Japanese people in their 20s or 30s. However, five are women and five are men.
また、この実験においては、使用する角度は、後述する2つの環境、すなわち実際の環境(以下、「実環境」とう)および音場再現システム(スピーカアレイシステム20(28、36でも可)で再現する環境(以下、「再現環境」という)の両方において、反時計回りに0°から90°までであり、15°刻みで変化される。ただし、0°の位置は、ラウドスピーカ50の正面(話者の顔)がマイクロホンアレイ52(聴者すなわち被験者)に対向している位置に合わせられる。この角度範囲を使用することによって、想定された三者間の関係(仮想の位置関係)において、話者が話し掛けている聴者を音響的に知覚できるかどうかを判断することができる。 In this experiment, the angles used are reproduced in the following two environments: an actual environment (hereinafter referred to as “real environment”) and a sound field reproduction system (speaker array system 20 (or 28 or 36 is acceptable)). In both environments (hereinafter referred to as “reproduction environment”), the angle is 0 ° to 90 ° counterclockwise and is changed in 15 ° increments, however, the position of 0 ° is the front of the loudspeaker 50 ( The speaker's face) is aligned with the position facing the microphone array 52 (listener or subject), and by using this angular range, in the assumed three-way relationship (virtual position relationship) It can be determined whether or not the listener who is speaking can be perceived acoustically.
上述したように、この実施例では、2つの環境で主観評価を行った。1つ目は、実環境で回転しているラウドスピーカ50を用いて音声を再現した場合についての主観評価である。2つ目は、再現環境で上記の音声フィルタV[s]を使用して上記の角度範囲内で角度を変化させて音声を再現した場合についての主観評価である。
As described above, in this example, subjective evaluation was performed in two environments. The first is a subjective evaluation in the case where sound is reproduced using the
まず、1つ目の主観評価についての実験では、インパルス応答が測定された場合と、同じ場所および同じ条件で行われ、ラウドスピーカ50は実環境において無作為に回転させた。また、上述したように、音声フィルタ向けのインパルス応答を測定するのに使用されたラウドスピーカ50が、実環境における音声の再現にも使用された。そして、被験者には、インパルス応答を測定した際に、マイクロホンアレイ52が置かれた位置で評価を行ってもらった。また、実験中に、被験者が頭部を回転することを許可した。ただし、被験者は、マイクロホンアレイ52の球状の骨格(図2の14a)の中心の高さに自身の耳の位置が来るように、椅子に座るなどして高さを調整した。さらに、実験では、ラウドスピーカ50が被験者に見えるのを防ぐために、その前(被験者とラウドスピーカ50の間)に、カーテンを設けた。
First, the first subjective evaluation experiment was performed at the same location and under the same conditions as when the impulse response was measured, and the
なお、音圧レベル計から得られた結果では、音場へのカーテン設けたことの影響がわずかであることが示された。また、ラウドスピーカ50のパワー出力は、被験者以外の者が調整したので、音量は顔の角度や上記の2つの環境(実環境および再現環境)でよって影響を受けていない。
In addition, the result obtained from the sound pressure level meter showed that the effect of the curtain on the sound field was slight. Further, since the power output of the
2つ目の主観評価についての実験では、コンピュータ18(26、34でも可)およびスピーカアレイシステム20(28、36でも可)を用いて、上述したように、0から90°までを15°刻みで変化させるように、上述の音声フィルタV[s]を用いて刺激音を出力した。 In the second subjective evaluation experiment, using the computer 18 (or 26 or 34) and the speaker array system 20 (28 or 36), as described above, from 0 to 90 ° in steps of 15 °. Stimulation sound was output using the above-mentioned voice filter V [s] so as to be changed.
音声の方向が質問される前に、ラウドスピーカ50の位置が被験者に知らされた。また、実験では、ラウドスピーカ50を、反時計回りに0°から90°まで、15°刻みで回転させ、そして、逆向きに(時計回りに)、90°から0°まで、15°刻みで回転させることによって音声の方向を変化させ、被験者に音声を聴かせた。質問に従って、被験者は、最初に0°の位置で音声を聞かされた後に、2度同じ角度の位置で音声を聞かされる。つまり、音声の方向は、0°から90°までの間で、15°刻みで変化するため、7つの方向から1つの方向(角度)を選択しなければならない。7つの音声の方向は、各被験者に無作為の順に、試験された。被験者は、実環境と再現環境との両方で、全部で14個の質問に回答した。
Before the voice direction was questioned, the subject was informed of the position of the
各環境において、次のように、角度誤りを定義することができる。実環境においては、ラウドスピーカ50が向いている角度と回答された角度の絶対誤差が定義される。また、再現環境においては、再生される音声の方向(角度)と回答された角度の絶対誤差が定義される。図14は、各環境において、全被験者についての平均角度誤差の箱ひげ図を示す。図14に示すように、実環境および再現環境におけるそれぞれの平均角度誤差は、13.7°と20.8°である。図10に示した三者間の仮想の位置関係(正三角形の頂点の位置に各ユーザを配置)を考慮して、再現環境における平均角度誤差は、誰が誰に話し掛けているかを知覚可能な程度に小さいと言える。
In each environment, the angle error can be defined as follows: In the actual environment, the absolute error between the angle at which the
しかしながら、平均角度誤差の間には、2つの環境間で7.1度の差がある。両側t検定は、平均角度誤差の差が統計的有意差(p<0.05)を有していることを示している。したがって、被験者には、再現環境において発話方向の角度を知覚することは、実環境よりも難しいことが分かる。また、ほとんどの被験者は、再現環境において、発話方向の角度を知覚することは、実環境よりも難しいと論評した。そして、被験者等は、それらの違いは残響の長さであると論評した。また、実験に使用した会議室などの音波反射を有する共用空間では、後期反射音が向かう角度を知覚するのに有意な効果を持っていると考えられる。 However, there is a 7.1 degree difference between the two environments between the average angular errors. A two-tailed t-test shows that the difference in mean angle error has a statistically significant difference (p <0.05). Therefore, it is understood that the subject is more difficult to perceive the angle of the utterance direction in the reproduction environment than in the real environment. Most subjects commented that it was more difficult to perceive the angle of the utterance direction in the reproduction environment than in the real environment. The subjects commented that the difference was the length of reverberation. In addition, it is considered that a common space having sound wave reflection such as a conference room used in the experiment has a significant effect in perceiving the angle to which the late reflected sound is directed.
図15には、話者が向く角度(ここでは、ラウドスピーカ50が向く角度またはスピーカアレイシステム20(28、36)で再現された発話方向の角度)毎の平均角度誤差を示した棒グラフである。ただし、格子模様が付されている棒グラフは、実環境についての平均角度誤差であり、斜線が付されている棒グラフは、再現環境についての平均角度誤差である。
FIG. 15 is a bar graph showing an average angle error for each angle at which the speaker faces (here, the angle at which the
この図15から分かるように、話者の向く角度が90°であるときに、2つの環境の間には、著しい違いがある。これは、一部の被験者において、音声が90度まで回転したことを知覚できなかったためと考えられる。 As can be seen from FIG. 15, there is a significant difference between the two environments when the angle the speaker faces is 90 °. This is probably because some subjects could not perceive that the sound was rotated up to 90 degrees.
また、図16は、被験者毎に、平均角度誤差の散布図を示す。つまり、各被験者についての平均角度誤差の実環境と再現環境との間における相関関係が示される。ただし、円の中に記載した数字は、被験者を個別に識別するために付した番号である。また、実線の円は男性の被験者であり、点線の円は女性の被験者である。 FIG. 16 shows a scatter diagram of the average angle error for each subject. That is, the correlation between the actual environment and the reproduction environment of the average angle error for each subject is shown. However, the numbers described in the circles are numbers assigned to individual subjects. The solid circle is a male subject, and the dotted circle is a female subject.
この図16では、被験者の半分が、2つの環境における発話方向の知覚の差が小さいことを示している。残りの半分の被験者については、実環境における発話方向の角度の知覚が、より高い精度が示されている。質問に対する回答結果が2つの環境においてほとんど差が無い被験者の一人(女性)は、再現環境で0°から90°まで回転する発話方向の角度を明確に知覚していた。これらの結果は、被験者等の能力(聴力)によって、発話方向の角度を認知することには、個人差があることを示している。そして、図16では、特に女性の被験者においては、2つの環境においてほとんど差が無いことが示される。 In FIG. 16, half of the subjects show that the difference in perception of the utterance direction in the two environments is small. For the other half of the subjects, the perception of the angle of the utterance direction in the real environment is shown with higher accuracy. One of the subjects (female) whose answer results to the question had almost no difference between the two environments clearly perceived the angle of the utterance direction rotating from 0 ° to 90 ° in the reproduction environment. These results indicate that there is an individual difference in recognizing the angle of the utterance direction by the ability (hearing ability) of the subject or the like. FIG. 16 shows that there is almost no difference between the two environments, particularly for female subjects.
なお、主観評価実験においては、各角度での音声の大きさ(強さ)を一定に保つために、ラウドスピーカ50の出力パワーが制御された。しかしながら、音再現システム10を用いて実際に三者間で会話を行う場合には、音声の大きさ(強さ)は、話者が向く方向(角度)に応じて自然に変化するため、より発話方向の知覚が行い易いことが考えられる。
In the subjective evaluation experiment, the output power of the
この実施例によれば、単に音声を再現するのみならず、話者の音声の向きを再現することができるので、遠隔に存在するユーザが音場再現システムをそれぞれ用いて会話する場合であっても、再現される音声によって、誰が誰に話しているのかを知覚することができる。したがって、円滑に会話することができる。 According to this embodiment, not only the voice can be reproduced, but also the direction of the speaker's voice can be reproduced. However, it is possible to perceive who is talking to whom by the reproduced voice. Therefore, it is possible to talk smoothly.
なお、この実施例では、ヘッドセットマイクロホンを装着したユーザの音声を再現するようにしたが、これに限定される必要はない。ユーザが演奏する楽器の音やユーザが行う手拍子の音を再現するようにしてもよい。ただし、ユーザが楽器を演奏する場合には、楽器の向きを検出する必要があるため、たとえば、楽器にジャイロセンサが設けられ、ジャイロセンサの出力に応じて楽器の方向が検出される。また、ユーザが行う手拍子の音を再現する場合には、当該ユーザの手首付近にマイクロホンが装着され、ユーザの手が有る方向ないし体の向きを検出するために、手首やお腹付近に、ジャイロセンサが設けられる。 In this embodiment, the voice of the user wearing the headset microphone is reproduced. However, the present invention is not limited to this. You may make it reproduce the sound of the musical instrument which a user performs, and the sound of the clapping which a user performs. However, when the user plays an instrument, it is necessary to detect the direction of the instrument. For example, the instrument is provided with a gyro sensor, and the direction of the instrument is detected according to the output of the gyro sensor. In addition, when reproducing the clapping sound performed by the user, a microphone is mounted near the wrist of the user, and a gyro sensor is installed near the wrist or stomach to detect the direction of the user's hand or the direction of the body. Is provided.
また、この実施例では、カメラで撮影された映像からユーザの顔の向きを検出するようにしたが、これに限定される必要はない。たとえば、ユーザの頭部(ヘッドセットマイクロホン)にジャイロセンサを装着して、ジャイロセンサの出力に基づいてユーザの顔の向きを検出するようにしてもよい。 In this embodiment, the orientation of the user's face is detected from the video captured by the camera. However, the present invention is not limited to this. For example, a gyro sensor may be attached to the user's head (headset microphone), and the orientation of the user's face may be detected based on the output of the gyro sensor.
また、この実施例では、或る場所に、ラウドスピーカおよびマイクロホンアレイを設置して、インパルス応答を測定することにより、音声の伝達特性を検出し、検出した伝達特性を音声フィルタに反映させるようにしたが、これに限定される必要はない。たとえば、鏡像法を用いたシミュレーションによって、各角度angについての伝達特性を算出することもできる。かかる場合には、想定される環境における仮想の壁面に反射率が設定され、これによって反射音が生成される。 Further, in this embodiment, a loudspeaker and a microphone array are installed at a certain location, and the impulse response is measured to detect the transfer characteristic of the sound, and the detected transfer characteristic is reflected in the sound filter. However, it need not be limited to this. For example, the transfer characteristic for each angle ang can be calculated by simulation using a mirror image method. In such a case, the reflectance is set on the virtual wall surface in the assumed environment, thereby generating a reflected sound.
さらに、この実施例では、仮想の位置関係として、正三角形の頂点の位置にユーザが位置する場合についてのみ示したが、これに限定される必要はない。様々な距離と、マイクロホンアレイの正面方向に対するラウドスピーカの様々な角度について、インパルス応答を測定または計算することにより、多数の伝達特性を用意しておけば、ユーザ同士の様々な位置関係に対応して、音声を再現することができる。 Furthermore, in this embodiment, as the virtual positional relationship, only the case where the user is positioned at the vertex position of the equilateral triangle is shown, but it is not necessary to be limited to this. By measuring or calculating the impulse response for various distances and various angles of the loudspeaker with respect to the front direction of the microphone array, a large number of transfer characteristics can be prepared to accommodate various positional relationships between users. Voice can be reproduced.
さらにまた、この実施例では、マイクロホンアレイによって検出された音場データも再現するようにしたが、音場データは再現されなくてもよい。 Furthermore, in this embodiment, the sound field data detected by the microphone array is also reproduced, but the sound field data may not be reproduced.
また、この実施例では、三者間の会話を再現するようにしたが、二者間または四者間以上の会話も再現することができる。たとえば、四者間の会話では、仮想の位置関係として、所定長さの辺を有する正方形の頂点にユーザを配置することが考えられる。また、五者間の会話では、仮想の位置関係として、所定長さの辺を有する正五角形の頂点にユーザを配置することが考えられる。他の場合も同様である。ただし、実際の位置関係を多角形で表現して、その頂点に各ユーザを配置するようにしてもよい。いずれの場合にも、測定や計算により求められた伝達特性を考慮した音声フィルタが用意される。
この実施例では、現時点における、サーバおよびコンピュータの性能に加え、データの伝送速度を考慮して、マイクロホンアレイおよびスピーカアレイシステムで使用するマイクロホンおよびラウドスピーカの個数を低減してあるが、性能や伝送速度が向上された場合には、それらの個数を低減しなくても、リアルタイムに音場データや音声データを再現できると考えられる。
In this embodiment, a conversation between three parties is reproduced, but a conversation between two parties or more than four parties can also be reproduced. For example, in a conversation between four parties, as a virtual positional relationship, it is conceivable to place a user at the apex of a square having sides of a predetermined length. In a conversation between the five parties, as a virtual positional relationship, it is conceivable to place a user at the apex of a regular pentagon having a side with a predetermined length. The same applies to other cases. However, the actual positional relationship may be expressed as a polygon, and each user may be placed at the vertex. In any case, an audio filter is prepared that takes into account the transfer characteristics obtained by measurement and calculation.
In this embodiment, the number of microphones and loudspeakers used in the microphone array and speaker array system is reduced in consideration of the data transmission speed in addition to the server and computer performance at the present time. When the speed is improved, it is considered that the sound field data and the sound data can be reproduced in real time without reducing the number of them.
10 …音場共有システム
12 …サーバ
14 …マイクロホンアレイ
18,26,34 …コンピュータ
20,28,36 …スピーカアレイシステム
22,30,38 …マイクロホン
24,32,40 …カメラ
DESCRIPTION OF
Claims (7)
各音再現装置は、
角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段、
使用者の発生する音に対応する音データを検出する音検出手段、
他の使用者の方向を基準として、前記使用者が前記音を発生した方向に対応する角度データを検出する角度検出手段、
前記音検出手段によって検出された音データと前記角度検出手段によって検出された角度データとを他の音再現装置に送信するデータ送信手段、
他の音再現装置からの音データと角度データとを受信する第1データ受信手段、
前記第1データ受信手段によって受信された角度データが示す角度に応じた音声フィルタデータを前記フィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、前記第1データ受信手段によって受信された音データに畳み込み処理を施す音処理手段、および
前記音処理手段によって畳み込み処理が施された音データを前記スピーカアレイに出力する音出力手段を備える、音再現システム。 A sound reproduction system comprising at least a plurality of sound reproduction devices including a speaker array having a plurality of first loudspeakers,
Each sound reproduction device
Filter storage means for storing voice filter data corresponding to a voice filter provided for each angle;
Sound detection means for detecting sound data corresponding to the sound generated by the user;
Angle detection means for detecting angle data corresponding to the direction in which the user has generated the sound, with reference to the direction of the other user;
Data transmission means for transmitting the sound data detected by the sound detection means and the angle data detected by the angle detection means to another sound reproduction device;
First data receiving means for receiving sound data and angle data from another sound reproduction device;
Voice filter data corresponding to the angle indicated by the angle data received by the first data receiving means is read from the filter storage means, and using the voice filter corresponding to the read voice filter data, the first data receiving means A sound reproduction system comprising: sound processing means for performing convolution processing on received sound data; and sound output means for outputting sound data subjected to convolution processing by the sound processing means to the speaker array.
前記マイクロホンアレイによって検出された音場データを収録し、当該音場データに畳み込みの処理を施して前記各音再現装置に伝送するサーバをさらに備え、
前記各音再現装置は、前記サーバから伝送された音場データを受信する第2データ受信手段をさらに備え、
前記音出力手段は、前記第2データ受信手段によって受信された音場データを、前記音処理手段によって畳み込み処理が施された前記音データに重畳して前記スピーカアレイに出力する、請求項1ないし3のいずれかに記載の音再現システム。 The microphone array is arranged in a certain sound field,
It further includes a server that records sound field data detected by the microphone array, performs convolution processing on the sound field data, and transmits the sound field data to each sound reproduction device,
Each of the sound reproduction devices further includes second data receiving means for receiving sound field data transmitted from the server,
The sound output means superimposes the sound field data received by the second data receiving means on the sound data subjected to convolution processing by the sound processing means and outputs the sound data to the speaker array. 4. The sound reproduction system according to any one of 3.
前記マイクロホンアレイは、第2所定数のマイクロホンを有し、
線形独立性の高い、第1所定数よりも少ない第3所定数の第1ラウドスピーカを選択するスピーカ選択手段、および
線形独立性の高い、第2所定数よりも少ない第4所定数のマイクロホンを選択するマイクロホン選択手段をさらに備え、
前記サーバは、前記第4所定数のマイクロホンを用いて前記音場データを収録して、畳み込み処理を施し、
前記音出力手段は、前記第2データ受信手段によって受信された音場データを前記第3所定数の第1ラウドスピーカを使用して出力する、請求項4記載の音再現システム。 The speaker array has a first predetermined number of first loudspeakers,
The microphone array has a second predetermined number of microphones;
Speaker selection means for selecting a third predetermined number of first loudspeakers less than the first predetermined number with high linear independence; and a fourth predetermined number of microphones with less linear second and less than the second predetermined number A microphone selection means for selecting;
The server records the sound field data using the fourth predetermined number of microphones, performs a convolution process,
5. The sound reproduction system according to claim 4, wherein the sound output means outputs the sound field data received by the second data receiving means using the third predetermined number of first loudspeakers.
角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段、
使用者の発生する音に対応する音データを検出する音検出手段、
他の使用者の方向を基準として、前記使用者が前記音を発生した方向に対応する角度データを検出する角度検出手段、
前記音検出手段によって検出された音データと前記角度検出手段によって検出された角度データとを他の音再現装置に送信するデータ送信手段、
他の音再現装置からの音データと角度データとを受信するデータ受信手段、
前記データ受信手段によって受信された角度データが示す角度に応じた音声フィルタデータを前記フィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、前記データ受信手段によって受信された音データに畳み込み処理を施す音処理手段、および
前記音処理手段によって畳み込み処理が施された音データを前記スピーカアレイに出力する音出力手段を備える、音再現装置。 A speaker array having a plurality of loudspeakers;
Filter storage means for storing voice filter data corresponding to a voice filter provided for each angle;
Sound detection means for detecting sound data corresponding to the sound generated by the user;
Angle detection means for detecting angle data corresponding to the direction in which the user has generated the sound, with reference to the direction of the other user;
Data transmission means for transmitting the sound data detected by the sound detection means and the angle data detected by the angle detection means to another sound reproduction device;
Data receiving means for receiving sound data and angle data from other sound reproduction devices;
The sound filter data corresponding to the angle indicated by the angle data received by the data receiving means is read from the filter storage means, and the sound received by the data receiving means using the sound filter corresponding to the read sound filter data. A sound reproduction apparatus comprising: sound processing means for performing convolution processing on data; and sound output means for outputting sound data subjected to convolution processing by the sound processing means to the speaker array.
各音再現装置は、
(a)使用者の発生する音に対応する音データを検出し、
(b)他の使用者の方向を基準として、前記使用者が前記音を発生した方向に対応する角度データを検出し、
(c)前記ステップ(a)によって検出された音データと前記ステップ(b)によって検出された角度データとを他の音再現装置に送信し、
(d)他の音再現装置からの音データと角度データとを受信し、
(e)前記ステップ(d)によって受信された角度データが示す角度に応じた音声フィルタデータを前記フィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、前記ステップ(d)によって受信された音データに畳み込み処理を施し、そして
(f)前記ステップ(e)によって畳み込み処理が施された音データを前記スピーカアレイに出力する、音再現方法。 A sound reproduction method for a sound reproduction system comprising a plurality of sound reproduction devices each including a speaker array having a plurality of loudspeakers and filter storage means for storing sound filter data corresponding to sound filters provided for each angle,
Each sound reproduction device
(A) Detect sound data corresponding to the sound generated by the user,
(B) Detecting angle data corresponding to the direction in which the user has generated the sound with reference to the direction of another user;
(C) transmitting the sound data detected in step (a) and the angle data detected in step (b) to another sound reproduction device;
(D) receiving sound data and angle data from another sound reproduction device;
(E) The voice filter data corresponding to the angle indicated by the angle data received in the step (d) is read from the filter storage means, and the voice filter data corresponding to the read voice filter data is used to perform the step (d). And (f) a sound reproduction method for outputting the sound data subjected to the convolution processing in the step (e) to the speaker array.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010254608A JP5697079B2 (en) | 2010-11-15 | 2010-11-15 | Sound reproduction system, sound reproduction device, and sound reproduction method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010254608A JP5697079B2 (en) | 2010-11-15 | 2010-11-15 | Sound reproduction system, sound reproduction device, and sound reproduction method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012109643A true JP2012109643A (en) | 2012-06-07 |
JP5697079B2 JP5697079B2 (en) | 2015-04-08 |
Family
ID=46494834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010254608A Expired - Fee Related JP5697079B2 (en) | 2010-11-15 | 2010-11-15 | Sound reproduction system, sound reproduction device, and sound reproduction method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5697079B2 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014103627A1 (en) * | 2012-12-28 | 2014-07-03 | ヤマハ株式会社 | Communication method, sound apparatus and communication apparatus |
JP2015070321A (en) * | 2013-09-26 | 2015-04-13 | 本田技研工業株式会社 | Sound processing device, sound processing method, and sound processing program |
WO2015076149A1 (en) * | 2013-11-19 | 2015-05-28 | ソニー株式会社 | Sound field re-creation device, method, and program |
CN112291682A (en) * | 2019-07-25 | 2021-01-29 | 拉碧斯半导体株式会社 | Audio playback device and audio playback system |
CN112447175A (en) * | 2019-08-29 | 2021-03-05 | 北京声智科技有限公司 | Echo cancellation method and device |
KR102432569B1 (en) * | 2021-04-30 | 2022-08-18 | 한국표준과학연구원 | System and method of sound field simulation and generation |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03274998A (en) * | 1990-03-26 | 1991-12-05 | Nippon Telegr & Teleph Corp <Ntt> | Sound field reproducing method |
JPH07264700A (en) * | 1994-03-18 | 1995-10-13 | Hitachi Ltd | Sound image localization device |
JPH08505745A (en) * | 1993-01-12 | 1996-06-18 | ベル コミュニケーションズ リサーチ インコーポレーテッド | Audio localization for video conferencing using self-steering microphone arrays |
JPH11308591A (en) * | 1998-04-21 | 1999-11-05 | Fujitsu Ltd | Information communication system |
JP2004023180A (en) * | 2002-06-12 | 2004-01-22 | Toshiba Corp | Voice transmission apparatus, voice transmission method and program |
JP2006066939A (en) * | 2004-08-24 | 2006-03-09 | National Institute Of Information & Communication Technology | Sound reproducing method and apparatus thereof |
JP2007019907A (en) * | 2005-07-08 | 2007-01-25 | Yamaha Corp | Speech transmission system, and communication conference apparatus |
JP2007041164A (en) * | 2005-08-01 | 2007-02-15 | Sony Corp | Sound signal processing method and sound field reproduction system |
JP2008227773A (en) * | 2007-03-09 | 2008-09-25 | Advanced Telecommunication Research Institute International | Sound space sharing apparatus |
JP2011182135A (en) * | 2010-02-26 | 2011-09-15 | Kyoto Univ | Three-dimensional sound field reproduction system |
JP2012085035A (en) * | 2010-10-08 | 2012-04-26 | National Institute Of Information & Communication Technology | Acoustic field sharing system and optimization method |
-
2010
- 2010-11-15 JP JP2010254608A patent/JP5697079B2/en not_active Expired - Fee Related
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03274998A (en) * | 1990-03-26 | 1991-12-05 | Nippon Telegr & Teleph Corp <Ntt> | Sound field reproducing method |
JPH08505745A (en) * | 1993-01-12 | 1996-06-18 | ベル コミュニケーションズ リサーチ インコーポレーテッド | Audio localization for video conferencing using self-steering microphone arrays |
JPH07264700A (en) * | 1994-03-18 | 1995-10-13 | Hitachi Ltd | Sound image localization device |
JPH11308591A (en) * | 1998-04-21 | 1999-11-05 | Fujitsu Ltd | Information communication system |
JP2004023180A (en) * | 2002-06-12 | 2004-01-22 | Toshiba Corp | Voice transmission apparatus, voice transmission method and program |
JP2006066939A (en) * | 2004-08-24 | 2006-03-09 | National Institute Of Information & Communication Technology | Sound reproducing method and apparatus thereof |
JP2007019907A (en) * | 2005-07-08 | 2007-01-25 | Yamaha Corp | Speech transmission system, and communication conference apparatus |
JP2007041164A (en) * | 2005-08-01 | 2007-02-15 | Sony Corp | Sound signal processing method and sound field reproduction system |
JP2008227773A (en) * | 2007-03-09 | 2008-09-25 | Advanced Telecommunication Research Institute International | Sound space sharing apparatus |
JP2011182135A (en) * | 2010-02-26 | 2011-09-15 | Kyoto Univ | Three-dimensional sound field reproduction system |
JP2012085035A (en) * | 2010-10-08 | 2012-04-26 | National Institute Of Information & Communication Technology | Acoustic field sharing system and optimization method |
Non-Patent Citations (1)
Title |
---|
SEIGO ENOMOTO,他3人: "Optimization of loudspeaker and microphone configurations for sound reproduction system based on bou", PROCEEDINGS OF 20TH INTERNATIONAL CONGRESS ON ACOUSTICS, ICA 2010, JPN7014002510, August 2010 (2010-08-01), ISSN: 0002986367 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014103627A1 (en) * | 2012-12-28 | 2014-07-03 | ヤマハ株式会社 | Communication method, sound apparatus and communication apparatus |
JP2014131140A (en) * | 2012-12-28 | 2014-07-10 | Yamaha Corp | Communication system, av receiver, and communication adapter device |
CN104885483A (en) * | 2012-12-28 | 2015-09-02 | 雅马哈株式会社 | Communication method, sound apparatus and communication apparatus |
JP2015070321A (en) * | 2013-09-26 | 2015-04-13 | 本田技研工業株式会社 | Sound processing device, sound processing method, and sound processing program |
US9478230B2 (en) | 2013-09-26 | 2016-10-25 | Honda Motor Co., Ltd. | Speech processing apparatus, method, and program of reducing reverberation of speech signals |
WO2015076149A1 (en) * | 2013-11-19 | 2015-05-28 | ソニー株式会社 | Sound field re-creation device, method, and program |
US10015615B2 (en) | 2013-11-19 | 2018-07-03 | Sony Corporation | Sound field reproduction apparatus and method, and program |
CN112291682A (en) * | 2019-07-25 | 2021-01-29 | 拉碧斯半导体株式会社 | Audio playback device and audio playback system |
CN112447175A (en) * | 2019-08-29 | 2021-03-05 | 北京声智科技有限公司 | Echo cancellation method and device |
KR102432569B1 (en) * | 2021-04-30 | 2022-08-18 | 한국표준과학연구원 | System and method of sound field simulation and generation |
Also Published As
Publication number | Publication date |
---|---|
JP5697079B2 (en) | 2015-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100964353B1 (en) | Method for processing audio data and sound acquisition device therefor | |
DK2863654T3 (en) | Method for reproducing an acoustic sound field | |
KR102507476B1 (en) | Systems and methods for modifying room characteristics for spatial audio rendering over headphones | |
JP5637661B2 (en) | Method for recording and playing back sound sources with time-varying directional characteristics | |
US20120288114A1 (en) | Audio camera using microphone arrays for real time capture of audio images and method for jointly processing the audio images with video images | |
JP5697079B2 (en) | Sound reproduction system, sound reproduction device, and sound reproduction method | |
US9237398B1 (en) | Motion tracked binaural sound conversion of legacy recordings | |
Kearney et al. | Distance perception in interactive virtual acoustic environments using first and higher order ambisonic sound fields | |
O'Donovan et al. | Imaging concert hall acoustics using visual and audio cameras | |
Oreinos et al. | Evaluation of loudspeaker-based virtual sound environments for testing directional hearing aids | |
CA2744429C (en) | Converter and method for converting an audio signal | |
Shabtai et al. | Generalized spherical array beamforming for binaural speech reproduction | |
Masiero | Individualized binaural technology: measurement, equalization and perceptual evaluation | |
Johansson | VR for your ears: dynamic 3D audio is key to the immersive experience by mathias johansson· illustration by eddie guy | |
US11510013B2 (en) | Partial HRTF compensation or prediction for in-ear microphone arrays | |
Kearney et al. | Depth perception in interactive virtual acoustic environments using higher order ambisonic soundfields | |
Shabtai et al. | Spherical array beamforming for binaural sound reproduction | |
US11653163B2 (en) | Headphone device for reproducing three-dimensional sound therein, and associated method | |
CN108574925A (en) | The method and apparatus that audio signal output is controlled in virtual auditory environment | |
Ikeda et al. | Sound Cask: Music and voice communications system with three-dimensional sound reproduction based on boundary surface control principle. | |
JP5550019B2 (en) | Sound field sharing system and optimization method | |
Salvador et al. | Enhancement of Spatial Sound Recordings by Adding Virtual Microphones to Spherical Microphone Arrays. | |
KR101111734B1 (en) | Sound reproduction method and apparatus distinguishing multiple sound sources | |
Ahrens et al. | Authentic auralization of acoustic spaces based on spherical microphone array recordings | |
Cabrera et al. | Quantifying the local acoustic effects of high-backed chairs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131018 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140811 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140826 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141008 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150204 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5697079 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |