JP2008228225A - Sound signal processing equipment - Google Patents

Sound signal processing equipment Download PDF

Info

Publication number
JP2008228225A
JP2008228225A JP2007067474A JP2007067474A JP2008228225A JP 2008228225 A JP2008228225 A JP 2008228225A JP 2007067474 A JP2007067474 A JP 2007067474A JP 2007067474 A JP2007067474 A JP 2007067474A JP 2008228225 A JP2008228225 A JP 2008228225A
Authority
JP
Japan
Prior art keywords
impulse response
characteristic
unit
audio signal
frequency characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007067474A
Other languages
Japanese (ja)
Inventor
Shota Morikawa
将太 森川
Toshiko Murata
寿子 村田
Jitsuki Haishi
実希 羽石
Takuma Suzuki
▲琢▼磨 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP2007067474A priority Critical patent/JP2008228225A/en
Publication of JP2008228225A publication Critical patent/JP2008228225A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Stereophonic System (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide sound signal processing equipment capable of performing effective sound image localization by selecting characteristic parts with validity in order to reduce an amount of operation in a convolution operation of impulse response when the part to be used for the convolution operation in impulse response is selected. <P>SOLUTION: A part 2 for extracting the amount of impulse response characteristic obtains a characteristic point position of a sample showing the position having a high correlation with the direct sound frame to be selected from impulse response, a frequency characteristic of one frame from the characteristic point position of the sample, a frequency characteristic correction factor for approximating to the frequency characteristic, and a power ratio of one frame from the characteristic point position of the sample and the direct sound frame. A reproduction processing part 3 performs the convolution operation of input sound signal and the direct sound frame, and perform delay processing, frequency characteristic correction processing, and product summation corresponding to the feature sample point position, frequency characteristic correction factor, and power ratio to the obtained convolution operation result. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、音声信号処理装置に係り、特に多チャンネルで供給される音声信号を2チャンネルステレオ再生する場合に仮想的な音像定位を実現する音声信号処理装置に関する。   The present invention relates to an audio signal processing apparatus, and more particularly to an audio signal processing apparatus that realizes virtual sound image localization when audio signals supplied in multiple channels are reproduced in two channels in stereo.

従来、DVDビデオのマルチチャンネル音声に代表される2チャンネル以上の音声ソースを2チャンネルステレオ再生する場合、マルチチャンネルの各々のスピーカ位置に音源があるとして、モデルとなる室の反射音をシミュレーションによって導出し、インパルス応答をモデル化して畳み込み演算を行い、再生系のクロストークをキャンセル処理することで仮想的な音像定位を実現していた。この畳み込み演算に必要な係数であるインパルス応答のモデル化の際には、室の寸法を考慮して計算およびシミュレーションを行い、直接音に対応する、その室の壁、天井、床からの反射音を付加する手法が用いられている。   Conventionally, when 2-channel stereo playback of audio sources of 2 or more channels typified by multi-channel audio of DVD video is performed, the reflected sound of the model room is derived by simulation assuming that there is a sound source at each speaker position of the multi-channel. However, a virtual sound localization has been realized by modeling the impulse response, performing a convolution operation, and canceling the crosstalk of the reproduction system. When modeling the impulse response, which is a coefficient necessary for this convolution operation, calculations and simulations are performed in consideration of the dimensions of the room, and the reflected sound from the walls, ceiling, and floor of the room corresponding to the direct sound. The method of adding is used.

このようにインパルス応答の畳み込み演算を行う音像定位技術においては、畳み込み演算に用いる係数長を長くすればするほど再生時に遅延が生じ、かつ全体で1つの畳み込み演算と捉えられるため、その分だけ演算量が増大していた。   In the sound image localization technology that performs the impulse response convolution operation in this way, the longer the coefficient length used for the convolution operation, the longer the delay occurs during playback, and it is regarded as one convolution operation as a whole. The amount was increasing.

そこで、測定したインパルス応答を間引くことにより、そのままのインパルス応答を畳み込み演算のために用いる場合より演算量を削減する技術が特許文献1に提案されている。
特開平1−135222号公報
Therefore, Patent Document 1 proposes a technique for reducing the amount of calculation by thinning out the measured impulse response as compared with the case where the impulse response is used for the convolution calculation.
JP-A-1-135222

しかしながら、特許文献1に開示された技術では、インパルス応答をどの程度間引くかをプロセッサ側の演算量の制約からのみ決める他なく、その程度は作為的にならざるを得なかった。   However, in the technique disclosed in Patent Document 1, the degree to which the impulse response is to be thinned is determined only by the restriction on the calculation amount on the processor side, and the degree has to be artificial.

本発明は上記に鑑みてなされたもので、インパルス応答の畳み込み演算における演算量を削減するために、インパルス応答のうち畳み込み演算に用いる部分を選択する際に、妥当性をもってインパルス応答の特徴的部分を選択し、効果的な音像定位を行うことができる音声信号処理装置を提供することを目的とする。   The present invention has been made in view of the above, and in order to reduce the amount of calculation in the impulse response convolution operation, when selecting the portion to be used for the convolution operation in the impulse response, the characteristic portion of the impulse response with validity is selected. It is an object to provide an audio signal processing apparatus capable of selecting an image and performing effective sound image localization.

上記目的を達成するため、本発明の音声信号処理装置は、複数チャンネルの音声信号からなる音声ソースの各チャンネルについて測定された、当該チャンネルの音声信号が出力されるべきスピーカ位置から聴取者の各耳の位置へのインパルス応答のそれぞれについて特徴量を抽出するインパルス応答特徴量抽出部と、前記各インパルス応答について抽出された前記特徴量を用いて前記各チャンネルの入力音声信号を処理して、前記各インパルス応答に対応した空間特性付加信号を出力する空間特性付加処理部と、この空間特性付加処理部から出力される各前記空間特性付加信号のうち、聴取者の左耳の位置へのインパルス応答に対応した空間特性付加信号同士を足し合わせて左チャンネルの出力音声信号を生成する第1の加算器と、前記空間特性付加処理部から出力される各前記空間特性付加信号のうち、聴取者の右耳の位置へのインパルス応答に対応した空間特性付加信号同士を足し合わせて右チャンネルの出力音声信号を生成する第2の加算器と、前記左チャンネルの出力音声信号と前記右チャンネルの出力音声信号との相互作用をキャンセルするクロストークキャンセル処理を行うクロストークキャンセル処理部とを備え、前記インパルス応答特徴量抽出部は、前記各インパルス応答について、当該インパルス応答の中から選択される直接音フレームと当該インパルス応答との相関値を1サンプルごとに計算する相関計算部と、この相関計算部の計算結果に基づいて、当該インパルス応答において前記直接音フレームとの相関値が高い時刻的ポイントに相当する時間軸位置情報を所定の数だけ特徴的サンプル点位置として記憶する特徴的サンプル点位置記憶部と、この特徴的サンプル点位置記憶部に記憶された前記各特徴的サンプル点位置について、当該特徴的サンプル点位置からの1フレームと前記直接音フレームとのパワー比率を計算するパワー比率計算部と、このパワー比率計算部で計算した前記パワー比率を記憶するパワー比率記憶部と、前記特徴的サンプル点位置記憶部に記憶された前記各特徴的サンプル点位置について、当該特徴的サンプル点位置からの1フレームの周波数特性を計算し、この周波数特性に近似させるための周波数特性補正係数を算出する周波数特性補正係数算出部と、この周波数特性補正係数算出部で算出した前記周波数特性補正係数を記憶する周波数特性補正係数記憶部とを備え、前記空間特性付加処理部は、前記各インパルス応答について、当該インパルス応答における前記直接音フレームと、当該インパルス応答に対応するチャンネルの入力音声信号との畳み込み演算を、前記入力音声信号のブロック単位で行う畳み込み演算部と、この畳み込み演算部による畳み込み演算結果を格納する畳み込み演算結果格納部と、この畳み込み演算結果格納部に格納された前記入力音声信号のブロック単位の畳み込み演算結果に対して、前記特徴的サンプル点位置記憶部に記憶された前記各特徴的サンプル点位置に対応した遅延処理を施す遅延処理部と、前記周波数特性補正係数記憶部に記憶された前記周波数特性補正係数を用いて、前記遅延処理部から出力される、前記入力音声信号の1ブロックに対して前記特徴的サンプル点位置の数分のブロックの信号に対してそれぞれ周波数特性補正処理を施す周波数特性補正処理部と、前記パワー比率記憶部に記憶された前記パワー比率に基づいて、前記周波数特性補正処理部から出力される、前記入力音声信号の1ブロックに対して前記特徴的サンプル点位置の数分のブロックの信号をそれぞれ増幅して出力する増幅部と、前記畳み込み演算部により得られた前記畳み込み演算結果と、前記増幅部からの増幅信号とを格納し、格納した信号を時分割的に先頭の1ブロックごとに空間特性付加信号として出力する出力待機バッファ部とを備えることを特徴とする。   In order to achieve the above object, the audio signal processing apparatus of the present invention measures each channel of an audio source consisting of audio signals of a plurality of channels, and determines each of the listeners from the speaker position where the audio signal of the channel is to be output. An impulse response feature amount extraction unit that extracts a feature amount for each of the impulse responses to the position of the ear, and processes the input audio signal of each channel using the feature amount extracted for each of the impulse responses, A spatial characteristic addition processing unit that outputs a spatial characteristic addition signal corresponding to each impulse response, and an impulse response to the position of the listener's left ear among the spatial characteristic addition signals output from the spatial characteristic addition processing unit A first adder that generates a left channel output audio signal by adding together the spatial characteristic addition signals corresponding to the space, and the space Among the spatial characteristic addition signals output from the sex addition processing unit, a spatial channel additional signal corresponding to an impulse response to the position of the listener's right ear is added to generate an output audio signal of the right channel. 2, and a crosstalk cancellation processing unit that performs a crosstalk canceling process for canceling an interaction between the output audio signal of the left channel and the output audio signal of the right channel, and the impulse response feature amount extraction unit For each impulse response, a correlation calculation unit that calculates a correlation value between the direct sound frame selected from the impulse response and the impulse response for each sample, and a calculation result of the correlation calculation unit The time axis position information corresponding to the time point having a high correlation value with the direct sound frame in the impulse response. A characteristic sample point position storage unit for storing a predetermined number of characteristic sample point positions, and for each characteristic sample point position stored in the characteristic sample point position storage unit, from the characteristic sample point position A power ratio calculation unit that calculates a power ratio between one frame of the direct sound frame and the direct sound frame, a power ratio storage unit that stores the power ratio calculated by the power ratio calculation unit, and a characteristic sample point position storage unit For each stored characteristic sample point position, a frequency characteristic correction coefficient calculating unit that calculates a frequency characteristic of one frame from the characteristic sample point position and calculates a frequency characteristic correction coefficient for approximating the frequency characteristic. And a frequency characteristic correction coefficient storage unit that stores the frequency characteristic correction coefficient calculated by the frequency characteristic correction coefficient calculation unit, The spatial characteristic addition processing unit performs, for each impulse response, a convolution operation between the direct sound frame in the impulse response and an input audio signal of a channel corresponding to the impulse response in units of blocks of the input audio signal. The convolution operation unit, a convolution operation result storage unit for storing a convolution operation result by the convolution operation unit, and a block unit convolution operation result of the input speech signal stored in the convolution operation result storage unit are described above. Using a delay processing unit that performs a delay process corresponding to each characteristic sample point position stored in a typical sample point position storage unit, and using the frequency characteristic correction coefficient stored in the frequency characteristic correction coefficient storage unit, The characteristic sampling points for one block of the input audio signal output from the delay processing unit Output from the frequency characteristic correction processing unit based on the power ratio stored in the power ratio storage unit, and a frequency characteristic correction processing unit that performs frequency characteristic correction processing on the signals of the blocks of the same number of blocks. An amplification unit that amplifies and outputs signals corresponding to the number of characteristic sample point positions for one block of the input audio signal, and the convolution calculation result obtained by the convolution calculation unit, And an output standby buffer unit that stores the amplified signal from the amplifying unit and outputs the stored signal as a spatial characteristic addition signal for each leading block in a time division manner.

また、本発明の音声信号処理装置に係る前記相関計算部は、所定のフレーム幅ごとに前記インパルス応答のパワーを計算し、パワーの最大値をとるフレームを前記直接音フレームとして決定することを特徴とする。   Further, the correlation calculation unit according to the audio signal processing device of the present invention calculates the power of the impulse response for each predetermined frame width, and determines the frame having the maximum power value as the direct sound frame. And

また、本発明の音声信号処理装置に係る前記相関計算部は、前記インパルス応答の波形の瞬時パワーを時間振幅値の2乗として計算し、前記瞬時パワーの最大値をとる時刻的ポイントを含むフレームを前記直接音フレームとして決定することを特徴とする。   Further, the correlation calculation unit according to the audio signal processing device of the present invention calculates the instantaneous power of the waveform of the impulse response as a square of the time amplitude value, and includes a frame including a time point at which the maximum value of the instantaneous power is obtained. Is determined as the direct sound frame.

本発明によれば、インパルス応答の中から選択される直接音フレームと相関の高い部分の位置を示す特徴的サンプル点位置と、特徴的サンプル点位置からの1フレームの周波数特性と、この周波数特性に近似させるための周波数特性補正係数と、特徴的サンプル点位置からの1フレームと直接音フレームとのパワー比率とを求め、入力音声信号と直接音フレームとの畳み込み演算を行い、得られた畳み込み演算結果に対して、特徴的サンプル点位置と周波数特性補正係数とパワー比率とに応じた遅延処理、周波数特性補正処理、および積和演算を行うので、妥当性をもってインパルス応答の畳み込み演算に用いる特徴的部分を選択し、かつ少ない演算量で効果的な音像定位を行うことができる。   According to the present invention, the characteristic sample point position indicating the position of a portion highly correlated with the direct sound frame selected from the impulse response, the frequency characteristic of one frame from the characteristic sample point position, and the frequency characteristic The frequency characteristic correction coefficient for approximating the frequency and the power ratio between one frame from the characteristic sample point position and the direct sound frame are calculated, the convolution operation is performed between the input audio signal and the direct sound frame, and the obtained convolution is obtained. Since the delay, frequency characteristic correction, and product-sum operation are performed on the calculation result according to the characteristic sample point position, frequency characteristic correction coefficient, and power ratio, the characteristics used for convolution calculation of the impulse response with validity It is possible to select a target part and perform effective sound image localization with a small amount of calculation.

以下、本発明を実施するための最良の形態について、図面を参照して説明する。本実施の形態では、入力する音声ソースがDVDの5チャンネルソースである場合を例にとって説明する。   The best mode for carrying out the present invention will be described below with reference to the drawings. In the present embodiment, the case where the input audio source is a 5-channel DVD source will be described as an example.

図1は本発明の実施の形態に係る音声信号処理装置の構成を示すブロック図である。図1に示すように本実施の形態に係る音声信号処理装置1は、音声ソースの各チャンネルについて測定された、当該チャンネルの音声信号が出力されるべきスピーカ位置から聴取者の各耳の位置へのインパルス応答のそれぞれについて特徴量を抽出するインパルス応答特徴量抽出部2と、インパルス応答特徴量抽出部2で抽出された各インパルス応答の特徴量を用いて5チャンネルの入力音声信号を処理し、左右チャンネルの出力音声信号を出力する再生処理部3とを備える。   FIG. 1 is a block diagram showing a configuration of an audio signal processing apparatus according to an embodiment of the present invention. As shown in FIG. 1, the audio signal processing apparatus 1 according to the present embodiment is measured for each channel of the audio source, from the speaker position where the audio signal of the channel is to be output, to the position of each ear of the listener. An impulse response feature amount extraction unit 2 that extracts a feature amount for each of the impulse responses, and an impulse response feature amount extracted by the impulse response feature amount extraction unit 2 to process the input audio signal of 5 channels, And a reproduction processing unit 3 that outputs output audio signals of the left and right channels.

図2は図1に示す音声信号処理装置1のインパルス応答特徴量抽出部2の構成を示すブロック図である。図2に示すようにインパルス応答特徴量抽出部2は、入力される各インパルス応答について、当該インパルス応答の中から選択される直接音フレームと当該インパルス応答との相関値を1サンプルごとに計算する相関計算部21と、相関計算部21の計算結果に基づいて、当該インパルス応答において直接音フレームとの相関値が高い時刻的ポイントに相当する時間軸位置情報を所定の数だけ特徴的サンプル点位置として記憶する特徴的サンプル点位置記憶部22と、特徴的サンプル点位置記憶部22に記憶された各特徴的サンプル点位置について、当該特徴的サンプル点位置からの1フレームと直接音フレームとのパワー比率を計算するパワー比率計算部23と、パワー比率計算部23で計算したパワー比率を記憶するパワー比率記憶部24と、各特徴的サンプル点位置について、当該特徴的サンプル点位置からの1フレームの周波数特性を計算し、この周波数特性に近似させるための周波数特性補正係数を算出する周波数特性補正係数算出部25と、周波数特性補正係数算出部25で算出した周波数特性補正係数を記憶する周波数特性補正係数記憶部26とを備える。   FIG. 2 is a block diagram showing a configuration of the impulse response feature quantity extraction unit 2 of the audio signal processing apparatus 1 shown in FIG. As shown in FIG. 2, the impulse response feature quantity extraction unit 2 calculates, for each input impulse response, a correlation value between the direct sound frame selected from the impulse response and the impulse response for each sample. Based on the calculation result of the correlation calculation unit 21 and the correlation calculation unit 21, a predetermined number of characteristic sample point positions corresponding to time axis position information corresponding to time points having a high correlation value with the direct sound frame in the impulse response For each characteristic sample point position stored in the characteristic sample point position storage unit 22 and the power of one frame from the characteristic sample point position and the direct sound frame A power ratio calculation unit 23 that calculates the ratio, and a power ratio storage unit 2 that stores the power ratio calculated by the power ratio calculation unit 23 For each characteristic sample point position, a frequency characteristic correction coefficient calculating unit 25 that calculates a frequency characteristic of one frame from the characteristic sample point position and calculates a frequency characteristic correction coefficient for approximating the frequency characteristic. A frequency characteristic correction coefficient storage unit 26 that stores the frequency characteristic correction coefficient calculated by the frequency characteristic correction coefficient calculation unit 25.

図3は図1に示す音声信号処理装置1の再生処理部3の構成を示すブロック図である。図3に示すように再生処理部3は、各インパルス応答について抽出された特徴量を用いて、対応する各チャンネルの入力音声信号を処理して、各インパルス応答に対応した空間特性付加信号を出力する空間特性付加処理部31A〜35A,31B〜35Bと、聴取者の左耳の位置へのインパルス応答に対応した空間特性付加信号を生成する空間特性付加処理部31A〜35Aの出力信号を足し合わせて左チャンネルの出力音声信号を生成する加算器41Aと、聴取者の右耳の位置へのインパルス応答に対応した空間特性付加信号を生成する空間特性付加処理部31B〜35Bの出力信号を足し合わせて右チャンネルの出力音声信号を生成する加算器41Bと、左チャンネルの出力音声信号と右チャンネルの出力音声信号との相互作用をキャンセルするクロストークキャンセル処理を行うクロストークキャンセル処理部42と、クロストークキャンセル処理後の左チャンネルの出力音声信号を音声として出力するスピーカ43Aと、クロストークキャンセル処理後の右チャンネルの出力音声信号を音声として出力するスピーカ43Bとを備える。   FIG. 3 is a block diagram showing a configuration of the reproduction processing unit 3 of the audio signal processing apparatus 1 shown in FIG. As shown in FIG. 3, the reproduction processing unit 3 processes the input audio signal of each corresponding channel using the feature amount extracted for each impulse response, and outputs a spatial characteristic addition signal corresponding to each impulse response. The output signals of the spatial characteristic addition processing units 31A to 35A and 31B to 35B that generate the spatial characteristic addition signal corresponding to the impulse response to the position of the listener's left ear are added together. The adder 41A for generating the left channel output audio signal and the output signals of the spatial characteristic addition processing units 31B to 35B for generating the spatial characteristic additional signal corresponding to the impulse response to the position of the listener's right ear are added. The adder 41B for generating the right channel output audio signal, and canceling the interaction between the left channel output audio signal and the right channel output audio signal. Crosstalk cancellation processing unit 42 for performing crosstalk cancellation processing, speaker 43A for outputting left channel output audio signal after crosstalk cancellation processing as audio, and right channel output audio signal after crosstalk cancellation processing. And a speaker 43B that outputs sound.

空間特性付加処理部31Aは、音声ソースのセンタチャンネルが出力されるべきスピーカ位置から聴取者の左耳の位置へのインパルス応答についてインパルス応答特徴量抽出部2で抽出された特徴量を用いて、センタチャンネルの入力音声信号を処理し、生成した空間特性付加信号を加算器41Aに供給する。   The spatial characteristic addition processing unit 31A uses the feature amount extracted by the impulse response feature amount extraction unit 2 for the impulse response from the speaker position where the center channel of the audio source is to be output to the position of the listener's left ear, The input audio signal of the center channel is processed, and the generated spatial characteristic addition signal is supplied to the adder 41A.

空間特性付加処理部31Bは、音声ソースのセンタチャンネルが出力されるべきスピーカ位置から聴取者の右耳の位置へのインパルス応答についてインパルス応答特徴量抽出部2で抽出された特徴量を用いて、センタチャンネルの入力音声信号を処理し、生成した空間特性付加信号を加算器41Bに供給する。   The spatial characteristic addition processing unit 31B uses the feature amount extracted by the impulse response feature amount extraction unit 2 for the impulse response from the speaker position where the center channel of the audio source is to be output to the position of the right ear of the listener. The input audio signal of the center channel is processed, and the generated spatial characteristic addition signal is supplied to the adder 41B.

空間特性付加処理部32Aは、音声ソースの左チャンネルが出力されるべきスピーカ位置から聴取者の左耳の位置へのインパルス応答についてインパルス応答特徴量抽出部2で抽出された特徴量を用いて、左チャンネルの入力音声信号を処理し、生成した空間特性付加信号を加算器41Aに供給する。   The spatial characteristic addition processing unit 32A uses the feature amount extracted by the impulse response feature amount extraction unit 2 for the impulse response from the speaker position where the left channel of the audio source is to be output to the position of the listener's left ear, The left channel input audio signal is processed, and the generated spatial characteristic addition signal is supplied to the adder 41A.

空間特性付加処理部32Bは、音声ソースの左チャンネルが出力されるべきスピーカ位置から聴取者の右耳の位置へのインパルス応答についてインパルス応答特徴量抽出部2で抽出された特徴量を用いて、左チャンネルの入力音声信号を処理し、生成した空間特性付加信号を加算器41Bに供給する。   The spatial characteristic addition processing unit 32B uses the feature amount extracted by the impulse response feature amount extraction unit 2 for the impulse response from the speaker position where the left channel of the audio source is to be output to the position of the listener's right ear, The left channel input audio signal is processed, and the generated spatial characteristic addition signal is supplied to the adder 41B.

空間特性付加処理部33Aは、音声ソースの右チャンネルが出力されるべきスピーカ位置から聴取者の左耳の位置へのインパルス応答についてインパルス応答特徴量抽出部2で抽出された特徴量を用いて、右チャンネルの入力音声信号を処理し、生成した空間特性付加信号を加算器41Aに供給する。   The spatial characteristic addition processing unit 33A uses the feature amount extracted by the impulse response feature amount extraction unit 2 regarding the impulse response from the speaker position where the right channel of the audio source is to be output to the position of the listener's left ear, The right channel input audio signal is processed, and the generated spatial characteristic addition signal is supplied to the adder 41A.

空間特性付加処理部33Bは、音声ソースの右チャンネルが出力されるべきスピーカ位置から聴取者の右耳の位置へのインパルス応答についてインパルス応答特徴量抽出部2で抽出された特徴量を用いて、右チャンネルの入力音声信号を処理し、生成した空間特性付加信号を加算器41Bに供給する。   The spatial characteristic addition processing unit 33B uses the feature amount extracted by the impulse response feature amount extraction unit 2 for the impulse response from the speaker position where the right channel of the audio source is to be output to the position of the listener's right ear, The input audio signal of the right channel is processed and the generated spatial characteristic addition signal is supplied to the adder 41B.

空間特性付加処理部34Aは、音声ソースのサラウンド左チャンネルが出力されるべきスピーカ位置から聴取者の左耳の位置へのインパルス応答についてインパルス応答特徴量抽出部2で抽出された特徴量を用いて、サラウンド左チャンネルの入力音声信号を処理し、生成した空間特性付加信号を加算器41Aに供給する。   The spatial characteristic addition processing unit 34A uses the feature amount extracted by the impulse response feature amount extraction unit 2 for the impulse response from the speaker position where the surround left channel of the audio source is to be output to the position of the listener's left ear. The surround left channel input audio signal is processed, and the generated spatial characteristic addition signal is supplied to the adder 41A.

空間特性付加処理部34Bは、音声ソースのサラウンド左チャンネルが出力されるべきスピーカ位置から聴取者の右耳の位置へのインパルス応答についてインパルス応答特徴量抽出部2で抽出された特徴量を用いて、サラウンド左チャンネルの入力音声信号を処理し、生成した空間特性付加信号を加算器41Bに供給する。   The spatial characteristic addition processing unit 34B uses the feature amount extracted by the impulse response feature amount extraction unit 2 regarding the impulse response from the speaker position where the surround left channel of the audio source is to be output to the position of the right ear of the listener. Then, the input audio signal of the surround left channel is processed, and the generated spatial characteristic addition signal is supplied to the adder 41B.

空間特性付加処理部35Aは、音声ソースのサラウンド右チャンネルが出力されるべきスピーカ位置から聴取者の左耳の位置へのインパルス応答についてインパルス応答特徴量抽出部2で抽出された特徴量を用いて、サラウンド右チャンネルの入力音声信号を処理し、生成した空間特性付加信号を加算器41Aに供給する。   The spatial characteristic addition processing unit 35A uses the feature amount extracted by the impulse response feature amount extraction unit 2 for the impulse response from the speaker position where the surround right channel of the audio source is to be output to the position of the listener's left ear. The surround right channel input audio signal is processed, and the generated spatial characteristic addition signal is supplied to the adder 41A.

空間特性付加処理部35Bは、音声ソースのサラウンド右チャンネルが出力されるべきスピーカ位置から聴取者の右耳の位置へのインパルス応答についてインパルス応答特徴量抽出部2で抽出された特徴量を用いて、サラウンド右チャンネルの入力音声信号を処理し、生成した空間特性付加信号を加算器41Bに供給する。   The spatial characteristic addition processing unit 35B uses the feature amount extracted by the impulse response feature amount extraction unit 2 regarding the impulse response from the speaker position where the surround right channel of the audio source is to be output to the position of the listener's right ear. The surround right channel input audio signal is processed, and the generated spatial characteristic addition signal is supplied to the adder 41B.

図4は図3に示す再生処理部3における空間特性付加処理部31Aの構成を示すブロック図である。空間特性付加処理部31A〜35A,31B〜35Bはそれぞれ同様の構成であるため、空間特性付加処理部31Aを例にその構成を説明する。   FIG. 4 is a block diagram showing the configuration of the spatial characteristic addition processing unit 31A in the reproduction processing unit 3 shown in FIG. Since the spatial characteristic addition processing units 31A to 35A and 31B to 35B have the same configuration, the configuration will be described by taking the spatial characteristic addition processing unit 31A as an example.

図4に示すように空間特性付加処理部31Aは、インパルス応答の直接音フレームと入力音声信号との畳み込み演算を、入力音声信号のブロック単位で行う畳み込み演算部51と、畳み込み演算部51による畳み込み演算結果を格納する畳み込み演算結果格納バッファ52と、畳み込み演算結果格納バッファ52に記憶された入力音声信号のブロック単位の畳み込み演算結果に対して、特徴的サンプル点位置記憶部22に記憶された各特徴的サンプル点位置に対応した遅延処理を施す遅延回路53A〜53Eと、周波数特性補正係数記憶部26に記憶された周波数特性補正係数を用いて、遅延回路53A〜53Eから出力される信号に対してそれぞれ周波数特性補正処理を施す補正フィルタ54A〜54Eと、パワー比率記憶部24に記憶されたパワー比率に基づいて、補正フィルタ54A〜54Eから出力される信号をそれぞれ増幅して出力するアンプ55A〜55Eと、畳み込み演算結果格納バッファ52に格納された畳み込み演算結果と、アンプ55A〜55Eから出力された特徴的サンプル点位置の数分のブロックの増幅信号を格納し、格納した信号を時分割的に先頭の1ブロックごとに空間特性付加信号として出力する出力待機バッファ56とを備える。   As shown in FIG. 4, the spatial characteristic addition processing unit 31 </ b> A includes a convolution operation unit 51 that performs a convolution operation between the direct sound frame of the impulse response and the input sound signal in units of blocks of the input sound signal, and a convolution by the convolution operation unit 51. A convolution calculation result storage buffer 52 for storing the calculation result, and each block stored in the characteristic sample point position storage unit 22 with respect to the convolution calculation result for each block of the input speech signal stored in the convolution calculation result storage buffer 52. Using the delay circuits 53A to 53E that perform delay processing corresponding to the characteristic sample point positions and the frequency characteristic correction coefficient stored in the frequency characteristic correction coefficient storage unit 26, the signals output from the delay circuits 53A to 53E are processed. Stored in the power ratio storage unit 24 and the correction filters 54A to 54E that respectively perform frequency characteristic correction processing. Based on the power ratio, the amplifiers 55A to 55E that amplify and output the signals output from the correction filters 54A to 54E, the convolution calculation results stored in the convolution calculation result storage buffer 52, and the amplifiers 55A to 55E, respectively. An output standby buffer 56 for storing the amplified signals of blocks corresponding to the number of output characteristic sample point positions and outputting the stored signal as a spatial characteristic addition signal for each head block in a time division manner is provided.

遅延回路、補正フィルタ、およびアンプはそれぞれ、特徴的サンプル点位置記憶部22に記憶された、空間特性付加処理部31Aに対応するインパルス応答についての特徴的サンプル点位置の数と同じ数だけ設けられる。特徴的サンプル点位置の数は、処理プロセッサとの関係性から決定され、図4では、特徴的サンプル点位置の数が5つであり、遅延回路、補正フィルタ、およびアンプが5つずつ設けられる場合を示している。   Each of the delay circuit, the correction filter, and the amplifier is provided in the same number as the number of characteristic sample point positions for the impulse response corresponding to the spatial characteristic addition processing unit 31A stored in the characteristic sample point position storage unit 22. . The number of characteristic sample point positions is determined from the relationship with the processing processor. In FIG. 4, the number of characteristic sample point positions is five, and five delay circuits, correction filters, and five amplifiers are provided. Shows the case.

遅延回路53A〜53Eには、特徴的サンプル点位置記憶部22に記憶された各特徴的サンプル点位置に対応した遅延時間D1〜D5が設定される。補正フィルタ54A〜54Eは、FIRまたはIIRからなり、周波数特性補正係数記憶部26に記憶された周波数特性補正係数F1〜F5が設定される。また、アンプ55A〜55Eには、パワー比率記憶部24に記憶されたパワー比率に対応した係数値P1〜P5が設定される。   Delay times D1 to D5 corresponding to the characteristic sample point positions stored in the characteristic sample point position storage unit 22 are set in the delay circuits 53A to 53E. The correction filters 54A to 54E are made of FIR or IIR, and the frequency characteristic correction coefficients F1 to F5 stored in the frequency characteristic correction coefficient storage unit 26 are set. In addition, coefficient values P1 to P5 corresponding to the power ratio stored in the power ratio storage unit 24 are set in the amplifiers 55A to 55E.

次に、本実施の形態に係る音声信号処理装置においてインパルス応答の特徴量を抽出する手順を説明する。図5は図2に示すインパルス応答特徴量抽出部2においてインパルス応答の特徴量を抽出する手順を示すフローチャートである。   Next, the procedure for extracting the feature value of the impulse response in the audio signal processing apparatus according to the present embodiment will be described. FIG. 5 is a flowchart showing a procedure for extracting feature values of the impulse response in the impulse response feature amount extraction unit 2 shown in FIG.

相関計算部21には、再生空間となる室にて音声ソースの各チャンネルについて測定された、当該チャンネルの音声信号が出力されるべきスピーカ位置から聴取者の各耳の位置へのインパルス応答が入力される。本実施の形態では音声ソースは5チャンネルであるので、相関計算部21には合計10個のインパルス応答が入力され、それぞれのインパルス応答について、以下の処理によりその特徴量として特徴的サンプル点位置、周波数特性補正係数、およびパワー比率が抽出される。   The correlation calculation unit 21 receives an impulse response measured for each channel of the audio source in a room serving as a reproduction space, from the speaker position where the audio signal of the channel is to be output to the position of each ear of the listener. Is done. In the present embodiment, since the audio source is 5 channels, a total of 10 impulse responses are input to the correlation calculation unit 21. For each impulse response, the characteristic sample point position, A frequency characteristic correction coefficient and a power ratio are extracted.

まず、ステップS10において、相関計算部21は、図6に示すようなインパルス応答の波形情報が入力されると、所定のフレーム幅ごとにインパルス応答のパワーを計算する。次いで、ステップS20では、相関計算部21は、図7に示すように、すべてのフレームの中でパワーが最大値をとるフレームを直接音フレームとして決定する。   First, in step S10, when the waveform information of the impulse response as shown in FIG. 6 is input, the correlation calculation unit 21 calculates the power of the impulse response for each predetermined frame width. Next, in step S20, as shown in FIG. 7, the correlation calculation unit 21 determines a frame having the maximum power among all the frames as a direct sound frame.

なお、上記のようにフレームごとのインパルス応答のパワーを計算して直接音フレームを決定するかわりに、インパルス応答の瞬時パワーを計算して直接音フレームを決定してもよい。この場合、相関計算部21は、ステップS10では、所定のフレーム幅ごとにインパルス応答の波形の瞬時パワーを時間振幅値の2乗として計算し、ステップS20では、瞬時パワーの最大値の時刻的ポイントから前後を調整して1フレーム長が所定のサンプル数となるようにしたフレームを直接音フレームとして決定する。   Instead of determining the direct sound frame by calculating the impulse response power for each frame as described above, the direct sound frame may be determined by calculating the instantaneous power of the impulse response. In this case, in step S10, the correlation calculation unit 21 calculates the instantaneous power of the impulse response waveform as a square of the time amplitude value for each predetermined frame width, and in step S20, the time point of the maximum instantaneous power value is calculated. Then, a frame in which one frame length is a predetermined number of samples by adjusting the front and rear is determined as a direct sound frame.

次いで、ステップS30において、相関計算部21は、ステップS20で決定した直接音フレームと元のインパルス応答との相関値を1サンプルごとに計算していき、時刻的ポイントに対する相関値を計算する。算出した相関値の一例を図8に示す。   Next, in step S30, the correlation calculation unit 21 calculates the correlation value between the direct sound frame determined in step S20 and the original impulse response for each sample, and calculates the correlation value for the time point. An example of the calculated correlation value is shown in FIG.

ここで、相関値の計算には様々な方法が可能性としてあり得るが、ここでは一例として基本的な式を以下の(数式1)に示す。

Figure 2008228225
Here, various methods may be possible for the calculation of the correlation value, but here, as an example, a basic formula is shown in the following (Formula 1).
Figure 2008228225

次いで、ステップS40において、相関計算部21は、ステップS30で算出した相関値が高い順に所定の数だけ、その時刻的ポイントに相当する時間軸位置情報を特徴的サンプル点位置として特徴的サンプル点位置記憶部22に格納する。   Next, in step S40, the correlation calculation unit 21 sets a characteristic sample point position corresponding to a predetermined number of time axis position information corresponding to the time point in order from the highest correlation value calculated in step S30. Store in the storage unit 22.

次いで、ステップS50において、パワー比率計算部23は、特徴的サンプル点位置記憶部22に格納された特徴的サンプル点位置を参照して、それぞれの特徴的サンプル点位置からの1フレームについて、直接音フレームとのパワー比率を計算する。   Next, in step S50, the power ratio calculation unit 23 refers to the characteristic sample point positions stored in the characteristic sample point position storage unit 22, and performs direct sound for one frame from each characteristic sample point position. Calculate the power ratio with the frame.

次いで、ステップS60において、パワー比率計算部23は、計算したパワー比率を、対応する特徴的サンプル点位置の相関値の高い順でパワー比率記憶部24に格納する。   Next, in step S60, the power ratio calculation unit 23 stores the calculated power ratios in the power ratio storage unit 24 in descending order of the correlation value of the corresponding characteristic sample point positions.

次いで、ステップS70において、周波数特性補正係数算出部25は、特徴的サンプル点位置記憶部22に格納された特徴的サンプル点位置を参照して、それぞれの特徴的サンプル点位置からの1フレームについて、その周波数特性を計算する。算出した周波数特性の一例を図9に示す。そして、周波数特性補正係数算出部25は、この周波数特性に近似させるための周波数特性補正係数を算出する。   Next, in step S70, the frequency characteristic correction coefficient calculation unit 25 refers to the characteristic sample point positions stored in the characteristic sample point position storage unit 22, and for one frame from each characteristic sample point position, The frequency characteristic is calculated. An example of the calculated frequency characteristic is shown in FIG. Then, the frequency characteristic correction coefficient calculation unit 25 calculates a frequency characteristic correction coefficient for approximating this frequency characteristic.

その後、ステップS80において、周波数特性補正係数算出部25は、算出した周波数特性補正係数を、対応する特徴的サンプル点位置の相関値の高い順で周波数特性補正係数記憶部26に格納する。   Thereafter, in step S80, the frequency characteristic correction coefficient calculation unit 25 stores the calculated frequency characteristic correction coefficient in the frequency characteristic correction coefficient storage unit 26 in descending order of the correlation value of the corresponding characteristic sample point position.

このようにインパルス応答特徴量抽出部2で特徴量として抽出する各インパルス応答についての特徴的サンプル点位置、周波数特性補正係数、およびパワー比率は、再生空間と聴取者位置が変わらない限り、1回だけ抽出しておけばよい。   As described above, the characteristic sample point position, the frequency characteristic correction coefficient, and the power ratio for each impulse response extracted as the characteristic amount by the impulse response characteristic amount extraction unit 2 are set once unless the reproduction space and the listener position are changed. Just extract it.

次に、本実施の形態に係る音声信号処理装置における入力音声信号に対する空間特性付加処理の手順を説明する。以下、空間特性付加処理部31Aにおいてセンタチャンネルの入力音声信号を処理する手順について説明するが、空間特性付加処理部32A〜35A,31B〜35Bにおいても、それぞれに対応するチャンネルの入力音声信号に対して同様の処理を行う。   Next, the procedure of the spatial characteristic addition process for the input audio signal in the audio signal processing apparatus according to the present embodiment will be described. Hereinafter, the procedure for processing the center channel input audio signal in the spatial characteristic addition processing unit 31A will be described, but the spatial characteristic addition processing units 32A to 35A and 31B to 35B also apply to the input audio signal of the corresponding channel. The same processing is performed.

図10は図4に示す空間特性付加処理部31Aにおける空間特性付加処理の手順を示すフローチャートである。まず、ステップS110において、畳み込み演算部51は、インパルス応答の直接音フレームと入力音声信号との畳み込み演算を、入力音声信号のブロック単位で行い、得られた畳み込み演算結果を畳み込み演算結果格納バッファ52に格納する。   FIG. 10 is a flowchart showing the procedure of the spatial characteristic addition processing in the spatial characteristic addition processing unit 31A shown in FIG. First, in step S110, the convolution operation unit 51 performs a convolution operation between the direct sound frame of the impulse response and the input sound signal for each block of the input sound signal, and the obtained convolution operation result is stored in the convolution operation result storage buffer 52. To store.

次に、ステップS120において、遅延回路53A〜53Eは、畳み込み演算結果格納バッファ52に格納された入力音声信号の各ブロックの畳み込み演算結果に対して、遅延時間D1〜D5により遅延処理を施す。   Next, in step S <b> 120, the delay circuits 53 </ b> A to 53 </ b> E perform delay processing on the convolution calculation results of each block of the input audio signal stored in the convolution calculation result storage buffer 52 using the delay times D <b> 1 to D <b> 5.

次に、ステップS130において、補正フィルタ54A〜54Eは、周波数特性補正係数F1〜F5を用いて、遅延回路53A〜53Eから出力される信号に対してそれぞれ周波数特性補正処理を施す。この周波数特性補正処理によって、元のインパルス応答の有している距離感の効果を可能な限り引き出すことができる。   Next, in step S130, the correction filters 54A to 54E perform frequency characteristic correction processing on the signals output from the delay circuits 53A to 53E using the frequency characteristic correction coefficients F1 to F5, respectively. By this frequency characteristic correction processing, it is possible to draw out the effect of the sense of distance that the original impulse response has as much as possible.

次に、ステップS140において、アンプ55A〜55Eは、補正フィルタ54A〜54Eから出力される信号にそれぞれ係数値P1〜P5を乗算して増幅し、増幅された信号を出力する。   Next, in Step S140, the amplifiers 55A to 55E multiply the signals output from the correction filters 54A to 54E by the coefficient values P1 to P5, respectively, and output the amplified signals.

そして、ステップS150において、畳み込み演算部51で得られた畳み込み演算結果と、アンプ55A〜55Eで増幅された信号とが、出力待機バッファ56内に加算される。   In step S150, the convolution calculation result obtained by the convolution calculation unit 51 and the signals amplified by the amplifiers 55A to 55E are added to the output standby buffer 56.

その後、出力待機バッファ56は、格納した信号を時分割的に先頭の1ブロックごとに空間特性付加信号として加算器41Aに出力する。ここで、図4に示すように、出力待機バッファ56から出力される1ブロックの長さL1は、遅延時間D1〜D5に依存しない。1ブロックの出力後、出力待機バッファ56内の信号は1ブロック分前詰めされる。   Thereafter, the output standby buffer 56 outputs the stored signal to the adder 41A as a spatial characteristic addition signal for each leading block in a time division manner. Here, as shown in FIG. 4, the length L1 of one block output from the output standby buffer 56 does not depend on the delay times D1 to D5. After output of one block, the signal in the output standby buffer 56 is left-justified by one block.

そして、空間特性付加処理部31Aから加算器41Aに供給された空間特性付加信号は、加算器41Aにおいて空間特性付加処理部32A〜35Aからの空間特性付加信号と加算される。また、空間特性付加処理部31B〜35Bからの空間特性付加信号は加算器41Bにおいて足し合わされる。   Then, the spatial characteristic addition signal supplied from the spatial characteristic addition processing unit 31A to the adder 41A is added to the spatial characteristic addition signals from the spatial characteristic addition processing units 32A to 35A in the adder 41A. Further, the spatial characteristic addition signals from the spatial characteristic addition processing units 31B to 35B are added in the adder 41B.

クロストークキャンセル処理部42は、加算器41Aで生成された左チャンネルの出力音声信号と、加算器41Bで生成された右チャンネルの出力音声信号との相互作用をキャンセルするクロストークキャンセル処理を行う。そして、クロストークキャンセル処理後の左右チャンネルの出力音声信号は、それぞれスピーカ43A,43Bにおいて音声として出力される。   The crosstalk cancellation processing unit 42 performs a crosstalk cancellation process for canceling the interaction between the output audio signal of the left channel generated by the adder 41A and the output audio signal of the right channel generated by the adder 41B. Then, the output audio signals of the left and right channels after the crosstalk cancellation processing are output as audio at the speakers 43A and 43B, respectively.

上記説明のように、畳み込み演算部51で必要なタップ数は直接音フレーム長のみであり、直接音フレームの定義上、例えばサンプリング周波数48kHzにおいて長くともおよそ256サンプルというサンプルオーダーである。その他の特徴的サンプル点位置に対応した畳み込み演算は必要なく、出力待機バッファ56に対して特定の位置に積和して格納するのみである。   As described above, the number of taps required in the convolution operation unit 51 is only the direct sound frame length, and is, for example, a sample order of approximately 256 samples at the maximum at a sampling frequency of 48 kHz in terms of the definition of the direct sound frame. The convolution operation corresponding to the other characteristic sample point positions is not necessary, and the product is simply stored in the output standby buffer 56 at a specific position.

また、ある長さのブロック単位で一括の積和が可能であるようなアーキテクチャのプロセッサにおいては、出力待機バッファ56の格納までの処理が1サンプルごとではなく1ブロックごとに可能となり、さらなる演算量の削減を見込むことができる。   In addition, in a processor having an architecture in which collective sum of products can be performed in units of a certain length of block, the processing up to storing in the output standby buffer 56 can be performed for each block instead of for each sample, and further calculation amount Can be expected.

また、DSP(Digital Signal Processor)を用いた実装時には、図4における出力待機バッファ56の要するメモリ容量と再生の1サイクル(入力音声信号の1ブロック単位分の時間長)に演算可能な量にて、特徴的サンプル点位置の数を決めることができる。特徴量抽出時に、用いるべきポイントの順序を基となるインパルス応答の直接音フレームとの相関値の高い順としたため、決定した数に対しても自動的にすべての段の遅延回路における遅延時間、補正フィルタの周波数特性補正係数、およびアンプの係数値の値は定まる。   Further, when mounting using a DSP (Digital Signal Processor), the memory capacity required for the output standby buffer 56 in FIG. 4 and the amount that can be calculated in one cycle of reproduction (time length of one block unit of the input audio signal) The number of characteristic sample point positions can be determined. When extracting feature values, the order of points to be used is based on the order of the correlation value with the direct sound frame of the impulse response based on the order, so the delay time in the delay circuits of all stages automatically, even for the determined number, The frequency characteristic correction coefficient of the correction filter and the coefficient value of the amplifier are determined.

なお、上記のパラメータの値は一例であり、サンプリング周波数は48kHz以外にも44.1kHz、96kHzなどでもよい。直接音フレーム長も同様に、例えば128サンプルでもよいし、上記の例より長い512サンプルなどに設定してもよい。   Note that the values of the above parameters are merely examples, and the sampling frequency may be 44.1 kHz, 96 kHz, etc. in addition to 48 kHz. Similarly, the direct sound frame length may be 128 samples, for example, or may be set to 512 samples longer than the above example.

このように本実施の形態によれば、インパルス応答の中から選択される直接音フレームと相関の高い部分の位置を示す特徴的サンプル点位置と、特徴的サンプル点位置からの1フレームの周波数特性と、この周波数特性に近似させるための周波数特性補正係数と、特徴的サンプル点位置からの1フレームと直接音フレームとのパワー比率とを求め、入力音声信号と直接音フレームとの畳み込み演算を行い、得られた畳み込み演算結果に対して、特徴的サンプル点位置と周波数特性補正係数とパワー比率とに応じた遅延処理、周波数特性補正処理、および積和演算を行うので、妥当性をもってインパルス応答の畳み込み演算に用いる特徴的部分を選択し、かつ少ない演算量で効果的な音像定位を行うことができる。   As described above, according to the present embodiment, the characteristic sample point position indicating the position of the portion highly correlated with the direct sound frame selected from the impulse response, and the frequency characteristic of one frame from the characteristic sample point position. And a frequency characteristic correction coefficient for approximating this frequency characteristic, and a power ratio between one frame from the characteristic sample point position and the direct sound frame, and a convolution operation between the input sound signal and the direct sound frame is performed. The resulting convolution operation results in delay processing, frequency characteristic correction processing, and product-sum operation according to the characteristic sample point position, frequency characteristic correction coefficient, and power ratio. It is possible to select a characteristic part used for the convolution calculation and perform effective sound image localization with a small amount of calculation.

また、低演算量で再生が可能であることは、従来と同等の処理を行う際に製品搭載時の演算処理プロセッサのコスト低下が可能であるという利点とともに、音声ソースであるコンテンツのチャンネル数の増加に対しても、同じ演算量で多数のチャンネルに対しての処理が見込めるため利点を有する。   In addition, the ability to play back with a small amount of computation has the advantage of reducing the cost of the arithmetic processing processor when the product is installed when performing the same processing as before, and the number of channels of content that is the audio source. Even for the increase, there is an advantage that processing for a large number of channels can be expected with the same calculation amount.

なお、上記音声信号処理装置の機能をプログラムによりコンピュータに実現させるようにしてもよい。このプログラムは、記録媒体から読みとられてコンピュータに取り込まれてもよいし、通信ネットワークを介して伝送されてコンピュータに取り込まれてもよい。   The functions of the audio signal processing device may be realized by a computer by a program. This program may be read from a recording medium and loaded into a computer, or may be transmitted via a communication network and loaded into a computer.

本発明の実施の形態に係る音声信号処理装置の構成を示すブロック図である。It is a block diagram which shows the structure of the audio | voice signal processing apparatus which concerns on embodiment of this invention. 図1に示す音声信号処理装置のインパルス応答特徴量抽出部の構成を示すブロック図である。It is a block diagram which shows the structure of the impulse response feature-value extraction part of the audio | voice signal processing apparatus shown in FIG. 図1に示す音声信号処理装置の再生処理部の構成を示すブロック図である。It is a block diagram which shows the structure of the reproduction | regeneration processing part of the audio | voice signal processing apparatus shown in FIG. 図3に示す再生処理部における空間特性付加処理部の構成を示すブロック図である。It is a block diagram which shows the structure of the spatial characteristic addition process part in the reproduction | regeneration processing part shown in FIG. インパルス応答の特徴量を抽出する手順を示すフローチャートである。It is a flowchart which shows the procedure which extracts the feature-value of an impulse response. インパルス応答の波形の一例を示す図である。It is a figure which shows an example of the waveform of an impulse response. インパルス応答の直接音フレームを説明するための図である。It is a figure for demonstrating the direct sound frame of an impulse response. 相関値の一例を示す図である。It is a figure which shows an example of a correlation value. 周波数特性の一例を示す図である。It is a figure which shows an example of a frequency characteristic. 空間特性付加処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of a spatial characteristic addition process.

符号の説明Explanation of symbols

1 音声信号処理装置
2 インパルス応答特徴量抽出部
3 再生処理部
21 相関計算部
22 特徴的サンプル点位置記憶部
23 パワー比率計算部
24 パワー比率記憶部
25 周波数特性補正係数算出部
26 周波数特性補正係数記憶部
31A〜35A31B〜35B 空間特性付加処理部
41A,41B 加算器
42 クロストークキャンセル処理部
43A,43B スピーカ
51 畳み込み演算部
52 畳み込み演算結果格納バッファ
53A〜53E 遅延回路
54A〜54E 補正フィルタ
55A〜55E アンプ
56 出力待機バッファ
DESCRIPTION OF SYMBOLS 1 Audio | voice signal processing apparatus 2 Impulse response feature-value extraction part 3 Reproduction | regeneration processing part 21 Correlation calculation part 22 Characteristic sample point position storage part 23 Power ratio calculation part 24 Power ratio storage part 25 Frequency characteristic correction coefficient calculation part 26 Frequency characteristic correction coefficient Storage unit 31A to 35A 31B to 35B Spatial characteristic addition processing unit 41A, 41B Adder 42 Crosstalk cancellation processing unit 43A, 43B Speaker 51 Convolution operation unit 52 Convolution operation result storage buffer 53A to 53E Delay circuit 54A to 54E Correction filter 55A to 55E Amplifier 56 Output standby buffer

Claims (3)

複数チャンネルの音声信号からなる音声ソースの各チャンネルについて測定された、当該チャンネルの音声信号が出力されるべきスピーカ位置から聴取者の各耳の位置へのインパルス応答のそれぞれについて特徴量を抽出するインパルス応答特徴量抽出部と、
前記各インパルス応答について抽出された前記特徴量を用いて前記各チャンネルの入力音声信号を処理して、前記各インパルス応答に対応した空間特性付加信号を出力する空間特性付加処理部と、
この空間特性付加処理部から出力される各前記空間特性付加信号のうち、聴取者の左耳の位置へのインパルス応答に対応した空間特性付加信号同士を足し合わせて左チャンネルの出力音声信号を生成する第1の加算器と、
前記空間特性付加処理部から出力される各前記空間特性付加信号のうち、聴取者の右耳の位置へのインパルス応答に対応した空間特性付加信号同士を足し合わせて右チャンネルの出力音声信号を生成する第2の加算器と、
前記左チャンネルの出力音声信号と前記右チャンネルの出力音声信号との相互作用をキャンセルするクロストークキャンセル処理を行うクロストークキャンセル処理部とを備え、
前記インパルス応答特徴量抽出部は、
前記各インパルス応答について、当該インパルス応答の中から選択される直接音フレームと当該インパルス応答との相関値を1サンプルごとに計算する相関計算部と、
この相関計算部の計算結果に基づいて、当該インパルス応答において前記直接音フレームとの相関値が高い時刻的ポイントに相当する時間軸位置情報を所定の数だけ特徴的サンプル点位置として記憶する特徴的サンプル点位置記憶部と、
この特徴的サンプル点位置記憶部に記憶された前記各特徴的サンプル点位置について、当該特徴的サンプル点位置からの1フレームと前記直接音フレームとのパワー比率を計算するパワー比率計算部と、
このパワー比率計算部で計算した前記パワー比率を記憶するパワー比率記憶部と、
前記特徴的サンプル点位置記憶部に記憶された前記各特徴的サンプル点位置について、当該特徴的サンプル点位置からの1フレームの周波数特性を計算し、この周波数特性に近似させるための周波数特性補正係数を算出する周波数特性補正係数算出部と、
この周波数特性補正係数算出部で算出した前記周波数特性補正係数を記憶する周波数特性補正係数記憶部とを備え、
前記空間特性付加処理部は、
前記各インパルス応答について、当該インパルス応答における前記直接音フレームと、当該インパルス応答に対応するチャンネルの入力音声信号との畳み込み演算を、前記入力音声信号のブロック単位で行う畳み込み演算部と、
この畳み込み演算部による畳み込み演算結果を格納する畳み込み演算結果格納部と、
この畳み込み演算結果格納部に格納された前記入力音声信号のブロック単位の畳み込み演算結果に対して、前記特徴的サンプル点位置記憶部に記憶された前記各特徴的サンプル点位置に対応した遅延処理を施す遅延処理部と、
前記周波数特性補正係数記憶部に記憶された前記周波数特性補正係数を用いて、前記遅延処理部から出力される、前記入力音声信号の1ブロックに対して前記特徴的サンプル点位置の数分のブロックの信号に対してそれぞれ周波数特性補正処理を施す周波数特性補正処理部と、
前記パワー比率記憶部に記憶された前記パワー比率に基づいて、前記周波数特性補正処理部から出力される、前記入力音声信号の1ブロックに対して前記特徴的サンプル点位置の数分のブロックの信号をそれぞれ増幅して出力する増幅部と、
前記畳み込み演算部により得られた前記畳み込み演算結果と、前記増幅部からの増幅信号とを格納し、格納した信号を時分割的に先頭の1ブロックごとに空間特性付加信号として出力する出力待機バッファ部と
を備えることを特徴とする音声信号処理装置。
Impulses that extract feature values for each impulse response measured from each channel of an audio source composed of audio signals of a plurality of channels to a position of each ear of a listener from a speaker position where the audio signal of the channel is to be output. A response feature extraction unit;
A spatial characteristic addition processing unit that processes the input audio signal of each channel using the feature amount extracted for each impulse response and outputs a spatial characteristic addition signal corresponding to each impulse response;
Of each of the spatial characteristic addition signals output from the spatial characteristic addition processing unit, an output audio signal of the left channel is generated by adding the spatial characteristic addition signals corresponding to the impulse response to the position of the listener's left ear. A first adder,
Out of each of the spatial characteristic addition signals output from the spatial characteristic addition processing unit, a spatial channel additional signal corresponding to the impulse response to the position of the listener's right ear is added together to generate an output audio signal of the right channel. A second adder,
A crosstalk cancellation processing unit for performing a crosstalk cancellation process for canceling an interaction between the output audio signal of the left channel and the output audio signal of the right channel;
The impulse response feature extraction unit includes:
For each impulse response, a correlation calculation unit that calculates a correlation value between the direct sound frame selected from the impulse response and the impulse response for each sample;
Based on the calculation result of the correlation calculation unit, a predetermined number of time axis position information corresponding to a time point having a high correlation value with the direct sound frame in the impulse response is stored as a characteristic sample point position A sample point position storage unit;
A power ratio calculator for calculating a power ratio between one frame from the characteristic sample point position and the direct sound frame for each characteristic sample point position stored in the characteristic sample point position storage unit;
A power ratio storage unit for storing the power ratio calculated by the power ratio calculation unit;
For each characteristic sample point position stored in the characteristic sample point position storage unit, a frequency characteristic correction coefficient for calculating a frequency characteristic of one frame from the characteristic sample point position and approximating this frequency characteristic A frequency characteristic correction coefficient calculation unit for calculating
A frequency characteristic correction coefficient storage unit that stores the frequency characteristic correction coefficient calculated by the frequency characteristic correction coefficient calculation unit;
The spatial characteristic addition processing unit
For each impulse response, a convolution operation unit that performs a convolution operation between the direct sound frame in the impulse response and an input audio signal of a channel corresponding to the impulse response in units of blocks of the input audio signal;
A convolution operation result storage unit for storing a convolution operation result by the convolution operation unit;
Delay processing corresponding to each characteristic sample point position stored in the characteristic sample point position storage unit is performed on the block unit convolution calculation result of the input audio signal stored in the convolution calculation result storage unit. A delay processing unit to be applied;
Blocks corresponding to the number of characteristic sample point positions with respect to one block of the input audio signal output from the delay processing unit using the frequency characteristic correction coefficient stored in the frequency characteristic correction coefficient storage unit A frequency characteristic correction processing unit for performing frequency characteristic correction processing on each of the signals,
Based on the power ratio stored in the power ratio storage unit, a signal of blocks corresponding to the number of characteristic sample point positions for one block of the input audio signal output from the frequency characteristic correction processing unit Amplifying unit for amplifying and outputting
An output standby buffer for storing the result of the convolution operation obtained by the convolution operation unit and the amplified signal from the amplification unit, and outputting the stored signal as a spatial characteristic addition signal for each leading block in a time division manner And an audio signal processing device.
前記相関計算部は、所定のフレーム幅ごとに前記インパルス応答のパワーを計算し、パワーの最大値をとるフレームを前記直接音フレームとして決定することを特徴とする請求項1に記載の音声信号処理装置。   2. The audio signal processing according to claim 1, wherein the correlation calculation unit calculates a power of the impulse response for each predetermined frame width, and determines a frame having a maximum power value as the direct sound frame. apparatus. 前記相関計算部は、前記インパルス応答の波形の瞬時パワーを時間振幅値の2乗として計算し、前記瞬時パワーの最大値をとる時刻的ポイントを含むフレームを前記直接音フレームとして決定することを特徴とする請求項1に記載の音声信号処理装置。   The correlation calculation unit calculates an instantaneous power of the waveform of the impulse response as a square of a time amplitude value, and determines a frame including a time point at which the maximum value of the instantaneous power is obtained as the direct sound frame. The audio signal processing apparatus according to claim 1.
JP2007067474A 2007-03-15 2007-03-15 Sound signal processing equipment Pending JP2008228225A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007067474A JP2008228225A (en) 2007-03-15 2007-03-15 Sound signal processing equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007067474A JP2008228225A (en) 2007-03-15 2007-03-15 Sound signal processing equipment

Publications (1)

Publication Number Publication Date
JP2008228225A true JP2008228225A (en) 2008-09-25

Family

ID=39846249

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007067474A Pending JP2008228225A (en) 2007-03-15 2007-03-15 Sound signal processing equipment

Country Status (1)

Country Link
JP (1) JP2008228225A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016096630A1 (en) * 2014-12-18 2016-06-23 Koninklijke Philips N.V. Method and device for effective audible alarm settings
CN111869234A (en) * 2018-03-22 2020-10-30 云加速360公司 Multi-channel sub-band spatial processing for loudspeakers
US11284213B2 (en) 2019-10-10 2022-03-22 Boomcloud 360 Inc. Multi-channel crosstalk processing

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016096630A1 (en) * 2014-12-18 2016-06-23 Koninklijke Philips N.V. Method and device for effective audible alarm settings
CN107111921A (en) * 2014-12-18 2017-08-29 皇家飞利浦有限公司 The method and apparatus set for effective audible alarm
CN111869234A (en) * 2018-03-22 2020-10-30 云加速360公司 Multi-channel sub-band spatial processing for loudspeakers
JP2021510992A (en) * 2018-03-22 2021-04-30 ブームクラウド 360 インコーポレイテッド Multi-channel subband spatial processing for speakers
CN111869234B (en) * 2018-03-22 2022-05-10 云加速360公司 System, method and computer readable medium for processing multi-channel input audio signal
JP7323544B2 (en) 2018-03-22 2023-08-08 ブームクラウド 360 インコーポレイテッド Multichannel subband spatial processing for loudspeakers
US11284213B2 (en) 2019-10-10 2022-03-22 Boomcloud 360 Inc. Multi-channel crosstalk processing

Similar Documents

Publication Publication Date Title
JP6620235B2 (en) Apparatus and method for sound stage expansion
KR100739798B1 (en) Method and apparatus for reproducing a virtual sound of two channels based on the position of listener
KR101368859B1 (en) Method and apparatus for reproducing a virtual sound of two channels based on individual auditory characteristic
JP6479287B1 (en) Subband space crosstalk cancellation for audio playback
KR20190094356A (en) Audio precompensation filter optimized for highlights and shadows
JP2012186594A (en) Acoustic device, acoustic adjustment method, and program
US20130089215A1 (en) Audio processing device, audio processing method, recording medium, and program
EP3295687A2 (en) Generation and playback of near-field audio content
EP2484127B1 (en) Method, computer program and apparatus for processing audio signals
JP2008517317A (en) Audio data processing system, method, program element, and computer readable medium
JP2008311718A (en) Sound image localization controller, and sound image localization control program
US9913036B2 (en) Apparatus and method and computer program for generating a stereo output signal for providing additional output channels
JP2020508590A (en) Apparatus and method for downmixing multi-channel audio signals
KR20100084319A (en) Method and apparatus for adaptive remastering of rear audio channel
JP2008228225A (en) Sound signal processing equipment
JP5324663B2 (en) Acoustic signal processing apparatus and acoustic signal processing method
US20230360662A1 (en) Method and device for processing a binaural recording
KR100641454B1 (en) Apparatus of crosstalk cancellation for audio system
JP5958378B2 (en) Audio signal processing apparatus, control method and program for audio signal processing apparatus
JP2010217268A (en) Low delay signal processor generating signal for both ears enabling perception of direction of sound source
JP2008172615A (en) Audio signal processor
JP6205758B2 (en) SOUND DEVICE, SOUND DEVICE CONTROL METHOD AND PROGRAM
US20050152554A1 (en) Method and apparatus for processing audio signals
JP5552764B2 (en) Signal processing apparatus and program
JP4415775B2 (en) Audio signal processing apparatus and method, audio signal recording / reproducing apparatus, and program