WO2009110118A1 - 音信号の分離方法 - Google Patents

音信号の分離方法 Download PDF

Info

Publication number
WO2009110118A1
WO2009110118A1 PCT/JP2008/065287 JP2008065287W WO2009110118A1 WO 2009110118 A1 WO2009110118 A1 WO 2009110118A1 JP 2008065287 W JP2008065287 W JP 2008065287W WO 2009110118 A1 WO2009110118 A1 WO 2009110118A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound signal
time
spectrogram
frequency
separation method
Prior art date
Application number
PCT/JP2008/065287
Other languages
English (en)
French (fr)
Inventor
茂樹 嵯峨山
順貴 小野
弘和 亀岡
賢一 宮本
ジョナトン ルルー
Original Assignee
国立大学法人 東京大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人 東京大学 filed Critical 国立大学法人 東京大学
Priority to US12/920,299 priority Critical patent/US20110058685A1/en
Publication of WO2009110118A1 publication Critical patent/WO2009110118A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Definitions

  • the present invention relates to a method for separating sound signals, typically multiple sound signals.
  • the description will focus on the separation and extraction of percussion instrument sounds from music acoustic signals.
  • the present invention is applicable to the separation of percussion instrument sounds from music acoustic signals. For example, industrial sound generated from a machine or apparatus may be separated.
  • Non-Patent Documents 1 to 3 Some researches are known as methods for separating and extracting percussion instruments (non-harmonic components) from multiple sound signals.
  • Non-Patent Document 1 relates to sound source identification and removal using a frequency characteristic template of a specific percussion instrument.
  • a template for a musical instrument to be removed is required, and frame-wise processing is performed.
  • sound source identification is performed by iterative estimation.
  • Non-Patent Document 2 relates to a frame-wise harmonic / non-harmonic component separation technique that does not use musical instrument information, and a separation technique based on iterative estimation is performed.
  • Non-Patent Document 3 learns the frequency characteristics of harmonic sounds and percussion instrument sounds in advance using learning data, and separates them frame-wise by matching with learned features.
  • Kazuyoshi Yoshii Masataka Goto, Hiroshi Okuno, "Development of drum equalization system INTER: D using sound source identification of drums for real-world music sound signals," 3rd Information Processing Science and Technology Forum FIT2004.
  • Hirokazu Kameoka Masataka Goto, Shigeki Kajiyama, "Selective equalizer of periodic and non-periodic components in mixed sound by spectral control envelope," IPSJ SIG. 2006-MUS-65, pp77-84.
  • M. Helen, T. Virtanen "Separation of Drums from Polyphonic Music Using Non-negative Matrix Factorization and Support Vector Machine," In proc, 13th EUSIPCO, 2005.
  • An object of the present invention is to separate sound signals by focusing on the anisotropy of the smoothness of spectral components in the time-frequency domain, compared to the conventional frame-wise analysis technique.
  • One more specific object of the present invention is to separate harmonic instrumental sound components and percussive instrumental non-harmonic sound components from a music acoustic signal without using any information on musical instruments or musical scores.
  • the technical means adopted by the present invention is a method for separating a sound signal, wherein the spectrogram of the sound signal includes a plurality of sub-spectrograms having directivity on the time-frequency plane to smoothness of spectral components in the time-frequency domain. At least one distribution coefficient that distributes the spectral components of the sound signal in the time-frequency domain to at least one sub-spectrogram based on the smoothness direction of each sub-spectrogram on the time-frequency plane And separating at least one subspectrogram from a spectral component of the sound signal using the distribution coefficient.
  • the present invention focuses on the smooth direction of the spectral components of the spectrogram of the sound signal in the time frequency domain. That is, it is characterized in that not only the frequency characteristics but also the difference in change with time is used.
  • the spectrogram of the sound signal is the sum of a plurality of sub-spectrograms having directivity on the time-frequency plane with the smoothness of the spectral components in the time-frequency domain. That is, it is assumed that the spectrogram of the sound signal that is the subject of the present invention is the sum of a plurality of sub-spectrograms having smooth spectral components in different directions in the time frequency domain.
  • Spectral components belonging to each sub-spectrogram are smooth in the same direction on the time-frequency plane.
  • the smooth direction of the spectral components is different between the sub-spectrograms.
  • a spectrogram of a multi-tone signal includes a first sub-spectrogram composed of a spectral component group extending in a first direction on a time-frequency plane and a spectral component group extending in a second direction on the time-frequency plane.
  • a spectrogram of a certain multi-tone signal is divided into a first sub-spectrogram composed of spectral component groups extending in the first direction on the time-frequency plane and a spectral component group extending in the second direction on the time-frequency plane.
  • the third sub-spectrogram consisting of a group of spectral components extending in the third direction on the time-frequency plane.
  • the present invention is characterized in that it pays attention to the difference in the smooth direction of the spectral component in the spectrogram, but it does not require that the spectrogram is actually displayed on the screen in the processing step of obtaining the separated signal. .
  • it is only necessary that the sound signal to be analyzed is converted into the time frequency domain and the spectral component is obtained.
  • a typical example of the means for converting to the time-frequency domain is short-time Fourier transform, but wavelet transform, constant Q filter bank analysis, and other filter bank analysis may be used.
  • the present invention may include a step of converting a sound signal that is an observation signal into a time frequency domain, and a step of converting a spectral component corresponding to each separated subspectrogram into the time domain. All processes of the present invention may be performed in the time frequency domain. In actual spectrogram calculation, components are obtained for each discrete time and frequency by short-time frequency analysis. Accordingly, each spectral component (time frequency component) in the spectrogram is a time frequency bin specified by the time bin (frame) and the frequency bin.
  • the distribution coefficient for distributing the spectral components of the sound signal is typically set as a so-called time frequency mask (having a value of 0 to 1 at each time frequency), and the input spectrogram and time frequency mask are set. Separation is performed by multiplication.
  • the distribution coefficient for distributing each spectral component of the sound signal to the spectral component corresponding to each sub-spectrogram is a binary mask that takes 0 or 1 when the spectrogram of the sound signal consists of two sub-spectrograms. is there. By using a binary mask, there is a possibility that a good hearing can be obtained.
  • the distribution coefficient is not limited to 0 or 1, and may be distributed at other ratios.
  • the distribution coefficient that is, the time frequency mask is designed based on the spectral components of the input sound signal.
  • each distribution coefficient is designed so that the total of the three distribution coefficients is 1.
  • the acquisition of the distribution coefficient is performed by acquiring, for each spectral component of the sound signal, a score of the spectral component likelihood of each subspectrogram based on the direction of smoothness of each subspectrogram, and indicating each score as an index. And a step of acquiring a distribution coefficient.
  • the step of obtaining the score regards the spectrogram of the sound signal as an image in which each spectral component has a density value corresponding to energy on a time-frequency plane, and each subspect from the spectrogram of the sound signal. Filters for extracting the characteristics of the spectral components belonging to the spectrogram are set, and the filter output after the filter processing corresponding to each sub-spectrogram for each spectral component is used as a score.
  • the filter is a low-pass filter that smoothes a density value in a smooth direction of a spectral component of each subspectrogram.
  • the filter for extracting the characteristics of the smooth direction of the spectral component is not limited to the digital filter in the frequency domain, and can be designed by a spatial filter.
  • the spectrogram of the sound signal is assumed to be the sum of two sub-spectrograms, the scores are compared, and the distribution coefficient with the higher score is 1 and the distribution coefficient with the lower score is 0.
  • the distribution coefficient may be set so that the sum is 1 according to the ratio of the filter output values.
  • the plurality of sub-spectrograms include a first sub-spectrogram consisting of a spectral component smooth in the frequency direction and a second sub-spectrogram consisting of a spectral component smooth in the time direction, and the spectrum of each sub-spectrogram.
  • the filter that extracts the smooth direction feature of the component includes a filter that performs smoothing in the time direction and a filter that performs smoothing in the frequency direction.
  • a one-dimensional low-pass filter only in the time direction and a one-dimensional low-pass filter only in the frequency direction, or two two-dimensional low-pass filters having greatly different cutoff frequencies ⁇ t in the time direction and cutoff frequencies ⁇ f in the frequency direction One includes ⁇ t >> ⁇ f, and the other includes ⁇ t ⁇ ⁇ f.
  • the direction of the spectral component is not the frequency direction or the time direction, it is possible to design a filter that extracts such a spectral component if it is smooth in a certain direction in the time frequency domain. It will be understood by those skilled in the art that the distribution coefficient can be set using the filter output as an index.
  • the distribution coefficient is obtained by setting an objective function including a function of a smoothness index of each spectral component distributed to each subspectrogram using the distribution coefficient as a parameter, and setting a parameter for optimizing the objective function. Obtained by estimation.
  • the smoothness index of each distributed spectral component is determined based on the energy difference between the focused spectral component and the distributed spectral component in the vicinity of the focused spectral component on the time-frequency plane.
  • the spectral component in the vicinity of the target spectral component is typically a spectral component adjacent on the time-frequency plane, but the range in the vicinity is not limited to this.
  • the setting of the distribution coefficient that is, the time-frequency mask, can be regarded as an optimization problem in which the cost of smoothness is designed as a function of the differential of the spectrogram and is minimized.
  • the smoothness index function is: It is.
  • K number of subspectrograms
  • i Index in the frequency direction
  • j Index in the time direction
  • f k (x) Cost function for smoothness a m
  • n Weight coefficient in the vicinity of a point in the time frequency domain
  • m Index representing the vicinity in the frequency direction
  • n Index c representing the neighborhood in the time direction
  • the objective function includes a function of a distance index between a spectral component of the sound signal and a sum of spectral components distributed by a distribution coefficient as a parameter. That is, an objective function is set from the smoothness cost + distance index, and the distribution coefficient is optimized so as to minimize the objective function.
  • the distance indicator is I divergence. I divergence has the advantage that it is easy to obtain an analytical update formula.
  • the distance index may be another distance index, for example, Euclidean distance (square error), Mahalanobis distance, or the like as long as the parameter update formula is analytically obtained.
  • the requirement for the distance between distributions is that no matter what the values of the two distributions, the value of the function is always non-negative and the distributions of both are perfectly matched only when it is zero.
  • the objective function is It is.
  • K number of subspectrograms
  • i Index in frequency direction
  • j Index in time direction
  • D A, B
  • ⁇ (x): Spectrogram level compression function in distance index W i, j Observation spectral component
  • n Weight coefficient in the vicinity of a point in the time-frequency domain
  • m Index indicating the vicinity in the frequency direction
  • n Index c indicating the vicinity in the time direction
  • g (x ) Spectrogram level compression function in the smoothness index Q (K) i, j : Spectral component of the sub-spectrogram.
  • a device for improving the hearing ability of separation is devised.
  • sound volume acoustic energy
  • logarithmically about 0.3th power
  • I-Divergence deals with this by treating the energy somewhat logarithmically
  • smoothness cost of the square root energy somewhat logarithmically.
  • smoothness treats energy linearly. Specifically, the energy is compressed to about 0.3 power in advance by level compression.
  • the real-time harmonic sound and percussion instrument sound separation in the second embodiment and the third embodiment will be described.
  • all input time frequency components are used for separation, and the methods of the second and third embodiments may require time by iterative processing.
  • the calculation can be performed relatively quickly and real-time processing is realized. That is, the distribution coefficient is calculated so as to minimize the smoothness of energy between adjacent time frequencies bin.
  • EM-like repetitive processing is performed while shifting the analysis region.
  • FIG. 9A when there is an input of one frame for a predetermined analysis spectrogram region, iteratively updates in the analysis spectrogram region to determine a distribution coefficient for the output of the next one frame, The spectral components distributed by the distribution coefficient are output and converted to the time domain.
  • the step of converting the sound signal into a time-frequency domain in an initial analysis section to obtain a spectral component the sound signal being converted into the time-frequency domain by one frame, obtaining the spectral component, and the spectral component Adding to the analysis interval, estimating the parameter using the spectral component of the analysis interval, and separating the oldest one-frame spectral component in the analysis interval using the estimated parameter, The separated spectral component is converted into the time frequency domain.
  • the algorithm for estimating the distribution coefficient which is a parameter in the objective function, is an EM algorithm in one preferred embodiment, but other optimization algorithms such as the steepest descent method and the Newton method may be used.
  • auxiliary variables may be introduced when solving the EM algorithm.
  • the number of sub-spectrograms is not limited as long as it is 2 or more.
  • the spectrogram of a sound signal is composed of two sub-spectrograms.
  • the subspectrogram is composed of a first subspectrogram composed of a spectral component smooth in the frequency direction and a second subspectrogram composed of a spectral component smooth in the time direction.
  • the multiple sound signal is a music signal including a percussion instrument sound
  • the first subspectrogram includes a spectrum component of the percussion instrument sound. That is, the first subspectrogram is a non-harmonic sound component (typically a percussion instrument sound), and the second subspectrogram is a harmonic sound component.
  • the smooth direction of the spectral component of the sub-spectrogram of the multiple sound signal that is the subject of the present invention is not limited to the frequency direction or the time direction, and if it is smooth in a certain direction on the time frequency domain, Based on the smooth direction of the spectral components, the spectrogram of the multi-tone signal can be separated into a plurality of sub-subspectrograms.
  • the hardware configuration of the present invention includes a computer such as a personal computer (specifically, an input device, an output device including a display device, a CPU, a storage device (ROM, RAM, etc.), a bus for connecting them, and the like). It can be configured from. Therefore, the present invention is also provided as a computer program or a computer readable medium storing a computer program for causing a computer to execute the method according to any one of claims 1 to 26 in order to separate sound signals.
  • a computer such as a personal computer (specifically, an input device, an output device including a display device, a CPU, a storage device (ROM, RAM, etc.), a bus for connecting them, and the like). It can be configured from. Therefore, the present invention is also provided as a computer program or a computer readable medium storing a computer program for causing a computer to execute the method according to any one of claims 1 to 26 in order to separate sound signals.
  • the present invention is also provided as an apparatus for separating sound signals, the apparatus based on the direction on the time frequency plane of the smoothness of each subspectrogram, at least the spectral components of the sound signal in the time frequency domain, Means for obtaining at least one distribution coefficient to be distributed to one subspectrogram, and means for separating at least one subspectrogram from the spectral components of the sound signal using the distribution coefficient.
  • the apparatus further comprises means for converting the multi-tone signal into the time frequency domain and means for converting the spectral components corresponding to each separated subspectrogram into the time domain.
  • the present invention may also include a step or means for enhancing or suppressing the spectral component of at least one separated subspectrogram.
  • an equalizer as shown in FIG. 11 can be realized using the present invention.
  • a large number of mathematical expressions are used in the embodiments described later, but mathematical expression numbers are assigned independently for each section.
  • the percussion instrument sound is separated from the acoustic signal that obtains the separation signal from the multiplexed sound signal without using learning data or prior information. be able to.
  • the percussion instrument sound can be separated from the acoustic signal without using information unique to the instrument such as learning data or a percussion instrument template.
  • a music signal in which harmonic sounds and percussion instrument sounds are mixed, and a spectrogram obtained by short-time frequency analysis of the input signal is W (x, t) (x: Frequency, t: time).
  • W (x, t) is a non-harmonic component P (x, t) that does not have a percussion-like pitch and a harmonic component H (x, t) that has a pitch.
  • a spectrogram of an acoustic signal of popular music as shown in FIG. 1 is formed in the time-frequency domain and in the time direction, with spectral components such as mountains or ridges generally formed in the frequency direction.
  • the former is a component P (x, t) that changes sharply in the time direction but is broad (smooth) in the frequency direction, like the percussion instrument, while the latter is a sharp shape in the frequency direction but has a sharp shape in the time direction.
  • the two components can be considered to exist sparsely on the time-frequency plane (which rarely exists on the same time-frequency bin).
  • the spectrogram of the input signal is decomposed into two spectrograms by a time frequency mask. That is, from the sparseness of P (x, t) and H (x, t) described above, time frequency masks m P (x, t), m H (x, By designing t) And W (x, t) can be decomposed. These separation spectrograms satisfy the properties of equations (1), (2), (3).
  • the time frequency mask is designed to detect the smooth direction of the spectral components that form the subspectrogram.
  • the spectrogram of the input signal is obtained by using the feature that the spectral component of the percussion instrument component is smooth in the frequency direction and the feature that the spectral component of the harmonic component is smooth in the time direction.
  • a time-frequency mask that separates into two is designed.
  • the time-frequency mask that takes a value of 0 to 1 is a binary mask that takes a value of 0 or 1 in one embodiment.
  • the difference in properties on the time-frequency spectrogram is positively determined that the harmonic component is smooth in the time direction and the percussion instrument component is smooth in the frequency direction.
  • the harmonic component is smooth in the time direction and the percussion instrument component is smooth in the frequency direction.
  • a complementary time-frequency mask that decomposes a given time-frequency spectrogram into a smooth component in the time direction and a smooth component in the frequency direction is designed, and the time-frequency spectrogram of the music sound signal is time-dependent. Perform frequency masking to separate harmonic and percussion components.
  • the spectrogram of the time-frequency plane of the observation signal is regarded as an image, and a two-dimensional filter using a difference in general properties between harmonic and percussive sounds is used. Is used to separate percussion instrument sounds and harmonic sounds from music signals without instrument-specific information.
  • W (x, t) W (bar) (a, b) (a: Fourier component in the frequency direction, b: Fourier component in the time direction)
  • P (x, t) feature extraction By using the filter F (bar) P (a, b), H (x, t) feature extraction filter F (bar) H (a, b), A filter output result is obtained as follows. From this result, the time frequency masks m P (x, t) and m H (x, t) are And obtained.
  • F (bar) P (a, b) and F (bar) H (a, b) for extracting the features of P (x, t) and H (x, t), respectively. It is done.
  • F P (a, b) is a low-pass filter only in the frequency direction
  • F H (a, b) is a low-pass filter only in the time direction.
  • a triangular window or gaussian can be used as a cross-sectional shape of the one-dimensional low-pass filter of g (a) or h (b).
  • Triangular window type low pass filter Gaussian window type filter Can be written.
  • P 0 (x, t) and H 0 (x, t) are obtained by the two-dimensional inverse Fourier transform of the components that have passed through the filter, and the time frequency masks m P (x, t) and m H (x , t) can be designed.
  • the 2D filter is the simplest filter shape that meets the requirements. Since the triangular window can be expressed by convolution of two rectangular windows and the Gaussian window can be expressed by two Gaussian convolutions, the filter output satisfies the non-negative property as described above. By this two-dimensional filter, only a smooth component can be passed in the time direction and the frequency direction. Therefore, by comparing two non-negative values of the output result at each time frequency bin, it can be determined whether the bin is likely to be a harmonic sound component or a percussion instrument sound component. At this time, the parameters of the filter include ⁇ P and ⁇ H corresponding to the cutoff frequency of the low-pass filter. As this value is smaller, only smoother components pass.
  • the impulse response of the filter is axisymmetric on both the time and frequency axes (that is, an even function with respect to both time and frequency), there is no weighted average bias with respect to the time and frequency components, so the time between the separated spectrogram and the original spectrogram It is considered that there is no deviation in the correspondence between the frequency bins. Due to this property, it is considered appropriate to design a mask function from the output result of the filter.
  • the spectrogram frequency and continuity in the time direction are used as characteristics of percussion instrument sounds and harmonic sounds, and it is suitable for separating percussion instrument sounds such as a snare drum and instrument sounds having a pitch.
  • percussion instrument sounds such as a snare drum and instrument sounds having a pitch.
  • a feature extraction two-dimensional filter is used to separate percussion instrument sounds that have a biased frequency distribution, such as bass drums and hi-hats, and that have a relatively long sound length, piano keystroke sounds, bass percussion sounds, and singing voices whose pitch changes easily. It is thought that this can be solved by designing the shape.
  • the square error of the square root of energy between adjacent time frequencies bin is set as the cost to minimize the anisotropy of the smoothness of the spectrogram. Express like this. By taking the square root, the formulation of smoothness cost closer to human auditory characteristics that capture energy logarithmically was realized.
  • ⁇ P and ⁇ H are constraints on smoothness, It can be defined as a square error with the adjacent time frequency component.
  • the final separation result is obtained by using the estimated masks m P (x, t) and m H (x, t). It is obtained as follows. Furthermore, since the auditory sense of separation is better for the binary mask, from the estimated mask, It separates by binarizing like. At this time, the larger q is, the greater the effect of binarization is, which coincides with applying a binary mask from q ⁇ ⁇ .
  • the time-frequency mask m P (x, t), m H (x, t) is estimated as a continuous value mask that takes continuous values from 0 to 1.
  • the estimated continuous value mask It is considered effective to bring the value closer to the binary mask. From the magnitude relationship of estimated m P (x, t), m H (x, t) And can be designed.
  • the solution based on the anisotropy of the spectrogram smoothness realized separation with the same properties as the solution according to the first embodiment at a sufficiently high speed and higher performance than in real time. Because it is a solution based on simple features without using knowledge of musical instruments, bass drums, hi-hat percussion instrument sounds, piano keystroke sounds, singing voices with variable pitches, etc. that have relatively long notes are unlikely to satisfy the features of interest. Although it may not always correspond to the general idea of instrument classification, the merit that can be separated by real-time computation is considered to be very large.
  • the harmonic components of the spectrogram usually have a constant pitch and form parallel wrinkles with a smooth time envelope.
  • the energy of the hitting sound is concentrated in a short time, forming a vertical ridge with a broad spectrum envelope. Therefore, the spectrogram of the music signal typically shows a vertical structure and a horizontal structure (FIG. 1).
  • the purpose here is to find a suitable time-frequency binary mass m h, i as follows.
  • H h, i and P h, i represent the harmonic component and the anharmonic (percussion instrument) component of the spectrogram, respectively.
  • One way to design the mask m h, i is to apply maximum a posteriori (MAP) estimation based on some prior distribution. Paying attention to the envelopes of H h, i , P h, i that are smooth in the horizontal and vertical directions, the following prior probabilities are assumed for each component.
  • the vectors H and P represent the set of H h, i and P h, i , respectively, and ⁇ 2 H and ⁇ 2 P represent the variance of the spectrogram gradient, and these represent the STFT frame length and frame shift, respectively. Will depend.
  • the actual distribution of the spectrogram gradient is different from the Gaussian distribution, the assumption of the Gaussian distribution makes it easier to formulate and solve the problem.
  • ⁇ (A) the gap between the actual state and the assumption can be filled to some extent.
  • the objective function of MAP estimation can be written as
  • the vector m is a set of m h and i , and the constant term is omitted for simplification.
  • an auxiliary function method is used.
  • the auxiliary function is used in, for example, NMF (Non-negative matrix factorization) and HTC (Harmonic-Temporal Clustering), and is a technique known to those skilled in the art.
  • RWC-MDB-P-2001 No.18 and RWC-MDBJ-2001 No.16 preludes from the RWC research music database are input, MIDI format data is separated into parts, and each part is converted to WAV format.
  • the sum of the signals was input (16kHz sampling).
  • the energy ratio included in P (x, t) and H (x, t) was calculated by calculating the correlation between the obtained separation result signal and each part signal.
  • the energy ratio was calculated by the following formula. here, And ⁇ > indicates correlation calculation.
  • FIG. 11 shows a GUI screen of the real-time harmonic sound / percussion sound separation system. This system realizes a processing function that displays the power spectrum of harmonic and percussion instrument sounds separated in real time and plays back while adjusting the volume balance between them.
  • the sound signal that is the subject of the present invention is not limited to a music sound signal, and can be applied to, for example, obtaining abnormal sounds in industrial sounds generated from machines and devices.
  • FIG. 1A is a diagram independent of FIG. 1 and relates to a separate spectral component. It is a figure which shows the observation model of a time frequency spectrogram.
  • the left figure is a spectrogram of the harmonic sound, and consists of spectral components that are smooth in the time direction and steep in the frequency direction.
  • the right figure is a spectrogram of percussion instrument sound, which consists of spectral components that are steep in the time direction and smooth in the frequency direction.
  • the spectral component in the left figure and the spectral component in the right figure are sparse on the time-frequency plane.
  • the filter used in 1st Embodiment is shown, the left figure shows the H (x, y) feature extraction filter, and the right figure shows the P (x, y) feature extraction filter.
  • the cross-sectional shape of the filter shown in FIG. 6 is shown.
  • the horizontal axis represents the two-dimensional Fourier transform component of time in the H (x, y) feature extraction filter, and the two-dimensional Fourier transform component of frequency in the P filter for the P (x, y) feature extraction filter.
  • the vertical axis actually indicates the size of the filter. The larger the value, the easier it is to pass the component. Since the middle is 0, both the triangular and Gaussian windows are low-pass filters.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

時間周波数領域におけるスペクトル成分の滑らかさの異方性に着目して、音信号から分離信号を取得する。音信号のスペクトログラムを、時間周波数領域でのスペクトル成分の滑らかさに時間周波数平面上で方向性を備えた複数のサブスペクトログラムの和であると仮定し、各サブスペクトログラムの滑らかさの時間周波数平面上での方向に基づいて、時間周波数領域における前記音信号のスペクトル成分を、少なくとも1つのサブスペクトログラムに分配する少なくとも1つの分配係数を取得し、前記分配係数を用いて前記音信号のスペクトル成分から少なくとも1つのサブスペクトログラムを分離する。

Description

音信号の分離方法
本発明は、音信号、典型的には多重音信号、の分離方法に関するものである。本明細書では、本発明が適用される典型的な例として、音楽音響信号から打楽器音を分離、抽出することを中心に説明するが、本発明は、音楽音響信号からの打楽器音の分離に限定されるものではなく、例えば、機械や装置から発生する工業的な音を分離するものでもよい。
音楽検索、自動採譜などの音楽情報処理の問題においては、音楽音響信号から音高、和声、リズムパターン、テンポなど様々な情報を抽出・認識する必要があるが、これらは未だ難しいタスクであり、近年活発な研究がなされている。音楽音響信号は大きく、メロディーや和声に関連する調波成分と、リズムやドラムパートに関連する打楽器成分の2つに大別されるが、これらは全く異なる性質をもつ信号であり、これらが混在していることが音楽音響信号解析の困難さの一つの要因となっている。しかしながら、モノラル録音された音楽音響信号から調波/打楽器各成分を分離することは容易ではなく、従来は楽譜や楽器の情報なしには行うことができない問題であった。これらの分離がうまくできれば、打楽器やノイズなどの非調波成分を含んだ多声音楽信号の楽音分析における前処理、打楽器パートの強調や打楽器パターン変更といった音楽加工など、多くの分野への応用が期待される。
多重音信号から打楽器(非調波成分)を分離、抽出する手法として幾つかの研究が知られている(非特許文献1乃至3)。
非特許文献1は、特定打楽器の周波数特性テンプレートを用いた音源同定、除去に関するものである。非特許文献1では、除去対象楽器のテンプレートが必要となり、フレームワイズな処理を行っている。また、反復推定による音源同定を行っている。
非特許文献2は、楽器情報を用いない、フレームワイズな調波・非調波成分の分離手法に関するものであり、反復推定による分離手法が行われている。
非特許文献3は、学習データを用いて、あらかじめ調波音、打楽器音の周波数特性を学習するものであり、学習した特徴とのマッチングによって、フレームワイズに分離する。
吉井 和佳, 後藤 真孝, 奥乃 博, "実世界の音楽音響信号に対するドラムスの音源同定を利用したドラムイコライズシステムINTER:Dの開発," 第3回情報処理科学技術フォーラム FIT2004. 亀岡 弘和, 後藤 真孝, 嵯峨山 茂樹, "スペクトル制御エンベロープによる混合音中の周期および非周期成分の選択的イコライザ," 情報処理学会研究報告. 2006-MUS-65, pp77-84. M. Helen, T. Virtanen, "Separation of Drums from Polyphonic Music Using Non-negative Matrix Factorization and Support Vector Machine," In proc, 13th EUSIPCO, 2005.
本発明は、従来のフレームワイズな分析手法に対して、時間周波数領域におけるスペクトル成分の滑らかさの異方性に着目して、音信号を分離することを目的とするものである。本発明のより具体的な一つの目的は、楽器や楽譜に関する情報を全く用いずに、音楽音響信号から調波的な楽器音成分と打楽器的な非調波音成分を分離することにある。
本発明が採用した技術手段は、音信号を分離する方法において、前記音信号のスペクトログラムを、時間周波数領域でのスペクトル成分の滑らかさに時間周波数平面上で方向性を備えた複数のサブスペクトログラムの和であると仮定し、各サブスペクトログラムの滑らかさの時間周波数平面上での方向に基づいて、時間周波数領域における前記音信号のスペクトル成分を、少なくとも1つのサブスペクトログラムに分配する少なくとも1つの分配係数を取得し、前記分配係数を用いて前記音信号のスペクトル成分から少なくとも1つのサブスペクトログラムを分離する、音信号の分離方法、である。
本発明は、時間周波数領域における音信号のスペクトログラムのスペクトル成分の滑らかな方向に着目したものである。すなわち、周波数特性だけでなく、時間的な変化の違いを用いる点に特徴を備えている。本発明では、音信号のスペクトログラムを、時間周波数領域でのスペクトル成分の滑らかさに時間周波数平面上で方向性を備えた複数のサブスペクトログラムの和であると仮定する。すなわち、本発明の対象となる音信号のスペクトログラムを時間周波数領域で異方向に滑らかなスペクトル成分を備えた複数のサブスペクトログラムの和であると仮定する。各サブスペクトログラム(同じサブスペクトログラム)に属するスペクトル成分は時間周波数平面上で概ね同じ方向に滑らかであり、)スペクトル成分の滑らかな方向は、各サブスペクトログラム間で異なる。例えば、ある多重音信号のスペクトログラムは、時間周波数平面上で第1の方向に延出するスペクトル成分群からなる第1サブスペクトログラムと、時間周波数平面上で第2の方向に延出するスペクトル成分群からなる第2サブスペクトログラムの和であると仮定する。あるいは、ある多重音信号のスペクトログラムを、時間周波数平面上で第1の方向に延出するスペクトル成分群からなる第1サブスペクトログラムと、時間周波数平面上で第2の方向に延出するスペクトル成分群からなる第2サブスペクトログラムと、時間周波数平面上で第3の方向に延出するスペクトル成分群からなる第3サブスペクトログラムと、の和であると仮定する。
ここで、本発明は、スペクトログラムにおけるスペクトル成分の滑らかな方向の違いに着目した点に特徴を有するものであるが、分離信号を得る処理ステップにおいて、スペクトログラムを実際に画面に表示することを要しない。本発明においては、分析対象となる音信号が時間周波数領域に変換され、スペクトル成分が得られていればよい。時間周波数領域への変換手段は、典型的な例では、短時間フーリエ変換であるが、ウェーブレット変換、定Qフィルタバンク分析、その他のフィルタバンク分析でもよい。また、1つの態様では、本発明は、観測信号である音信号を時間周波数領域に変換するステップと、分離された各サブスペクトログラムに対応するスペクトル成分を時間領域に変換するステップを含み得るが、本発明の全ての処理が時間周波数領域で行われる場合もある。実際のスペクトログラムの計算では、短時間周波数分析によって離散的な時間と周波数ごとに成分が得られる。したがって、スペクトログラムにおける各スペクトル成分(時間周波数成分)は、時間bin(フレーム)と周波数binにより特定される時間周波数binである。
本発明において、音信号のスペクトル成分を分配するための分配係数は、典型的には、いわゆる時間周波数マスク(各時間周波数で0~1の値を取る)として設定され、入力スペクトログラムと時間周波数マスクの乗算によって分離が行われる。音信号の各スペクトル成分を、各サブスペクトログラムに対応するスペクトル成分に分配する分配係数は、一つの態様では、音信号のスペクトログラムが2つのサブスペクトログラムからなる場合に、0あるいは1を取るバイナリマスクである。バイナリマスクを用いることで、良好な耳聴こえが得られる可能性がある。もっとも、分配係数は0あるいは1に限定されるものではなく、その他の比率で分配してもよい。分配係数、すなわち、時間周波数マスクは、入力された音信号のスペクトル成分に基づいて設計される。また、音信号のスペクトログラムが3つのサブスペクトログラムからなる場合には、3つの分配係数の合計が1となるように、各分配係数が設計される。
1つの態様では、前記分配係数の取得は、前記音信号の各スペクトル成分について、各サブスペクトログラムの滑らかさの方向に基づいて、各サブスペクトログラムのスペクトル成分らしさのスコアを取得し、各スコアを指標として、分配係数を取得するステップと、からなる。
1つの態様では、前記スコアを取得するステップは、前記音信号のスペクトログラムを、時間周波数平面上で各スペクトル成分がエネルギーに対応する濃度値を備えた画像とみなし、前記音信号のスペクトログラムから各サブスペクトログラムに属するスペクトル成分の特徴を夫々抽出するフィルタを設定し、各スペクトル成分についての、各サブスペクトログラムに対応するフィルタ処理後のフィルタ出力をスコアとする、ものである。
1つの態様では、前記フィルタは、各サブスペクトログラムのスペクトル成分の滑らかな方向の濃度値を平滑化するローパスフィルタである。また、スペクトル成分の滑らかな方向の特徴を抽出するフィルタは、周波数領域のデジタルフィルタに限定されるものではなく、空間フィルタによっても設計し得ることは当業者に理解される。
1つの態様では、前記音信号のスペクトログラムを、2個のサブスペクトログラムの和であると仮定し、前記スコアを比較し、スコアが大きい方の分配係数を1、スコアが小さい方の分配係数を0とする。あるいは、フィルタ出力値の比に応じて、合計が1となるように分配係数を設定してもよい。
一つの態様では、前記複数のサブスペクトログラムは、周波数方向に滑らかなスペクトル成分からなる第1サブスペクトログラムと、時間方向に滑らかなスペクトル成分からなる第2サブスペクトログラムと、からなり、各サブスペクトログラムのスペクトル成分の滑らかな方向の特徴を抽出するフィルタは、実質的に時間方向の平滑化を行うフィルタと、実質的に周波数方向の平滑化を行うフィルタと、からなる。より具体的には、時間方向のみの1次元ローパスフィルタと、周波数方向のみの1次元ローパスフィルタ、あるいは、時間方向の遮断周波数ωt、周波数方向の遮断周波数ωfが大きく異なる2つの2次元ローパスフィルタ(一方はωt>>ωf、他方はωt<<ωf)などを含む。尚、スペクトル成分の方向が、周波数方向、時間方向でなくても、時間周波数領域においてある一定の方向に滑らかであれば、そのようなスペクトル成分を抽出するフィルタの設計が可能であることは当業者に理解され、そのフィルタ出力を指標として分配係数が設定できることも当業者に理解される。
一つの態様では、前記分配係数の取得は、分配係数をパラメータとして各サブスペクトログラムに分配された各スペクトル成分の滑らかさ指標の関数を含む目的関数を設定し、前記目的関数を最適化するパラメータを推定することで取得される。分配された各スペクトル成分の滑らかさ指標は、着目したスペクトル成分と、当該着目スペクトル成分の時間周波数平面上での近傍にある分配されたスペクトル成分とのエネルギーの差に基づいて決定される。着目スペクトル成分の近傍のスペクトル成分は、典型的には、時間周波数平面上で隣接するスペクトル成分であるが、近傍の範囲はこれに限定されるものではない。分配係数、すなわち、時間周波数マスクの設定は、滑らかさのコストをスペクトログラムの微分の関数で設計し、これを最小化する最適化問題として捉えることができる。
1つの態様では、前記滑らかさの指標の関数は、
Figure JPOXMLDOC01-appb-M000009
である。
 ここで、K:サブスペクトログラムの数、
     i:周波数方向のインデックス
     j:時間方向のインデックス
     f(x):滑らかさをはかるコスト関数
     am,n:時間周波数領域でのある点近傍での重み係数
     m:周波数方向の近傍を表すインデックス
     n:時間方向の近傍を表すインデックスウ
     g(x):滑らかさ指標における、スペクトログラムのレベル圧縮関数
     Q(K) i,j:サブスペクトログラムのスペクトル成分
である。
1つの態様では、前記目的関数が、前記音信号のスペクトル成分とパラメータとしての分配係数によって分配された各スペクトル成分の和との距離指標の関数を含む。すなわち、滑らかさのコスト+距離指標から目的関数が設定され、この目的関数を最小化するように分配係数を最適化する。一つの態様では、距離指標は、Iダイバージェンスである。Iダイバージェンスは、解析的な更新式を求めやすいという利点を有している。距離指標としては、パラメータの更新式が解析的に求められるような距離関数であれば、他の距離指標、例えば、ユークリッド距離(2乗誤差)やマハラノビス距離など、でもよい。分布間距離の要件は、2つの分布がどんな値であっても、関数の値が常に非負であり、かつ0のときにのみ両者の分布が完全に一致することである。
1つの態様では、前記音信号のスペクトログラムを、K個のサブスペクトログラムの和であると仮定した場合に、前記目的関数は、
Figure JPOXMLDOC01-appb-M000010
である。
 ここで、K:サブスペクトログラムの数、
     i:周波数方向のインデックス
     j:時間方向のインデックス
     D(A,B):関数Aと関数Bの距離指標
     φ(x):距離指標における、スペクトログラムのレベル圧縮関数
     Wi,j:観測スペクトル成分
     f(x):滑らかさをはかるコスト関数
     am,n:時間周波数領域でのある点近傍での重み係数
     m:周波数方向の近傍を表すインデックス
     n:時間方向の近傍を表すインデックスウ
     g(x):滑らかさ指標における、スペクトログラムのレベル圧縮関数
     Q(K) i,j:サブスペクトログラムのスペクトル成分
である。
1つの態様では、前記目的関数において、
Figure JPOXMLDOC01-appb-M000011
である。
1つの態様では、前記目的関数において、
Figure JPOXMLDOC01-appb-M000012
である。これは、後述する第2実施形態に対応する。
1つの態様では、前記目的関数において、
Figure JPOXMLDOC01-appb-M000013
である。これは、後述する第3実施形態に対応する。
本発明の実施形態では、分離の耳聴こえを良くするための工夫を行っている。人間の聴覚では、音量(音響エネルギー)を対数的(0.3乗程度)に捉える。したがって、小さい音量の変化もある程度認識可能であり、少しでもエネルギーが残っていると、分離できてないように感じる。後述する第2の実施形態では、(1)I-Divergenceはエネルギーをやや対数的に扱う、(2)平方根の滑らかさコスト=エネルギーをやや対数的に扱う、ことでこれに対応している。また、後述する第3の実施形態では、滑らかさはエネルギーを線形に扱っている。具体的には、レベル圧縮によって、あらかじめエネルギーを0.3乗程度に圧縮している。
第2実施形態、第3実施形態におけるリアルタイム調波音・打楽器音分離について説明する。本来は、入力すべての時間周波数成分を用いて分離するものであり、第2実施形態、第3実施形態の手法では反復処理により、時間を要しうる。しかしながら、隣のフレームのみとの滑らかさを定義することで、比較的高速に計算を可能とし、実時間処理を実現している。すなわち、隣接する時間周波数bin同士のエネルギーの滑らかさを最小化するようにして分配係数を算出している。
具体的には、分析領域のシフトをしながらEM的な反復処理を行う。図9Aに示すように、所定の分析スペクトログラム領域に対して、1フレームの入力があると、分析スペクトログラム領域で反復更新が行われて次の1フレームの出力のための分配係数が決定され、当該分配係数によって分配されたスペクトル成分が出力され、時間領域に変換される。まとめると、前記音信号を初期分析区間で時間周波数領域に変換してスペクトル成分を取得するステップと、前記音信号を1フレーム分だけ時間周波数領域に変換してスペクトル成分を取得し、当該スペクトル成分を前記分析区間に加えるステップと、前記分析区間のスペクトル成分を用いて、パラメータの推定を行うステップと、前記分析区間で最も古い1フレームのスペクトル成分を、推定されたパラメータを用いて分離し、分離されたスペクトル成分を時間周波数領域に変換する。
目的関数におけるパラメータである分配係数を推定するアルゴリズムとしては、一つの好ましい態様ではEMアルゴリズムであるが、最急降下法やニュートン法等の他の最適化アルゴリズムを用いてもよい。また、EMアルゴリズムを解くにあたって、補助変数を導入してもよい。
本発明において、サブスペクトログラムの数は、2以上であれば限定されないが、一つの態様では、音信号のスペクトログラムは、2つのサブスペクトログラムからなり、さらに、典型的な一つの態様では、前記複数のサブスペクトログラムは、周波数方向に滑らかなスペクトル成分からなる第1サブスペクトログラムと、時間方向に滑らかなスペクトル成分からなる第2サブスペクトログラムと、からなる。この場合、一つの態様では、前記多重音信号は打楽器音を含む音楽信号であり、前記第1サブスペクトログラムには、打楽器音のスペクトル成分が含まれる。すなわち、第1サブスペクトログラムは非調波音的成分(典型的には、打楽器音)であり、第2サブスペクトログラムは調波音的成分である。また、本発明の対象となる多重音信号のサブスペクトログラムのスペクトル成分の滑らかな方向は、周波数方向や時間方向に限定されるものではなく、時間周波数領域上で一定の方向に滑らかであれば、スペクトル成分の滑らかな方向に基づいて、多重音信号のスペクトログラムを複数のサブサブスペクトログラムに分離することが可能である。
本発明のハードウエア構成としては、パーソナルコンピュータ等のコンピュータ(具体的には、入力装置、表示装置を含む出力装置、CPU,記憶装置(ROM,RAM等)、これらを接続するバス等、を備えている。)から構成することができる。したがって、本発明は、音信号を分離させるために、コンピュータを、請求項1乃至26いずれかに記載された方法を実行させる、コンピュータプログラムあるいはコンピュータプログラムを記憶したコンピュータ可読媒体としても提供される。
本発明は、音信号を分離する装置としても提供され、前記装置は、各サブスペクトログラムの滑らかさの時間周波数平面上での方向に基づいて、時間周波数領域における前記音信号のスペクトル成分を、少なくとも1つのサブスペクトログラムに分配する少なくとも1つの分配係数を取得する手段と、前記分配係数を用いて前記音信号のスペクトル成分から少なくとも1つのサブスペクトログラムを分離手段と、を備える。典型的には、前記装置は、さらに、多重音信号を時間周波数領域に変換する手段と、分離された各サブスペクトログラムに対応するスペクトル成分を時間領域に変換する手段と、を備えている。また、本発明は、分離された少なくとも1つのサブスペクトログラムのスペクトル成分を強調あるいは抑圧するステップないし手段を備えていてもよい。例えば、本発明を用いて図11に示すようなイコライザを実現することができる。
 本明細書において、後述の実施形態では多数の数式が使用されているが、数式番号はセクション毎に独立して付してある。
本発明では、時間周波数領域におけるスペクトル成分の滑らかさの異方性を利用することで、学習データや事前情報を用いることなく、多重音信号から分離信号を取得する音響信号から打楽器音を分離することができる。
本発明では、学習データや打楽器テンプレートなどの楽器固有の情報を用いることなく、音響信号から打楽器音を分離することができる。
[A]本実施形態の概要
本実施形態では調波音と打楽器音の混在した音楽信号を分析対象とし、入力信号の短時間周波数解析によって得られるスペクトログラムをW(x,t)とする(x:周波数、t:時刻)。本実施形態の問題は、このW(x,t)を打楽器的な音程を持たない非調波成分P(x,t)と音程を持つ楽器のような調波成分H(x,t)の2つのスペクトログラムに分解することである。このとき満たすべき要件は、任意の時間周波数(x,t)において、
Figure JPOXMLDOC01-appb-M000014
が成り立つことである。
本実施形態では、調波成分・打楽器成分の異方性に着目する。より具体的には、図1で示すようなポピュラー音楽の音響信号のスペクトログラムが、時間周波数領域において、一般的に周波数方向に形成される山脈ないし畝のようなスペクトル成分と、時間方向に形成される山脈ないし畝のようなスペクトル成分とからなることが多い点に着目する。前者は、打楽器のように時間方向には急峻に変化するが周波数方向にはブロード(滑らか)である成分P(x,t)に、後者は逆に周波数方向には急峻な形状だが時間方向には滑らかな成分H(x,t)に対応するとみなすことができ、また2成分は時間周波数平面上においてスパース(同じ時間周波数bin上に存在することが少ない)に存在しているとみなせる。
本実施形態では、入力信号のスペクトログラムを、時間周波数マスクによって2つのスペクトログラムに分解する。すなわち、前述したP(x,t)とH(x,t)のスパース性から、任意の時間周波数において0~1の値をとる時間周波数マスクm(x,t),m(x,t)を設計することで、
Figure JPOXMLDOC01-appb-M000015
とW(x,t)を分解できると考えられる。これらの分離スペクトログラムは式(1),(2),(3)の性質を満たす。
時間周波数マスクは、サブスペクトログラムを形成するスペクトル成分の滑らかな方向を検出するように設計される。本実施形態では、打楽器成分のスペクトル成分が周波数方向に滑らかであるという特徴、及び、調波成分のスペクトル成分が時間方向に滑らかであるという特徴を用いて、入力信号のスペクトログラムをそれぞれのスペクトル成分に分離する時間周波数マスクが設計される。0~1の値を取る時間周波数マスクは、一つの態様では、0か1の値を取るバイナリマスクである。
上述のように、本実施形態では、音楽音響信号の時間周波数スペクトログラム上において、調波成分は時間方向に滑らか、打楽器成分は周波数方向に滑らかであるという時間周波数スペクトログラム上の性質の違いを積極的に用いることにより、高速にこれらを分離する。具体的には、与えられた時間周波数スペクトログラムを、時間方向に滑らかな成分と周波数方向に滑らかな成分に分解する相補的な時間周波数マスクを設計し、音楽音響信号の時間周波数スペクトログラムに対して時間周波数マスキングを行って、調波成分・打楽器成分を分離する。設計方法として、1)2次元フィルタを用いる手法、2)Divergenceと滑らかさコストをEMアルゴリズム的手法で最小化する手法、3)レベル圧縮したスペクトログラムに対し滑らかさコストをEMアルゴリズム的手法で最小化する手法、の3つの実施形態について説明する。各実施形態の説明において、数式番号は、各実施形態毎に独自に付与される。
[B]第1実施形態
第1実施形態では、観測信号の時間周波数平面のスペクトログラムを画像とみなし、調波的な音と打楽器的な音の持つ一般的な性質の違いを利用した2次元フィルタを用いることで、楽器固有の情報なしで音楽信号から打楽器音と調波音を分離する。
[B-1]2次元フィルタ出力を用いたマスク設計
時間周波数マスクm(x,t)、m(x,t)の設計について述べる。W(x,t)を画像とみなすと、P(x,t)とH(x,t)の特徴、すなわち、周波数方向のエッジ(縦方向のエッジ)と時間方向のエッジ(横方向のエッジ)、を個別に抽出するような2次元フィルタをかけることで、そのフィルタ出力結果の大小から各時間周波数成分がP(x,t)に属するかH(x,t)に属するかを決定できる。
W(x,t)の2次元フーリエ変換成分をW(バー)(a,b)(a:周波数方向のフーリエ成分,b:時間方向のフーリエ成分)とすると、P(x,t)特徴抽出フィルタF(バー)(a,b)、H(x,t)特徴抽出フィルタF(バー)(a,b)を用いることで、
Figure JPOXMLDOC01-appb-M000016
のようにフィルタ出力結果が得られる。この結果から時間周波数マスクm(x,t)、m(x,t)は、
Figure JPOXMLDOC01-appb-M000017
と得られる。
[B-2]特徴抽出2次元フィルタの設計
前節で述べた2次元フィルタに関して満たすべき要件を検討する。出力結果が各時間周波数成分においてP(x,t)らしさ、H(x,t)らしさの指標となるためには、フィルタ出力が非負の実数になることが望ましいが、必ずしも非負でなくてもよい。また入力スペクトログラムとフィルタ出力の時間周波数が対応している必要がある。前者の実現のためには、フィルタが任意の2次元分布の畳み込みA(a,b)*A(a,b)で表現される形状であればよく、またその形状がa,b両軸に対して線対称な実数分布になっていれば後者の性質も満たす。
P(x,t)、H(x,t)の特徴をそれぞれ抽出する2次元フィルタF(バー)(a,b)、F(バー)(a,b)としては様々な形状が考えられる。次に述べる実験では、要件を満たす最も簡単なフィルタとして、F(a,b)は周波数方向のみ、F(a,b)は時間方向のみのローパスフィルタ、
Figure JPOXMLDOC01-appb-M000018
として設計し、g(a)やh(b)の1次元ローパスフィルタの断面形状としては三角窓やgaussianが利用できる。
三角窓型ローパスフィルタは、
Figure JPOXMLDOC01-appb-M000019
gaussian窓型フィルタは、
Figure JPOXMLDOC01-appb-M000020
と書ける。フィルタを通過した成分の2次元逆フーリエ変換により、P0(x,t)、H0(x, t)が得られ、出力結果から時間周波数マスクmP(x, t)、mH(x, t) が設計できる。
2次元フィルタは要件を満たす最も簡単なフィルタ形状といえる。三角窓は2つの矩形窓の畳み込みで、Gaussian窓は2つのGaussianの畳み込みで表現できるため、上述したようにフィルタ出力が非負である性質を満たす。この2次元フィルタによって、時間方向、周波数方向に滑らかな成分だけが通過できる。よって各時間周波数binにおいて出力結果の2つの非負の値を比較することで、そのbin が調波音成分らしいか打楽器音の成分らしいかの判断ができる。このときフィルタの持つパラメータとして、ローパスフィルタのカットオフ周波数に対応するσP、σHがある。この値が小さいほどより滑らかな成分しか通過しないことになる。提案した2次元フィルタのインパルス応答を考えると、時間周波数方向のうちローパスでない一方がデルタ関数になり、もう一方がsinc関数の2乗(三角窓型の場合)やガウシアン(ガウシアン窓型の場合)になる。このことからこのフィルタ処理は、対象の時間周波数binのスペクトログラムにおいて、周波数方向または時間方向の一方に関してのみの荷重平均を取ることに相当する。逆にスペクトログラムの各時間周波数binの周辺で任意の荷重平均を取る処理は、全て上述した正定値フィルタをかけることに相当する。また、フィルタのインパルス応答が時間周波数軸双方に線対称(つまり時間、周波数双方向に関して偶関数)であれば、時間・周波数成分に関する加重平均の偏りがないため、分離スペクトログラムと元のスペクトログラムで時間周波数binの対応のずれは全くないと考えられる。この性質により、フィルタの出力結果からマスク関数を設計することが妥当と考えられる。
[B-3]評価実験
[B-3-1]実際の楽曲への適用結果
ポピュラー音楽の楽曲を用いた分離実験を行った。入力信号として、RWC 研究用音楽データベースよりRWC-MDB-P-2001 No.7より抜粋して使用した(16kHz サンプリング)。入力信号のスペクトログラム、提案アルゴリズム(ローパスフィルタの形状はGaussian)による分離結果を、図5の左図に示す。
結果から、P(x,t)は周波数方向にブロードな成分、H(x,t)は周波数方向に急峻だが時間方向に滑らかな成分に分離されたことが分かる。分離音を聴くと、スネアドラムなどの打楽器音はP(x,t)に分離されたが、バスドラムやハイハットに関しては特にDuration部分がH(x,t)に分離されることが確認された。また歌声においてピッチが連続的に変化する部分はP(x,t)、H(x,t)どちらにも分離され得るが、ローパスフィルタのカットオフ周波数を調整することにより、H(x,t)の方に多く分離することが可能である。
[B-3-2]MIDIを用いた定量評価実験
次に、提案アルゴリズムの定量評価実験を行なった。RWC研究用音楽データベースよりRWC-MDBP-2001 No.18の前奏部を入力とし、MIDI形式データをパート別に分離し、各パートをWAV形式に変換してその信号の和を入力とした(16kHz サンプリング)。そして第1実施形態の手法によって得た分離結果の信号と各パート信号との相関を計算することで、P(x,t)とH(x,t)に含まれるエネルギー比率を算出した。その結果を表1に示す。表より、ギターやピアノなどのメロディーや伴奏はH(x,t)に、スネアドラムやハイハットはP(x,t)分離したが、バスドラムがH(x,t)に分離される結果を得た。
Figure JPOXMLDOC01-appb-T000021
第1実施形態では、打楽器音や調波音の特徴としてスペクトログラムの周波数、時間方向の連続性を用いるものであり、スネアドラムなどの打楽器音や、音程を持つ楽器音の分離には適していると考えられる。バスドラムやハイハットのように周波数分布に偏りを持ち比較的音長の長い打楽器音や、ピアノの打鍵音やベースの打弦音、ピッチの変化しやすい歌声などの分離については、特徴抽出2次元フィルタの形状の設計によって解決可能であると考えられる。
[C]第2実施形態
第1実施形態では、楽器や楽譜に関する情報を全く用いずに、音楽信号からの分離手法として、スペクトログラム上で画像処理的な2次元フィルタを用いた高速な直接計算手法を示した。第2実施形態では、スペクトログラムの滑らかさの異方性に基づいたEMアルゴリズムによる反復解法を提案し、計算時間や性能の評価を行うまた、このアルゴリズムを応用して実時間で分離するシステムを提案する。
[C-1]滑らかさコストの導入
スペクトログラムにおける調波的な成分と打楽器的な成分の異方性を利用して、W(x,t)からH(x,t)とP(x,t)を推定する問題を議論する。実装上(x,t)は離散的な座標として取得できるため、以下の議論では離散的な時間周波数領域(x,t)と定義して議論を行なう(I:周波数bin数、J:分析フレーム数)。
本実施形態では、スペクトログラムの滑らかさの異方性を、最小化すべきコストとして、隣り合う時間周波数binとのエネルギーの平方根の二乗誤差
Figure JPOXMLDOC01-appb-M000022
のように表現する。平方根を取ることにより、エネルギーを対数的に捉える人間の聴覚特性により近い滑らかさコストの定式化を実現した。
[C-2]目的関数最小化によるパラメータ反復推定
[C-2-1]概要
観測スペクトログラムを調波成分・打楽器成分に分配する時間周波数マスクm(x,t),m(x,t)を導入する。時間周波数マスクm(x,t),m(x,t)は数2の条件を満たす。
分配されたエネルギー分布m(x,t)W(x,t)、m(x,t)W(x,t)と、P(x,t)、H(x,t)との近さを表す分布間距離の指標としてI-Divergenceを採用すると、式(1)(2)の滑らかさコストとの和による目的関数
Figure JPOXMLDOC01-appb-M000023
を最小化する問題として定式化できる。
この目的関数から、時間周波数マスクを固定して式(3)を最小化するH(x,t)とP(x,t)の更新と、H(x,t), P(x,t)を固定して式(3)を最小化するようなm(x,t)とm(x,t)の更新を交互に行なうことにより、目的関数(3)の最小化における局所最適解が得られる。以下に、Iダイバージェンスを用いた反復解法について詳述する。
[C-2-2]エネルギー二乗誤差を滑らかさコストとした解法
Iダイバージェンスを用いた反復解法について詳述する。以下の説明において、反復解法における数式番号については、説明の都合上、独自に付与する。ここで解きたいのは、入力スペクトログラムW(x、t)(x:周波数、t:時間フレーム)から、打楽器成分P(x、t)と調波成分H(x、t)に分離する問題である。これを時間周波数マスクm(x、t)とm(x、t)を用いて、EM的なアルゴリズムにより反復的に推定する手法を述べる。W(x、t)とP(x、t)+H(x、t)の近さを表す分布間距離として、Iダインバージェンスを採用する。この距離指標は、二乗誤差よりも対数的にエネルギーを捉えられ、かつ対数の二乗誤差に比べてエネルギーの非常に小さい部分の誤差を無視できるため、人間の聴覚特性との親和性が高い。また、値は非負であり、W(x、t)=P(x、t)+H(x、t)のときに0となる。この分布間距離とHやPの滑らかさを表す項を足したものを目的関数Jとすると、この分離問題は、Jを最小化する問題として定式化できる。Jensonの不等式より、
Figure JPOXMLDOC01-appb-M000024
という関係を満たす。ここで導入したマスク関数m(x、t)、m(x、t)は、
Figure JPOXMLDOC01-appb-M000025
という制約があり、上述の不等式の符号は、
Figure JPOXMLDOC01-appb-M000026
のときのみ成立する。
ΩとΩは、滑らかさに関する制約であり、
Figure JPOXMLDOC01-appb-M000027
のような、隣の時間周波数成分との二乗誤差として定義できる。
不等式(1)より、マスク関数m(x、t)、m(x、t)を固定して、J2を最小化するように、P(x、t)、H(x、t)を推定し、次にP(x、t)とH(x、t)を固定して、式(3)からマスクを更新するような、この二つのステップのパラメータ更新を交互に繰り返すことで、目的関数Jが単調減少することが保証できる。また、J≧0は明らかなので、局所最適解に収束する。
実際のデータでは、x、tは離散的なので、離散系のモデルで更新式を導出する。JをP(x,t)=Pi,jとH(x,t)=Hi,jで偏微分すると、
Figure JPOXMLDOC01-appb-M000028
となる。これを0とおいて、それぞれ、Pi,j、Hi,jについて解くと2次方程式の2解が得られるが、Pi,j、Hi,jが正であることから、
Figure JPOXMLDOC01-appb-M000029
と求まる。
反復推定アルゴリズムとしては、
1.初期P(x,t)、H(x,t)を定める。
2.(3)でm(x,t)、m(x,t)を更新する。
3.(8)(12)で、P(x,t)、H(x,t)を逐次更新する。
4.収束したら終了、しなければ2に戻る。
最終的な分離結果は、推定したマスクm(x,t)、m(x,t)を用いて、
Figure JPOXMLDOC01-appb-M000030
のようにして得られる。さらに、聴覚的にはバイナリマスクの方が分離の聴こええが良好であることから、推定したマスクから、
Figure JPOXMLDOC01-appb-M000031
のようにバイナリ化を行って分離する。この時、qが大きいほどバイナリ化の効果が大きく、q→∞でバイナリマスクをかけたことと一致する。
[C-2-3]聴覚特性を考慮した滑らかさ制約の導入
前節の滑らかさに関する制約は、エネルギーの小さい部分と大きい部分とを均等考えた滑らかさを定義している。しかし、人間の聴覚はエネルギーを対数的に捉えることが多いため、分離が良好に行われないおそれがある。そこで、制約を、
Figure JPOXMLDOC01-appb-M000032
のように、エネルギーの平方根の二乗誤差として与える。これは音響エネルギーを、より対数的に捉えた上での滑らかさを考えたことになる。今、分析信号のエネルギーが定数倍になったとき、つまり、W(x、t)、P(x、t)、H(x、t)をA倍するとき、IダイバージェンスはA倍になるが、同時に上述のコスト関数もA倍になる。このため、音量の異なる曲でもパラメータσ,σを変える必要がない。さらに、聴覚的にも同じく大きさを対数的に考えた分布間距離指標であるIダイバージェンスとの親和性も高い。
このコストを用いた場合の更新式を考える。目的関数をP(x,t)=Pi,jで偏微分すると、
Figure JPOXMLDOC01-appb-M000033
となる。これを0とおいて、Pi,jについて解くと、
Figure JPOXMLDOC01-appb-M000034
となる。
同様に、Hi,jについても解け、
Figure JPOXMLDOC01-appb-M000035
となる。
反復推定アルゴリズムとしては、
1.初期P(x,t)、H(x,t)を定める。
2.(3)でm(x,t)、m(x,t)を更新する。
3.(8)(12)で、P(x,t)、H(x,t)を逐次更新する。
4.収束したら終了、しなければ2に戻る。
[C-2-4]二乗誤差項の補助関数法の利用
前述のIダイバージェンスを用いた解法では、各P(x、t)、H(x、t)の更新式のなかに、隣の時間周波数binの値が必要であった。そこで、滑らかさに関数二乗誤差項に補助関数法を適用し、この問題を解決する。
一般的に、
Figure JPOXMLDOC01-appb-M000036
が成り立つ。等号は、
Figure JPOXMLDOC01-appb-M000037
のときのみ成り立つ。これを利用すると、滑らか制約の項は、
Figure JPOXMLDOC01-appb-M000038
と上限関数が作れる。
よって、目的関数は、
Figure JPOXMLDOC01-appb-M000039
と上限関数が作れることになる。
P(x、t)、H(x、t)の更新式は、
Figure JPOXMLDOC01-appb-M000040
となり、
同様に、Hについても解け、
Figure JPOXMLDOC01-appb-M000041
となる。
P,i,j、mH,i,j、Ci,j、Di,jの更新については、
Figure JPOXMLDOC01-appb-M000042
となる。
反復推定アルゴリズムとしては、
1.初期P(x,t)、H(x,t)を定める。
2.m(x,t)、m(x,t)、Ci,j、Di,jを更新する。
3.補助関数を固定した上で、P(x,t)、H(x,t)を逐次更新する。
4.収束したら終了、しなければ2に戻る。
[C-2-5]滑らかさ制約の分散の更新
前節で定義した滑らかさのコスト関数では、コストの強さを定めるσ,σを定数としていた。ここでは、このパラメータも変数として更新式を求める。
滑らかさに関するペナルティは、正規分布を用いたPとHに関する事前分布
Figure JPOXMLDOC01-appb-M000043
の対数をとって、
Figure JPOXMLDOC01-appb-M000044
とおける。これを用いた目的関数においてσとσの更新式を導出する。
Figure JPOXMLDOC01-appb-M000045
同様に、
Figure JPOXMLDOC01-appb-M000046
となる。
このモデルの場合、Pi,jやHi,jの更新式は前節と同じになる。
また、この分散を周波数ごとに異なる値を持たせることも考えられる。この場合、ペナルティ項は、
Figure JPOXMLDOC01-appb-M000047
となる。これを用いた目的関数において、σP,iとσH,iの更新式を導出する。
Figure JPOXMLDOC01-appb-M000048
同様に、
Figure JPOXMLDOC01-appb-M000049
となる。この分散の場合は、Pi,jのみ更新式が変化する。
Figure JPOXMLDOC01-appb-M000050
[C-2-6]スパース性の導入
前節の滑らかさの制約の他に、Pi,jやHi,jの大きさに関してなるべく0を多くするというスパース制約が導入可能である。これは聴覚的に分離の聴こえ方を良くする働きになると考えられる。前述では、後処理としてバイナリ化を行う方法に言及したが、この項の導入により反復推定中にバイナリ化が行われる。
スパース制約としては、ラプラス分布を仮定し、目的関数に
Figure JPOXMLDOC01-appb-M000051
を足すことで実現する。
また、
Figure JPOXMLDOC01-appb-M000052
でも可能であると考えられる。
前者の場合、更新式は、
Figure JPOXMLDOC01-appb-M000053
となり、
同様に、Hi,jについても解け、
Figure JPOXMLDOC01-appb-M000054
と求まる。これを用いて既述の反復更新を行えばよい。
提案した反復推定においては、時間周波数マスクmP(x, t),mH(x, t)は0から1の連続的な値をとる連続値マスクとして推定される。しかし、調波音と打楽器音の成分は時間周波数平面上でスパースに存在していること、またバイナリマスクの方が耳で聴いた分離の性能が良いことなどを考えると、推定された連続値マスクをバイナリマスクに近づけることが有効であると考えられる。推定されたmP(x, t),mH(x, t)の大小関係から、バイナリマスクを
Figure JPOXMLDOC01-appb-M000055
と設計できる。しかし、完全なバイナリマスクで設計すると、時間周波数方向におけるスペクトルの連続性が悪いため、耳で聴いたときの分離後の音声があまり良くないことも考えられる。そこで、バイナリの強さを表すパラメータγを用いて、
Figure JPOXMLDOC01-appb-M000056
と設計できる。このγが大きいほどバイナリマスクに近付き、理想的にγ→∞のときに完全なバイナリマスクに、逆にγ=1の場合には、もとの連続値マスクと一致する。
[C-3]実時間分離システムの実現
上記解法は、入力信号全体の時間周波数領域における反復解法であるため、一般的には実時間分離は難しい。しかし、スペクトログラムの滑らかさを、隣接した時間周波数binのみを用いた微分的なコストとして表現することで、局所的な分析領域でもある程度妥当な解が得られると考えられる。そこで、局所的な分析時間区間を用い、分析区間の移動とパラメータの反復更新(1~数回)を交互に行なうことで、実時間での調波音・打楽器音分離システムを実現した(図9A)。実時間での調波音・打楽器音分離のステップは以下の通りである。
1. 初期分析区間の入力スペクトログラムを計算する。
2. 新たに入力スペクトログラムを1フレーム計算し、分析区間に加える。
3. 分析領域のスペクトログラムを用いて、分離スペクトログラム、時間周波数マスクを1~数回反復更新する。
4. 分析時間区間で最も古いフレームに対して、推定された時間周波数マスクによる分離を行ない、逆フーリエ変換によって分離信号を出力する。
5. 曲が終われば終了。そうでなければStep.2に戻る。
[C-4]評価実験
[C-4-1]実際の楽曲への適用
本節ではポピュラー音楽の実演奏信号を用いた定性的実験を述べる。入力信号として、RWC 研究用音楽データベースからRWC-MDB-P-2001 No.7より抜粋して使用した(16kHz サンプリング)。入力信号のスペクトログラム、提案アルゴリズムの分離結果を、図8に示す。
結果から、P(x,t)、H(x,t)が着目した性質を満たすように分離されたことが分かる。結果の音声を聴くと、実施例1の手法に比べ良く分離でき、特に調波音は非常にスムーズに聴こえた。しかし、第1実施形態と同様、ハイハットやバスドラムのduration部分がH(x,t)に分離されること、歌声のビブラートや子音がP(x,t)に分離されやすいことを確認した。
[C-4-2]パート別の分離に関する定量評価実験
次にパート別信号を用いた定量的な評価実験を行なった。RWC研究用音楽データベースよりRWC-MDBP-2001 No.18の前奏部8.1秒を入力とし、MIDI形式データをパート別に分離し、各パートをWAV形式に変換してその信号の和を入力とした(16kHzサンプリング)。そして第1実施形態、第2実施形態の手法によって得た分離信号と各パート信号との相関を計算することで、P(x,t)とH(x,t)に含まれるエネルギー比率を算出し、計算時間とともに比較した(表2、CPU3.6GHz のマシンで計算)。表2より、第2実施形態の手法は、第1実施形態の手法に比べて計算コストは増大するが、分離性能を大きく改善できることが分かる。しかし、両手法ともバスドラムは調波音側に分離された。
Figure JPOXMLDOC01-appb-T000057
結果より、スペクトログラムの滑らかさの異方性に基づく解法が、第1実施形態による解法と同様の性質をもった分離を、実時間に比べて十分高速にかつより高い性能で実現したと言える。楽器の知識を用いずに簡便な特徴に基づいた解法のため、比較的音長の長いバスドラムやハイハットの打楽器音、ピアノの打鍵音、ピッチの変化しやすい歌声などは着目した特徴を満たしにくく、楽器分類の通念とは必ずしも対応しない可能性があるが、実時間演算で分離できるメリットは非常に大きいと考えられる。
[D]第3実施形態
第2実施形態では、W(x,t)からH(x,t)とP(x,t)を推定する問題を議論するものであったが、第3実施形態では、H(x,t)とP(x,t)を利用せずに、分配されたスペクトログラムの滑らかさコストを最小化する問題として議論する。
[D-1]調波音成分/打楽器音成分の事前モデル
h,iモノラル音響信号f(t)の短時間フーリエ変換(STFT)とすると、
h,i=φ(|Fh,i)となり、ここで、h、iは、周波数bin、時間binのインデックスである。Fh,iは、φ(A)=Aの時には通常のスペクトログラムを表し、φ(A)=Aγ(γ<1)のような凸関数φ(A)を設定することで、レンジ圧縮されたスペクトログラムが生成される。
スペクトログラムの調波成分は通常一定のピッチを備え、滑らかな時間エンベロプを備えた並行状の畝を形成する。これに対して、打音のエネルギーは短時間に集中しており、広域スペクトルエンベロープを備えた縦方向のリッジを形成する。したがって、音楽信号のスペクトログラムでは、典型的に、垂直構造と水平構造が現れる(図1)。また、水平状の複数の畝と垂直状の複数の畝との交差は極めて少ないと考えられる。したがって、ここでの目的は、以下のような適切な時間周波数バイナリマスmh,iを見つけることである。
Figure JPOXMLDOC01-appb-M000058
ここで、Hh,i、Ph,iはそれぞれ、スペクトログラムの調波成分、非調和(打楽器)成分を表す。マスクmh,iを設計する一つの手法は、ある事前分布に基づく最大事後推定(MAP)推定を適用することである。水平方向、垂直方向にそれぞれ滑らかなHh,i、Ph,iのエンベロープに着目して、各成分について次の事前確率を仮定する。
Figure JPOXMLDOC01-appb-M000059
ベクトルH、Pは、それぞれ、Hh,i、Ph,iの集合を表し、σ 、σ は、スペクトログラムの勾配の分散を表し、これらは、STFTのフレーム長やフレームシフトに依存するであろう。スペクトログラムの勾配の実際の分布はガウス分布とは異なるが、ガウス分布を仮定することで問題の定式化及び解法を容易としている。後述するように、φ(A)を用いてスペクトログラムのダイナミックレンジを圧縮することで、実際の状態と仮定とのギャップをある程度埋めることができる。
したがって、MAP推定の目的関数は、以下のように書ける。
Figure JPOXMLDOC01-appb-M000060
ここで、ベクトルmはmh,iの集合であり、定数項は簡略化のため省略してある。
[D-2]補助関数を用いた更新ルールの導出
式(5)はmh,iの定積分形式であり、最適なmは、mを連続値の変数であるとすると、∂J/∂mh,i=0で求められる。ここで、∂J/∂mh,i=0をより簡単に解くために、補助関数手法を用いる。補助関数は例えば、NMF(Non-negative matrix factorization)やHTC(Harmonic-Temporal Clustering)において用いられており、当業者において公知の手法である。
補助関数を設計するにあたり、すべてのA,B,Xについて、
Figure JPOXMLDOC01-appb-M000061
が成り立つことが、
Figure JPOXMLDOC01-appb-M000062
が非負であり、X =(A + B)=2の場合に0となることから示される。
式(5)について不等式を適用することで、以下の補助関数
Figure JPOXMLDOC01-appb-M000063
を導入し、この関数は、全てのm、補助パラメータU,Vについて、 
Figure JPOXMLDOC01-appb-M000064
を満たす。
したがって、以下の更新は、 
Figure JPOXMLDOC01-appb-M000065
Jを単調増加させる(k:更新回数)。
[D-3]更新規則
∂Q(m,U(k+1),V(k+1))/∂mh,i=0を
Figure JPOXMLDOC01-appb-M000066
に変形することで、mh,iのみの単純な更新式を生成できる。
式(7)から、Q(m(k),U,V)を最大化するUh,i、Vh,iは、
Figure JPOXMLDOC01-appb-M000067
によって与えられる。式(14)(15)を式(13)に代入し、mh,iに代えてHh,i、Ph,iを更新変数とすることで、分離アルゴリズムは次のようになる。
(1)入力信号f(t)のSTFTであるFh,iを計算する。
(2)以下の式を用いて、レベル圧縮したrange-compressed パワースペクトログラムを計算する。
Figure JPOXMLDOC01-appb-M000068

(3)全てのh、i(k=0)について、以下の式のように初期値を与える。
Figure JPOXMLDOC01-appb-M000069
(4)更新変数△(k)を以下のように計算し、 
Figure JPOXMLDOC01-appb-M000070
ここで、
Figure JPOXMLDOC01-appb-M000071
である。
そして、以下の場合に従って、Hh,i、Ph,iを更新する。
Figure JPOXMLDOC01-appb-M000072
(5)kをIncrementする。k<kmax(kmax:最大更新回数)の場合、ステップ4に戻り、それ以外の場合、ステップ6に進む。
(6)時間周波数マスクをバイナリ化する。これは以下と等価である。
Figure JPOXMLDOC01-appb-M000073
(7)H(kmax) h,i,P(kmax) h,iを、以下の式にしたがって、時間領域の波形に変換する。
Figure JPOXMLDOC01-appb-M000074
ここで、ISTFTは逆STFTである。
[D-4]評価実験
実施例3の手法を用いて幾つかの実験を行った。
入力信号として、RWC 研究用音楽データベースからRWC-MDBより抜粋して使用した(16kHz サンプリング)。実験パラメータを表3に示す。バランスパラメータα、圧縮パラメータγは経験的に決定した。
Figure JPOXMLDOC01-appb-T000075
RWC 研究用音楽データベースからRWC-MDB-P-2001 No.7より抜粋した6.25[s]区間に対して得られた調波成分H(kmax) h,i,P(kmax) h,iのスペクトログラムを、図2に示す。γ=0.3とした。更新を繰り返すにしたがって、スペクトログラムのエネルギーが水平方向の畝と垂直方向の畝とに分離されていくのがわかる。6.25[s]長信号(繰り返し数:50)の計算時間は、laptop-PC with 1.20GHz Pentiumで2.3[s]であった。この時間は、実時間処理の3倍の速度である。
提案アルゴリズムの定量評価実験を行なった。RWC 研究用音楽データベースよりRWC-MDB-P-2001 No.18 and RWC-MDBJ-2001 No.16の前奏部を入力とし、MIDI形式データをパート別に分離し、各パートをWAV形式に変換してその信号の和を入力とした(16kHz サンプリング)。そして得られた分離結果の信号と各パート信号との相関を計算することで、P(x,t)とH(x,t)に含まれるエネルギー比率を算出した。エネルギー比率は、以下の式で算出した。
Figure JPOXMLDOC01-appb-M000076
ここで、
Figure JPOXMLDOC01-appb-M000077
であり、<>は相関計算を示す。
結果を表4,5に示す。
Figure JPOXMLDOC01-appb-T000078
Figure JPOXMLDOC01-appb-T000079
楽器や楽譜の情報なしで、音楽音響信号を調波成分と打楽器成分に分離する技術は、自動採譜や音楽検索など、音楽信号解析の様々なタスクを容易にする基礎技術として有用であり、またメロディー/リズムパートの強調や抑圧といったイコライジングなどの音楽信号の加工をも可能にする。これに関連して、リアルタイム調波音・打楽器音分離システムのGUI画面を図11に示す。本システムでは、リアルタイムに分離した調波音・打楽器音のパワースペクトルを表示し、両者の音量バランスを調整しながら再生するという加工機能を実現した。本発明の対象となる音信号は音楽音響信号に限定されるものではなく、例えば、機械や装置から発生する工業的な音において異常音を取得することにも応用できる。
ポピュラー音楽のスペクトログラムを例示する図である。スペクトル成分の大きさは濃淡で表示されている。 スペクトログラムを3次元表示した図である。時間方向(図において右側の軸)、周波数方向(図において左側の軸)に沿って、それぞれ滑らかなスペクトル成分があることが観察できる。尚、図1Aは図1とは独立した図であり、別個のスペクトル成分に係るものである。 時間周波数スペクトログラムの観測モデルを示す図である。 左図は、調波音のスペクトログラムであり、時間方向に滑らか・周波数方向に急峻なスペクトル成分からなる。右図は、打楽器音のスペクトログラムであり、時間方向に急峻・周波数方向に滑らかなスペクトル成分からなる。左図のスペクトル成分と右図のスペクトル成分は、時間周波数平面上でスパースに存在している。 入力スペクトルグラムと時間周波数マスクの乗算による、当該入力スペクトログラムの分離を示す図である。 第1実施形態を示すブロック図である。 第1実施形態で用いられるフィルタを示し、左図は、H(x,y)の特徴抽出フィルタ、右図は、P(x,y)の特徴抽出フィルタを示す。 図6に示すフィルタの断面形状を示す。横軸は、H(x,y)の特徴抽出フィルタでは、時間の2次元フーリエ変換成分、P(x,y)の特徴抽出フィルタでは、P用フィルタでは周波数の2次元フーリエ変換成分である。縦軸は実際にフィルタの大きさを示し、大きいほど、その成分を通過しやすい。真ん中が0なので、三角窓、ガウス窓共にローパスフィルタになっている。 第2実施形態を示すブロック図である。 リアルタイム調波音・打楽器音分離を説明する図である。 リアルタイム調波音・打楽器音分離における分離過程のある段階を示す図である。表示されたスペクトログラムにおいて、古い時間フレーム側において、周波数方向に滑らかなスペクトル成分が分離されていることが観察できる。 リアルタイム調波音・打楽器音分離における分離過程のある段階を示す図である。表示されたスペクトログラムにおいて、古い時間フレーム側において、時間方向に滑らかなスペクトル成分が分離されていることが観察できる。 第3実施形態の手法に基づいて繰り返し更新された調波成分(左)、打音成分(右)のスペクトログラムを示し、上から、k=0、k=3、K=10、K=50、2値化後の画像である。 アルタイム調波音・打楽器音分離システムのGUI画面を示す。Method1は第1実施形態の手法、Method2は第2実施形態の手法を示す。

Claims (26)

  1.  音信号を分離する方法において、
     前記音信号のスペクトログラムを、時間周波数領域でのスペクトル成分の滑らかさに時間周波数平面上で方向性を備えた複数のサブスペクトログラムの和であると仮定し、
     各サブスペクトログラムの滑らかさの時間周波数平面上での方向に基づいて、時間周波数領域における前記音信号のスペクトル成分を、少なくとも1つのサブスペクトログラムに分配する少なくとも1つの分配係数を取得し、前記分配係数を用いて前記音信号のスペクトル成分から少なくとも1つのサブスペクトログラムを分離する、
     音信号の分離方法。
  2.  前記分配係数は、時間周波数マスクである、請求項1に記載の音信号の分離方法。
  3.  前記分配係数の取得は、
     前記音信号の各スペクトル成分について、各サブスペクトログラムの滑らかさの方向に基づいて、各サブスペクトログラムのスペクトル成分らしさのスコアを取得し、
     各スコアを指標として、分配係数を取得するステップと、
     からなる、請求項1,2いずれかに記載の音信号の分離方法。
  4.  前記スコアを取得するステップは、
     前記音信号のスペクトログラムを、時間周波数平面上で各スペクトル成分がエネルギーに対応する濃度値を備えた画像とみなし、前記音信号のスペクトログラムから各サブスペクトログラムに属するスペクトル成分の特徴を夫々抽出するフィルタを設定し、
     各スペクトル成分についての、各サブスペクトログラムに対応するフィルタ処理後のフィルタ出力をスコアとする、
     請求項3に記載の音信号の分離方法。
  5.  前記フィルタは、各サブスペクトログラムのスペクトル成分の滑らかな方向の濃度値を平滑化するローパスフィルタである、
     請求項4に記載の音信号の分離方法。
  6.  前記音信号のスペクトログラムを、2個のサブスペクトログラムの和であると仮定し、
     前記スコアを比較し、スコアが大きい方の分配係数を1、スコアが小さい方の分配係数を0とする、
     請求項3乃至5いずれかに記載の音信号の分離方法。
  7.  前記分配係数の取得は、
     分配係数をパラメータとして各サブスペクトログラムに分配された各スペクトル成分の滑らかさ指標の関数を含む目的関数を設定し、
     前記目的関数を最適化するパラメータを推定する、
     請求項1,2いずれかに記載の音信号の分離方法。
  8.  前記分配された各スペクトル成分の滑らかさ指標は、
     着目したスペクトル成分と、当該着目スペクトル成分の時間周波数平面上での近傍にある分配されたスペクトル成分とのエネルギーの差に基づいて決定される、
     請求項7に記載の音信号の分離方法。
  9.  前記滑らかさの指標の関数は、
    Figure JPOXMLDOC01-appb-M000001
    である、請求項7,8いずれかに記載の音信号の分離方法。
     ここで、K:サブスペクトログラムの数、
         i:周波数方向のインデックス
         j:時間方向のインデックス
         f(x):滑らかさをはかるコスト関数
         am,n:時間周波数領域でのある点近傍での重み係数
         m:周波数方向の近傍を表すインデックス
         n:時間方向の近傍を表すインデックス
         g(x):滑らかさ指標における、スペクトログラムのレベル圧縮関数
         Q(K) i,j:サブスペクトログラムのスペクトル成分
    である。
  10.  前記目的関数が、前記音信号のスペクトル成分とパラメータとしての分配係数によって分配された各スペクトル成分の和との距離指標の関数を含む、
     請求項7乃至9いずれかに記載の音信号の分離方法。
  11.  前記音信号のスペクトログラムを、K個のサブスペクトログラムの和であると仮定し、前記目的関数は、
    Figure JPOXMLDOC01-appb-M000002
    である、請求項7乃至10いずれかに記載の音信号の分離手法。
     ここで、K:サブスペクトログラムの数、
         i:周波数方向のインデックス
         j:時間方向のインデックス
         D(A,B):関数Aと関数Bの距離指標
         φ(x):距離指標における、スペクトログラムのレベル圧縮関数
         Wi,j:観測スペクトル成分
         f(x):滑らかさをはかるコスト関数
         am,n:時間周波数領域でのある点近傍での重み係数
         m:周波数方向の近傍を表すインデックス
         n:時間方向の近傍を表すインデックス
         g(x):滑らかさ指標における、スペクトログラムのレベル圧縮関数
         Q(K) i,j:サブスペクトログラムのスペクトル成分
    である。
  12. 前記目的関数において、
    Figure JPOXMLDOC01-appb-M000003
    である、請求項11に記載の音信号の分離方法。
  13.  前記目的関数において、
    Figure JPOXMLDOC01-appb-M000004
    である、請求項11,12いずれかに記載の音信号の分離方法。
  14.  前記目的関数において、
    Figure JPOXMLDOC01-appb-M000005
    である、請求項11,12いずれかに記載の音信号の分離方法。
  15.  前記パラメータを推定するステップは、
     パラメータの更新と、当該パラメータによって分配された各サブスペクトログラムに対応するスペクトル成分の更新とを交互に繰り返すものである、
     請求項7乃至14いずれかに記載の分離方法。
  16.  前記音信号のスペクトログラムを、2つのサブスペクトログラムの和であると仮定し、
     前記時間周波数領域で隣接するパラメータによって分配されたスペクトル成分間のエネルギーの差の関数は、
    Figure JPOXMLDOC01-appb-M000006
     である、請求項7乃至13いずれかに記載の音信号の分離方法。
  17.  前記音信号のスペクトログラムを、2つのサブスペクトログラムの和であると仮定し、
     前記目的関数は、
    Figure JPOXMLDOC01-appb-M000007
    である、請求項7乃至13,16いずれかに記載の音信号の分離方法。
  18.  前記音信号のスペクトログラムを、2つのサブスペクトログラムの和であると仮定し、
     前記目的関数は、
    Figure JPOXMLDOC01-appb-M000008
     である、請求項7乃至9,14いずれかに記載の音信号の分離方法。
  19.  前記音信号を初期分析区間で時間周波数領域に変換してスペクトル成分を取得するステップと、
     前記音信号を1フレーム分だけ時間周波数領域に変換してスペクトル成分を取得し、当該スペクトル成分を前記分析区間に加えるステップと、
     前記分析区間のスペクトル成分を用いて、パラメータの推定を行うステップと、
     前記分析区間で最も古い1フレームのスペクトル成分を、推定されたパラメータを用いて分離し、
     分離されたスペクトル成分を時間周波数領域に変換する、
     請求項7乃至18いずれかに記載の音信号の分離方法。
  20.  推定された分配係数を2値化するステップを含む、
     請求項7乃至19いずれかに記載の音信号の分離方法。
  21.  2値化の強度が可変である、
     請求項20に記載の音信号の分離方法。
  22.  前記複数のサブスペクトログラムの少なくとも1つは、周波数方向に滑らかなサブスペクトログラム、あるいは、時間方向に滑らかなサブスペクトログラムである、請求項1乃至21いずれかに記載の音信号の分離方法。
  23.  前記複数のサブスペクトログラムは、周波数方向に滑らかな第1サブスペクトログラムと、時間方向に滑らかな第2サブスペクトログラムと、を含む、請求項22に記載の音信号の分離方法。
  24.  前記周波数方向に滑らかなサブスペクトログラムは、非調波的な成分であり、時間方向に滑らかなサブスペクトログラムは、調波的な成分である、請求項22、23いずれかに記載の分離方法。
  25.  前記音信号は音楽信号であり、前記非調波的な成分は、打楽器音である、請求項24に記載の音信号の分離方法。
  26.  前記分離方法は、分離された少なくとも1つのサブスペクトログラムのスペクトル成分を強調あるいは抑圧するステップを備えている、
     請求項1乃至25いずれかに記載の音信号の分離方法。
PCT/JP2008/065287 2008-03-05 2008-08-27 音信号の分離方法 WO2009110118A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US12/920,299 US20110058685A1 (en) 2008-03-05 2008-08-27 Method of separating sound signal

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008054826A JP5294300B2 (ja) 2008-03-05 2008-03-05 音信号の分離方法
JP2008-054826 2008-03-05

Publications (1)

Publication Number Publication Date
WO2009110118A1 true WO2009110118A1 (ja) 2009-09-11

Family

ID=41055692

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2008/065287 WO2009110118A1 (ja) 2008-03-05 2008-08-27 音信号の分離方法

Country Status (3)

Country Link
US (1) US20110058685A1 (ja)
JP (1) JP5294300B2 (ja)
WO (1) WO2009110118A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013038459A1 (ja) * 2011-09-16 2013-03-21 パイオニア株式会社 音声処理装置、再生装置、音声処理方法およびプログラム

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2306457B1 (en) * 2009-08-24 2016-10-12 Oticon A/S Automatic sound recognition based on binary time frequency units
US8340943B2 (en) * 2009-08-28 2012-12-25 Electronics And Telecommunications Research Institute Method and system for separating musical sound source
JP4934180B2 (ja) * 2009-09-24 2012-05-16 株式会社エクシング 撥弦楽器演奏評価装置
KR20120031854A (ko) * 2010-09-27 2012-04-04 한국전자통신연구원 시간 및 주파수 특징을 이용하는 음악 음원 분리 장치 및 방법
JP2012234150A (ja) * 2011-04-18 2012-11-29 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
CA2779232A1 (en) * 2011-06-08 2012-12-08 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry Through The Communications Research Centre Canada Sparse coding using object extraction
JP5057535B1 (ja) * 2011-08-31 2012-10-24 国立大学法人電気通信大学 ミキシング装置、ミキシング信号処理装置、ミキシングプログラム及びミキシング方法
JP6048025B2 (ja) * 2012-09-18 2016-12-21 富士ゼロックス株式会社 分類装置及びプログラム
US9460732B2 (en) 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
JP5980149B2 (ja) * 2013-03-15 2016-08-31 日本電信電話株式会社 音声分析装置とその方法とプログラム
US10262680B2 (en) * 2013-06-28 2019-04-16 Adobe Inc. Variable sound decomposition masks
JP2015031889A (ja) * 2013-08-05 2015-02-16 株式会社半導体理工学研究センター 音響信号分離装置、音響信号分離方法及び音響信号分離プログラム
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
US9420368B2 (en) * 2013-09-24 2016-08-16 Analog Devices, Inc. Time-frequency directional processing of audio signals
US20150264505A1 (en) 2014-03-13 2015-09-17 Accusonus S.A. Wireless exchange of data between devices in live events
US10468036B2 (en) 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
CN105989851B (zh) * 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
JP6377592B2 (ja) * 2015-11-09 2018-08-22 日本電信電話株式会社 異常音検出装置、異常音検出学習装置、これらの方法及びプログラム
CN109247069B (zh) 2016-03-18 2021-12-21 弗劳恩霍夫应用研究促进协会 通过使用音频频谱图上的结构张量来重构相位信息的编码
EP3220386A1 (en) * 2016-03-18 2017-09-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms
CN106024005B (zh) * 2016-07-01 2018-09-25 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
JP6623376B2 (ja) * 2016-08-26 2019-12-25 日本電信電話株式会社 音源強調装置、その方法、及びプログラム
US10713296B2 (en) * 2016-09-09 2020-07-14 Gracenote, Inc. Audio identification based on data structure
US10803119B2 (en) * 2017-01-02 2020-10-13 Gracenote, Inc. Automated cover song identification
JP6721165B2 (ja) * 2017-08-17 2020-07-08 日本電信電話株式会社 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム
US11574618B2 (en) * 2020-04-16 2023-02-07 Gracenote, Inc. Methods and apparatus for harmonic source enhancement
US11250874B2 (en) * 2020-05-21 2022-02-15 Bank Of America Corporation Audio quality enhancement system
CN111723714B (zh) * 2020-06-10 2023-11-03 上海商汤智能科技有限公司 识别人脸图像真伪的方法、装置及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002244691A (ja) * 2001-02-13 2002-08-30 Dainippon Printing Co Ltd 音響信号の符号化方法
JP2003131688A (ja) * 2001-10-24 2003-05-09 Takayoshi Yamamoto 信号源毎の信号を求める方法及び装置
JP2005258440A (ja) * 2004-03-12 2005-09-22 Mitsubishi Electric Research Laboratories Inc 別個の信号の成分を分離する方法およびシステム
JP2006251712A (ja) * 2005-03-14 2006-09-21 Univ Of Tokyo 観測データ、特に、複数の音源からの音が混在している音響信号の解析方法
JP2007193035A (ja) * 2006-01-18 2007-08-02 Sony Corp 音声信号分離装置及び方法
JP2007304445A (ja) * 2006-05-12 2007-11-22 Nippon Telegr & Teleph Corp <Ntt> 周波数成分の修復・抽出方法、周波数成分の修復・抽出装置、周波数成分の修復・抽出プログラムならびに周波数成分の修復・抽出プログラムを記録した記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006337851A (ja) * 2005-06-03 2006-12-14 Sony Corp 音声信号分離装置及び方法
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
US8126829B2 (en) * 2007-06-28 2012-02-28 Microsoft Corporation Source segmentation using Q-clustering

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002244691A (ja) * 2001-02-13 2002-08-30 Dainippon Printing Co Ltd 音響信号の符号化方法
JP2003131688A (ja) * 2001-10-24 2003-05-09 Takayoshi Yamamoto 信号源毎の信号を求める方法及び装置
JP2005258440A (ja) * 2004-03-12 2005-09-22 Mitsubishi Electric Research Laboratories Inc 別個の信号の成分を分離する方法およびシステム
JP2006251712A (ja) * 2005-03-14 2006-09-21 Univ Of Tokyo 観測データ、特に、複数の音源からの音が混在している音響信号の解析方法
JP2007193035A (ja) * 2006-01-18 2007-08-02 Sony Corp 音声信号分離装置及び方法
JP2007304445A (ja) * 2006-05-12 2007-11-22 Nippon Telegr & Teleph Corp <Ntt> 周波数成分の修復・抽出方法、周波数成分の修復・抽出装置、周波数成分の修復・抽出プログラムならびに周波数成分の修復・抽出プログラムを記録した記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013038459A1 (ja) * 2011-09-16 2013-03-21 パイオニア株式会社 音声処理装置、再生装置、音声処理方法およびプログラム
JP5617042B2 (ja) * 2011-09-16 2014-10-29 パイオニア株式会社 音声処理装置、再生装置、音声処理方法およびプログラム
JPWO2013038459A1 (ja) * 2011-09-16 2015-03-23 パイオニア株式会社 音声処理装置、再生装置、音声処理方法およびプログラム
US9496839B2 (en) 2011-09-16 2016-11-15 Pioneer Dj Corporation Audio processing apparatus, reproduction apparatus, audio processing method and program

Also Published As

Publication number Publication date
JP5294300B2 (ja) 2013-09-18
JP2009210888A (ja) 2009-09-17
US20110058685A1 (en) 2011-03-10

Similar Documents

Publication Publication Date Title
JP5294300B2 (ja) 音信号の分離方法
CN110111773B (zh) 基于卷积神经网络的音乐信号多乐器识别方法
Ono et al. Separation of a monaural audio signal into harmonic/percussive components by complementary diffusion on spectrogram
Kim et al. KUIELab-MDX-Net: A two-stream neural network for music demixing
Nakano et al. Bayesian nonparametric spectrogram modeling based on infinite factorial infinite hidden Markov model
CN111369982A (zh) 音频分类模型的训练方法、音频分类方法、装置及设备
Müller et al. Towards structural analysis of audio recordings in the presence of musical variations
CN101599271A (zh) 一种数字音乐情感的识别方法
Fuentes et al. Probabilistic model for main melody extraction using constant-Q transform
Zlatintsi et al. Multiscale fractal analysis of musical instrument signals with application to recognition
Erdogan et al. Investigations on Data Augmentation and Loss Functions for Deep Learning Based Speech-Background Separation.
Jensen et al. Quantitative analysis of a common audio similarity measure
JP2010210758A (ja) 音声を含む信号の処理方法及び装置
CN110534091A (zh) 一种基于微服务器及智能语音识别的人车交互方法
Fraser et al. Toward real-time recognition of acoustic musical instruments
CN111667805A (zh) 一种伴奏音乐的提取方法、装置、设备和介质
Lai et al. RPCA-DRNN technique for monaural singing voice separation
WO2005062291A1 (ja) 信号解析方法
JP2012181475A (ja) 音響信号における特徴抽出方法及び当該特徴を用いた音響信号の処理方法
Vinitha George et al. A novel U-Net with dense block for drum signal separation from polyphonic music signal mixture
Macret et al. Automatic calibration of modified fm synthesis to harmonic sounds using genetic algorithms
Joshi et al. Comparative study of Mfcc and Mel spectrogram for Raga classification using CNN
Pawar et al. Automatic tonic (shruti) identification system for indian classical music
O'Hanlon et al. Improved template based chord recognition using the CRP feature
Costa et al. Sparse time-frequency representations for polyphonic audio based on combined efficient fan-chirp transforms

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08873084

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 12920299

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 08873084

Country of ref document: EP

Kind code of ref document: A1