WO2021260868A1 - 音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法 - Google Patents

音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法 Download PDF

Info

Publication number
WO2021260868A1
WO2021260868A1 PCT/JP2020/024930 JP2020024930W WO2021260868A1 WO 2021260868 A1 WO2021260868 A1 WO 2021260868A1 JP 2020024930 W JP2020024930 W JP 2020024930W WO 2021260868 A1 WO2021260868 A1 WO 2021260868A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
target
sounds
sound
processed
Prior art date
Application number
PCT/JP2020/024930
Other languages
English (en)
French (fr)
Inventor
祥幹 三井
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2020/024930 priority Critical patent/WO2021260868A1/ja
Priority to JP2022532167A priority patent/JP7138824B2/ja
Publication of WO2021260868A1 publication Critical patent/WO2021260868A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Definitions

  • This disclosure relates to a sound source separation model learning device, a sound source separation device, a program, a sound source separation model learning method, and a sound source separation method.
  • Non-Patent Document 1 Sound source separation is achieved by passing a mixed signal containing a plurality of sounds through a sound source separation device using NN.
  • the input feature amount to NN is generated from the acquired sound source signal and applied to NN.
  • signal processes such as separating a desired sound source and suppressing signals coming from unnecessary sound sources.
  • signal processing such as beamforming processing using a microphone array, spectral subtraction processing for suppressing noise, and adaptive filtering processing for performing noise canceling and the like.
  • Non-Patent Document 1 it is not assumed that the above signal processing is performed between the acquisition of the sound source signal and the generation of the input feature amount. Therefore, even if the mixed signal after the signal processing is input to the NN at the time of sound source separation, the NN cannot cope with the fluctuation of the acoustic characteristics caused by the signal processing, and sufficient sound source separation performance can be obtained. Can't.
  • the fluctuation of the acoustic characteristics is such that the scale, delay, reverberation, frequency characteristics, etc. of the signal change.
  • one or more aspects of the present disclosure are intended to enable effective function of sound source separation by machine learning even when the acoustic characteristics fluctuate.
  • the sound source separation model learning device performs a predetermined process on a learning mixed signal indicating at least a plurality of target sounds, thereby performing a plurality of predetermined processes derived from the plurality of target sounds.
  • a learning-side model inference unit that indicates the extracted sound by extracting a sound from the signal and generates a plurality of learning extraction signals corresponding to each of the plurality of processed target sounds, and the plurality of In order to bring the one target sound closer to one processed target sound corresponding to the one target sound among the plurality of processed target sounds with respect to a signal indicating one target sound among the target sounds.
  • a signal transformation unit that generates a plurality of transformation target sound signals each indicating a plurality of transformation target sounds derived from each of the plurality of objective sounds, and the plurality of learning extraction signals. It is characterized by comprising a model update unit that updates the learning side sound source separation model so that the extracted sound approaches the plurality of modified target sounds by using the plurality of modified target sound signals. do.
  • the sound source separation model learning device performs a predetermined process on a learning mixed signal indicating at least a plurality of target sounds, thereby performing a plurality of predetermined processes derived from the plurality of target sounds.
  • the learning side feature amount extraction unit that generates the learning feature data which is the time-series data of the extracted learning acoustic feature amount by extracting in.
  • a learning side model that generates a plurality of learning masks for each of the plurality of processed target sounds to be extracted from the learning feature data by using a learning side sound source separation model showing weights for each of the components of.
  • the extracted sounds are shown, and each of the plurality of processed target sounds corresponds to each of the plurality.
  • the learning side signal extraction unit that generates the learning extraction signal of the above and the signal indicating one of the plurality of target sounds, the one target sound is selected from the plurality of processed target sounds.
  • a plurality of transformations each indicating a plurality of transformation target sounds derived from each of the plurality of target sounds.
  • the learning so that the extracted sound approaches the plurality of modified target sounds by using the signal transforming unit that generates the target sound signal, the plurality of learning extraction signals, and the plurality of modified target sound signals. It is characterized by including a model update unit that updates the side sound source separation model.
  • the sound source separation device performs a predetermined process on a target mixed signal indicating at least a plurality of target sounds, thereby performing a plurality of processed purposes derived from the plurality of target sounds.
  • Sound is extracted from the processed target mixed signal using the utilization side signal processing unit that generates at least the processed target mixed signal indicating the sound and the utilization side sound source separation model for extracting the plurality of processed target sounds.
  • the utilization side signal processing unit that generates at least the processed target mixed signal indicating the sound and the utilization side sound source separation model for extracting the plurality of processed target sounds.
  • the sound source separation device performs a predetermined process on a target mixed signal indicating at least a plurality of target sounds, thereby performing a plurality of processed purposes derived from the plurality of target sounds.
  • the utilized acoustic feature amount which is a predetermined acoustic feature amount
  • the utilization side feature amount extraction unit that generates the utilization feature data which is the time-series data of the extracted utilization acoustic feature amount, and the weight for each of the plurality of components in order to extract the plurality of processed target sounds are shown.
  • the utilization side model inference unit that generates a plurality of utilization masks for each of the plurality of processed target sounds to be extracted from the utilization feature data, and the plurality of utilization masks are used.
  • Utilization side signal extraction that indicates at least the extracted sound by extracting a sound from the utilization feature data and generates a plurality of utilization extraction signals corresponding to each of the plurality of processed target sounds. It is characterized by having a section and.
  • a computer performs predetermined processing on a learning mixed signal indicating at least a plurality of target sounds, thereby performing a plurality of processes derived from the plurality of target sounds. From the processed learning mixed signal using the learning side signal processing unit that generates the processed learning mixed signal indicating at least the processed target sound, and the learning side sound source separation model for extracting the plurality of processed target sounds.
  • a learning-side model inference unit that indicates the extracted sound by extracting a sound and generates a plurality of learning extraction signals corresponding to each of the plurality of processed target sounds, and the plurality of target sounds.
  • the transformation process for bringing the one target sound closer to one processed target sound corresponding to the one target sound among the plurality of processed target sounds.
  • the transformation process for bringing the one target sound closer to one processed target sound corresponding to the one target sound among the plurality of processed target sounds.
  • a computer performs predetermined processing on a learning mixed signal indicating at least a plurality of target sounds, thereby performing a plurality of processes derived from the plurality of target sounds.
  • a learning acoustic feature amount which is a predetermined acoustic feature amount, is extracted from the processed learning mixed signal, which is a signal processing unit on the learning side that generates a processed learning mixed signal indicating at least the finished target sound, in a plurality of components.
  • the learning side feature amount extraction unit that generates the learning feature data which is the time-series data of the extracted learning acoustic feature amount, and the plurality of components in order to extract the plurality of processed target sounds.
  • a learning side model inference unit that generates a plurality of learning masks for each of the plurality of processed target sounds to be extracted from the learning feature data by using a learning side sound source separation model showing weights for each. By extracting sounds from the learning feature data using the plurality of learning masks, the extracted sounds are shown, and a plurality of learning extracts corresponding to each of the plurality of processed target sounds.
  • Learning side signal extractor that generates a signal, For a signal indicating one target sound among the plurality of target sounds, the one target sound is used as one processed target sound corresponding to the one target sound among the plurality of processed target sounds.
  • a signal transforming unit that generates a plurality of modified target sound signals, each of which indicates a plurality of modified target sounds derived from each of the plurality of target sounds, and a plurality of the above-mentioned plurality of target sounds by performing a transformation process for approaching.
  • the extracted sound functions as a model update unit that updates the learning side sound source separation model so as to approach the plurality of modified target sounds. It is characterized by that.
  • a computer performs predetermined processing on a target mixed signal indicating at least a plurality of target sounds, thereby performing a plurality of processed processes derived from the plurality of target sounds.
  • Sound from the processed target mixed signal using the utilization side signal processing unit that generates at least the processed target mixed signal indicating the target sound and the utilization side sound source separation model for extracting the plurality of processed target sounds.
  • the utilization side signal processing unit that generates at least the processed target mixed signal indicating the target sound and the utilization side sound source separation model for extracting the plurality of processed target sounds.
  • a computer performs predetermined processing on a target mixed signal indicating at least a plurality of target sounds, thereby performing a plurality of processed processes derived from the plurality of target sounds.
  • the utilized acoustic feature amount which is a predetermined acoustic feature amount
  • Utilization side feature amount extraction unit that generates utilization feature data which is time-series data of the extracted utilization acoustic feature amount, utilization showing weights for each of the plurality of components in order to extract the plurality of processed target sounds.
  • the utilization side model inference unit that generates a plurality of utilization masks for each of the plurality of processed target sounds to be extracted from the utilization feature data, and the plurality of utilization masks.
  • Utilization side signal extraction that indicates at least the extracted sound by extracting a sound from the utilization feature data and generates a plurality of utilization extraction signals corresponding to each of the plurality of processed target sounds. It is characterized by functioning as a department.
  • the sound source separation model learning method is a plurality of sound source separation model learning methods derived from the plurality of target sounds by performing predetermined processing on a learning mixed signal indicating at least a plurality of target sounds.
  • a processed learning mixed signal indicating at least the processed target sound is generated, and a sound is extracted from the processed learning mixed signal by using the learning side sound source separation model for extracting the plurality of processed target sounds. This indicates the extracted sound, generates a plurality of learning extraction signals corresponding to each of the plurality of processed target sounds, and indicates one of the plurality of target sounds.
  • the plurality of purposes A plurality of modified target sound signals, each of which indicates a plurality of modified target sounds derived from each of the sounds, are generated, and the extraction is performed using the plurality of learning extraction signals and the plurality of modified target sound signals. It is characterized in that the learning side sound source separation model is updated so that the sound approaches the plurality of modified target sounds.
  • the sound source separation model learning method is a plurality of sound source separation model learning methods derived from the plurality of target sounds by performing predetermined processing on a learning mixed signal indicating at least a plurality of target sounds.
  • a processed learning mixed signal indicating at least the processed target sound
  • extracting the learning acoustic feature amount which is a predetermined acoustic feature amount, from the processed learning mixed signal in a plurality of components.
  • a learning-side sound source separation model that generates learning feature data, which is time-series data of the extracted learning acoustic features, and shows weights for each of the plurality of components in order to extract the plurality of processed target sounds.
  • a plurality of modified target sound signals each of which indicates a plurality of modified target sounds derived from each of the plurality of target sounds, are generated, and the plurality of learning extraction signals and the plurality of modified target sound signals are used.
  • the learning side sound source separation model is updated so that the extracted sound approaches the plurality of modified target sounds.
  • the sound source separation method is a plurality of processed purposes derived from the plurality of target sounds by performing predetermined processing on a target mixed signal indicating at least a plurality of target sounds.
  • the extraction is performed by extracting the sound from the processed target mixed signal by using the utilization side sound source separation model for generating the processed target mixed signal indicating at least the sound and extracting the plurality of processed target sounds. It is characterized in that a plurality of utilization extraction signals corresponding to each of the plurality of processed target sounds are generated.
  • the sound source separation method is a plurality of processed purposes derived from the plurality of target sounds by performing predetermined processing on a target mixed signal indicating at least a plurality of target sounds.
  • a target mixed signal indicating at least sound
  • extracting a utilized acoustic feature amount which is a predetermined acoustic feature amount, from the processed target mixed signal in a plurality of components
  • the extracted utilized sound Utilization feature data which is time-series data of feature quantities, is generated, and the utilization side sound source separation model showing weights for each of the plurality of components is used to extract the plurality of processed target sounds.
  • a plurality of utilization masks for each of the plurality of processed target sounds to be extracted are generated from the above, and the sounds are extracted from the utilization feature data using the plurality of utilization masks. It is characterized by showing at least a sound and generating a plurality of utilization extraction signals corresponding to each of the plurality of processed target sounds.
  • sound source separation by machine learning can effectively function even when the acoustic characteristics fluctuate.
  • FIG. It is a block diagram which shows schematic structure of a sound source separation system. It is a block diagram which shows schematic structure of the sound source separation model learning apparatus. It is a block diagram which shows schematic structure of the signal deformation part in Embodiment 1.
  • FIG. It is a block diagram which shows the hardware composition of the sound source separation model learning apparatus roughly. It is a block diagram which shows the structure of the sound source separation apparatus roughly. It is a block diagram which shows the hardware composition of the sound source separation apparatus roughly.
  • FIG. 1 It is a conceptual diagram which shows the operation of a sound source separation model learning apparatus.
  • (A) and (B) are schematic diagrams for explaining the operation example of the sound source separation apparatus.
  • It is a schematic diagram which shows the use example of a sound source separation apparatus.
  • It is a block diagram which shows schematic structure of the signal deformation part in Embodiment 2.
  • FIG. It is a flowchart which shows the operation of the signal deformation part in Embodiment 2.
  • FIG. 1 is a block diagram schematically showing the configuration of the sound source separation system 100 according to the first embodiment.
  • the sound source separation system 100 separates the sound source separation model learning device 110 that generates a sound source separation model from the learning signal and the target sound emitted from each sound source contained in the target mixed signal by using the sound source separation model. It also includes a sound source separation device 130 that outputs the target sound.
  • the target sound refers to a sound that is to be separated and extracted using the sound source separation device 130
  • the non-target sound refers to a sound that does not need to be extracted using the sound source separation device 130.
  • the target sound refers to the sound that should be extracted by the sound source separation device 130
  • the non-target sound refers to the sound that should not be extracted by the sound source separation device 130.
  • the sound source separation model learning device 110 and the sound source separation device 130 can transfer data.
  • the sound source separation model learning device 110 and the sound source separation device 130 are connected to a network.
  • the sound source separation model learning device 110 generates a sound source separation model based on the learning signal.
  • the generated sound source separation model is given to the sound source separation device 130.
  • the sound source separation device 130 uses the sound source separation model to extract a plurality of target sounds from a mixed signal including a plurality of target sounds emitted from the plurality of sound sources.
  • the sound source separation model is a learning model in the NN used when the sound source separation is performed by the sound source separation device 130.
  • the sound source separation model includes, for example, information for defining the wiring structure of the NN and a parameter storing the weight in each wiring of the NN.
  • the wiring structure of the sound source separation model is, for example, fully coupled NN, convolutional NN (Convolutional NN: CNN), recurrent NN (Recurrent NN: RNN), long short-term memory (LSTM), and gated recurrent unit. It may be a type unit (Gated recurrent unit: GRU) or a combination thereof.
  • FIG. 2 is a block diagram schematically showing the configuration of the sound source separation model learning device 110.
  • the sound source separation model learning device 110 includes a learning side input unit 111, a mixing signal generation unit 112, a learning side signal processing unit 113, a learning side feature amount extraction unit 114, a learning side sound source separation model storage unit 115, and learning. It includes a side model inference unit 116, a learning side signal extraction unit 117, a signal deformation unit 118, a model update unit 119, and a learning side communication unit 120.
  • the learning side input unit 111 receives the input of the learning signal.
  • the input learning signal is given to the mixed signal generation unit 112 and the signal transformation unit 118.
  • the learning signal is, for example, a sound emitted individually from a plurality of speakers, a musical piece played individually from a plurality of musical instruments, or a target sound such as a noise individually emitted from a plurality of noise sources. And the signal of the data which recorded the non-purpose sound.
  • the mixed signal generation unit 112 acquires signals of target sound and non-target sound as learning signals, and is, for example, a mixed signal in which a plurality of target sounds and non-target sounds are mixed by adding them. Generate a mixed signal for learning.
  • the learning mixed signal is given to the learning side signal processing unit 113.
  • the learning mixed signal includes two or more target sounds.
  • the learning mixed signal may or may not include one or more non-purpose sounds.
  • the learning mixed signal may be, for example, a signal obtained by simply adding two or more signals acquired as learning signals. In other words, the learning mixed signal is a signal indicating at least a plurality of target sounds.
  • the mixed signal generation unit 112 may include, for example, a process of simulating a target mixed signal which is a mixed signal input to the sound source separation device 130.
  • the mixed signal generation unit 112 may include a process of simulating the observation by the microphone array by convolving the impulse response of the microphone array.
  • the learning side signal processing unit 113 generates a processed learning mixed signal indicating at least a plurality of processed target sounds derived from a plurality of target sounds by performing predetermined processing on the learning mixed signal. ..
  • the processed learning mixed signal is given to the learning side feature amount extraction unit 114 and the signal deformation unit 118.
  • the learning side signal processing unit 113 applies various signal processing to the learning mixed signal given from the mixing signal generation unit 112 to facilitate extraction of the target sound, and the processed learning mixed signal obtained as a result.
  • the predetermined process may be a process other than machine learning, or may be a process using machine learning. Further, it is desirable that the predetermined process is a process that facilitates extraction of a plurality of target sounds. Further, it is desirable that the predetermined process is a process for emphasizing a plurality of target sounds.
  • the learning side signal processing unit 113 performs the same processing as that performed in the sound source separation device 130. For example, classical signal processing, processing using machine learning, unknown signal processing, and the like are performed. Unknown signal processing may include classical signal processing or processing using machine learning.
  • the processing performed by the learning side signal processing unit 113 includes a beamforming process for suppressing a noise signal, a signal indicating a sound other than the target sound, or the like from the input learning mixed signal. May be good. Further, the processing performed by the learning side signal processing unit 113 may include a processing for suppressing reverberation. Further, in the processing performed by the learning side signal processing unit 113, when the reference signal of the non-purpose sound existing in the mixed learning signal is given, the reference of the non-purpose sound represented by the echo canceller or the like is given. A process of removing components derived from non-purpose sounds from the learning mixed signal by adaptively transforming the signal into the form included in the learning mixed signal and subtracting it from the learning mixed signal may be included.
  • the content of the processing performed by the learning side signal processing unit 113 may change with the passage of time.
  • the learning mixed signal input to the learning side signal processing unit 113 is, for example, a signal of a plurality of channels recorded by the microphone array, and the processed learning mixed signal output is, for example, a single channel signal.
  • the requirements for the number of channels are not limited to this.
  • the learning-side feature amount extraction unit 114 extracts an acoustic feature amount from the processed learning mixed signal given from the learning-side signal processing unit 113, and is learning feature data which is time-series data of the extracted acoustic feature amount. To generate.
  • the learning-side feature amount extraction unit 114 extracts the learning acoustic feature amount, which is a predetermined acoustic feature amount, from the processed learning mixed signal in a plurality of components, and the learning acoustic feature is extracted.
  • Generate feature data for learning which is time-series data of quantity.
  • the acoustic feature quantity is, for example, a complex spectrum obtained by subjecting the processed learning mixed signal to a fast Fourier transform (FFT) process.
  • FFT fast Fourier transform
  • the learning side sound source separation model storage unit 115 stores the learning side sound source separation model, which is the sound source separation model used in the sound source separation model learning device 110.
  • the learning side sound source separation model shows, for example, a weight parameter for each component in the learning feature data.
  • the learning-side model inference unit 116 separates the learning-side sound source separation from the learning-side feature amount extraction unit 114, which is the learning-side feature amount required for sound source separation, from the learning-side feature data. Extract using a model.
  • the time-series data of the feature amount for learning separation extracted by the learning-side model inference unit 116 is, for example, time-series data called "mask".
  • the mask is a filter for extracting only the components of each sound source from the acoustic features extracted by the learning side feature extraction unit 114.
  • the mask is given, for example, by determining the ratio of the components from the sound source to be separated and extracted in each component of the acoustic feature amount extracted by the learning side feature amount extraction unit 114.
  • the mask generated here is given to the learning side signal extraction unit 117 as a learning mask. That is, in order to extract a plurality of processed target sounds, the learning-side model inference unit 116 uses a learning-side sound source separation model that shows weights for each of the plurality of components constituting the learning-side feature data, and uses the learning-side sound source separation model. A learning mask for extracting one processed target sound from the data is generated for each target sound.
  • the learning mixed signal contains a plurality of target sounds, a plurality of learning masks are generated.
  • the learning side signal extraction unit 117 contains learning feature data which is time-series data of acoustic features extracted by the learning side feature amount extraction unit 114 and learning separation feature amounts estimated by the learning side model inference unit 116.
  • the acoustic signal to be extracted is extracted by using the learning mask which is the time series data.
  • the learning side signal extraction unit 117 uses each of the plurality of learning masks given by the learning side model inference unit 116 to extract sounds from the learning feature data, thereby at least showing the extracted sounds. Generates an extraction signal.
  • the learning side signal extraction unit 117 performs an inverse Fourier transform (IFFT) process after performing a product calculation of the learning separation feature amount and the learning acoustic feature amount for each component.
  • IFFT inverse Fourier transform
  • the learning extraction signal which is the signal obtained by extracting the target sound to be extracted, is restored. Since a plurality of learning masks are used here, a plurality of learning extraction signals corresponding to each of the plurality of learning masks are restored.
  • the signal transformation unit 118 uses the learning signal given from the learning side input unit 111 and the processed learning mixed signal given from the learning side signal processing unit 113 to set each of a plurality of target sounds included in the learning signal.
  • the modified target sound signal is generated by performing the transformation processing for approaching the sound corresponding to each target sound included in the processed learning mixed signal.
  • the generated deformation target sound signal is given to the model update unit 119.
  • the signal transforming unit 118 performs transformation processing for a signal indicating one target sound among a plurality of target sounds in order to bring the one target sound closer to the corresponding one processed target sound.
  • a modified target sound signal indicating one modified target sound derived from the one target sound is generated for each target sound.
  • a plurality of modified target sound signals corresponding to each of the plurality of target sounds are generated.
  • the signal transforming unit 118 transforms the signal indicating the first target sound.
  • the conversion f1 for performing the conversion f1 and the conversion f2 for transforming the signal indicating the second target sound are set.
  • the signal deformation unit 118 has a difference between the processed learning mixed signal given from the learning side signal processing unit 113 and the signal obtained by adding the signal indicating the first target sound and the signal indicating the second target sound.
  • the conversion f1 to the signal indicating the first target sound
  • the modified target sound signal corresponding to the first target sound can be generated, and the conversion f2 is converted into the signal indicating the second target sound.
  • the squared error is the difference between the processed learning mixed signal given from the learning side signal processing unit 113 and the signal obtained by adding the signal indicating the first target sound and the signal indicating the second target sound.
  • the model update unit 119 uses the plurality of learning extraction signals given from the learning side signal extraction unit 117 and the plurality of deformation target sound signals given from the signal deformation unit 118 to the learning side sound source separation model storage unit 115. Update the weight parameter included in the stored learning sound source separation model.
  • the model update unit 119 uses a plurality of learning extraction signals and a plurality of modified target sound signals, and the sound extracted by the learning side signal extraction unit 117 corresponds to one target sound to be extracted. Update the learning side sound source separation model so that it approaches the modified target sound.
  • the model update unit 119 updates the learning side sound source separation model so that the difference between the plurality of learning extraction signals and the plurality of modified target sound signals becomes small.
  • the weight parameter for example, the result of calculating the difference between the output of the signal deformation unit 118 and the output of the learning side signal extraction unit 117, and, for example, the stochastic gradient descent method (SGD) or Adam.
  • SGD stochastic gradient descent method
  • Known optimization methods such as law are used.
  • the learning side communication unit 120 uses the learning sound source separation model stored in the learning side sound source separation model storage unit 115 as a sound source separation model on the utilization side, which is a sound source separation model used by the sound source separation device 130, as a sound source separation device 130. Send to.
  • the learning-side feature amount extraction unit 114 and the learning-side signal extraction unit 117 can be configured not to have both of them.
  • the learning side model inference unit 116 uses a learning side sound source separation model for extracting a plurality of processed target sounds included in the processed learning mixed signal given from the learning side signal processing unit 113. Then, by extracting the sound from the processed learning mixed signal, a learning extraction signal indicating the extracted sound is generated. Further, the signal transforming unit 118 sets one target sound for a signal indicating one target sound corresponding to one processed target sound among a plurality of target sounds indicated by the learning signal.
  • a modified target sound signal indicating one modified target sound derived from the one target sound is generated for each target sound.
  • the model update unit 119 uses the plurality of learning extraction signals and the plurality of modified target sound signals, and each of the plurality of sounds extracted by the learning side model inference unit 116 is included in the plurality of modified target sounds.
  • the learning side sound source separation model is updated so as to approach the corresponding modified target sound.
  • FIG. 3 is a block diagram schematically showing the configuration of the signal deformation unit 118 in the first embodiment.
  • the signal deformation unit 118 includes a mixed signal block division unit 118a, a learning signal block division unit 118b, a filter estimation unit 118c, a filter application unit 118d, and a block coupling unit 118e.
  • the mixed signal block dividing unit 118a is the first to generate a mixed block signal which is a signal obtained by dividing the processed learning mixed signal given from the learning side signal processing unit 113 into blocks which are appropriate sections. It is a block division part. For example, the mixed signal block dividing unit 118a generates a plurality of mixed block signals by dividing the processed learning mixed signal into a plurality of blocks. The mixed block signal is given to the filter estimation unit 118c.
  • the division into blocks may be performed, for example, at regular time intervals. Further, it may be divided into blocks so that overlapping sections occur between the plurality of blocks. However, it is necessary to set the length of each block corresponding to the number of samples to exceed the length required for deriving the filter in the filter estimation unit 118c.
  • the learning signal block dividing unit 118b is a signal obtained by extracting a target sound signal from the learning signal given from the learning side input unit 111 and dividing the target sound signal into appropriate sections.
  • This is a second block division unit that generates a sound block signal.
  • the learning signal block dividing unit 118b generates a plurality of target sound block signals by dividing a signal indicating one target sound into a plurality of blocks.
  • the target sound block signal is given to the filter estimation unit 118c and the filter application unit 118d.
  • the method of dividing into blocks is the same as the method of dividing into the mixed signal block dividing unit 118a.
  • the filter estimation unit 118c estimates a filter for bringing the sound represented by each of the plurality of target sound block signals closer to the sound corresponding to one target sound to be extracted from the sounds represented by the plurality of mixed block signals. By doing so, multiple filters are estimated. For example, the filter estimation unit 118c divides the mixed block signal divided into block units by the mixed signal block dividing unit 118a and the target sound block signal divided into block units by the learning signal block dividing unit 118b for each block. In addition, for each target sound, a modification parameter that is a parameter of a filter that approximates the conversion of the sound indicated by the target sound block signal to the sound indicated by the mixed block signal is generated.
  • an FIR (Fiinite Impulse Response) filter for example, an IIR (Infinite Impulse Response) filter, a filter on the frequency domain using an FFT, or the like may be used.
  • the transformation parameter may be different for each block, for example.
  • the filter application unit 118d generates a plurality of modified block signals by applying each of the plurality of filters estimated by the filter estimation unit 118c to each of the plurality of target sound block signals. For example, the filter application unit 118d transforms a signal obtained by applying the deformation parameter corresponding to the target sound block signal estimated by the filter estimation unit 118c to the target sound block signal given from the learning signal block division unit 118b. Generated as a signal. The modified block signal is given to the block coupling portion 118e.
  • the block coupling unit 118e generates a deformation target sound signal which is a signal obtained by combining the deformation block signals given from the filter application unit 118d.
  • the modified target sound signal is given to the model update unit 119 shown in FIG.
  • the block connecting unit 118e is, for example, weighted. The duplication may be eliminated by calculating the sum.
  • the mixed signal block dividing unit 118a, the learning signal block dividing unit 118b, and the block coupling unit 118e may not be provided with these. That is, the entire signal may be treated as a single block.
  • the filter estimation unit 118c corresponds to one target sound indicated by the learning signal to one of the plurality of processed target sounds indicated by the processed learning mixed signal. Estimate a filter to get closer to one processed target sound. Then, the filter application unit generates a modified target sound signal by applying the filter estimated by the filter estimation unit 118c to the signal indicating the target sound of the learning signal.
  • FIG. 4 is a block diagram schematically showing the hardware configuration of the sound source separation model learning device 110.
  • the sound source separation model learning device 110 can be configured by a computer 150 including a storage device 151, a memory 152, a processor 153, and a communication interface (hereinafter referred to as a communication I / F) 154.
  • a communication I / F a communication interface
  • the storage device 151 stores programs and data necessary for processing performed by the sound source separation model learning device 110.
  • the memory 152 provides a work area in which the processor 153 works.
  • the processor 153 expands the program and data stored in the storage device 151 into the memory 152 and executes the process.
  • the communication I / F 154 communicates with the sound source separation device 130.
  • the mixing signal generation unit 112, the learning side signal processing unit 113, the learning side feature amount extraction unit 114, the learning side model inference unit 116, the learning side signal extraction unit 117, the signal deformation unit 118, and the model update unit 119 are the processors 153.
  • the learning side sound source separation model storage unit 115 can be realized by the storage device 151.
  • the learning side input unit 111 and the learning side communication unit 120 can be realized by the communication I / F 154.
  • the above-mentioned program may be provided through a network, or may be recorded and provided on a recording medium. That is, such a program may be provided, for example, as a program product.
  • the sound source separation model learning device 110 may be realized by a program as described above, or a circuit may be configured for each function executed by the sound source separation model learning device 110 and these circuits may be combined to realize the sound source separation model learning device 110. You may. In other words, the sound source separation model learning device 110 can also be realized by a processing network.
  • FIG. 5 is a block diagram schematically showing the configuration of the sound source separation device 130.
  • the sound source separation device 130 includes a utilization side communication unit 131, a utilization side sound source separation model storage unit 132, a utilization side input unit 133, a utilization side signal processing unit 134, a utilization side feature amount extraction unit 135, and a utilization side model. It includes a reasoning unit 136, a utilization side signal extraction unit 137, and a utilization side output unit 138.
  • the utilization side communication unit 131 communicates with the sound source separation model learning device 110. For example, the utilization side communication unit 131 receives the utilization side sound source separation model from the sound source separation model learning device 110, and stores the utilization side sound source separation model in the utilization side sound source separation model storage unit 132.
  • the utilization side sound source separation model storage unit 132 stores the utilization side sound source separation model.
  • the utilization side input unit 133 receives the input of the target mixed signal.
  • the input target mixed signal is given to the utilization side signal processing unit 134.
  • the target mixed signal may be stored in advance in the sound source separation device 130, may be acquired by an acoustic device such as a microphone described later, or may be acquired from a telephone line or the like via a communication I / F. In such a case, the utilization side input unit 133 may be omitted.
  • the utilization side signal processing unit 134 performs predetermined processing on the target mixed signal indicating at least a plurality of target sounds, so that the processed target indicating at least a plurality of processed target sounds derived from the plurality of target sounds is processed. Generate a mixed signal. For example, the utilization side signal processing unit 134 generates a processed target mixing signal obtained as a result of applying various signal processing in order to make it easy to extract a target sound from the target mixing signal given from the utilization side input unit 133. do.
  • the processing performed here is the same as the processing performed by the learning side signal processing unit 113 of the sound source separation model learning device 110.
  • the processed target mixed signal is given to the feature amount extraction unit 135 on the utilization side.
  • the utilization side feature amount extraction unit 135 extracts an acoustic feature amount from the processed target mixed signal given from the utilization side signal processing unit 134, and generates utilization feature data which is time-series data of the extracted acoustic feature amount. do.
  • the utilization side feature amount extraction unit 135 extracts the utilization acoustic feature amount, which is a predetermined acoustic feature amount, from the processed target mixed signal in a plurality of components, and the extracted utilization acoustic feature amount is obtained.
  • Generate utilization feature data that is time series data.
  • the processing performed here is the same as the processing performed by the learning side feature amount extraction unit 114 of the sound source separation model learning device 110.
  • the utilization feature data is given to the utilization side model inference unit 136.
  • the utilization side model inference unit 136 uses the utilization side sound source separation model to obtain the utilization separation feature amount, which is the separation feature amount required for sound source separation, from the utilization feature data given by the utilization side feature amount extraction unit 135. Is extracted using.
  • the processing performed here is the same as the processing performed by the learning side model inference unit 116 of the sound source separation model learning device 110.
  • the utilization side model inference unit 136 gives the utilization side signal extraction unit 137 a mask which is time-series data of the extracted utilization separation feature amount as the utilization mask.
  • the utilization side model inference unit 136 uses the utilization side sound source separation model showing the weight for each of the plurality of components of the utilization feature data in order to extract a plurality of processed target sounds, and uses one from the utilization feature data.
  • a utilization mask for extracting one processed target sound is generated for each target sound. Therefore, a plurality of utilization masks corresponding to each of the plurality of target sounds are generated.
  • the utilization side signal extraction unit 137 is the utilization feature data which is the time series data of the acoustic feature amount extracted by the utilization side feature amount extraction unit 135 and the utilization separation feature amount estimated by the utilization side model inference unit 136.
  • the acoustic signal to be extracted is extracted by using the utilization mask which is the series data.
  • the utilization side signal extraction unit 137 uses the utilization mask to extract sounds from the utilization feature data to generate an utilization extraction signal indicating at least the extracted sounds.
  • the processing performed here is the same as the processing performed by the learning side signal extraction unit 117 of the sound source separation model learning device 110.
  • the utilization side signal extraction unit 137 gives the utilization extraction signal, which is the extracted acoustic signal, to the utilization side output unit 138 as an output signal.
  • the utilization side output unit 138 outputs an output signal given by the utilization side signal extraction unit 137.
  • the utilization side feature amount extraction unit 135 and the utilization side signal extraction unit 137 may be configured not to include, for example, one or both of them.
  • the utilization side model inference unit 136 processes the processed target mixed signal output from the utilization side signal processing unit 134. , Functions to output the separated sound signal directly.
  • the utilization side model inference unit 136 has been processed by using the utilization side sound source separation model for extracting a plurality of processed target sounds indicated by the processed target mixed signal given from the utilization side signal processing unit 134. By extracting the sound from the target mixed signal, a utilization extraction signal indicating the extracted sound is generated.
  • FIG. 6 is a block diagram schematically showing the hardware configuration of the sound source separation device 130.
  • the sound source separation device 130 can be configured by a computer 160 including a storage device 161, a memory 162, a processor 163, a communication I / F 164, and an acoustic interface (hereinafter referred to as an acoustic I / F) 165.
  • a computer 160 including a storage device 161, a memory 162, a processor 163, a communication I / F 164, and an acoustic interface (hereinafter referred to as an acoustic I / F) 165.
  • the storage device 161 stores programs and data necessary for processing performed by the sound source separation device 130.
  • the memory 162 provides a work area in which the processor 163 works.
  • the processor 163 expands the program and data stored in the storage device 161 into the memory 162 and executes the process.
  • the communication I / F 164 communicates with the sound source separation model learning device 110.
  • the acoustic I / F165 accepts the input of the target mixed signal.
  • the target mixed signal may be generated by an acoustic device that collects sounds including the target sound and generates a target sound number signal.
  • the utilization side signal processing unit 134, the utilization side feature amount extraction unit 135, the utilization side model inference unit 136, the utilization side signal extraction unit 137, and the utilization side output unit 138 include a program in which the processor 163 is stored in the storage device 161. It can be realized by expanding the data to the memory 162 and executing the program.
  • the utilization side sound source separation model storage unit 132 can be realized by the storage device 161.
  • the utilization side input unit 133 can be realized by the acoustic I / F 165.
  • the utilization side communication unit 131 can be realized by the communication I / F 154.
  • the above-mentioned program may be provided through a network, or may be recorded and provided on a recording medium. That is, such a program may be provided, for example, as a program product.
  • the sound source separation device 130 may be realized by a program as described above, or may be realized by configuring a circuit for each function executed by the sound source separation device 130 and combining these circuits. In other words, the sound source separation device 130 can also be realized by a processing network.
  • FIG. 7 is a flowchart showing the operation of the sound source separation model learning device 110.
  • the mixed signal generation unit 112 creates a learning mixed signal, which is a mixed signal used for learning, from the learning signal (S10).
  • the learning mixed signal is created by simulating the utilization mixed signal input to the utilization side signal processing unit 134 of the sound source separation device 130.
  • the learning mixed signal may be generated, for example, by simply adding a plurality of target sound signals and non-target sound signals as learning signals.
  • the learning mixed signal is added after performing a process of convolving the impulse response of the microphone array for each of the signals acquired from the learning signal. It may be generated by doing.
  • the learning side signal processing unit 113 applies various signal processing to the learning mixed signal given from the mixed signal generation unit 112 (S11).
  • the processing content here is the same as the processing content in the utilization side signal processing unit 134 of the sound source separation device 130.
  • the signal transformation unit 118 converts the target sound obtained from the learning signal into a form imitating the target sound included in the processed learning mixed signal given from the learning side signal processing unit 113. As a result, a modified target sound signal is generated for each target sound (S12). Details of the processing in step S12 will be described later.
  • the learning side feature amount extraction unit 114 extracts the learning acoustic feature amount, which is an acoustic feature amount, from the processed learning mixed signal given by the learning side signal processing unit 113, and obtains it as time-series data.
  • Generate feature data for learning S13.
  • the acoustic feature quantity for example, a complex spectrum obtained by applying the FFT to the processed learning mixed signal from the utilization side signal processing unit 134 is used.
  • the processing content here is the same as the processing content in the feature amount extraction unit 135 on the utilization side of the sound source separation device 130.
  • the learning side model inference unit 116 uses the learning sound source separation model to separate and synthesize each sound source signal from the acoustic features extracted by the learning side feature amount extraction unit 114.
  • a learning separation feature amount which is a learning separation feature amount
  • a mask which is time-series data of the learning separation feature amount, is generated (S15).
  • the mask is generated for each sound source signal, in other words, for each target sound.
  • the processing content here is the same as the processing content in the utilization side model inference unit 136 of the sound source separation device 130.
  • the learning side signal extraction unit 117 uses the acoustic feature amount extracted by the learning side feature amount extraction unit 114 and the learning separation feature amount extracted by the learning side model inference unit 116.
  • a learning extraction signal which is a signal of a sound obtained by processing a target sound included in the learning mixed signal, is extracted (S15).
  • the learning side signal extraction unit 117 performs a product calculation of the learning separation feature amount and the learning acoustic feature amount for each component, and then performs an inverse Fourier transform process to obtain a sound derived from the target sound to be extracted.
  • the learning extraction signal which is the signal extracted from, is restored for each target sound.
  • the processing content here is the same as the processing content in the learning side signal extraction unit 117 of the sound source separation device 130.
  • the model update unit 119 calculates an error between the plurality of deformation target sound signals given by the signal deformation unit 118 and the plurality of learning extraction signals given by the learning side signal extraction unit 117, and then calculates the error.
  • the weight parameter provided in the learning sound source separation model is updated so as to be corrected (S16).
  • FIG. 8 is a flowchart showing the operation of the signal deformation unit 118 in the first embodiment.
  • the mixed signal block dividing unit 118a generates a mixed block signal by dividing the processed learning mixed signal given from the learning side signal processing unit 113 into one or more blocks on the time axis (S20). ).
  • the learning signal block dividing unit 118b generates a target sound block signal by dividing the learning signal given from the learning side input unit 111 into one or more blocks on the time axis (S21). ).
  • the method of dividing the signal in the learning signal block dividing unit 118b is the same as the dividing method performed by the mixed signal block dividing unit 118a in step S20.
  • the filter estimation unit 118c estimates the filter (S22).
  • the processed learning mixed signal and the learning signal are all single-channel acoustic signals, and the mixed signal generation unit 112 acquires signals indicating n target sounds as learning signals to create a mixed signal. This will be described as an example.
  • n is an integer of 1 or more.
  • y (t) be the mixed block signal acquired from the mixed signal block dividing unit 118a.
  • i is an integer satisfying 1 ⁇ i ⁇ n.
  • filter estimator 118c are FIR filter of length L, and coefficients of the FIR filter in the i-th target sound, and h i (tau).
  • the mixed block signal y (t) is approximated by the following equation (1).
  • equation (2) can be expressed in the matrix format shown by the following equation (4).
  • y is (5) below
  • h i is the following formula (6)
  • S is the following equation (7)
  • h can be expressed by the following equation (8).
  • the matrix S T S are often large condition number, numerical stable there is no possibility to obtain a solution of the optimization problem. Therefore, the modified optimization problem may be solved as shown in the following equation (11).
  • is a hyperparameter arbitrarily determined
  • INL is an identity matrix of size NL.
  • the learning signal and the processed learning mixing signal for example, a single-like one single signal acquired from the acoustic device such as a microphone
  • the signal is one channel
  • the first embodiment is not limited to such an example.
  • the learning signal and the processed learning mixed signal may be a multi-channel signal acquired by using a microphone array including a plurality of microphones.
  • the filter estimation unit 118c receives the multi-channel target sound block signal
  • the filter coefficient may be calculated by selecting the target sound block signal of a typical channel.
  • a typical mixed block signal may be selected and the above filter coefficient may be calculated.
  • the filter application unit 118d generates a modified block signal by applying the filter estimated for each block in step S22 to the target sound block signal generated in step S20 (S23).
  • the block coupling portion 118e joins the deformed block signals in a state divided into blocks to generate a deformed target sound signal (S24).
  • FIG. 9 is a flowchart showing the operation of the sound source separation device 130.
  • the utilization side signal processing unit 134 applies various signal processing to the input target mixed signal to generate a processed target mixed signal (S30).
  • the utilization side feature amount extraction unit 135 extracts the acoustic feature amount from the processed target mixed signal given from the utilization side signal processing unit 134, and uses the utilization feature data which is the time series data of the extracted acoustic feature amount. Generate (S31).
  • the utilization side model inference unit 136 is for separation required for separating and synthesizing each sound source signal from the acoustic feature amount extracted by the utilization side feature amount extraction unit 135 using the utilization sound source separation model.
  • An inflection mask which is time-series data of features, is generated for each target sound (S32).
  • the utilization side signal extraction unit 137 uses the utilization acoustic feature amount extracted by the utilization side feature amount extraction unit 135 and the separation feature amount extracted by the utilization side model inference unit 136 to be targeted.
  • An output signal which is a signal of the target sound included in the mixed signal, is generated for each target sound (S33).
  • FIG. 10 is a conceptual diagram showing the operation of the sound source separation model learning device 110.
  • the first signal 170 is a signal indicating the first target sound acquired from the learning signal
  • the second signal 171 is a signal indicating the second target sound acquired from the learning signal.
  • Signal 172 is a signal indicating a non-purpose sound acquired from the learning signal.
  • the mixed signal generation unit 112 creates a pseudo learning mixed signal 173 by, for example, simply adding the first signal 170, the second signal 171 and the third signal 172.
  • the learning mixed signal 173 is derived from the first component 170 # 1 derived from the first signal 170, the second component 171 # 1 derived from the second signal 171 and the third signal 172.
  • a third component, 172 # 1, is included.
  • the processed learning mixed signal 173 # is obtained.
  • the first component 170 # 1 derived from the first target sound is the same as the fourth component 170 # 2
  • the second component 171 # 1 derived from the second target sound is the fifth component.
  • the learning side feature amount extraction unit 114 In order to extract the first target sound and the sound corresponding to the second target sound from the processed learning mixed signal 173 #, the learning side feature amount extraction unit 114, the learning side model inference unit 116, and the learning side.
  • the processing in the signal extraction unit 117 the first learning extraction signal 174 corresponding to the first target sound and the second learning extraction signal 175 corresponding to the second target sound can be obtained.
  • the signal transforming unit 118 uses the first signal 170 and the second signal 171 and the processed learning mixed signal 173 # to change the first signal 170 into the fourth component 170 # 2. Estimate a filter that changes the second signal 171 to the fifth component 171 # 2. Then, the signal deformation unit 118 applies the respective filters to the first signal 170 and the second signal 171 to generate the first deformation target sound signal 176 and the second deformation target sound signal 177.
  • the model update unit 119 so that the set of the first learning extraction signal 174 and the second learning extraction signal 175 approaches the set of the first modified target sound signal 176 and the second modified target sound signal 177. Update the parameters of the learning sound source separation model.
  • 11A and 11B are schematic views for explaining an operation example of the sound source separation device 130.
  • FIG. 11A is a conceptual diagram showing how the waveform of the input target mixed signal is changed by the sound source separating device 130.
  • the target mixed signal 180 shown in FIG. 11A includes a first component 181 derived from the first target sound, a second component 182 derived from the second target sound, and a non-target sound. Contains a third component 183 derived from.
  • the processed target mixed signal 180 # is obtained.
  • the fourth component 181 # derived from the first component 181; the fifth component 182 # derived from the second component, and the third component 183 derived from the third component 183 are included in the processed target mixed signal 180 #.
  • 6 component 183 # is included.
  • the volume of the sixth component 183 # is lower than that of the third component 183 derived from the non-purpose sound.
  • the fourth component 181 # and the fifth component 182 # are emphasized as compared with the first component 181 derived from the first target sound and the second component 182 derived from the second target sound. Has been done.
  • the volume, the shape of the waveform (frequency characteristics), and the like change with the signal processing, and the delay caused by the utilization side signal processing unit 134 occurs. As a result, the time synchronization between the target mixed signal 180 and the processed target mixed signal 180 # is deviated.
  • the utilization side feature amount extraction unit 135, the utilization side model inference unit 136, and the utilization side signal extraction unit 137 By applying the processing by the utilization side feature amount extraction unit 135, the utilization side model inference unit 136, and the utilization side signal extraction unit 137 to the processed target mixed signal 180 #, the first output signal 184 and the second output signal 184 are applied. Output signal 185 is obtained.
  • the first output signal 184 is obtained by extracting the component corresponding to the first target sound
  • the second output signal 185 is obtained by extracting the component corresponding to the second target sound.
  • FIG. 11B is a conceptual diagram showing a case where the same signal processing is applied to the target mixed signal 186 different from the target mixed signal 180. Comparing the processed target mixed signal 180 # and the processed target mixed signal 186 #, the change in waveform and the change in volume are different. Therefore, the waveform and volume of the first output signal 187 and the second output signal 188 are also different from those of the first output signal 184 and the second output signal 185.
  • the characteristics of the processed target mixed signal also change due to the characteristics of the target mixed signal input to the utilization side signal processing unit 134, changes in the processing content of the utilization side signal processing unit 134, and the like, and after signal processing.
  • the learning model generated in consideration of the state of the sound source can be separated accurately.
  • the sound source separation model learning device 110 it is possible to consider a case in which the learning side signal processing unit 113 is omitted and the signal deformation unit 118 does not deform the learning signal.
  • Such a sound source separation model learning device and a learning method have been conventionally known.
  • the learning side model inference unit 116 uses the first signal 170 of the first target sound and the second target sound of the second target sound from the features extracted from the learning mixed signal 173 shown in FIG. Learning is performed so that a separation feature amount for separating the signal 171 of 2 can be obtained.
  • the sound source separation device 130 is operated, as shown in FIG. 11A, the feature amount extracted from the processed target mixed signal 180 # is input to the utilization side model inference unit 136.
  • Various characteristics are different between the feature amount extracted from the learning mixed signal 173 and the feature amount extracted from the processed target mixed signal 180 #. Since the sound source separation model is not trained on the premise that the feature amount extracted from the processed target mixed signal 180 # is input, the separation performance deteriorates.
  • the learning side model inference unit 116 has the first signal 170 of the first target sound and the second signal 171 of the second target sound from the features extracted from the processed learning mixed signal 173 #. It is learned so that the feature quantity for separation for separating is obtained. Then, since the learning side model inference unit 116 trains the sound source separation model on the premise that the feature amount extracted from the processed learning mixed signal 173 # is input, the problem as described above can be solved. ..
  • the fourth component 181 # and the fifth component 182 # included in the processed target mixing signal 180 # shown in FIG. 11A and the elephant mixing signal 180 shown in FIG. 10 The included first component 181 and the second component 182 are different in characteristics such as volume, frequency characteristics, and delay. Therefore, the sound source separation model is trained to cancel such changes in various characteristics and output the original signal. However, as described above, such a change in characteristics changes depending on what kind of signal is input to the utilization side signal processing unit 134 or as time passes. It is difficult to train a sound source separation model so that such various characteristic changes can be absorbed.
  • the learning side signal processing unit 113 and the signal deformation unit 118 are made to function together, and the sound source separation model separates the first deformation target sound signal 176 and the second deformation target sound signal 177.
  • the sound source separation model may be trained to output the result including the characteristic change.
  • FIG. 12 is a schematic view showing a usage example of the sound source separating device 130.
  • FIG. 12 shows the voice emitted by the driver's seat speaker 192, the voice emitted by the passenger seat speaker 193, and the noise emitted from the vehicle running sound or the car stereo in the microphones 191A, 191B, and 191C installed in the vehicle 190. Represents the situation where is observed at the same time. At this time, a case where the voice emitted by the driver's seat speaker 192 and the voice emitted by the passenger seat speaker 193 are taken out by using the sound source separating device 130 will be described.
  • the voice emitted by the driver's seat speaker 192 is the first component 181 of the first objective sound shown in FIG. 11 (A), and the voice emitted by the passenger seat speaker 193 is the second objective sound.
  • various noises 194 correspond to the third component 183 of the non-purpose sound.
  • the signals recorded by the microphones 191A, 191B and 191C correspond to the target mixed signal 180.
  • the processed target mixed signal 180 # output by the utilization side signal processing unit 134 suppresses the sixth component 183 # corresponding to the noise 194.
  • the result extracted by the utilization side signal extraction unit 137 corresponds to the first output signal 184 and the second output signal 185. In these signals, the voices of the driver's seat and the passenger's seat are emphasized.
  • the utilization side sound source separation model is a modified first state when the sound source separation model learning device 110 performs signal processing for suppressing the noise 194 for each voice of the speaker on the driver's seat side and the passenger's seat side. Since it is generated in consideration of the modified target sound signal 176 and the second modified target sound signal 177, the driver's seat and the passenger seat are actually mixed from the driver's seat voice, the passenger seat voice and the noise 194. The voices of the two speakers sitting in and can be properly separated.
  • the sound source separation model learning device learns the attendee's voice and generates the sound source separation model, the meeting can be performed. If the sound source separation model is used after performing signal processing to remove irrelevant peripheral noise, the voices of each attendee can be separated.
  • the sound source separation device 130 when the sound source separation device 130 performs sound source separation using the sound source separation model, the sound source separation is caused by the change in acoustic characteristics caused by the signal processing unit 134 on the utilization side.
  • the model corresponds, and as a result, the quality of the separated sound output from the sound source separating device 130 is improved.
  • the filter estimation unit 118c estimates the filter for each block divided by the mixed signal block division unit 118a and the learning signal block division unit 118b.
  • a different filter is estimated not for each block but for each time in one block, in other words, by sequentially updating the filter, it is possible to cope with the time-series change in the block.
  • the sound source separation system 200 includes a sound source separation model learning device 210 and a sound source separation device 130.
  • the sound source separating device 130 in the second embodiment is the same as the sound source separating device 130 in the first embodiment.
  • the sound source separation model learning device 210 includes a learning side input unit 111, a mixing signal generation unit 112, a learning side signal processing unit 113, and a learning side feature amount extraction. It includes a unit 114, a learning side sound source separation model storage unit 115, a learning side model inference unit 116, a learning side signal extraction unit 117, a signal deformation unit 218, a model update unit 119, and a learning side communication unit 120. ..
  • the signal extraction unit 117, the model update unit 119, and the learning side communication unit 120 are the learning side input unit 111, the mixing signal generation unit 112, the learning side signal processing unit 113, the learning side feature amount extraction unit 114, and the learning side communication unit 120 in the first embodiment. This is the same as the side sound source separation model storage unit 115, the learning side model inference unit 116, the learning side signal extraction unit 117, the model update unit 119, and the learning side communication unit 120.
  • FIG. 13 is a block diagram schematically showing the configuration of the signal deformation unit 218 according to the second embodiment.
  • the signal modification unit 218 includes a mixed signal block division unit 118a, a learning signal block division unit 118b, a filter application unit 218d, a block coupling unit 118e, a filter parameter storage unit 218f, and a filter update unit 218g.
  • the mixed signal block division unit 118a, the learning signal block division unit 118b, and the block coupling unit 118e in the second embodiment are the mixed signal block division unit 118a, the learning signal block division unit 118b, and the block connection unit 118e in the first embodiment. Is similar to.
  • the filter parameter storage unit 218f stores the filter parameters used by the filter application unit 218d.
  • the filter parameter storage unit 218f stores filter parameters for each sample corresponding to a predetermined period.
  • the filter application unit 218d applies the filter parameters stored in the filter parameter storage unit 218f to the plurality of target sound block signals to generate a processed sample signal at the corresponding time of the filter parameters.
  • the processed sample signal is given to the filter update unit 218g.
  • the filter application unit 218d generates a processed sample signal by applying a filter parameter to a portion selected from a plurality of target sound block signals for each sample.
  • the filter application unit 218d generates a plurality of modified block signals by combining the generated processed sample signals with each of the plurality of target sound block signals.
  • the plurality of modified block signals are given to the block coupling portion 118e.
  • the filter update unit 218g updates the filter parameters stored in the filter parameter storage unit 218f so that the processed sample signal given from the filter application unit 218d comes closer to the corresponding portion of the processed learning mixed signal.
  • FIG. 14 is a flowchart showing the operation of the signal deformation unit 218 in the second embodiment. Of the steps included in the flowchart shown in FIG. 14, a step that performs the same processing as the processing of the step included in the flowchart shown in FIG. 8 is shown in FIG. It has the same reference numerals as the steps included in the flowchart.
  • steps S20 and S21 included in the flowchart shown in FIG. 14 is the same as the processing in steps S20 and S21 included in the flowchart shown in FIG. However, in FIG. 14, after the processing of step S21, the processing proceeds to step S40.
  • step S40 the filter application unit 218d selects one unselected target sound block signal from the plurality of target sound block signals received from the learning signal block dividing unit 118b.
  • the filter update unit 218g determines the initial value of the filter parameter and stores the initial value in the filter parameter storage unit 218f (S41).
  • the filter update unit 218g performs the same processing as the processing in step S22 of the flowchart shown in FIG. 8, for example, to obtain the filter parameters.
  • the initial value may be estimated.
  • the filter application unit 218d selects the sample located at the head of the samples for which the processed sample signal has not yet been generated, among the target sound block signals selected in step S40 (S42).
  • the filter application unit 218d reads the filter parameter stored in the filter parameter storage unit 218f, and applies the read filter parameter to the portion of the target sound block signal corresponding to the selected sample. By doing so, a processed sample signal is generated (S43). The generated processed sample signal is given to the filter update unit 218g.
  • the filter updating unit 218g uses the processed sample signal from the filter application unit 218d, the mixed block signal from the mixed signal block dividing unit 118a, and the target sound block signal from the learning signal block dividing unit 118b.
  • the filter parameter stored in the filter parameter storage unit 218f is updated (S44).
  • the filter is an FIR filter
  • a known NLMS (Normalized Last Men Square) algorithm, RLS (Recursive Last Square) algorithm, or the like can be used as a method for updating the filter parameters.
  • processing by the filter applying unit 218d may be required.
  • the filter application unit 218d determines whether or not the processed sample signal is generated from all the samples included in the selected target sound block signal (S45). When the processed sample signal is generated from all the samples (Yes in S45), the process proceeds to step S46, and when the sample for which the processed sample signal is not generated remains (No in S45). Returns to step S42.
  • step S46 the filter application unit 218d generates a deformation block signal by concatenating the processed sample signals generated for each sample.
  • the modified block signal is given to the block coupling portion 118e.
  • the filter application unit 218d determines whether or not all the target sound block signals given by the learning signal block division unit 118b have been selected (S47). If all the target sound block signals are selected (Yes in S47), the process proceeds to step S24, and if there are still unselected target sound block signals (No in S47), the process proceeds to step S24. Return to S40.
  • the block coupling portion 118e joins the deformed block signals in a state divided into blocks to generate a deformed target sound signal, as in the process in step S24 of FIG. 8 (S24).
  • the filter is sequentially updated, the learning side signal processing is performed even when the learning side signal processing unit 113 and the utilization side signal processing unit 134 perform adaptive processing. It is possible to cope with the time-series changes of the unit 113 and the signal processing unit 134 on the utilization side.
  • the filter updating unit 218g and the filter applying unit 218d update the filter for each sample to generate a modified block signal
  • the mixed signal block dividing unit 118a and the learning signal block dividing unit 118a are generated.
  • the 118b and the block coupling portion 118e may not be provided.
  • the filter application unit 218d applies the filter parameters stored in the filter parameter storage unit 218f to the signal indicating the target sound to be extracted, so that the time corresponding to each filter parameter corresponds to the signal.
  • the filter update unit 218g updates the filter parameters so that the processed sample signal is closer to the corresponding portion of the processed learning mixed signal.
  • the filter application unit 218d generates a modified target sound signal by combining the generated processed sample signals.
  • the filter application processing can be performed in parallel in block units to improve the processing speed, or the filter parameters can be improved in block units.
  • the filter parameters can be improved in block units.
  • the time-series change of the learning side signal processing unit 113 and the utilization side signal processing unit 134 is affected by at least the time of the FIR filter length. It cannot be followed unless it is a unit.
  • the time-series changes of the learning side signal processing unit 113 and the utilization side signal processing unit 134 can be changed in time units for each sample. It can follow finely.
  • the filter update unit 218g holds the immediately preceding filter estimation result in the filter parameter storage unit 218f, and then a new sample is provided.
  • the filter parameters recorded in the filter parameter storage unit 218f can be applied after being slightly deformed according to the selected sample.
  • the sound source separation model learning devices 110 and 210 described above are sound sources that combine a sound source separation method based on NN and a signal processing method based on classical signal processing, processing using machine learning, unknown signal processing, or the like.
  • the separation device 130 When configuring the separation device 130, it has the effect of promoting learning of the sound source separation model and improving the sound source separation performance. Therefore, for example, in a device for recognizing voice in a noisy environment, it can be used to extract the spoken voice of the target speaker by combining classical signal processing and sound source separation based on NN.
  • the unknown signal processing may include classical signal processing or processing using machine learning.
  • the first and second embodiments described above are composed of two devices, a sound source separation model learning device 110 and 210 and a sound source separation device 130, but the first and second embodiments are based on such an example.
  • the sound source separation model learning devices 110 and 210 and the sound source separation device 130 may be configured by one device, for example, one sound source separation learning device.
  • the learning side communication unit 120 and the utilization side communication unit 131 are unnecessary, and the learning side sound source separation model storage unit 115 and the utilization side sound source separation model storage unit 132 are sound sources that store the sound source separation model. It can be integrated as a separate model storage.
  • 100,200 sound source separation system 110,210 sound source separation model learning device, 111 learning side input unit, 112 mixed signal generation unit, 113 learning side signal processing unit, 114 learning side feature quantity extraction unit, 115 learning side sound source separation model storage Unit, 116 learning side model inference part, 117 learning side signal extraction part, 118,218 signal deformation part, 118a mixed signal block division part, 118b learning signal block division part, 118c filter estimation part, 118d, 218d filter application part, 118e block connection unit, 218f filter parameter storage unit, 218g filter update unit, 119 model update unit, 120 learning side communication unit, 130 sound source separation device, 131 utilization side communication unit, 132 utilization side sound source separation model storage unit, 133 utilization side. Input unit, 134 utilization side signal processing unit, 135 utilization side feature quantity extraction unit, 136 utilization side model inference unit, 137 utilization side signal extraction unit, 138 utilization side output unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部(113)と、学習側音源分離モデルを用いて、処理済学習用混合信号から音を抽出することで、複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側モデル推論部(116)と、複数の目的音の内の一つの目的音を示す信号に対して、一つの目的音を、複数の処理済目的音の内の一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、複数の変形目的音信号を生成する信号変形部(118)と、複数の学習用抽出信号及び複数の変形目的音信号を用いて、抽出された音が、一つの変形目的音に近づくように、学習側音源分離モデルを更新するモデル更新部(119)とを備える。

Description

音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法
 本開示は、音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法に関する。
 近年では、複数の音源からなる混合信号より、所望の音源信号のみを分離する手法として、ニューラルネットワーク(以下、NNという)に基づく手法が使用されている。非特許文献1では、複数の音が混ざっている混合信号から、NNを用いた音源分離装置を通過させることで、音源分離が達成される。
Z.Q. Wang et al.,Alternative Objective Functions for Deep Clustering, Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),2018年
 従来の技術のように、NNに基づく音源分離手法においては、取得された音源信号からNNへの入力特徴量を生成して、NNに適用している。
 一方、所望の音源を分離したり、不要な音源から到来する信号を抑圧したりといった処理として、他の信号処理が存在する。例えば、マイクロホンアレイを用いたビームフォーミング処理、騒音を抑圧するスペクトルサブトラクション処理、又は、ノイズキャンセリング等を行う適応フィルタリング処理等の信号処理がある。
 非特許文献1の学習段階においては、音源信号の取得から入力特徴量の生成までの間に上記のような信号処理が行われることを想定していない。このため、音源分離時に、信号処理を経た後の混合信号をNNへと入力しても、信号処理に伴って生じる音響的特性の変動にNNが対応できず、十分な音源分離性能を得ることができない。ここで、音響的特性の変動は、例えば、信号のスケール、遅延、残響又は周波数特性等が変化すること等を想定している。
 そこで、本開示の一又は複数の態様は、音響的特性が変動した場合であっても、機械学習による音源分離が有効に機能できるようにすることを目的とする。
 本開示の第1の態様に係る音源分離モデル学習装置は、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部と、前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側モデル推論部と、前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部と、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部と、を備えることを特徴とする。
 本開示の第2の態様に係る音源分離モデル学習装置は、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部と、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する学習側特徴量抽出部と、前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成する学習側モデル推論部と、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側信号抽出部と、前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部と、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部と、を備えることを特徴とする。
 本開示の第1の態様に係る音源分離装置は、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部と、前記複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側モデル推論部と、を備えることを特徴とする。
 本開示の第2の態様に係る音源分離装置は、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部と、前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成する活用側特徴量抽出部と、前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成する活用側モデル推論部と、前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記抽出された音を少なくとも示し、前記複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側信号抽出部と、を備えることを特徴とする。
 本開示の第1の態様に係るプログラムは、コンピュータを、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部、前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側モデル推論部、前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部、及び、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部、として機能させることを特徴とする。
 本開示の第2の態様に係るプログラムは、コンピュータを、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する学習側特徴量抽出部、前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成する学習側モデル推論部、
 前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側信号抽出部、
 前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部、及び、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部、として機能させることを特徴とする。
 本開示の第3の態様に係るプログラムは、コンピュータを、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部、及び、前記複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側モデル推論部、として機能させることを特徴とする。
 本開示の第4の態様に係るプログラムは、コンピュータを、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部、前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成する活用側特徴量抽出部、前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成する活用側モデル推論部、及び、前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記抽出された音を少なくとも示し、前記複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側信号抽出部、として機能させることを特徴とする。
 本開示の第1の態様に係る音源分離モデル学習方法は、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することを特徴とする。
 本開示の第2の態様に係る音源分離モデル学習方法は、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することを特徴とする。
 本開示の第1の態様に係る音源分離方法は、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成し、前記複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成することを特徴とする。
 本開示の第2の態様に係る音源分離方法は、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成し、前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成し、前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成し、前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記抽出された音を少なくとも示し、前記複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成することを特徴とする。
 本開示の一又は複数の態様によれば、音響的特性が変動した場合であっても、機械学習による音源分離が有効に機能することができる。
音源分離システムの構成を概略的に示すブロック図である。 音源分離モデル学習装置の構成を概略的に示すブロック図である。 実施の形態1における信号変形部の構成を概略的に示すブロック図である。 音源分離モデル学習装置のハードウェア構成を概略的に示すブロック図である。 音源分離装置の構成を概略的に示すブロック図である。 音源分離装置のハードウェア構成を概略的に示すブロック図である。 音源分離モデル学習装置の動作を示すフローチャートである。 実施の形態1における信号変形部の動作を示すフローチャートである。 音源分離装置の動作を示すフローチャートである。 音源分離モデル学習装置の動作を示す概念図である。 (A)及び(B)は、音源分離装置の動作例を説明するための概略図である。 音源分離装置の利用例を示す概略図である。 実施の形態2における信号変形部の構成を概略的に示すブロック図である。 実施の形態2における信号変形部の動作を示すフローチャートである。
実施の形態1.
 図1は、実施の形態1に係る音源分離システム100の構成を概略的に示すブロック図である。
 音源分離システム100は、学習用信号から音源分離モデルを生成する音源分離モデル学習装置110と、対象混合信号の中に含まれる、各音源から発せられた目的音を、音源分離モデルを用いて分離し、その目的音を出力する音源分離装置130とを備える。
 ここで、目的音は、音源分離装置130を用いて分離して、取り出したい音を指し、非目的音は、音源分離装置130を用いて取り出す必要のない音を指すものとする。言い換えると、目的音は、音源分離装置130で抽出すべき音を指し、非目的音は、音源分離装置130で抽出すべきではない音を指す。
 音源分離モデル学習装置110と、音源分離装置130とは、データを受け渡すことができるようになっている。例えば、図示してはいないが、音源分離モデル学習装置110と、音源分離装置130とは、ネットワークに接続されている。
 音源分離モデル学習装置110は、学習用信号に基づいて、音源分離モデルを生成する。生成された音源分離モデルは、音源分離装置130に与えられる。
 音源分離装置130は、その音源分離モデルを用いて、複数の音源から発せられた複数の目的音を含む混合信号から、複数の目的音を抽出する。
 音源分離モデルは、音源分離装置130にて音源の分離を実施する際に用いられる、NNにおける学習モデルである。音源分離モデルは、例えば、NNの配線構造を定義するための情報及びNNの各配線における重みを格納したパラメタを含む。音源分離モデルの配線構造は、例えば、全結合型NN、畳み込みNN(Convolutional NN:CNN)、回帰型NN(Recurrent NN:RNN)、長短期記憶(Long short-term memory:LSTM)、ゲート付き回帰型ユニット(Gated recurrent unit:GRU)、又は、これらの組み合わせであってもよい。
 図2は、音源分離モデル学習装置110の構成を概略的に示すブロック図である。
 音源分離モデル学習装置110は、学習側入力部111と、混合信号生成部112と、学習側信号処理部113と、学習側特徴量抽出部114と、学習側音源分離モデル記憶部115と、学習側モデル推論部116と、学習側信号抽出部117と、信号変形部118と、モデル更新部119と、学習側通信部120とを備える。
 学習側入力部111は、学習用信号の入力を受け付ける。入力された学習用信号は、混合信号生成部112及び信号変形部118に与えられる。
 学習用信号は、例えば、複数の話者からそれぞれ個別に発せられた音声、複数の楽器からそれぞれ個別に演奏された楽曲、又は、複数の騒音原からそれぞれ個別に発せられた騒音等の目的音及び非目的音を録音したデータの信号を含む。
 混合信号生成部112は、学習用信号として目的音及び非目的音の信号を取得し、例えば、これらを加算することによって、複数の目的音と、非目的音とが混ざっている混合信号である学習用混合信号を生成する。学習用混合信号は、学習側信号処理部113に与えられる。
 ここで、学習用混合信号には、2つ以上の目的音が含まれる。また、学習用混合信号には、1つ以上の非目的音が含まれてもよいし、含まれなくてもよい。学習用混合信号は、例えば、学習用信号として取得された2つ以上の信号を単純に加算して得られる信号であってもよい。言い換えると、学習用混合信号は複数の目的音を少なくとも示す信号である。
 混合信号生成部112は、例えば、音源分離装置130に入力される混合信号である対象混合信号を模擬する処理を含んでもよい。例えば、対象混合信号がマイクロホンアレイにより収録されたマルチチャネル信号である場合、混合信号生成部112は、マイクロホンアレイのインパルス応答を畳み込むことで、マイクロホンアレイによる観測を模擬する処理を含んでもよい。
 学習側信号処理部113は、学習用混合信号に対して予め定められた処理を行うことで、複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する。処理済学習用混合信号は、学習側特徴量抽出部114及び信号変形部118に与えられる。
 例えば、学習側信号処理部113は、混合信号生成部112から与えられる学習用混合信号に対して、目的音を取り出しやすくするため、種々の信号処理を適用した結果得られる処理済学習用混合信号を生成する。
 具体的には、予め定められた処理は、機械学習以外の処理であってもよいし、機械学習を用いた処理であってもよい。
 また、予め定められた処理は、複数の目的音を抽出しやすくする処理であることが望ましい。
 さらに、予め定められた処理は、複数の目的音を強調する処理であることが望ましい。
 学習側信号処理部113は、音源分離装置130において行われる処理と同じ処理を行う。例えば、古典的な信号処理、機械学習を用いた処理又は未知の信号処理等が行われる。未知の信号処理には、古典的な信号処理又は機械学習を用いた処理が含まれてもよい。
 具体的には、学習側信号処理部113が行う処理には、入力された学習用混合信号の中から、雑音信号又は目的音ではない音を示す信号等を抑圧するビームフォーミング処理が含まれてもよい。また、学習側信号処理部113が行う処理には、残響を抑圧するための処理が含まれていてもよい。さらに、学習側信号処理部113が行う処理には、学習用混合信号の中に存在する非目的音の参照信号が与えられている場合において、エコーキャンセラ等に代表される、非目的音の参照信号を学習用混合信号に含まれる形へと適応変形し、それを学習用混合信号から差し引くことで、学習用混合信号から非目的音に由来する成分を取り除く処理が含まれてもよい。
 なお、学習側信号処理部113が行う処理の内容は、時間の経過に伴って変化してもよい。学習側信号処理部113に入力される学習用混合信号は、例えば、マイクロホンアレイで収録された複数チャネルの信号であり、出力される処理済学習用混合信号は、例えば、単一チャネルの信号であるが、チャネル数に対する要件はこれに限定されるものではない。
 学習側特徴量抽出部114は、学習側信号処理部113から与えられる処理済学習用混合信号から、音響特徴量を抽出して、抽出された音響特徴量の時系列データである学習用特徴データを生成する。
 例えば、学習側特徴量抽出部114は、処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する。
 ここで、音響特徴量は、例えば、処理済学習用混合信号に高速フーリエ変換(Fast Fourier Transform:FFT)の処理を施すことによって得られる複素スペクトルである。学習用特徴データは、学習側モデル推論部116及び学習側信号抽出部117に与えられる。
 学習側音源分離モデル記憶部115は、音源分離モデル学習装置110で使用される音源分離モデルである学習側音源分離モデルを記憶する。学習側音源分離モデルは、例えば、学習用特徴データにおける各成分に対する重みパラメタを示す。
 学習側モデル推論部116は、学習側特徴量抽出部114から与えられる学習用特徴データから、音源分離を行うために必要となる分離用特徴量である学習分離用特徴量を、学習側音源分離モデルを用いて抽出する。学習側モデル推論部116で抽出される学習分離用特徴量の時系列データは、例えば、「マスク」と呼ばれる時系列データである。マスクとは、学習側特徴量抽出部114で抽出された音響特徴量から、各音源の成分のみを取り出すためのフィルタである。マスクは、例えば、学習側特徴量抽出部114で抽出された音響特徴量の各成分において、分離し取り出したい音源からの成分が含まれている割合を求めることにより与えられる。ここで生成されたマスクは、学習用マスクとして学習側信号抽出部117に与えられる。
 即ち、学習側モデル推論部116は、複数の処理済目的音を抽出するために、学習用特徴データを構成する複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、学習用特徴データから一つの処理済目的音を抽出するための学習用マスクを、目的音毎に生成する。ここでは、学習用混合信号に、複数の目的音が含まれているため、複数の学習用マスクが生成される。
 学習側信号抽出部117は、学習側特徴量抽出部114で抽出された音響特徴量の時系列データである学習用特徴データと、学習側モデル推論部116で推定された学習分離用特徴量の時系列データである学習用マスクとを用いて、取り出したい音響信号を抽出する。
 例えば、学習側信号抽出部117は、学習側モデル推論部116から与えられる複数の学習用マスクの各々を用いて、学習用特徴データから音を抽出することで、抽出された音を少なくとも示す学習用抽出信号を生成する。
 具体的には、学習側信号抽出部117は、学習分離用特徴量と、学習用音響特徴量とを成分毎に積演算した後に、逆フーリエ変換(Inverse Fast Fourier Transform:IFFT)の処理を施すことによって、取り出したい目的音を抽出した信号である学習用抽出信号を復元する。ここでは、複数の学習用マスクが使用されるため、複数の学習用マスクの各々に各々が対応する複数の学習用抽出信号が復元される。
 信号変形部118は、学習側入力部111から与えられる学習用信号と、学習側信号処理部113から与えられる処理済学習用混合信号とにより、学習用信号に含まれる複数の目的音のそれぞれを、処理済学習用混合信号に含まれるそれぞれの目的音に対応する音に近づけるための変形処理を行うことで変形目的音信号を生成する。生成された変形目的音信号は、モデル更新部119に与えられる。
 例えば、信号変形部118は、複数の目的音の内、一つの目的音を示す信号に対して、その一つの目的音を、対応する一つの処理済目的音に近づけるための変形処理を行うことで、その一つの目的音に由来する一つの変形目的音を示す変形目的音信号を、目的音毎に生成する。ここでは、複数の目的音が存在するため、複数の目的音の各々に各々が対応する複数の変形目的音信号が生成される。
 具体的には、学習用信号に、第1の目的音、第2の目的音及び非目的音という3つの成分が含まれる場合、信号変形部118は、第1の目的音を示す信号を変形するための変換f1と、第2の目的音を示す信号を変形するための変換f2を設定する。そして、信号変形部118は、学習側信号処理部113から与えられる処理済学習用混合信号と、第1の目的音を示す信号及び第2の目的音を示す信号を加算した信号との差分が最も小さくなるように変換f1及び変換f2を決定することで、第1の目的音及び第2の目的音のそれぞれを、処理済学習用混合信号に含まれるそれぞれの目的音に由来する音に近づけることができる。これにより、第1の目的音を示す信号に変換f1を適用することで、第1の目的音に対応する変形目的音信号を生成することができ、第2の目的音を示す信号に変換f2を適用することで、第2の目的音に対応する変形目的音信号を生成することができる。
 ここでは、第1の目的音、第2の目的音及び非目的音が、それぞれ統計的に異なる性質を持っている、言い換えると、相関がないものとしている。このため、例えば、学習側信号処理部113から与えられる処理済学習用混合信号と、第1の目的音を示す信号と第2の目的音を示す信号を加算した信号との差分として、二乗誤差を算出することで、第1の目的音及び第2の目的音のそれぞれを、処理済学習用混合信号に含まれるそれぞれの目的音に由来する音に近づけることができる。なお、信号変形部118の具体的な構造については、後述する。
 モデル更新部119は、学習側信号抽出部117から与えられる複数の学習用抽出信号と、信号変形部118から与えられる複数の変形目的音信号とを用いて、学習側音源分離モデル記憶部115に記憶されている学習用音源分離モデルに含まれている重みパラメタを更新する。
 例えば、モデル更新部119は、複数の学習用抽出信号及び複数の変形目的音信号を用いて、学習側信号抽出部117で抽出された音が、抽出すべき一つの目的音に対応する一つの変形目的音に近づくように、学習側音源分離モデルを更新する。
 具体的には、モデル更新部119は、複数の学習用抽出信号と、複数の変形目的音信号との差分が小さくなるように、学習側音源分離モデルを更新する。
 重みパラメタの更新には、例えば、信号変形部118の出力と、学習側信号抽出部117の出力との差分を計算した結果と、例えば、確率的勾配降下法(Stochastic Gradient Descent:SGD)又はAdam法等の公知の最適化手法が使用される。
 学習側通信部120は、学習側音源分離モデル記憶部115に記憶されている学習用音源分離モデルを、音源分離装置130で使用する音源分離モデルである活用側音源分離モデルとして、音源分離装置130に送る。
 なお、学習側特徴量抽出部114と、学習側信号抽出部117とについては、その両方を備えない構成とすることができる。
 この場合、学習側モデル推論部116は、学習側信号処理部113から与えられた処理済学習用混合信号に含まれている複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、処理済学習用混合信号から音を抽出することで、その抽出された音を示す学習用抽出信号を生成する。
 また、信号変形部118は、学習用信号で示される複数の目的音の内、一つの処理済目的音に対応する一つの目的音を示す信号に対して、その一つの目的音をその一つの処理済目的音に近づけるための変形処理を行うことで、その一つの目的音に由来する一つの変形目的音を示す変形目的音信号を、目的音毎に生成する。
 そして、モデル更新部119は、複数の学習用抽出信号及び複数の変形目的音信号を用いて、学習側モデル推論部116で抽出された複数の音の各々が、複数の変形目的音の内の対応する変形目的音に近づくように、学習側音源分離モデルを更新する。
 図3は、実施の形態1における信号変形部118の構成を概略的に示すブロック図である。
 信号変形部118は、混合信号ブロック分割部118aと、学習用信号ブロック分割部118bと、フィルタ推定部118cと、フィルタ適用部118dと、ブロック結合部118eとを備える。
 混合信号ブロック分割部118aは、学習側信号処理部113から与えられた処理済学習用混合信号を適当な区間であるブロック毎に分割して得られる信号である混合ブロック信号を生成する第1のブロック分割部である。
 例えば、混合信号ブロック分割部118aは、処理済学習用混合信号を複数のブロックに分割することで、複数の混合ブロック信号を生成する。
 混合ブロック信号は、フィルタ推定部118cに与えられる。
 ブロックへの分割は、例えば、一定の時間間隔毎に実施されればよい。
 また、複数のブロック間で重複する区間が生じるようにブロックに分割されてもよい。
 但し、サンプル数に対応する各ブロックの長さは、フィルタ推定部118cにおけるフィルタの導出に必要な長さを上回るよう設定する必要がある。
 学習用信号ブロック分割部118bは、学習側入力部111より与えられた学習用信号から目的音の信号を取り出し、その目的音の信号を適当な区間毎に分割することで得られる信号である目的音ブロック信号を生成する第2のブロック分割部である。
 例えば、学習用信号ブロック分割部118bは、一つの目的音を示す信号を複数のブロックに分割することで、複数の目的音ブロック信号を生成する。
 目的音ブロック信号は、フィルタ推定部118c及びフィルタ適用部118dに与えられる。ブロックへの分割方法は、混合信号ブロック分割部118aにおける分割方法と同一である。
 フィルタ推定部118cは、複数の目的音ブロック信号の各々で示される音を、複数の混合ブロック信号で示される音の内、抽出すべき一つの目的音に対応する音に近づけるためのフィルタを推定することで、複数のフィルタを推定する。
 例えば、フィルタ推定部118cは、混合信号ブロック分割部118aによってブロック単位に分割された混合ブロック信号と、学習用信号ブロック分割部118bによってブロック単位に分割された目的音ブロック信号とを、ブロック毎に、かつ、目的音毎に、目的音ブロック信号で示される音の、混合ブロック信号で示される音への変換を近似するフィルタのパラメタである変形パラメタを生成する。フィルタは、例えば、FIR(Finite Impulse Response)フィルタ、IIR(Infinitie Inpulse Response)フィルタ、又は、FFTを用いた周波数領域上におけるフィルタ等が使用されればよい。
 なお、変形パラメタは、例えば、ブロック毎に異なっていてもよい。
 フィルタ適用部118dは、複数の目的音ブロック信号の各々に、フィルタ推定部118cで推定された複数のフィルタの各々を適用することで、複数の変形ブロック信号を生成する。
 例えば、フィルタ適用部118dは、学習用信号ブロック分割部118bから与えられる目的音ブロック信号に、フィルタ推定部118cで推定された、その目的音ブロック信号に対応する変形パラメタを適用した信号を変形ブロック信号として生成する。変形ブロック信号は、ブロック結合部118eに与えられる。
 ブロック結合部118eは、フィルタ適用部118dから与えられる変形ブロック信号を結合して得られる信号である変形目的音信号を生成する。変形目的音信号は、図2に示されているモデル更新部119に与えられる。
 なお、混合信号ブロック分割部118aと、学習用信号ブロック分割部118bとにおいて、複数のブロック間で重複する区間が生じるように分割が行われた場合には、ブロック結合部118eは、例えば、重み付け和を計算することで重複を解消してもよい。
 混合信号ブロック分割部118a及び学習用信号ブロック分割部118bと、ブロック結合部118eとについては、これらを備えない構成としてもよい。すなわち、信号全体が単一のブロックとして扱われてもよい。
 このような場合には、フィルタ推定部118cは、学習用信号で示される一つの目的音を、処理済学習用混合信号で示される複数の処理済目的音の内、その一つの目的音に対応する一つの処理済目的音に近づけるためのフィルタを推定する。
 そして、フィルタ適用部は、学習用信号の内のその一つの目的音を示す信号に、フィルタ推定部118cで推定されたフィルタを適用することで、変形目的音信号を生成する。
 図4は、音源分離モデル学習装置110のハードウェア構成を概略的に示すブロック図である。
 音源分離モデル学習装置110は、記憶装置151と、メモリ152と、プロセッサ153と、通信インタフェース(以下、通信I/Fという)154とを備えるコンピュータ150により構成することができる。
 記憶装置151は、音源分離モデル学習装置110で行う処理に必要なプログラム及びデータを記憶する。
 メモリ152は、プロセッサ153が作業を行う作業領域を提供する。
 プロセッサ153は、記憶装置151に記憶されたプログラム及びデータを、メモリ152に展開して、処理を実行する。
 通信I/F154は、音源分離装置130と通信を行う。
 例えば、混合信号生成部112、学習側信号処理部113、学習側特徴量抽出部114、学習側モデル推論部116、学習側信号抽出部117、信号変形部118及びモデル更新部119は、プロセッサ153が記憶装置151に記憶されたプログラム及びデータをメモリ152に展開して、そのプログラムを実行することで、実現することができる。
 学習側音源分離モデル記憶部115は、記憶装置151により実現することができる。
 学習側入力部111及び学習側通信部120は、通信I/F154により実現することができる。
 以上のようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
 なお、音源分離モデル学習装置110は、上記のようにプログラムで実現されてもよいし、音源分離モデル学習装置110で実行される機能毎に回路を構成して、それら回路を結合して実現されてもよい。
 言い換えると、音源分離モデル学習装置110は、処理回路網により実現することもできる。
 図5は、音源分離装置130の構成を概略的に示すブロック図である。
 音源分離装置130は、活用側通信部131と、活用側音源分離モデル記憶部132と、活用側入力部133と、活用側信号処理部134と、活用側特徴量抽出部135と、活用側モデル推論部136と、活用側信号抽出部137と、活用側出力部138とを備える。
 活用側通信部131は、音源分離モデル学習装置110と通信を行う。例えば、活用側通信部131は、音源分離モデル学習装置110から活用側音源分離モデルを受け取り、その活用側音源分離モデルを活用側音源分離モデル記憶部132に記憶させる。
 活用側音源分離モデル記憶部132は、活用側音源分離モデルを記憶する。
 活用側入力部133は、対象混合信号の入力を受け付ける。入力された対象混合信号は、活用側信号処理部134に与えられる。
 対象混合信号は、音源分離装置130に予め記憶されていてもよく、後述するマイク等の音響装置で取得されてもよいし、通信I/Fを介して電話回線等から取得されてもよい。このような場合には、活用側入力部133を省略することもできる。
 活用側信号処理部134は、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する。
 例えば、活用側信号処理部134は、活用側入力部133から与えられる対象混合信号に対して、目的音を取り出しやすくするため、種々の信号処理を適用した結果得られる処理済対象混合信号を生成する。ここで行われる処理は、音源分離モデル学習装置110の学習側信号処理部113で行われる処理と同じである。処理済対象混合信号は、活用側特徴量抽出部135に与えられる。
 活用側特徴量抽出部135は、活用側信号処理部134から与えられる処理済対象混合信号から、音響特徴量を抽出して、抽出された音響特徴量の時系列データである活用特徴データを生成する。
 例えば、活用側特徴量抽出部135は、処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、その抽出された活用音響特徴量の時系列データである活用特徴データを生成する。
 ここで行われる処理は、音源分離モデル学習装置110の学習側特徴量抽出部114で行われる処理と同じである。活用特徴データは、活用側モデル推論部136に与えられる。
 活用側モデル推論部136は、活用側特徴量抽出部135から与えられる活用特徴データから、音源分離を行うために必要となる分離用特徴量である活用分離用特徴量を、活用側音源分離モデルを用いて抽出する。ここで行われる処理は、音源分離モデル学習装置110の学習側モデル推論部116で行われる処理と同じである。
 そして、活用側モデル推論部136は、抽出された活用分離用特徴量の時系列データであるマスクを、活用マスクとして活用側信号抽出部137に与える。
 言い換えると、活用側モデル推論部136は、複数の処理済目的音を抽出するために、活用特徴データの複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、活用特徴データから一つの処理済目的音を抽出するための活用マスクを、目的音毎に生成する。このため、複数の目的音の各々に各々が対応する複数の活用マスクが生成される。
 活用側信号抽出部137は、活用側特徴量抽出部135で抽出された音響特徴量の時系列データである活用特徴データと、活用側モデル推論部136で推定された活用分離用特徴量の時系列データである活用マスクとを用いて、取り出したい音響信号を抽出する。
 例えば、活用側信号抽出部137は、活用マスクを用いて、活用特徴データから音を抽出することで、抽出された音を少なくとも示す活用抽出信号を生成する。
 ここで行われる処理は、音源分離モデル学習装置110の学習側信号抽出部117で行われる処理と同じである。そして、活用側信号抽出部137は、抽出された音響信号である活用抽出信号を出力信号として活用側出力部138に与える。
 活用側出力部138は、活用側信号抽出部137から与えられた出力信号を出力する。
 なお、活用側特徴量抽出部135と、活用側信号抽出部137とについては、例えば、その一方又は両方を備えない構成としてもよい。例えば、活用側特徴量抽出部135及び活用側信号抽出部137の両方を含まない場合、活用側モデル推論部136は、活用側信号処理部134から出力された処理済対象混合信号を処理して、分離音の信号を直接出力するように機能する。言い換えると、活用側モデル推論部136は、活用側信号処理部134から与えられる処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、処理済対象混合信号から音を抽出することで、抽出された音を示す活用抽出信号を生成する。
 図6は、音源分離装置130のハードウェア構成を概略的に示すブロック図である。
 音源分離装置130は、記憶装置161と、メモリ162と、プロセッサ163と、通信I/F164と、音響インタフェース(以下、音響I/Fという)165とを備えるコンピュータ160により構成することができる。
 記憶装置161は、音源分離装置130で行う処理に必要なプログラム及びデータを記憶する。
 メモリ162は、プロセッサ163が作業を行う作業領域を提供する。
 プロセッサ163は、記憶装置161に記憶されたプログラム及びデータを、メモリ162に展開して、処理を実行する。
 通信I/F164は、音源分離モデル学習装置110と通信を行う。
 音響I/F165は、対象混合信号の入力を受け付ける。対象混合信号は、目的音を含む音を集音して対象音号信号を生成する音響装置で生成されればよい。
 例えば、活用側信号処理部134、活用側特徴量抽出部135、活用側モデル推論部136、活用側信号抽出部137及び活用側出力部138は、プロセッサ163が記憶装置161に記憶されたプログラム及びデータをメモリ162に展開して、そのプログラムを実行することで、実現することができる。
 活用側音源分離モデル記憶部132は、記憶装置161により実現することができる。
 活用側入力部133は、音響I/F165により実現することができる。
 活用側通信部131は、通信I/F154により実現することができる。
 以上のようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
 なお、音源分離装置130は、上記のようにプログラムで実現してもよいし、音源分離装置130で実行される機能毎に回路を構成して、それら回路を結合して実現されてもよい。
 言い換えると、音源分離装置130は、処理回路網により実現することもできる。
 次に、動作について説明する。最初に、音源分離モデル学習装置110の動作について説明する。
 図7は、音源分離モデル学習装置110の動作を示すフローチャートである。
 まず、混合信号生成部112が、学習用信号から学習に用いる混合信号である学習用混合信号を作成する(S10)。学習用混合信号は、音源分離装置130の活用側信号処理部134へ入力される活用混合信号を模擬して作成される。学習用混合信号は、例えば、学習用信号としての複数の目的音の信号及び非目的音の信号を単純に加算することで生成されてもよい。また、学習用混合信号は、マイクロホンアレイによる収録を模擬するため、学習用信号から取得された信号のそれぞれに対して、マイクロホンアレイのインパルス応答を畳み込む処理を実施した後、出力された信号を加算することで生成されてもよい。
 次に、学習側信号処理部113は、混合信号生成部112から与えられた学習用混合信号に対して、各種の信号処理を適用する(S11)。ここでの処理内容は、音源分離装置130の活用側信号処理部134での処理内容と同一である。
 次に、信号変形部118は、学習用信号から得られた目的音を、学習側信号処理部113から与えられる処理済学習用混合信号に含まれている目的音を模した形へと変換することで、目的音毎に変形目的音信号を生成する(S12)。ステップS12での処理の詳細は、後述する。
 次に、学習側特徴量抽出部114は、学習側信号処理部113より与えられる処理済学習用混合信号から音響特徴量である学習用音響特徴量を抽出して、時系列データとすることで学習用特徴データを生成する(S13)。音響特徴量として、例えば、活用側信号処理部134からの処理済学習用混合信号に対してFFTを適用することによって得られる複素スペクトルが用いられる。ここでの処理内容は、音源分離装置130の活用側特徴量抽出部135での処理内容と同一である。
 次に、学習側モデル推論部116は、学習用音源分離モデルを用いて、学習側特徴量抽出部114にて抽出された音響特徴量から、各音源信号を分離合成するために必要となる分離用特徴量である学習分離用特徴量を抽出し、その学習分離用特徴量の時系列データであるマスクを生成する(S15)。マスクは、音源信号毎、言い換えると、目的音毎に生成される。ここでの処理内容は、音源分離装置130の活用側モデル推論部136での処理内容と同一である。
 次に、学習側信号抽出部117は、学習側特徴量抽出部114にて抽出された音響特徴量と、学習側モデル推論部116にて抽出された学習用分離用特徴量とを用いて、学習用混合信号の中に含まれる目的音を処理した音の信号である学習用抽出信号を抽出する(S15)。例えば、学習側信号抽出部117は、学習分離用特徴量と、学習用音響特徴量とを成分毎に積演算した後に、逆フーリエ変換の処理を施すことによって、取り出したい目的音に由来する音を抽出した信号である学習用抽出信号を、目的音毎に復元する。ここでの処理内容は、音源分離装置130の学習側信号抽出部117での処理内容と同一である。
 次に、モデル更新部119は、信号変形部118より与えられる複数の変形目的音信号と、学習側信号抽出部117より与えられる複数の学習用抽出信号との誤差を計算した後、その誤差を修正するように、学習用音源分離モデルの備える重みパラメタを更新する(S16)。
 続けて、信号変形部118の動作について説明する。
 図8は、実施の形態1における信号変形部118の動作を示すフローチャートである。
 まず、混合信号ブロック分割部118aが、学習側信号処理部113から与えられた処理済学習用混合信号を、時間軸上で1つ以上のブロックに分割することで混合ブロック信号を生成する(S20)。
 次に、学習用信号ブロック分割部118bは、学習側入力部111から与えられた学習用信号を、時間軸上で1つ以上のブロックに分割することで、目的音ブロック信号を生成する(S21)。学習用信号ブロック分割部118bにおける信号の分割方法は、ステップS20において混合信号ブロック分割部118aが行う分割方法と同一である。
 次に、フィルタ推定部118cは、フィルタを推定する(S22)。
 ここでは、処理済学習用混合信号及び学習用信号が全て単一チャネルの音響信号であり、混合信号生成部112が学習用信号としてn個の目的音を示す信号を取得して混合信号を作成した場合を例に説明する。ここで、nは、1以上の整数である。
 混合信号ブロック分割部118aから取得した混合ブロック信号をy(t)とする。ここで、tは、t=0,・・・,T-1(Tは2以上の整数)を満たす整数とする。
 また、学習用信号ブロック分割部118bから取得したi番目の目的音の目的音ブロック信号をs(t)とする。ここで、iは、1≦i≦nを満たす整数である。
 さらに、フィルタ推定部118cで計算されるフィルタが長さLのFIRフィルタである場合において、i番目の目的音におけるFIRフィルタの係数を、h(τ)とする。ここで、τは、τ=0,・・・,L-1を満たす整数とする。
 このとき、混合ブロック信号y(t)は、以下の(1)式で近似される。
Figure JPOXMLDOC01-appb-M000001
 ここで、(1)式の近似が二乗誤差規範でもっともよく成り立つ場合について考える。
 すなわち、h(τ)が、下記の(2)式の誤差関数を最小にする場合について考える。
Figure JPOXMLDOC01-appb-M000002
 このようなh(τ)を求めるための手段として、まず、下記の(3)式に示されている行列S∈R((T-L+1)×L)を定義する。
Figure JPOXMLDOC01-appb-M000003
 このとき、(2)式は、下記の(4)式で示す行列形式で表現することができる。
Figure JPOXMLDOC01-appb-M000004
 ここで、yは下記の(5)式、hは下記の(6)式、Sは下記の(7)式、hは、下記の(8)式で表せる。
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000007
Figure JPOXMLDOC01-appb-M000008
 このとき、yを最小二乗誤差規範で最も良く近似するフィルタhは、下記の(9)式で示される最適化問題の解となる。
Figure JPOXMLDOC01-appb-M000009
 そして、(9)式の最適化問題の解は、下記の(10)式で示される。
Figure JPOXMLDOC01-appb-M000010
 このような手順により、y(t)をよく近似するFIRフィルタの係数h(t)が求められる。
 なお、行列SSは、しばしば条件数が大きく、数値安定的に最適化問題の解を得られない可能性がある。このため、下記の(11)式に示されているように、修正した最適化問題が解かれてもよい。
Figure JPOXMLDOC01-appb-M000011
 (11)式で示される最適化問題の解は、下記の(12)式で示される。
Figure JPOXMLDOC01-appb-M000012
 ここで、λは、任意に定めるハイパーパラメタであり、INLは、サイズNLの単位行列である。
 行列SSと、SS+λINLとを比較すると、後者の方はより条件数が小さく、安定的に逆行列を計算することができる。
 なお、上記ではy(t)及びs(τ)は、学習用信号及び処理済学習用混合信号が、例えば、1つのマイクロホンのような単一の音響装置から取得された信号のように単一チャネルの信号であることを仮定していたが、実施の形態1はこのような例に限定されない。
 例えば、学習用信号及び処理済学習用混合信号が、複数のマイクロホンを備えたマイクロホンアレイを用いて取得された多チャネルの信号であってもよい。この場合、フィルタ推定部118cが、多チャネルの目的音ブロック信号を受け取った場合には、代表的なチャネルの目的音ブロック信号を選択して、上記のフィルタ係数の計算を行えばよい。また、フィルタ推定部118cが、多チャンネルの混合ブロック信号を受け取った場合でも、代表的な混合ブロック信号を選択して、上記のフィルタ係数の計算を行えば良い。
 次に、フィルタ適用部118dは、ステップS22でブロック毎に推定されたフィルタを、ステップS20で生成された目的音ブロック信号に適用することで、変形ブロック信号を生成する(S23)。
 最後に、ブロック結合部118eは、ブロック毎に分割された状態の変形ブロック信号を接合して、変形目的音信号を生成する(S24)。
 図9は、音源分離装置130の動作を示すフローチャートである。
 まず、活用側信号処理部134が、入力された対象混合信号に対し、各種の信号処理を適用して処理済対象混合信号を生成する(S30)。
 次に、活用側特徴量抽出部135は、活用側信号処理部134から与えられる処理済対象混合信号から音響特徴量を抽出し、抽出された音響特徴量の時系列データである活用特徴データを生成する(S31)。
 次に、活用側モデル推論部136は、活用音源分離モデルを用いて、活用側特徴量抽出部135にて抽出された音響特徴量から、各音源信号を分離合成するために必要となる分離用特徴量の時系列データである活用マスクを、目的音毎に生成する(S32)。
 次に、活用側信号抽出部137が、活用側特徴量抽出部135にて抽出された活用音響特徴量と、活用側モデル推論部136にて抽出された分離用特徴量とを用いて、対象混合信号の中に含まれる目的音の信号である出力信号を、目的音毎に生成する(S33)。
 次に、音源分離モデル学習装置110の動作例について述べる。
 図10は、音源分離モデル学習装置110の動作を示す概念図である。
 第1の信号170は、学習用信号から取得された第1の目的音を示す信号、第2の信号171は、学習用信号から取得された第2の目的音を示す信号であり、第3の信号172は、学習用信号から取得された非目的音を示す信号である。
 混合信号生成部112は、例えば、第1の信号170、第2の信号171及び第3の信号172を単純加算することで、疑似的な学習用混合信号173を作成する。
 学習用混合信号173には、第1の信号170に由来する第1の成分170#1、第2の信号171に由来する第2の成分171#1、及び、第3の信号172に由来する第3の成分172#1が含まれる。
 学習用混合信号173が学習側信号処理部113を通過することで、処理済学習用混合信号173#が得られる。この際、第1の目的音に由来する第1の成分170#1は、第4の成分170#2のように、第2の目的音に由来する第2の成分171#1は、第5の成分171#2のように、非目的音に由来する第3の成分172#1は、第6の成分172#2のように、処理済学習用混合信号173#の中で現れる。
 処理済学習用混合信号173#に対して、第1の目的音及び第2の目的音に対応する音を抽出するために、学習側特徴量抽出部114、学習側モデル推論部116及び学習側信号抽出部117での処理を適用することで、第1の目的音に対応する第1の学習用抽出信号174及び第2の目的音に対応する第2の学習用抽出信号175が得られる。
 さらに、信号変形部118は、第1の信号170及び第2の信号171と、処理済学習用混合信号173#とにより、第1の信号170を第4の成分170#2へ変化させるフィルタ及び第2の信号171を第5の成分171#2へ変化させるフィルタを推定する。そして、信号変形部118は、第1の信号170及び第2の信号171にそれぞれのフィルタを適用して、第1の変形目的音信号176及び第2の変形目的音信号177を生成する。
 モデル更新部119は、第1の学習用抽出信号174及び第2の学習用抽出信号175の組が、第1の変形目的音信号176及び第2の変形目的音信号177の組に近づくよう、学習用音源分離モデルのパラメタを更新する。
 次に、音源分離モデル学習装置110により学習された音源分離モデルを用いる際の、音源分離装置130の動作例について述べる。
 図11(A)及び(B)は、音源分離装置130の動作例を説明するための概略図である。
 図11(A)は、音源分離装置130により、入力された対象混合信号の波形がどのように変化するかを示す概念図である。
 図11(A)に示されている対象混合信号180には、第1の目的音に由来する第1の成分181、第2の目的音に由来する第2の成分182、及び、非目的音に由来する第3の成分183が含まれる。
 対象混合信号180が活用側信号処理部134を通過すると、処理済対象混合信号180#が得られる。処理済対象混合信号180#には、第1の成分181に由来する第4の成分181#、第2の成分に由来する第5の成分182#、及び、第3の成分183に由来する第6の成分183#が含まれる。
 活用側信号処理部134では、非目的音を抑圧する処理が行われることから、非目的音に由来する第3の成分183と比較して、第6の成分183#の音量が下がっている。また、第1の目的音に由来する第1の成分181及び第2の目的音に由来する第2の成分182と比較して、第4の成分181#及び第5の成分182#は、強調されている。さらに、第4の成分181#及び第5の成分182#は、信号処理に伴って、音量及び波形の形状(周波数特性)等が変化しているほか、活用側信号処理部134にて生じる遅延に伴い、対象混合信号180と、処理済対象混合信号180#との間で時刻の同期がずれた状態となる。
 処理済対象混合信号180#に対して、活用側特徴量抽出部135、活用側モデル推論部136及び活用側信号抽出部137での処理を適用することにより、第1の出力信号184及び第2の出力信号185が得られる。第1の出力信号184は、第1の目的音に対応する成分を、第2の出力信号185は、第2の目的音に対応する成分を、それぞれ抽出したものである。
 図11(B)は、対象混合信号180とは異なる対象混合信号186に対し、同様の信号処理を適用した場合について示した概念図である。
 処理済対象混合信号180#と、処理済対象混合信号186#とを比較すると、波形の変化及び音量の変化が異なっている。このため、第1の出力信号187及び第2の出力信号188の波形及び音量も、第1の出力信号184及び第2の出力信号185とは異なっている。
 このように、活用側信号処理部134へ入力される対象混合信号の特徴、活用側信号処理部134の処理内容の変化等によって、処理済対象混合信号の特徴にも変動があり、信号処理後の状態を考慮して生成された学習モデルを用いることで、音源を精度よく分離できる。
 なお、音源分離モデル学習装置110において、学習側信号処理部113を省略し、信号変形部118において学習用信号の変形を行わない構成とする場合を考えることができる。このような音源分離モデル学習装置及び学習方法は、従来から知られている。
 この場合、学習側モデル推論部116は、図10に示されている学習用混合信号173より抽出された特徴量から、第1の目的音の第1の信号170及び第2の目的音の第2の信号171を分離するための分離用特徴量が得られるように学習を行う。
 しかしながら、音源分離装置130を動作させる場合、図11(A)に示されているように、活用側モデル推論部136には処理済対象混合信号180#より抽出された特徴量が入力される。
 学習用混合信号173から抽出される特徴量と、処理済対象混合信号180#から抽出される特徴量では、種々の特性が異なっている。音源分離モデルは、処理済対象混合信号180#から抽出される特徴量が入力されることを前提に学習されていないため、分離性能の悪化が生じる。
 また、音源分離モデル学習装置110において、学習側信号処理部113を省略しないものの、信号変形部118において学習用信号の変形を行わない構成をとることも考えられる。
 この場合、学習側モデル推論部116は、処理済学習用混合信号173#より抽出された特徴量から、第1の目的音の第1の信号170及び第2の目的音の第2の信号171を分離するための分離用特徴量が得られるように学習される。そして、学習側モデル推論部116は、処理済学習用混合信号173#から抽出される特徴量が入力されることを前提として音源分離モデルを学習させるため、上記で述べたような問題を解決できる。
 しかしながら、図11(A)に示されている、理済対象混合信号180#に含まれる第4の成分181#及び第5の成分182#と、図10に示されている象混合信号180に含まれている第1の成分181及び第2の成分182とでは、音量、周波数特性及び遅延等の特性が異なっている。
 このため、音源分離モデルは、このような多様な特性の変化を打ち消して元の信号を出力するように学習される。しかし、上述のように、このような特性の変化は、どのような信号が活用側信号処理部134に入力されるかによって、又は、時間が経過するにつれて、変化するものである。そのような多様な特性変化を吸収できるように音源分離モデルを学習させることは難しい。
 音源分離モデル学習装置110において、学習側信号処理部113と、信号変形部118とを共に機能させ、音源分離モデルが第1の変形目的音信号176及び第2の変形目的音信号177を分離するための特徴量を出力するように学習させることで、音源分離モデルは特性変化を加味した結果を出力するように学習すればよくなる。
 信号変形部118において学習用信号の変形を行わない構成の場合には、特性変化を打ち消して元に戻した結果を出力するように音源分離モデルを学習させる必要があったところ、このような条件とすることで、特性変化を打ち消した結果を出力するように学習させる必要がなくなるため、学習が簡単になり、結果として音源分離出力の品質が向上する。
 図12は、音源分離装置130の利用例を示す概略図である。
 図12は、車両190に設置されたマイクロホン191A、191B、191Cにおいて、運転席話者192が発する音声、助手席話者193が発する音声、及び、車両走行音又はカーステレオ等から発せられる騒音194が同時に観測される状況を表している。このとき、音源分離装置130を用いて、運転席話者192の発した音声と、助手席話者193の発した音声とを、それぞれ取り出す場合について説明する。
 運転席話者192の発した音声が、図11(A)に示されている第1の目的音の第1の成分181に、助手席話者193の発した音声が、第2の目的音の第2の成分182に、各種騒音194が、非目的音の第3の成分183に相当する。また、マイクロホン191A、191B、191Cで収録された信号が、対象混合信号180に相当する。
 音源分離装置130において、活用側信号処理部134の出力する処理済対象混合信号180#では、騒音194に相当する第6の成分183#が抑圧されている。
 活用側音源分離モデルを適用後、活用側信号抽出部137において抽出された結果が、第1の出力信号184及び第2の出力信号185に対応する。これらの信号では、運転席及び助手席の各音声が強調されている。
 活用側音源分離モデルは、音源分離モデル学習装置110によって、運転席側と助手席側の話者のそれぞれの音声について、騒音194を抑制するような信号処理を行った際の変形された第1の変形目的音信号176及び第2の変形目的音信号177を考慮して生成されているため、実際に運転席の音声、助手席の音声及び騒音194が混合した状態から、運転席と助手席とに座った2人の話者の音声を適切に分離することができる。
 また、車両内に限らず、会議中の録音記憶から出席者の発言を取り出す場合であっても、音源分離モデル学習装置で出席者の音声について学習して音源分離モデルを生成すれば、会議と関係ない周辺の雑音を除去する信号処理を行った上で当該音源分離モデルを用いれば、各出席者の音声を分離することができる。
 以上のように、実施の形態1によれば、音源分離装置130が音源分離モデルを用いて音源分離を実施する際に、活用側信号処理部134に伴って生じる音響的特性の変化に音源分離モデルが対応し、この結果として音源分離装置130から出力される分離音の品質が向上する。
 また、混合信号ブロック分割部118a、学習用信号ブロック分割部118b及びブロック結合部118eを設けることによる効果として、ブロック毎に異なるフィルタのパラメタを出力することにより、時系列的な変化に対応できるようになる。
実施の形態2.
 実施の形態1では、混合信号ブロック分割部118a及び学習用信号ブロック分割部118bで分割したブロック毎に、フィルタ推定部118cがフィルタを推定している。実施の形態2では、ブロック毎ではなく、1つのブロック内の時刻毎に異なるフィルタを推定する、言い換えると、フィルタを逐次的に更新することによって、ブロック内の時系列的な変化に対応できるようにする。
 図1に示されているように、実施の形態2に係る音源分離システム200は、音源分離モデル学習装置210と、音源分離装置130とを備える。
 実施の形態2における音源分離装置130は、実施の形態1における音源分離装置130と同様である。
 図2に示されているように、実施の形態2における音源分離モデル学習装置210は、学習側入力部111と、混合信号生成部112と、学習側信号処理部113と、学習側特徴量抽出部114と、学習側音源分離モデル記憶部115と、学習側モデル推論部116と、学習側信号抽出部117と、信号変形部218と、モデル更新部119と、学習側通信部120とを備える。
 実施の形態2における学習側入力部111、混合信号生成部112、学習側信号処理部113、学習側特徴量抽出部114、学習側音源分離モデル記憶部115、学習側モデル推論部116、学習側信号抽出部117、モデル更新部119及び学習側通信部120は、実施の形態1における学習側入力部111、混合信号生成部112、学習側信号処理部113、学習側特徴量抽出部114、学習側音源分離モデル記憶部115、学習側モデル推論部116、学習側信号抽出部117、モデル更新部119及び学習側通信部120と同様である。
 図13は、実施の形態2における信号変形部218の構成を概略的に示すブロック図である。
 信号変形部218は、混合信号ブロック分割部118aと、学習用信号ブロック分割部118bと、フィルタ適用部218dと、ブロック結合部118eと、フィルタパラメタ記憶部218fと、フィルタ更新部218gとを備える。
 実施の形態2における混合信号ブロック分割部118a、学習用信号ブロック分割部118b及びブロック結合部118eは、実施の形態1における混合信号ブロック分割部118a、学習用信号ブロック分割部118b及びブロック結合部118eと同様である。
 フィルタパラメタ記憶部218fは、フィルタ適用部218dで使用するフィルタパラメタを記憶する。
 例えば、フィルタパラメタ記憶部218fは、予め定められた期間に対応するサンプル毎にフィルタパラメタを記憶する。
 フィルタ適用部218dは、複数の目的音ブロック信号に対して、フィルタパラメタ記憶部218fに記憶されているフィルタパラメタを適用することで、フィルタパラメタの対応する時刻における処理済サンプル信号を生成する。処理済サンプル信号は、フィルタ更新部218gに与えられる。言い換えると、フィルタ適用部218dは、サンプル毎に、複数の目的音ブロック信号から選択された部分にフィルタパラメタを適用することで処理済みサンプル信号を生成する。
 また、フィルタ適用部218dは、生成された処理済サンプル信号を、複数の目的音ブロック信号の各々で結合することで、複数の変形ブロック信号を生成する。複数の変形ブロック信号は、ブロック結合部118eに与えられる。
 フィルタ更新部218gは、フィルタ適用部218dから与えられる処理済サンプル信号を、処理済学習用混合信号の対応する部分に近づけるように、フィルタパラメタ記憶部218fに記憶されているフィルタパラメタを更新する。
 図14は、実施の形態2における信号変形部218の動作を示すフローチャートである。
 なお、図14に示されているフローチャートに含まれているステップの内、図8に示されているフローチャートに含まれているステップの処理と同様の処理を行うステップには、図8に示されているフローチャートに含まれているステップと同じ符号を付している。
 図14に示されているフローチャートに含まれているステップS20及びS21での処理は、図8に示されているフローチャートに含まれているステップS20及びS21での処理と同様である。但し、図14においては、ステップS21の処理の後は、処理はステップS40に進む。
 ステップS40では、フィルタ適用部218dは、学習用信号ブロック分割部118bから受け取った複数の目的音ブロック信号から、未選択の1つの目的音ブロック信号を選択する。
 次に、フィルタ更新部218gは、フィルタパラメタの初期値を決定して、その初期値をフィルタパラメタ記憶部218fに記憶する(S41)。フィルタ適用部218dで使用されるフィルタがFIRフィルタである場合、フィルタ更新部218gは、例えば、図8に示されているフローチャートのステップS22での処理と同様の処理を行うことで、フィルタパラメタの初期値を推定すればよい。
 次に、フィルタ適用部218dは、ステップS40で選択された目的音ブロック信号の内、処理済サンプル信号が未だ生成されていないサンプルの中で先頭に位置するサンプルを選択する(S42)。
 次に、フィルタ適用部218dは、フィルタパラメタ記憶部218fに記憶されているフィルタパラメタを読み出して、読み出されたフィルタパラメタを、目的音ブロック信号の内の選択されたサンプルに対応する部分に適用することで、処理済サンプル信号を生成する(S43)。生成された処理済サンプル信号は、フィルタ更新部218gに与えられる。
 次に、フィルタ更新部218gは、フィルタ適用部218dからの処理済サンプル信号、混合信号ブロック分割部118aからの混合ブロック信号、及び、学習用信号ブロック分割部118bからの目的音ブロック信号を用いて、フィルタパラメタ記憶部218fに記憶されているフィルタパラメタを更新する(S44)。例えば、フィルタがFIRフィルタである場合、フィルタパラメタの更新方法として、公知のNLMS(Normalized Least Mean Square)アルゴリズム、又は、RLS(Recursive Least Square)アルゴリズム等が使用できる。なお、フィルタ更新部218gが更新を行なう際に、フィルタ適用部218dでの処理が必要となる場合がある。
 次に、フィルタ適用部218dは、選択された目的音ブロック信号に含まれている全てのサンプルから処理済サンプル信号を生成したか否かを判断する(S45)。全てのサンプルから処理済サンプル信号が生成されている場合(S45でYes)には、処理はステップS46に進み、処理済サンプル信号が生成されていないサンプルが残っている場合(S45でNo)には、処理はステップS42に戻る。
 ステップS46では、フィルタ適用部218dは、サンプル毎に生成された処理済みサンプル信号を連結することで変形ブロック信号を生成する。変形ブロック信号は、ブロック結合部118eに与えられる。
 次に、フィルタ適用部218dは、学習用信号ブロック分割部118bから与えられた全ての目的音ブロック信号を選択したか否かを判断する(S47)。全ての目的音ブロック信号を選択した場合(S47でYes)には、処理はステップS24に進み、未だ選択していない目的音ブロック信号が残っている場合(S47でNo)には、処理はステップS40に戻る。
 そして、ブロック結合部118eは、図8のステップS24での処理と同様に、ブロック毎に分割された状態の変形ブロック信号を接合して、変形目的音信号を生成する(S24)。
 以上のように、実施の形態2によれは、フィルタが逐次的に更新されるため、学習側信号処理部113及び活用側信号処理部134が適応的な処理を行う場合でも、学習側信号処理部113及び活用側信号処理部134の時系列的な変化に対応することができる。
 なお、実施の形態2では、フィルタ更新部218g及びフィルタ適用部218dが1サンプル毎にフィルタを更新し、変形ブロック信号を生成しているため、混合信号ブロック分割部118a、学習用信号ブロック分割部118b及びブロック結合部118eは、設けられていなくてもよい。
 このような場合には、フィルタ適用部218dは、抽出すべき目的音を示す信号に対し、フィルタパラメタ記憶部218fに記憶されているフィルタパラメタを適用することで、各々のフィルタパラメタが対応する時刻における処理済サンプル信号を生成する。
 フィルタ更新部218gは、処理済サンプル信号を、処理済学習用混合信号の対応する部分に近づけるように、フィルタパラメタを更新する。
 そして、フィルタ適用部218dは、生成された処理済みサンプル信号を結合することで、変形目的音信号を生成する。
 一方で、混合信号ブロック分割部118a、学習用信号ブロック分割部118b及びブロック結合部118eを設けることで、ブロック単位でフィルタ適用処理を並列に行って処理速度を向上させたり、ブロック単位でフィルタパラメタの候補グループを作成して、1サンプル毎のパラメタ抽出時にそのグループからパラメタを探索することで、パラメタ抽出速度を向上させたりすることができる。
 例えば、FIRフィルタが使用される場合、フィルタを推定するためには,ブロック分割時に各ブロックの長さをフィルタの長さよりも長く設定する必要がある。このため、実施の形態1のように、ブロック毎にフィルタを推定する場合は、学習側信号処理部113及び活用側信号処理部134の時系列的な変化に、少なくともFIRフィルタの長さの時間単位でなければ追従できない。一方で、実施の形態2のように、サンプル毎にフィルタを推定することで、学習側信号処理部113及び活用側信号処理部134の時系列的な変化に、サンプル毎の時間単位で、より細かく追従することができる。
 また、実施の形態2のように、フィルタパラメタ記憶部218fを備えることで、フィルタ更新部218gは、直前のフィルタ推定結果をフィルタパラメタ記憶部218fに保持しておいた上で、新たにサンプルが得られた際に、フィルタパラメタ記憶部218fに記録されているフィルタパラメタを、選択されたサンプルに応じ少しだけ変形させてから適用することができる。
 以上に記載された音源分離モデル学習装置110、210は、NNに基づく音源分離手法と、古典的な信号処理、機械学習を用いた処理又は未知の信号処理等に基づく信号処理手法を組み合わせた音源分離装置130を構成する際において、音源分離モデルの学習を促進し、音源分離性能を向上させる効果を有する。このため、例えば、騒音環境下で音声を認識させる装置において、古典的信号処理と、NNに基づく音源分離とを組み合わせて目的話者の発話音声を取り出すために使用することができる。なお、未知の信号処理には、古典的な信号処理又は機械学習を用いた処理が含まれてもよい。
 以上に記載された実施の形態1及び2は、音源分離モデル学習装置110、210及び音源分離装置130の二つの装置で構成されているが、実施の形態1及び2は、このような例に限定されない。例えば、音源分離モデル学習装置110、210及び音源分離装置130が一つの装置、例えば、一つの音源分離学習装置で構成されていてもよい。このような場合には、学習側通信部120及び活用側通信部131は、不要であり、学習側音源分離モデル記憶部115及び活用側音源分離モデル記憶部132は、音源分離モデルを記憶する音源分離モデル記憶部として統合することができる。
 100,200 音源分離システム、 110,210 音源分離モデル学習装置、 111 学習側入力部、 112 混合信号生成部、 113 学習側信号処理部、 114 学習側特徴量抽出部、 115 学習側音源分離モデル記憶部、 116 学習側モデル推論部、 117 学習側信号抽出部、 118,218 信号変形部、 118a 混合信号ブロック分割部、 118b 学習用信号ブロック分割部、 118c フィルタ推定部、 118d,218d フィルタ適用部、 118e ブロック結合部、 218f フィルタパラメタ記憶部、 218g フィルタ更新部、 119 モデル更新部、 120 学習側通信部、 130 音源分離装置、 131 活用側通信部、 132 活用側音源分離モデル記憶部、 133 活用側入力部、 134 活用側信号処理部、 135 活用側特徴量抽出部、 136 活用側モデル推論部、 137 活用側信号抽出部、 138 活用側出力部。

Claims (19)

  1.  複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部と、
     前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側モデル推論部と、
     前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部と、
     前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部と、を備えること
     を特徴とする音源分離モデル学習装置。
  2.  複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部と、
     前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する学習側特徴量抽出部と、
     前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成する学習側モデル推論部と、
     前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側信号抽出部と、
     前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部と、
     前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部と、を備えること
     を特徴とする音源分離モデル学習装置。
  3.  前記予め定められた処理は、前記複数の目的音を抽出しやすくする処理であること
     を特徴とする請求項1又は2に記載の音源分離モデル学習装置。
  4.  前記予め定められた処理は、前記複数の目的音を強調する処理であること
     を特徴とする請求項1から3の何れか一項に記載の音源分離モデル学習装置。
  5.  前記信号変形部は、
     前記一つの目的音を前記一つの処理済目的音に近づけるためのフィルタを推定するフィルタ推定部と、
     前記一つの目的音を示す信号に前記フィルタを適用することで、前記変形目的音信号を生成するフィルタ適用部と、を備えること
     を特徴とする請求項1から4の何れか一項に記載の音源分離モデル学習装置。
  6.  前記信号変形部は、
     前記処理済学習用混合信号を複数のブロックに分割することで、複数の混合ブロック信号を生成する第1のブロック分割部と、
     前記一つの目的音を示す信号を複数のブロックに分割することで、複数の目的音ブロック信号を生成する第2のブロック分割部と、
     前記複数の目的音ブロック信号の各々で示される音を、前記複数の混合ブロック信号で示される音の内、前記一つの目的音に対応する音に近づけるためのフィルタを推定することで、複数のフィルタを推定するフィルタ推定部と、
     前記複数の目的音ブロック信号の各々に、前記複数のフィルタの各々を適用することで、複数の変形ブロック信号を生成するフィルタ適用部と、
     前記複数の変形ブロック信号を結合することで、前記変形目的音信号を生成するブロック結合部と、を備えること
     を特徴とする請求項1から4の何れか一項に記載の音源分離モデル学習装置。
  7.  前記信号変形部は、
     予め定められた期間に対応するサンプル毎にフィルタパラメタを記憶するフィルタパラメタ記憶部と、
     前記サンプル毎に、前記一つの目的音を示す信号から選択された部分に前記フィルタパラメタを適用することで、処理済サンプル信号を生成するとともに、前記処理済みサンプル信号を結合することで前記変形目的音信号を生成するフィルタ適用部と、
     前記処理済サンプル信号を、前記処理済学習用混合信号の対応する部分に近づけるように、前記フィルタパラメタを更新するフィルタ更新部と、を備えること
     を特徴とする請求項1から4の何れか一項に記載の音源分離モデル学習装置。
  8.  前記信号変形部は、
     前記処理済学習用混合信号を複数のブロックに分割することで、複数の混合ブロック信号を生成する第1のブロック分割部と、
     前記一つの目的音を示す信号を複数のブロックに分割することで、複数の目的音ブロック信号を生成する第2のブロック分割部と、
     予め定められた期間に対応するサンプル毎にフィルタパラメタを記憶するフィルタパラメタ記憶部と、
     前記サンプル毎に、前記一つの目的音を示す信号から選択された部分に前記フィルタパラメタを適用することで、処理済サンプル信号を生成するとともに、前記処理済みサンプル信号を、前記複数の目的音ブロック信号の各々で結合することで、複数の変形ブロック信号を生成するフィルタ適用部と、
     前記処理済サンプル信号を、前記処理済学習用混合信号の対応する部分に近づけるように、前記フィルタパラメタを更新するフィルタ更新部と、
     前記複数の変形ブロック信号を結合することで、前記変形目的音信号を生成するブロック結合部と、を備えること
     を特徴とする請求項1から4の何れか一項に記載の音源分離モデル学習装置。
  9.  前記モデル更新部は、前記複数の学習用抽出信号と、前記複数の変形目的音信号との差分が小さくなるように、前記学習側音源分離モデルを更新すること
     を特徴とする請求項1から8の何れか一項に記載の音源分離モデル学習装置。
  10.  複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部と、
     前記複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側モデル推論部と、を備えること
     を特徴とする音源分離装置。
  11.  複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部と、
     前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成する活用側特徴量抽出部と、
     前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成する活用側モデル推論部と、
     前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記抽出された音を少なくとも示し、前記複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側信号抽出部と、を備えること
     を特徴とする音源分離装置。
  12.  コンピュータを、
     複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部、
     前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側モデル推論部、
     前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部、及び、
     前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部、として機能させること
     を特徴とするプログラム。
  13.  コンピュータを、
     複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部、
     前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する学習側特徴量抽出部、
     前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成する学習側モデル推論部、
     前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側信号抽出部、
     前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部、及び、
     前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部、として機能させること
     を特徴とするプログラム。
  14.  コンピュータを、
     複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部、及び、
     前記複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側モデル推論部、として機能させること
     を特徴とするプログラム。
  15.  コンピュータを、
     複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部、
     前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成する活用側特徴量抽出部、
     前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成する活用側モデル推論部、及び、
     前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記抽出された音を少なくとも示し、前記複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側信号抽出部、として機能させること
     を特徴とするプログラム。
  16.  複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、
     前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、
     前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、
     前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新すること
     を特徴とする音源分離モデル学習方法。
  17.  複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、
     前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、
     前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、
     前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、
     前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、
     前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新すること
     を特徴とする音源分離モデル学習方法。
  18.  複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成し、
     前記複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成すること
     を特徴とする音源分離方法。
  19.  複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成し、
     前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成し、
     前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成し、
     前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記抽出された音を少なくとも示し、前記複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成すること
     を特徴とする音源分離方法。
PCT/JP2020/024930 2020-06-25 2020-06-25 音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法 WO2021260868A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2020/024930 WO2021260868A1 (ja) 2020-06-25 2020-06-25 音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法
JP2022532167A JP7138824B2 (ja) 2020-06-25 2020-06-25 音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/024930 WO2021260868A1 (ja) 2020-06-25 2020-06-25 音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法

Publications (1)

Publication Number Publication Date
WO2021260868A1 true WO2021260868A1 (ja) 2021-12-30

Family

ID=79282089

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/024930 WO2021260868A1 (ja) 2020-06-25 2020-06-25 音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法

Country Status (2)

Country Link
JP (1) JP7138824B2 (ja)
WO (1) WO2021260868A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200051580A1 (en) * 2019-07-30 2020-02-13 Lg Electronics Inc. Method and apparatus for sound processing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200051580A1 (en) * 2019-07-30 2020-02-13 Lg Electronics Inc. Method and apparatus for sound processing

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ITO, NOBUTAKA ET AL.: "RELAXED DISJOINTNESS BASED CLUSTERING FOR JOINT BLIND SOURCE SEPARATION AND DEREVERBERATION", PROC. OF 2014 14TH INTERNATIONAL WORKSHOP ON ACOUSTIC SIGNAL ENHANCEMENT (IWAENC, 8 September 2014 (2014-09-08), pages 268 - 272, XP032683878, DOI: 10.1109/IWAENC.2014.6954300 *
SHIOZAWA, KOICHIRO ET AL.: "Study on Noise Suppression by Differential-type Microphone Array and Machine Learning of 2D Spectrum", IEICE TECHNICAL REPORT, vol. 119, no. 163, 1 August 2019 (2019-08-01), pages 53 - 58 *

Also Published As

Publication number Publication date
JP7138824B2 (ja) 2022-09-16
JPWO2021260868A1 (ja) 2021-12-30

Similar Documents

Publication Publication Date Title
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
Li et al. Acoustic Modeling for Google Home.
CN110867181B (zh) 基于scnn和tcnn联合估计的多目标语音增强方法
JP4496186B2 (ja) 音源分離装置、音源分離プログラム及び音源分離方法
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及***
EP1993320B1 (en) Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium
JP6789455B2 (ja) 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム
KR101807961B1 (ko) Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치
EP2081189A1 (en) Post-filter for beamforming means
JP2010224321A (ja) 信号処理装置
CN112037809A (zh) 基于多特征流结构深度神经网络的残留回声抑制方法
Liu et al. Deep CASA for talker-independent monaural speech separation
KR20220022286A (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
KR100647826B1 (ko) 측정된 잡음을 고려한 암묵 반향제거 모델 및 그 유도방법
CN111312275A (zh) 一种基于子带分解的在线声源分离增强***
US20230060081A1 (en) Signal processing device, signal processing method, and program
WO2021260868A1 (ja) 音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法
JP3756828B2 (ja) 反響消去方法、この方法を実施する装置、プログラムおよびその記録媒体
JP6404780B2 (ja) ウィナーフィルタ設計装置、音強調装置、音響特徴量選択装置、これらの方法及びプログラム
Le et al. Personalized speech enhancement combining band-split rnn and speaker attentive module
Sawata et al. Diffiner: A Versatile Diffusion-based Generative Refiner for Speech Enhancement
CN116935879A (zh) 一种基于深度学习的两阶段网络降噪和去混响方法
JPH09321860A (ja) 残響除去方法及び装置
JP2020012980A (ja) 信号処理装置、信号処理プログラム、信号処理方法、及び収音装置
Shamsa et al. Noise reduction using multi-channel FIR warped Wiener filter

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20941740

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022532167

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20941740

Country of ref document: EP

Kind code of ref document: A1