JP7376896B2 - Learning device, learning method, learning program, generation device, generation method, and generation program - Google Patents
Learning device, learning method, learning program, generation device, generation method, and generation program Download PDFInfo
- Publication number
- JP7376896B2 JP7376896B2 JP2020092463A JP2020092463A JP7376896B2 JP 7376896 B2 JP7376896 B2 JP 7376896B2 JP 2020092463 A JP2020092463 A JP 2020092463A JP 2020092463 A JP2020092463 A JP 2020092463A JP 7376896 B2 JP7376896 B2 JP 7376896B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- model
- label
- feature amount
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 58
- 238000004364 calculation method Methods 0.000 claims description 106
- 238000013507 mapping Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000007423 decrease Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 28
- 238000012545 processing Methods 0.000 description 25
- 230000005236 sound signal Effects 0.000 description 23
- 238000000926 separation method Methods 0.000 description 22
- 230000015572 biosynthetic process Effects 0.000 description 15
- 230000000704 physical effect Effects 0.000 description 15
- 238000003786 synthesis reaction Methods 0.000 description 15
- 238000002474 experimental method Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 12
- 239000000284 extract Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 2
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 2
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 2
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000010454 slate Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
特許法第30条第2項適用 2020年 日本音響学会春季研究発表会 講演論文集 発行日 2020年3月2日Application of Article 30, Paragraph 2 of the Patent Act 2020 Acoustical Society of Japan Spring Research Presentation Collection of Lectures Publication Date March 2, 2020
本発明は、学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラムに関する。 The present invention relates to a learning device, a learning method, a learning program, a generation device, a generation method, and a generation program.
従来、目的音声の物理的な性質に基づき、音響信号から目的音声の信号を分離する音源分離という技術が知られている。音源分離では、例えば、目的音声の到来方向、音響的性質、音色、声質、音源の統計的な独立性、要素信号の共通性といった物理的な性質が利用される。 Conventionally, a technique called sound source separation is known in which a signal of a target voice is separated from an acoustic signal based on the physical properties of the target voice. Sound source separation utilizes, for example, physical properties such as direction of arrival of target speech, acoustic properties, timbre, voice quality, statistical independence of sound sources, and commonality of element signals.
例えば、音源分離として、目的話者が実際に発した音声を使って音源分離モデルを当該目的話者に適応させることにより、混合音声から目的話者の音声を分離する技術が知られている(例えば、非特許文献1を参照)。 For example, there is a known technology for sound source separation in which the target speaker's voice is separated from mixed speech by adapting a source separation model to the target speaker using the voice actually uttered by the target speaker ( For example, see Non-Patent Document 1).
しかしながら、従来の技術には、目的音声の物理的性質が未知であったり、音響信号中に目的音声と類似の物理的性質を有する音声の信号が含まれる場合、精度良く音源分離を行うことができない場合があるという問題がある。 However, when the physical properties of the target voice are unknown or the acoustic signal contains a voice signal with similar physical properties to the target voice, conventional techniques cannot perform sound source separation with high accuracy. The problem is that it may not be possible.
例えば、非特許文献1に記載の技術では、実際に適応用の音声が得られた第1の音源からの音声を分離することはできるが、当該第1の音源と音声の物理的性質が類似する第2の音源については、当該第2の音源から適応用の音声を得ていない場合、音声を分離することは難しい。
For example, with the technology described in Non-Patent
上述した課題を解決し、目的を達成するために、学習装置は、意味を解釈可能な態様でラベルを表現した情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出する第1の特徴量算出部と、音響信号を前記第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出する第2の特徴量算出部と、前記第1の特徴量及び前記第2の特徴量を基に生成されるマスクであって、前記音響信号から前記ラベルに対応する成分を抽出するためのマスクを評価するための指標を算出する指標算出部と、前記指標が最適化されるように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する更新部と、を有することを特徴とする。 In order to solve the above-mentioned problems and achieve the purpose, the learning device uses a first model to map a first feature amount, which is a mapping of information representing a label in a manner in which the meaning can be interpreted, into a first space. a second feature amount calculation section that calculates a second feature amount by mapping the acoustic signal to the first space using a second model; Index calculation that calculates an index for evaluating a mask generated based on the first feature amount and the second feature amount for extracting a component corresponding to the label from the acoustic signal. and an updating unit that updates the parameters of the first model and the parameters of the second model so that the index is optimized.
本発明によれば、目的音声の物理的性質が未知であっても、音響信号中に目的音声と類似の物理的性質を有する音声の信号が含まれていても精度良く音源分離を行うことができる。 According to the present invention, even if the physical properties of the target voice are unknown, even if the acoustic signal contains a signal of a voice having similar physical properties to the target voice, it is possible to perform sound source separation with high accuracy. can.
以下に、本願に係る学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。 DESCRIPTION OF EMBODIMENTS Below, embodiments of a learning device, a learning method, a learning program, a generating device, a generating method, and a generating program according to the present application will be described in detail based on the drawings. Note that the present invention is not limited to the embodiments described below.
[第1の実施形態]
第1の実施形態に係る学習装置は、音源分離のための音源分離モデルの学習を行う。本実施形態における音源分離モデルは、ラベルを特定可能な情報及び音響信号の入力を受け付け、音響信号から目的音声の成分を抽出するためのマスクを推定する。なお、目的音声を発する音源を目的音源と呼ぶ。ラベルは、目的音源を識別するための情報である。また、ラベルを特定可能な情報を、ラベル情報と呼ぶ。
[First embodiment]
The learning device according to the first embodiment performs learning of a sound source separation model for sound source separation. The sound source separation model in this embodiment accepts input of information that allows identification of a label and an audio signal, and estimates a mask for extracting components of target speech from the audio signal. Note that the sound source that emits the target sound is called a target sound source. The label is information for identifying the target sound source. Further, information that allows identification of a label is called label information.
本実施形態の音源分離モデルは、ラベル情報を基にラベルを特定することができる。ラベル情報は、意味を解釈可能な態様でラベルを表現した情報であればよい。例えば、意味を解釈可能な態様には、言語が含まれる。このため、ラベル情報は文字列で表現されたものであってもよい。 The sound source separation model of this embodiment can identify a label based on label information. The label information may be any information that expresses the label in a manner that allows its meaning to be interpreted. For example, aspects in which meaning can be interpreted include language. Therefore, the label information may be expressed as a character string.
例えば、「ヴァイオリン」という文字列については、楽器の一種であるヴァイオリンを意味するものと解釈可能である。このため、本実施形態の音源分離モデルは、「ヴァイオリン」という文字列がラベル情報として入力されれば、ラベルがヴァイオリンであることを特定する。つまり、音源分離モデルは、「ヴァイオリン」という文字列がラベル情報として入力されれば、ヴァイオリンの音を目的音声として分離するためのマスクを推定する。 For example, the character string "violin" can be interpreted to mean a violin, which is a type of musical instrument. Therefore, if the character string "violin" is input as label information, the sound source separation model of this embodiment identifies that the label is violin. In other words, if the character string "violin" is input as label information, the sound source separation model estimates a mask for separating the violin sound as the target sound.
これに対し、例えば非特許文献1に記載の技術では、ヴァイオリンの音を目的音声として分離するためには、実際にヴァイオリンを演奏して得られた音声の信号をモデルに入力する必要があった。
On the other hand, in the technology described in Non-Patent
ラベル情報は、文字列で表現されたものに限られない。例えば、ラベル情報は、ラベルによって識別される物体が写った画像、ラベルに対応する単語列を含む発話の音声から得られる信号等であってもよい。なお、ラベル情報が音声信号である場合、本実施形態の音源分離モデルは、当該音声の信号の物理的性質ではなく、当該音声に含まれる言語的意味内容に基づきラベルを特定する。以下の説明では、音声を観測して得られる信号を音響信号と呼ぶ場合がある。 Label information is not limited to what is expressed as a character string. For example, the label information may be an image of the object identified by the label, a signal obtained from the audio of an utterance that includes a word string corresponding to the label, or the like. Note that when the label information is an audio signal, the sound source separation model of this embodiment specifies the label based on the linguistic semantic content included in the audio, rather than the physical properties of the audio signal. In the following description, a signal obtained by observing a sound may be referred to as an acoustic signal.
[第1の実施形態の構成]
まず、図1を用いて、第1の実施形態に係る生成装置の構成について説明する。図1は、第1の実施形態に係る学習装置の構成例を示す図である。図1に示すように、学習装置10は、ラベル特徴量算出部101、スペクトログラム特徴量算出部102、マスク生成部103、指標算出部104、更新部105を有する。また、学習装置10は、ラベルエンコーダ情報111及びオーディオエンコーダ情報112を記憶する。
[Configuration of first embodiment]
First, the configuration of the generation device according to the first embodiment will be described using FIG. 1. FIG. 1 is a diagram showing a configuration example of a learning device according to a first embodiment. As shown in FIG. 1, the learning device 10 includes a label
ラベル特徴量算出部101は、ラベルを特定可能なラベル情報を入力とし、ラベル情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出し、出力する。ラベルエンコーダ情報111は、第1のモデルを構築するための情報である。第1のモデルがニューラルネットワークである場合、ラベルエンコーダ情報111は、各ユニットの重みやバイアス等のパラメータである。
The label
スペクトログラム特徴量算出部102は、音響信号を入力とし、入力された音響信号(以下、入力音響信号と記載)を第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出し、出力する。オーディオエンコーダ情報112は、第2のモデルを構築するための情報である。第2のモデルがニューラルネットワークである場合、オーディオエンコーダ情報112は、各ユニットの重みやバイアス等のパラメータである。
The spectrogram
マスク生成部103は、第1の特徴量及び第2の特徴量を入力とし、第1の特徴量及び第2の特徴量を基に、音響信号からラベルに対応する成分を抽出するためのマスクを生成し、出力する。指標算出部104は、第1の特徴量及び第2の特徴量を基に生成されるマスクであって、音響信号からラベルに対応する成分を抽出するためのマスクを入力とし、マスクを評価するための指標を算出し、出力する。更新部105は、指標を入力とし、指標が最適化されるように、第1のモデルのパラメータ及び第2のモデルのパラメータを更新する。つまり、更新部105は、ラベルエンコーダ情報111及びオーディオエンコーダ情報112を更新し、出力する。
The
なお、指標算出部104は、マスク生成部103によって生成されたマスクを使用せずに指標を算出してもよい。この場合、本実施形態では、マスク生成部103はマスクを生成しなくてもよい。
Note that the
図2を用いて、学習装置10による学習処理を詳細に説明する。図2は、第1の実施形態に係る学習処理の流れを示す模式図である。なお、図2に示す各手法は一例であり、適宜他の手法に置き換えられてもよい。 The learning process by the learning device 10 will be explained in detail using FIG. 2. FIG. 2 is a schematic diagram showing the flow of learning processing according to the first embodiment. Note that each method shown in FIG. 2 is an example, and may be replaced with another method as appropriate.
図2に示すように、ラベル特徴量算出部101は、ラベル情報(Label input)を、ラベルエンコーダ(Label encoder)に入力する。ここでは、ラベル情報は、「Writing」、「Cough」等の文字列であるものとする。
As shown in FIG. 2, the label
ラベル特徴量算出部101は、ラベル情報に対し、One-hot encodingを行い、s次元のバイナリベクトル(Binary vector)に変換する。さらに、ラベル特徴量算出部101は、3層の全結合型ニューラルネットワーク(Fully connected network)にs次元のバイナリベクトルを入力し、1×1×h次元のベクトルであるラベル特徴量(Label feature)を得る。
The label
このように、ラベルエンコーダによれば、ラベル情報はh次元の潜在空間にマッピングされる。h次元の潜在空間は、第1の空間の一例である。また、全結合型ニューラルネットワークを含むラベルエンコーダは、第1のモデルの一例である。また、ラベル特徴量は、第1の特徴量の一例である。また、hは、第1の次元数の一例である。 In this way, according to the label encoder, label information is mapped to an h-dimensional latent space. The h-dimensional latent space is an example of the first space. Further, a label encoder including a fully connected neural network is an example of the first model. Further, the label feature amount is an example of the first feature amount. Further, h is an example of the first number of dimensions.
なお、図2に示すような、One-hot encoding及び3層の全結合型ニューラルネットワークを含むラベルエンコーダは、ラベル情報からラベル特徴量を得る手段の一例に過ぎない。例えば、ラベルエンコーダは、word2vec等のベクトル化手段、及びLSTM(例えば、参考文献1を参照)等を用いたものであってもよい。
参考文献1:Shota Ikawa, Kunio Kashino, “Acoustic event search with an onomatopoeic query: measuring distance between onomatopoeic words and sounds,” In Proc. Detection and Classification of Acoustic Scenes and Events (DCASE), 2018.
Note that a label encoder including one-hot encoding and a three-layer fully connected neural network as shown in FIG. 2 is only an example of a means for obtaining label features from label information. For example, the label encoder may use vectorization means such as word2vec, LSTM (for example, see Reference 1), and the like.
Reference 1: Shota Ikawa, Kunio Kashino, “Acoustic event search with an onomatopoeic query: measuring distance between onomatopoeic words and sounds,” In Proc. Detection and Classification of Acoustic Scenes and Events (DCASE), 2018.
また、ラベルエンコーダの性能によっては、単語だけでなく、文章や擬音語等がラベル情報として用いられてもよい。例えば、word2vecによれば、単語を組み合わせた文章をベクトルに変換することができる。 Furthermore, depending on the performance of the label encoder, not only words but also sentences, onomatopoeias, etc. may be used as label information. For example, word2vec allows you to convert sentences made up of words into vectors.
このように、ラベル特徴量算出部101は、意味を解釈可能な態様でラベルを表現した情報をh次元の潜在空間にマッピングしたラベル特徴量を、ラベルエンコーダを用いて算出する。また、ラベル特徴量算出部101は、文字列で表現されたラベルから作成されたベクトルをラベルエンコーダに入力して得られる出力を、ラベル特徴量として算出する。また、ラベル特徴量算出部101は、h次元の変数を少なくとも含む特徴量をラベル特徴量として算出する。
In this way, the label feature
特に、図2の例では、ラベル特徴量算出部101は、所定の単語を表すラベルから作成されたs次元(sはあらかじめ設定された単語数)のOne-hotベクトルを、ラベルエンコーダに含まれるニューラルネットワークに入力して得られる1×1×h(hはあらかじめ設定された任意の数)次元の特徴量をラベル特徴量として算出する。
In particular, in the example of FIG. 2, the label
一方、スペクトログラム特徴量算出部102は、入力音響信号(Audio input)をオーディオエンコーダに入力する。まず、スペクトログラム特徴量算出部102は、入力音響信号の振幅スペクトログラムを算出する。例えば、スペクトログラム特徴量算出部102は、64msのハミング窓からなるフレームを8msずつずらしながらSTFT(短時間フーリエ変換)を行うことでf×tの振幅スペクトログラムを算出する。ただし、f及びtは、それぞれ周波数ビンの数及び時間ビンの数である。
On the other hand, the spectrogram
さらに、スペクトログラム特徴量算出部102は、振幅スペクトログラムをAudio U-Net(例えば、参考文献2を参照)に入力し、f×t×h次元のベクトルであるスペクトログラム特徴量(Spectrogram feature)を得る。
参考文献2:Rouditchenko, Andrew, et al. “Self-supervised Audio-visual Co-segmentation.” IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019.
Furthermore, the spectrogram
Reference 2: Rouditchenko, Andrew, et al. “Self-supervised Audio-visual Co-segmentation.” IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019.
ここで、振幅スペクトログラムは、各時間の振幅スペクトルを時間的につなげたものである。また、パワースペクトログラムは、振幅スペクトログラムを2乗したものである。例えば、スペクトログラム特徴量算出部102は、振幅スペクトログラムの代わりに、パワースペクトログラムの対数値をAudio U-Netに入力し、スペクトログラム特徴量を得るようにしてもよい。また、以降の説明では、振幅スペクトログラムを単にスペクトログラムと呼ぶ。
Here, the amplitude spectrogram is a temporal connection of amplitude spectra at each time. Further, the power spectrogram is the amplitude spectrogram squared. For example, the spectrogram
スペクトログラム特徴量は、スペクトログラムのサイズf×tを保持したh次元の特徴ベクトルの集合ということができる。また、スペクトログラム特徴量算出部102は、入力音響信号から得られたスペクトログラムをミニバッチ処理するために、スペクトログラムの時間フレーム数がtより長い場合はt以降を切り捨て、tよりも短い場合は0埋めをしてもよい。
The spectrogram feature amount can be said to be a set of h-dimensional feature vectors holding the spectrogram size f×t. In addition, in order to perform mini-batch processing on the spectrogram obtained from the input acoustic signal, the spectrogram
このように、オーディオエンコーダによれば、入力音響信号はh次元の潜在空間にマッピングされる。また、Audio U-Netを含むオーディオエンコーダは、第2のモデルの一例である。また、スペクトログラム特徴量は、第2の特徴量の一例である。 Thus, according to the audio encoder, the input audio signal is mapped into an h-dimensional latent space. Furthermore, an audio encoder including Audio U-Net is an example of the second model. Further, the spectrogram feature amount is an example of the second feature amount.
なお、図2に示すような、STFT及びAudio U-Netを含むオーディオエンコーダは、入力音響信号からスペクトログラム特徴量を得る手段の一例に過ぎない。例えば、オーディオエンコーダは、STFTの代わりに、MFCC(メル周波数ケプストラム係数;Mel Frequency Cepstrum Coefficients)、帯域フィルタバンク、CNN(畳み込みニューラルネットワーク)等を用いるものであってもよい。また、オーディオエンコーダは、Audio U-Netの代わりに、CNNを組み合わせたモデルを用いるものであってもよい。 Note that the audio encoder including STFT and Audio U-Net as shown in FIG. 2 is only an example of means for obtaining spectrogram features from an input audio signal. For example, the audio encoder may use MFCC (Mel Frequency Cepstrum Coefficients), bandpass filter bank, CNN (Convolutional Neural Network), etc. instead of STFT. Furthermore, the audio encoder may use a model combining CNN instead of Audio U-Net.
このように、スペクトログラム特徴量算出部102は、h次元の変数と、時間に対応する変数と、周波数成分に対応する変数とを少なくとも含む特徴量をスペクトログラム特徴量として算出する。
In this way, the spectrogram feature
特に、図2の例では、スペクトログラム特徴量算出部102は、入力音響信号から作成されたf(fは周波数ビンの数)×t(tは時間ビンの数)次元のスペクトログラムを、オーディオエンコーダに含まれるニューラルネットワークに入力して得られるf×t×h次元の特徴量をスペクトログラム特徴量として算出する。
In particular, in the example of FIG. 2, the spectrogram
マスク生成部103は、ラベル特徴量及びスペクトログラム特徴量を基に、音響信号からラベルに対応する成分を抽出するためのマスクを生成する。図2に示すように、まず、マスク生成部103は、ラベル特徴量とスペクトログラム特徴量の内積(Dot product)を算出する。
The
そして、マスク生成部103は、内積を活性化関数に通すことで、マスクを得る。活性化関数をReLu6とし、ラベル特徴量をx、時間周波数点(f,t)のスペクトログラム特徴量をyf,tとすると、マスク生成部103は、時間周波数点(f,t)のマスクmf,tをReLu6(xTyf,t)のように算出することができる。なお、第1の実施形態のマスク生成部103によって得られる、時間周波数点ごとの要素を持つマスクを、後に説明するタイムマスクと区別して、スペクトログラムマスクと呼ぶ場合がある。
Then, the
指標算出部104は、ラベル特徴量とスペクトログラム特徴量の類似度を基に指標を算出する。指標算出部104は、内積そのものを指標としてもよいし、マスクを指標としてもよいし、マスクから算出される類似度(Similarity score)を指標としてもよい。また、指標算出部104は、内積以外にもL1距離、L2距離、Lp距離及び各種の統計的ダイバージェンスを用いて指標を算出することができる。また、図2の例では、マスク生成部103が内積を算出しているが、指標算出部104が内積を算出してもよい。更新部105は、指標が最小化されるようにラベルエンコーダのパラメータ及びオーディオエンコーダのパラメータを更新する。
The
学習装置10は、Triplet Lossによって各モデルの評価及び更新を行うことができる。図3は、Triplet Lossを説明する図である。図3において、関数f、関数gは、それぞれオーディオエンコーダ及びラベルエンコーダである。また、Aaは入力音響信号である。また、Laは、positiveなラベル、すなわち音響信号Aaに対応付けるためのラベルである。また、Lbは、negativeなラベル、すなわちpositiveなラベル以外のラベルである。また、Simは類似度を求める関数である。ペアデータの組み合わせの選び方は膨大であるが、一例として、参考文献3に記載の方法のように、ミニバッチに含まれるデータの中から、効率的な学習に有用なデータ、すなわちハードポジティブ(positiveなラベルをもつデータの中でアンカーとのロスが大きいもの)、ハードネガティブ(negativeなラベルをもつデータの中でアンカーとのロスが小さいもの)、を選べばよい。
参考文献3:Schroff, Florian, Dmitry Kalenichenko, and James Philbin. "Facenet: A unified embedding for face recognition and clustering." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
The learning device 10 can evaluate and update each model using Triplet Loss. FIG. 3 is a diagram explaining Triplet Loss. In FIG. 3, a function f and a function g are an audio encoder and a label encoder, respectively. Moreover, A a is an input acoustic signal. Further, L a is a positive label, that is, a label to be associated with the acoustic signal A a . Further, L b is a negative label, that is, a label other than a positive label. Further, Sim is a function for determining the degree of similarity. There are a huge number of ways to choose combinations of paired data, but as an example, the method described in Reference 3 uses data useful for efficient learning, that is, hard positives, from among the data included in the mini-batch. You can select a hard negative (data with a negative label that has a small loss with the anchor), and a hard negative (data with a negative label with a small loss with the anchor).
Reference 3: Schroff, Florian, Dmitry Kalenichenko, and James Philbin. "Facenet: A unified embedding for face recognition and clustering." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
指標算出部104は、音響信号に対応付けられたラベルから算出されたラベル特徴量とスペクトログラム特徴量との類似度が大きいほど小さくなり、かつ、音響信号に対応付けられたラベルと異なるラベルから算出されたラベル特徴量とスペクトログラム特徴量との類似度が大きいほど大きくなるような指標を算出する。
The
例えば、指標算出部104は、マスクのGMP(Global mean pooling)を類似度として算出することができる。GMPによれば、周波数成分と時間成分が集約されるため、指標算出部104は、f×t×1次元のマスクから、スカラである類似度を得ることができる。この場合、図3の関数Simは、GMPを得るための関数である。また、指標算出部104は、指標として、損失関数Sn-Spを算出することができる。
For example, the
また、指標算出部104は、参考文献4に記載された手法を用いて、(1)式のように損失関数を算出してもよい。
参考文献4:Yair Movshovitz-Attias, Alexander Toshev, Thomas K. Leung, Sergey Ioffe, and Saurabh Singh. No fuss distance metric learning using proxies. In ICCV, pages 360-368, 2017.
Furthermore, the
Reference 4: Yair Movshovitz-Attias, Alexander Toshev, Thomas K. Leung, Sergey Ioffe, and Saurabh Singh. No fuss distance metric learning using proxies. In ICCV, pages 360-368, 2017.
(1)式において、Bはミニバッチサイズである。各ミニバッチには、入力音響信号及びラベル情報の組み合わせが含まれている。xは、ラベルエンコーダから出力されるラベル特徴量である。yは、オーディオエンコーダから出力されるスペクトログラム特徴量である。i,j,kは、ミニバッチ内の入力音響信号及びラベル情報を識別するための識別子である。また、識別子が一致するxとyはpositiveなペアデータである。また、識別子が一致しないxとyはnegativeなペアデータである。例えば、negativeなペアは、ミニバッチの中からランダムに選ばれたものであってもよい。 In equation (1), B is the mini-batch size. Each mini-batch includes a combination of input audio signal and label information. x is a label feature output from the label encoder. y is a spectrogram feature output from the audio encoder. i, j, k are identifiers for identifying the input audio signal and label information within the mini-batch. Furthermore, x and y whose identifiers match are positive paired data. Moreover, x and y whose identifiers do not match are negative pair data. For example, negative pairs may be randomly selected from a mini-batch.
なお、マスクの各時間周波数点の値を、入力音響信号のスペクトログラムの各時間周波数点に乗じることで正解ラベルに対応する成分が抽出される。このため、入力音響信号に正解ラベルに対応する成分が多く含まれているほど、マスクの各要素の値は大きくなる傾向にあり、さらにGMPの値も大きくなることが考えられる。本実施形態の指標算出部104は、このような性質を利用して類似度を算出する。
Note that the component corresponding to the correct label is extracted by multiplying each time-frequency point of the spectrogram of the input acoustic signal by the value of each time-frequency point of the mask. Therefore, as the input acoustic signal contains more components corresponding to the correct label, the value of each element of the mask tends to increase, and the value of GMP also increases. The
なお、マスクは、目的外音の遮断又は減衰に使われる場合もある。そのような場合、positiveなペアとnegativeなペアの類似度の大小関係は逆転する場合がある。その場合、指標算出部104は、例えば損失関数の正負を逆転させる等の対応を行えばよい。
Note that masks may also be used to block or attenuate unintended sounds. In such a case, the magnitude of the similarity between the positive pair and the negative pair may be reversed. In that case, the
更新部105は、誤差逆伝播法等の手法を用いて、損失関数が最小化されるように、ラベルエンコーダとオーディオエンコーダの両方のパラメータを更新する。損失関数を最小化することは、マスクを最適化することを意味する。
The updating
[第1の実施形態の処理の流れ]
図4は、第1の実施形態に係る学習装置の処理の流れを示すフローチャートである。図4に示すように、まず、ラベル特徴量算出部101は、ラベルエンコーダにより、ラベル情報からラベル特徴量を算出する(ステップS101)。次に、スペクトログラム特徴量算出部102は、オーディオエンコーダにより、入力音響信号からスペクトログラム特徴量を算出する(ステップS102)。ここで、ステップS101とステップS102が実行される順番は逆であってもよい。また、ステップS101とステップS102は並行して実行されてもよい。
[Processing flow of the first embodiment]
FIG. 4 is a flowchart showing the flow of processing of the learning device according to the first embodiment. As shown in FIG. 4, first, the label
ここで、マスク生成部103は、ラベル特徴量とスペクトログラム特徴量の内積を算出する(ステップS103)。そして、マスク生成部103は、内積からスペクトログラムマスクを生成する(ステップS104)。さらに、指標算出部104は、スペクトログラムマスクを集約し類似度を算出する(ステップS105)。
Here, the
指標算出部104は、算出した類似度とnegativeペアデータの類似度を基に損失関数を算出する(ステップS106)。例えば、指標算出部104は、ステップS105とステップS106の間に、negativeペアデータの類似度を算出する処理を実行してもよい。そして、更新部105は、損失関数が最小化されるように各エンコーダのパラメータを更新する(ステップS107)。
The
ここで、学習装置10は、終了条件が充足されている場合(ステップS108、Yes)、処理を終了する。一方、学習装置10は、終了条件が充足されていない場合(ステップS108、No)、ステップS101に戻り更新済みの各モデルを使って処理を繰り返す。なお、例えば、終了条件は、用意されたミニバッチ内の全てのデータについて処理が実行済みであること、規定回数だけ処理が繰り返されたこと、パラメータの更新幅が収束したこと等である。 Here, if the termination condition is satisfied (step S108, Yes), the learning device 10 terminates the process. On the other hand, if the end condition is not satisfied (step S108, No), the learning device 10 returns to step S101 and repeats the process using each updated model. Note that, for example, the termination conditions include that all data in the prepared mini-batch have been processed, that the process has been repeated a specified number of times, that the parameter update width has converged, and so on.
[第1の実施形態の効果]
これまで説明してきたように、ラベル特徴量算出部101は、意味を解釈可能な態様でラベルを表現した情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出する。スペクトログラム特徴量算出部102は、音響信号を第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出する。指標算出部104は、第1の特徴量及び第2の特徴量を基に生成されるマスクであって、音響信号からラベルに対応する成分を抽出するためのマスクを評価するための指標を算出する。更新部105は、指標が最適化されるように、第1のモデルのパラメータ及び第2のモデルのパラメータを更新する。このように、学習装置10は、意味を解釈可能な態様で目的音声の音源を識別可能なラベルが表現されていれば、各モデルの学習を行うことができる。このため、第1の実施形態によれば、目的音声の物理的性質が未知であっても、音響信号中に目的音声と類似の物理的性質を有する音声の信号が含まれていても精度良く音源分離を行うことができる。
[Effects of the first embodiment]
As described above, the label
また、ラベル特徴量算出部101は、文字列で表現されたラベルから作成されたベクトルを第1のモデルに入力して得られる出力を、第1の特徴量として算出する。このように、学習装置10は、目的音声の物理的性質が未知の場合であっても、文字列のような人間が認識可能な態様で表現されたラベルを基に、音源分離モデルの学習を行うことができる。
Further, the label
また、ラベル特徴量算出部101は、第1の次元数の変数を少なくとも含む特徴量を第1の特徴量として算出する。スペクトログラム特徴量算出部102は、第1の次元数の変数と、時間に対応する変数と、周波数成分に対応する変数とを少なくとも含む特徴量を第2の特徴量として算出する。指標算出部104は、第1の特徴量と第2の特徴量の内積を基に指標を算出する。このように、学習装置10は、ラベルの特徴量と入力音響信号の特徴量を同一次元数の潜在空間にマッピングすることにより、容易に指標を算出することができる。
Further, the label feature
また、指標算出部104は、音響信号に対応付けられたラベルから算出された第1の特徴量と第2の特徴量との類似度が大きいほど小さくなり、かつ、音響信号に対応付けられたラベルと異なるラベルから算出された第1の特徴量と第2の特徴量との類似度が大きいほど大きくなるような指標を算出する。更新部105は、指標が最小化されるように第1のモデルのパラメータ及び第2のモデルのパラメータを更新する。このように、学習装置10は、距離指標を使ったTriplet Lossによる学習を行うことができる。
In addition, the
また、ラベル特徴量算出部101は、所定の単語を表すラベルから作成されたs次元(sはあらかじめ設定された単語数)のOne-hotベクトルを、第1のモデルであるニューラルネットワークに入力して得られる1×1×h(hはあらかじめ設定された任意の数)次元の特徴量を第1の特徴量として算出する。スペクトログラム特徴量算出部102は、音響信号から作成されたf(fは周波数ビンの数)×t(tは時間ビンの数)次元のスペクトログラムを、第2のモデルであるニューラルネットワークに入力して得られるf×t×h次元の特徴量を第2の特徴量として算出する。このように、学習装置10は、スペクトログラムの時間周波数方向の特徴を維持しつつ潜在空間にマッピングすることができる。
In addition, the label
[ラベルの付与方法について]
第1の実施形態では、学習用のデータとして、入力音響信号とラベル情報とを組み合わせたデータが入力される。第1の実施形態では、入力音響信号にラベルを付与する方法は任意の方法であってよい。例えば、専門家が入力音響信号を聴き、組み合わせるべきラベルを判断し付与することが考えられる。このように付与されたラベルを使った学習を、ここでは網羅的な教師あり学習と呼ぶ。
[About how to add labels]
In the first embodiment, data that is a combination of an input acoustic signal and label information is input as learning data. In the first embodiment, any method may be used to label the input acoustic signal. For example, it is conceivable that an expert listens to input audio signals, determines and assigns labels to be combined. Learning using labels assigned in this way is referred to here as exhaustive supervised learning.
しかしながら、網羅的な教師あり学習には、作業コストが大きいという問題がある。そこで、ラベルの付与を自動化する方法として、動画の音声と、当該動画に写っている物体を示すラベルとを対応付けることが考えられる。動画に写っている物体は、画像認識によって得ることができる。また、クラウドソーシング等を利用して大規模にラベル付与を行う方法が考えられる。 However, comprehensive supervised learning has the problem of high operational costs. Therefore, one possible method for automating label assignment is to associate the audio of a video with a label indicating an object in the video. Objects in videos can be identified through image recognition. Another possible method is to apply labels on a large scale using crowdsourcing or the like.
また、学習用の入力音響信号としてdry sourceが手に入るとは限らない。このため、入力音響信号には多数の雑音や残響が含まれることになり、ラベルと一対一に対応しない場合がある。さらに、上記のクラウドソーシング等では、非専門家がラベルの付与を行うため、基準がばらつくことが考えられる。 Furthermore, it is not always possible to obtain a dry source as an input audio signal for learning. Therefore, the input acoustic signal contains a lot of noise and reverberation, and may not correspond one-to-one with the labels. Furthermore, in the above-mentioned crowdsourcing etc., since labels are assigned by non-experts, standards may vary.
しかしながら、第1の実施形態では、ラベルを入力音響信号と必ずしも一対一で対応させる必要はない。例えば、入力音響信号に少なくとも「Writing」に対応する目的音声が含まれていれば、当該入力音響信号に「Writing」というラベルが付されていてもよい。そのような入力音響信号とラベルから算出された類似度は、少なくとも他のラベルから算出された類似度よりも、大きくなると考えられるためである。また、Triplet Lossは、このような網羅的な教師あり学習が行えない状況でも利用可能である。 However, in the first embodiment, the labels do not necessarily have to correspond one-to-one with the input acoustic signals. For example, if the input audio signal includes at least a target voice corresponding to "Writing", the input audio signal may be labeled "Writing". This is because the degree of similarity calculated from such an input acoustic signal and the label is considered to be greater than at least the degree of similarity calculated from other labels. Triplet Loss can also be used in situations where such exhaustive supervised learning is not possible.
[第2の実施形態]
第1の実施形態では、学習装置10は、ラベル特徴量及びスペクトログラム特徴量の内積を基に損失関数を算出していた。一方で、内積を基に生成されたマスクによれば、ラベルに対応する目的音声の成分を実際に分離し、合成した音響信号を出力することができる。第2の実施形態では、学習装置10は、合成した音響信号が最適化されるように学習を行う。
[Second embodiment]
In the first embodiment, the learning device 10 calculates the loss function based on the inner product of the label feature and the spectrogram feature. On the other hand, with a mask generated based on the inner product, it is possible to actually separate the components of the target speech corresponding to the label and output a synthesized acoustic signal. In the second embodiment, the learning device 10 performs learning so that the synthesized acoustic signal is optimized.
[第2の実施形態の構成]
図5を用いて、第2の実施形態に係る学習装置の構成について説明する。図5は、第2の実施形態に係る学習装置の構成例を示す図である。なお、図5において、第1の実施形態と同様の部分については、図1等と同様の符号を付し説明を省略する。図5に示すように、学習装置10aは、抽出部106、合成部107及び更新部108を有する。
[Configuration of second embodiment]
The configuration of the learning device according to the second embodiment will be described using FIG. 5. FIG. 5 is a diagram illustrating a configuration example of a learning device according to the second embodiment. Note that in FIG. 5, the same parts as in the first embodiment are given the same reference numerals as in FIG. 1, etc., and the description thereof will be omitted. As shown in FIG. 5, the learning device 10a includes an
前述の通り、スペクトログラム特徴量算出部102は、入力音響信号からスペクトログラム特徴量を算出する過程で、スペクトログラムを算出する。第2の実施形態では、スペクトログラム特徴量算出部102は、スペクトログラムを抽出部106に対し出力する。抽出部106は、スペクトログラム及びマスク生成部103によって生成されるマスクを入力とする。
As described above, the spectrogram feature
抽出部106は、スペクトログラムにマスクを適用し、所定の成分を抽出し、出力する。例えば、抽出部106は、スペクトログラムの各時間周波数成分にマスクの値を重みとして乗じてもよいし、マスクの値に基づいて抽出する成分を選択してもよい。
The
合成部107は、抽出部106によって抽出された成分を入力とし、抽出部106によって抽出された成分を基に、音響信号を合成し、出力する。例えば、合成部107は、時間周波数成分から正弦波パラメータを抽出し、正弦波加算合成を行うMcAulay-Quatieriの方法(例えば、参考文献5を参照)によって音響信号を合成してもよい。また、合成部107は、時間周波数成分に対して位相成分を反復処理により推定し復元するGriffin-Limの方法(例えば、参考文献6)によって音響信号を合成してもよい。
参考文献5:R. J. McAulay, T. F. Quatieri. Speech Analysis/Synthesis Based on a Sinusoidal Representation, IEEE Trans. ASSP, vol.34, no.4, pp.744-754, 1986.
参考文献6:D. W. Griffin and J. S. Lim. Signal estimation from modified short-time Fourier transform," IEEE Trans. ASSP, vol.32, no.2, pp. 236-243, 1984.
The synthesizing
Reference 5: RJ McAulay, TF Quatieri. Speech Analysis/Synthesis Based on a Sinusoidal Representation, IEEE Trans. ASSP, vol.34, no.4, pp.744-754, 1986.
Reference 6: DW Griffin and JS Lim. Signal estimation from modified short-time Fourier transform," IEEE Trans. ASSP, vol.32, no.2, pp. 236-243, 1984.
更新部108は、入力音響信号、及び、合成部107によって合成された音響信号を入力とし、音響信号に関する損失関数が最小化されるように、各モデルを更新し、更新したパラメータを出力する。例えば、更新部108は、第1の実施形態と同様にTriplet Lossを採用し、positiveなペアデータから合成された音響信号、negativeなペアデータから合成された音響信号とを基に算出された損失関数を最適化してもよい。
The updating
図6は、第2の実施形態に係る学習処理の流れを示す模式図である。図6に示すように、合成部107は、スペクトログラムとマスクとから出力音響信号(Audio output)を合成する。そして、更新部108は、Triplet Lossによりモデルを更新(Updating)する。
FIG. 6 is a schematic diagram showing the flow of learning processing according to the second embodiment. As shown in FIG. 6, the
[第2の実施形態の処理の流れ]
図7は、第2の実施形態に係る学習装置の処理の流れを示すフローチャートである。図7に示すように、まず、ラベル特徴量算出部101は、ラベルエンコーダにより、ラベル情報からラベル特徴量を算出する(ステップS121)。次に、スペクトログラム特徴量算出部102は、オーディオエンコーダにより、入力音響信号からスペクトログラム特徴量を算出する(ステップS122)。ここで、ステップS121とステップS122が実行される順番は逆であってもよい。また、ステップS121とステップS122は並行して実行されてもよい。
[Process flow of second embodiment]
FIG. 7 is a flowchart showing the process flow of the learning device according to the second embodiment. As shown in FIG. 7, the label
ここで、マスク生成部103は、ラベル特徴量とスペクトログラム特徴量の内積を算出する(ステップS123)。そして、マスク生成部103は、内積からスペクトログラムマスクを生成する(ステップS124)。そして、抽出部106は、入力音響信号にスペクトログラムマスクを適用し、所定の成分を抽出する(ステップS125)。また、合成部107は、抽出した成分を基に音響信号を合成する(ステップS126)。
Here, the
指標算出部104は、合成した音響信号を基に損失関数を算出する(ステップS127)。そして、指標算出部104は、損失関数が最小化されるように各エンコーダのパラメータを更新する(ステップS128)。
The
ここで、学習装置10aは、終了条件が充足されている場合(ステップS129、Yes)、処理を終了する。一方、学習装置10aは、終了条件が充足されていない場合(ステップS129、No)、ステップS121に戻り更新済みの各モデルを使って処理を繰り返す。なお、例えば、終了条件は、用意されたミニバッチ内の全てのデータについて処理が実行済みであること、規定回数だけ処理が繰り返されたこと、パラメータの更新幅が収束したこと等である。 Here, if the termination condition is satisfied (step S129, Yes), the learning device 10a terminates the process. On the other hand, if the termination condition is not satisfied (step S129, No), the learning device 10a returns to step S121 and repeats the process using each updated model. Note that, for example, the termination conditions include that all data in the prepared mini-batch have been processed, that the process has been repeated a specified number of times, that the parameter update width has converged, and so on.
[第2の実施形態の効果]
第2の実施形態の学習装置10aは、第1の実施形態の学習装置10と同様に、意味を解釈可能な態様で目的音声の音源を識別可能なラベルが表現されていれば、各モデルの学習を行うことができる。このため、第2の実施形態でも同様に、目的音声の物理的性質が未知であっても、音響信号中に目的音声と類似の物理的性質を有する音声の信号が含まれていても精度良く音源分離を行うことができる。
[Effects of the second embodiment]
Similar to the learning device 10 of the first embodiment, the learning device 10a of the second embodiment is capable of using each model as long as a label that allows the source of the target voice to be identified is expressed in a manner that allows interpretation of the meaning. Learning can be done. Therefore, in the second embodiment as well, even if the physical properties of the target voice are unknown, even if the acoustic signal contains a signal of a voice having similar physical properties to the target voice, the accuracy can be improved. Sound source separation can be performed.
[第3の実施形態]
第3の実施形態に係る生成装置は、学習済みの音源分離モデルを使って、マスクの生成やマスクを使った目的音声の分離を行う。音源分離モデルには、ラベルエンコーダ及びオーディオエンコーダが含まれる。
[Third embodiment]
The generation device according to the third embodiment uses a trained sound source separation model to generate a mask and separate target speech using the mask. The sound source separation model includes a label encoder and an audio encoder.
[第3の実施形態の構成]
まず、図8を用いて、第3の実施形態に係る生成装置の構成について説明する。図8は、第3の実施形態に係る学習装置の構成例を示す図である。図8に示すように、生成装置20は、ラベル特徴量算出部201、スペクトログラム特徴量算出部202、マスク生成部203、指標算出部204、抽出部206、合成部207を有する。また、生成装置20は、ラベルエンコーダ情報211及びオーディオエンコーダ情報212を記憶する。
[Configuration of third embodiment]
First, the configuration of the generation device according to the third embodiment will be described using FIG. 8. FIG. 8 is a diagram showing a configuration example of a learning device according to the third embodiment. As shown in FIG. 8, the generation device 20 includes a label
ラベル特徴量算出部201、スペクトログラム特徴量算出部202、マスク生成部203、指標算出部204、抽出部206、合成部207は、それぞれラベル特徴量算出部101、スペクトログラム特徴量算出部102、マスク生成部103、指標算出部104、抽出部106、合成部107と同様の機能を有する。また、ラベルエンコーダ情報211は、学習済みのラベルエンコーダの情報である。また、オーディオエンコーダ情報212は、学習済みのオーディオエンコーダの情報である。
The label
ラベル特徴量算出部201は、ラベルを特定可能なラベル情報を入力とし、当該ラベル情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出し、出力する。スペクトログラム特徴量算出部202は、入力音響信号を入力とし、入力音響信号を第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出し、出力する。
The label feature
マスク生成部203は、第1の特徴量及び第2の特徴量を入力とし、第1の特徴量及び第2の特徴量を基に、音響信号からラベルに対応する成分を抽出するためのマスクを生成し、出力する。指標算出部204は、第1の特徴量及び第2の特徴量を基に生成されるマスクを入力として、マスクの類似度を算出する。
The
抽出部206は、入力音響信号から得られるスペクトログラム及びマスクを入力とし、スペクトログラムに、マスクを適用し、所定の成分を抽出し、出力する。合成部207は、抽出部206によって抽出された成分を入力とし、成分を基に、音響信号を合成し、出力する。
The
例えば、合成部207は、時間周波数成分から正弦波パラメータを抽出し、正弦波加算合成を行うMcAulay-Quatieriの方法(例えば、参考文献5を参照)によって音響信号を合成してもよい。また、合成部207は、時間周波数成分に対して位相成分を反復処理により推定し復元するGriffin-Limの方法(例えば、参考文献6)によって音響信号を合成してもよい。
For example, the
生成装置20は、合成部207によって合成された出力音響信号を出力する。また、図8に示すように、生成装置20は、出力音響信号だけでなく、指標算出部204によって算出された類似度を出力してもよいし、マスク生成部203によって生成されたマスクを出力してもよい。
The generation device 20 outputs the output acoustic signal synthesized by the
図9は、第3の実施形態に係る生成処理の流れを示す模式図である。図9に示すように、第3の実施形態の生成装置20は、第1の実施形態及び第2の実施形態の学習装置と異なり、学習済みのモデルをあらかじめ記憶装置等に記憶し、当該モデルを用いてマスクの生成を行うものである。そのため、生成装置20は、更新部を有しておらず、モデルの更新に関する処理は行わない。ただし、生成装置20に学習装置と同等の学習機能を追加し、モデルの更新に関する処理を行うように構成することは妨げられない。 FIG. 9 is a schematic diagram showing the flow of generation processing according to the third embodiment. As shown in FIG. 9, unlike the learning devices of the first and second embodiments, the generation device 20 of the third embodiment stores a learned model in advance in a storage device, etc. This is used to generate a mask. Therefore, the generation device 20 does not have an update unit and does not perform processing related to updating the model. However, it is possible to add a learning function equivalent to that of the learning device to the generation device 20 and configure it to perform processing related to model updating.
[第3の実施形態の処理の流れ]
図10は、第3の実施形態に係る生成装置の処理の流れを示すフローチャートである。図10に示すように、まず、ラベル特徴量算出部201は、ラベルエンコーダにより、ラベル情報からラベル特徴量を算出する(ステップS201)。次に、スペクトログラム特徴量算出部202は、オーディオエンコーダにより、入力音響信号からスペクトログラム特徴量を算出する(ステップS202)。ここで、ステップS201とステップS202が実行される順番は逆であってもよい。また、ステップS201とステップS202は並行して実行されてもよい。
[Processing flow of third embodiment]
FIG. 10 is a flowchart showing the process flow of the generation device according to the third embodiment. As shown in FIG. 10, first, the label
ここで、マスク生成部203は、ラベル特徴量とスペクトログラム特徴量の内積を算出する(ステップS203)。そして、マスク生成部203は、内積からスペクトログラムマスクを生成する(ステップS204)。そして、抽出部206は、入力音響信号にスペクトログラムマスクを適用し、所定の成分を抽出する(ステップS205)。また、合成部207は、抽出した成分を基に音響信号を合成する(ステップS206)。
Here, the
生成装置20は、生成した音響信号を出力音響信号として出力する(ステップS207)。なお、生成装置20は、スペクトログラムマスクそのものを出力してもよいし、スペクトログラムマスクから算出された類似度を出力してもよい。 The generation device 20 outputs the generated acoustic signal as an output acoustic signal (step S207). Note that the generation device 20 may output the spectrogram mask itself, or may output the degree of similarity calculated from the spectrogram mask.
[第3の実施形態の効果]
これまで説明してきたように、ラベル特徴量算出部201は、意味を解釈可能な態様でラベルを表現した情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出する。スペクトログラム特徴量算出部202は、音響信号を第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出する。マスク生成部203は、第1の特徴量及び第2の特徴量を基に、音響信号からラベルに対応する成分を抽出するためのマスクを生成する。このように、生成装置20は、意味を解釈可能な態様で目的音声の音源を識別可能なラベルが表現されていれば、当該ラベルに応じたマスクを生成することができる。このため、第3の実施形態によれば、目的音声の物理的性質が未知であっても、音響信号中に目的音声と類似の物理的性質を有する音声の信号が含まれていても精度良く音源分離を行うことができる。
[Effects of the third embodiment]
As explained above, the label
[第4の実施形態]
これまでの実施形態では、マスクは、時間周波数点ごとの成分を抽出するためのものであった。一方で、マスクによって時間方向の音源分離を行いたい場合がある。特に、一定期間において、異なるラベルの音声が時間的に重複なく存在する場合、マスクによって各ラベルに対応する時間帯を特定できれば、各ラベルに対応する目的音声を分離することができると考えられる。
[Fourth embodiment]
In the previous embodiments, the mask was for extracting components for each time-frequency point. On the other hand, there are cases where it is desired to perform temporal sound source separation using a mask. In particular, if sounds with different labels exist without temporal overlap in a certain period of time, it is considered possible to separate the target sounds corresponding to each label if the time period corresponding to each label can be identified using a mask.
そこで、第4の実施形態では、図11に示すように、時間周波数点ごとの成分が周波数方向に集約された時間方向のマスク、すなわちタイムマスクを生成する。図11は、第4の実施形態に係る生成処理の流れを示す模式図である。 Therefore, in the fourth embodiment, as shown in FIG. 11, a mask in the time direction in which components of each time-frequency point are aggregated in the frequency direction, that is, a time mask is generated. FIG. 11 is a schematic diagram showing the flow of generation processing according to the fourth embodiment.
図11に示すように、スペクトログラム特徴量算出部202は、生成したスペクトログラム特徴量を周波数方向に集約する。このため、スペクトログラム特徴量の周波数方向のサイズは1となる。そして、マスク生成部203は、ラベル特徴量と集約済みのスペクトログラム特徴量の内積を算出する。
As shown in FIG. 11, the spectrogram
なお、マスク生成部203は、時間周波数点ごとの成分を含むスペクトログラムマスクを、さらに周波数方向に集約することによりタイムマスクを生成してもよい。その場合、スペクトログラム特徴量算出部202は、スペクトログラム特徴量の集約を行わない。
Note that the
また、図11に示すように、指標算出部204は、タイムマスクをさらに時間方向に集約することで、類似度を算出することができる。なお、スペクトログラムマスクは、第1のマスクの一例である。また、タイムマスクは、第2のマスクの一例である。
Further, as shown in FIG. 11, the
このように、タイムマスクは、スペクトログラムマスクの周波数成分を集約したマスクと言うことができる。例えば、タイムマスクの生成方法には、スペクトログラムマスクを実際に生成することなく、スペクトログラム特徴量をあらかじめ集約しておく第1の方法と、スペクトロマスクを実際に生成し集約を行う第2の方法がある。第1の方法には、計算量が削減されるという効果がある。一方、第2の方法には、スペクトログラムマスクとタイムマスクの両方を得ることができるという効果がある。 In this way, the time mask can be said to be a mask that aggregates the frequency components of the spectrogram mask. For example, there are two ways to generate a time mask: the first method is to aggregate spectrogram features in advance without actually generating a spectrogram mask, and the second method is to actually generate and aggregate spectrogram masks. be. The first method has the effect of reducing the amount of calculation. On the other hand, the second method has the advantage that both a spectrogram mask and a time mask can be obtained.
[第4の実施形態の処理の流れ]
図12は、第4の実施形態に係る生成装置の処理の流れを示すフローチャートである。図12に示すように、まず、ラベル特徴量算出部201は、ラベルエンコーダにより、ラベル情報からラベル特徴量を算出する(ステップS221)。次に、スペクトログラム特徴量算出部202は、オーディオエンコーダにより、入力音響信号から周波数成分を集約したスペクトログラム特徴量を算出する(ステップS222)。ここで、ステップS221とステップS222が実行される順番は逆であってもよい。また、ステップS221とステップS222は並行して実行されてもよい。
[Processing flow of fourth embodiment]
FIG. 12 is a flowchart showing the process flow of the generation device according to the fourth embodiment. As shown in FIG. 12, the label
ここで、マスク生成部203は、ラベル特徴量とスペクトログラム特徴量の内積を算出する(ステップS223)。そして、マスク生成部203は、内積からタイムマスクを生成する(ステップS224)。
Here, the
そして、生成装置20は、入力音響信号にタイムマスクを適用し、所定の成分を抽出する(ステップS225)。また、生成装置20は、抽出した成分を基に音響信号を合成する(ステップS226)。 Then, the generation device 20 applies a time mask to the input acoustic signal and extracts a predetermined component (step S225). Furthermore, the generation device 20 synthesizes an acoustic signal based on the extracted components (step S226).
生成装置20は、生成した音響信号を出力音響信号として出力する(ステップS227)。なお、生成装置20は、タイムマスクそのものを出力してもよいし、タイムマスクから算出された類似度を出力してもよい。 The generation device 20 outputs the generated acoustic signal as an output acoustic signal (step S227). Note that the generation device 20 may output the time mask itself, or may output the degree of similarity calculated from the time mask.
[第4の実施形態の効果]
これまで説明してきたように、ラベル特徴量算出部201は、意味を解釈可能な態様でラベルを表現した情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出する。スペクトログラム特徴量算出部202は、音響信号を第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出する。マスク生成部203は、第1の特徴量及び第2の特徴量を基に生成される第1のマスクであって、音響信号からラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第1のマスクの、周波数成分を集約した第2のマスクを生成する。このため、第4の実施形態によれば、特に、異なるラベルの音声が時間的に重複なく存在する場合に、目的音声の分離を効率良く行うことができる。
[Effects of the fourth embodiment]
As explained above, the label
第4の実施形態によれば、例えば、ニュース番組では、政治コーナー、スポーツコーナーといったコーナーが時間で区切られている場合がある。例えば、各コーナーで読み上げられたニュースの原稿に、第3の実施形態で得られたタイムマスクを適用することで、特定のコーナーに対応する原稿の部分を特定することができる。 According to the fourth embodiment, for example, in a news program, corners such as a political corner and a sports corner may be separated by time. For example, by applying the time mask obtained in the third embodiment to the news manuscript read out in each corner, it is possible to specify the portion of the manuscript that corresponds to a specific corner.
ここで、第4の実施形態で用いられるラベルエンコーダ及びオーディオエンコーダは、例えば、タイムマスクによって抽出された成分から合成された音響信号を使ってTriplet Lossによって学習されたものであってもよい。これは、学習時に、マスク生成部103が、生成したスペクトログラムマスクの周波数成分を集約し、タイムマスクを生成することによって実現される。
Here, the label encoder and audio encoder used in the fourth embodiment may be trained by Triplet Loss using, for example, an audio signal synthesized from components extracted by a time mask. This is achieved by the
これより、以下のような実施形態が考えられる。ラベル特徴量算出部101は、意味を解釈可能な態様でラベルを表現した情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出する。スペクトログラム特徴量算出部102は、音響信号を第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出する。指標算出部104は、第1の特徴量及び第2の特徴量を基に生成される第1のマスクであって、音響信号からラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第1のマスクの、周波数成分を集約した第2のマスクを評価するための指標を算出する。更新部105は、指標が最適化されるように、第1のモデルのパラメータ及び第2のモデルのパラメータを更新する。
From this, the following embodiments can be considered. The label feature
[実験結果]
各実施形態を基に行った実験について説明する。実験は、2種の音源からなる時間的な重畳のない混合音に対して、スペクトログラムマスクを生成した。さらに、実験では、潜在変数の次元数hを音源クラス数l以下に設定することで、潜在変数を媒介にすることの有用性を検証した。
[Experimental result]
Experiments conducted based on each embodiment will be described. In the experiment, a spectrogram mask was generated for a mixed sound consisting of two types of sound sources without temporal overlap. Furthermore, in the experiment, the usefulness of using the latent variable as a mediator was verified by setting the number of dimensions h of the latent variable to be less than or equal to the number l of sound source classes.
実験では、作成した混合音からなるデータセットを用いて、第1の実施形態で説明した音源分離モデルの学習を行った。さらに、学習済みの音源分離モデルを用いて、第3の実施形態で説明した生成装置にテスト用の混合音と2ラベルのうちの片方のみを入力し、対応する領域にスペクトログラムが生成されるかを確認した。 In the experiment, the sound source separation model described in the first embodiment was trained using a dataset consisting of the created mixed sounds. Furthermore, using the trained sound source separation model, input the test mixture sound and only one of the two labels to the generation device described in the third embodiment, and check whether a spectrogram is generated in the corresponding region. It was confirmed.
実験では、データセットとして、DCASE 2018 challenge task2(参考文献7:http://dcase.community/challenge2018/index)で公開されたFSD Kaggle 2018を用いた。FSD Kaggle 2018は、41クラスの環境音からなる9500個程度のデータセットである。 In the experiment, we used FSD Kaggle 2018 published in DCASE 2018 challenge task2 (Reference 7: http://dcase.community/challenge2018/index) as a dataset. FSD Kaggle 2018 is a dataset of approximately 9,500 environmental sounds in 41 classes.
データセットのうち、手動アノテーションデータを使用した。また、極端に時間の短いデータを避けるため3秒以上の長さを持つデータを使用した。また、上記を満たすデータから異なるクラスのデータを2種類抜き出し、図13のように、2つの信号(ラベルA及びラベルBの信号)を、無音を挟み結合した。図13は、実験におけるデータの結合について説明する図である。結合されたシングルチャネルデータに対応するクラスは常に2つである。 Among the datasets, we used manual annotation data. Furthermore, in order to avoid extremely short data, data with a length of 3 seconds or more was used. Furthermore, two types of data of different classes were extracted from the data satisfying the above, and the two signals (label A and label B signals) were combined with silence interposed between them, as shown in FIG. FIG. 13 is a diagram illustrating data combination in an experiment. There are always two classes that correspond to combined single channel data.
図14は、実験における各パラメータの設定値を示す図である。図14に示すように、潜在変数の次元数hは32とした。また、2つの信号は、トランペットの音と、鍵をジャラジャラさせた音であり、それぞれラベルA及びラベルBに対応する。 FIG. 14 is a diagram showing the set values of each parameter in the experiment. As shown in FIG. 14, the number of dimensions h of the latent variables was set to 32. Further, the two signals are the sound of a trumpet and the sound of jingling keys, and correspond to labels A and B, respectively.
図15は、実験で得られたスペクトログラムを示す図である。また、図16及び図17は、実験で得られたマスクを示す図である。図16は、ラベルとしてトランペットを指定したときのマスクである。また、図17は、ラベルとして鍵をジャラジャラする音を指定したときのマスクである。これらの図から、実施形態によれば、各ラベルを分離可能なマスクが生成されていることが分かる。 FIG. 15 is a diagram showing a spectrogram obtained in an experiment. Moreover, FIGS. 16 and 17 are diagrams showing masks obtained in experiments. FIG. 16 shows a mask when trumpet is specified as a label. Further, FIG. 17 shows a mask when the sound of jingling keys is specified as a label. From these figures, it can be seen that according to the embodiment, a mask that can separate each label is generated.
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[System configuration, etc.]
Further, each component of each device shown in the drawings is functionally conceptual, and does not necessarily need to be physically configured as shown in the drawings. In other words, the specific form of distributing and integrating each device is not limited to what is shown in the diagram, and all or part of the devices may be functionally or physically distributed or integrated in arbitrary units depending on various loads and usage conditions. Can be integrated and configured. Furthermore, all or any part of each processing function performed by each device can be realized by a CPU and a program that is analyzed and executed by the CPU, or can be realized as hardware using wired logic.
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 Further, among the processes described in this embodiment, all or part of the processes described as being performed automatically can be performed manually, or the processes described as being performed manually can be performed manually. All or part of this can also be performed automatically using known methods. In addition, information including processing procedures, control procedures, specific names, and various data and parameters shown in the above documents and drawings may be changed arbitrarily, unless otherwise specified.
[プログラム]
一実施形態として、学習装置10及び生成装置20は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理又は生成処理を実行するプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置10又は生成装置20として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
[program]
As one embodiment, the learning device 10 and the generation device 20 can be implemented by installing a program that executes the above learning process or generation process on a desired computer as packaged software or online software. For example, by causing the information processing device to execute the above program, the information processing device can be made to function as the learning device 10 or the generation device 20. The information processing device referred to here includes a desktop or notebook personal computer. In addition, information processing devices include mobile communication terminals such as smartphones, mobile phones, and PHS (Personal Handyphone System), as well as slate terminals such as PDA (Personal Digital Assistant).
また、学習装置10及び生成装置20は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理又は生成処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、サーバ装置は、ラベルと音響信号を入力とし、分離された目的音声の信号を出力とするサービスを提供するサーバ装置として実装される。この場合、サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。 Further, the learning device 10 and the generation device 20 can also be implemented as a server device that uses a terminal device used by a user as a client and provides the client with a service related to the above learning process or generation process. For example, the server device is implemented as a server device that provides a service that receives a label and an audio signal as input and outputs a separated target audio signal. In this case, the server device may be implemented as a web server, or may be implemented as a cloud that provides services related to the above processing through outsourcing.
図18は、学習プログラムを実行するコンピュータの一例を示す図である。なお、生成処理についても同様のコンピュータによって実行されてもよい。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
FIG. 18 is a diagram showing an example of a computer that executes a learning program. Note that the generation process may also be executed by a similar computer.
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(BASIC Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
The
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、学習装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、学習装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
The hard disk drive 1090 stores, for example, an
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。
Furthermore, the setting data used in the processing of the embodiment described above is stored as
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
Note that the
10、10a 学習装置
20 生成装置
101、201 ラベル特徴量算出部
102、202 スペクトログラム特徴量算出部
103、203 マスク生成部
104、204 指標算出部
105、108 更新部
106、206 抽出部
107、207 合成部
111、211 ラベルエンコーダ情報
112、212 オーディオエンコーダ情報
10, 10a learning device 20
Claims (11)
音響信号を前記第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出する第2の特徴量算出部と、
前記第1の特徴量及び前記第2の特徴量を基に生成されるマスクであって、前記音響信号から前記ラベルに対応する成分を抽出するためのマスクを評価するための指標を算出する指標算出部と、
前記指標が最適化されるように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する更新部と、
を有することを特徴とする学習装置。 a first feature amount calculation unit that uses a first model to calculate a first feature amount by mapping information representing the label in a manner that allows interpretation of the meaning in a first space;
a second feature calculation unit that uses a second model to calculate a second feature obtained by mapping the acoustic signal to the first space;
An index for calculating an index for evaluating a mask for extracting a component corresponding to the label from the acoustic signal, the mask being generated based on the first feature amount and the second feature amount. A calculation section,
an updating unit that updates parameters of the first model and parameters of the second model so that the index is optimized;
A learning device characterized by having.
前記第2の特徴量算出部は、前記第1の次元数の変数と、時間に対応する変数と、周波数成分に対応する変数とを少なくとも含む特徴量を前記第2の特徴量として算出し、
前記指標算出部は、前記第1の特徴量と前記第2の特徴量の類似度を基に前記指標を算出することを特徴とする請求項1又は2に記載の学習装置。 The first feature amount calculation unit calculates a feature amount including at least a variable of a first number of dimensions as the first feature amount,
The second feature amount calculation unit calculates, as the second feature amount, a feature amount that includes at least a variable of the first dimension number, a variable corresponding to time, and a variable corresponding to a frequency component,
The learning device according to claim 1 or 2, wherein the index calculation unit calculates the index based on the degree of similarity between the first feature amount and the second feature amount.
前記更新部は、前記指標が最小化されるように前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新することを特徴とする請求項1から3のいずれか1項に記載の学習装置。 The index calculating unit decreases the degree of similarity as the degree of similarity between the first feature amount and the second feature amount calculated from the label associated with the acoustic signal increases; calculating an index that increases as the degree of similarity between the first feature quantity and the second feature quantity calculated from a label different from the given label is larger;
The updating unit updates the parameters of the first model and the parameters of the second model so that the index is minimized. learning device.
前記第2の特徴量算出部は、前記音響信号から作成されたf(fは周波数ビンの数)×t(tは時間ビンの数)次元のスペクトログラムを、前記第2のモデルであるニューラルネットワークに入力して得られるf×t×h次元の特徴量を前記第2の特徴量として算出することを特徴とする請求項1から4のいずれか1項に記載の学習装置。 The first feature calculation unit inputs an s-dimensional (s is the number of words set in advance) one-hot vector created from a label representing a predetermined word to the neural network that is the first model. Calculate a 1×1×h (h is an arbitrary number set in advance) dimension feature obtained as the first feature,
The second feature calculation unit converts the f (f is the number of frequency bins) x t (t is the number of time bins) dimension spectrogram created from the acoustic signal into a neural network that is the second model. The learning device according to any one of claims 1 to 4, wherein an f×t×h dimension feature obtained by inputting the second feature is calculated as the second feature.
音響信号を前記第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出する第2の特徴量算出部と、
前記第1の特徴量及び前記第2の特徴量を基に生成されるマスクであって、前記音響信号から前記ラベルに対応する成分を抽出するためのマスクを評価するための指標を算出する指標算出部と、
前記指標が最適化されるように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する更新部と、
を有することを特徴とする学習装置。 a first feature calculation unit that uses a first model to calculate a first feature obtained by mapping information that can identify a label in a first space;
a second feature calculation unit that uses a second model to calculate a second feature obtained by mapping the acoustic signal to the first space;
An index for calculating an index for evaluating a mask for extracting a component corresponding to the label from the acoustic signal, the mask being generated based on the first feature amount and the second feature amount. A calculation section,
an updating unit that updates parameters of the first model and parameters of the second model so that the index is optimized;
A learning device characterized by having.
意味を解釈可能な態様でラベルを表現した情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出する第1の特徴量算出工程と、
音響信号を前記第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出する第2の特徴量算出工程と、
前記第1の特徴量及び前記第2の特徴量を基に生成されるマスクであって、前記音響信号から前記ラベルに対応する成分を抽出するためのマスクを評価するための指標を算出する指標算出工程と、
前記指標が最適化されるように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する更新工程と、
を含むことを特徴とする学習方法。 A learning method executed by a learning device, comprising:
a first feature amount calculation step of calculating a first feature amount by mapping information representing the label in a manner in which the meaning can be interpreted in a first space using a first model;
a second feature amount calculation step of calculating a second feature amount by mapping the acoustic signal to the first space using a second model;
An index for calculating an index for evaluating a mask for extracting a component corresponding to the label from the acoustic signal, the mask being generated based on the first feature amount and the second feature amount. calculation process,
an updating step of updating parameters of the first model and parameters of the second model so that the index is optimized;
A learning method characterized by including.
意味を解釈可能な態様でラベルを表現した第2の情報を前記第1の空間にマッピングした第3の特徴量を、前記第1のモデルを用いて算出する第1の特徴量算出部と、
第2の音響信号を前記第1の空間にマッピングした第4の特徴量を、前記第2のモデルを用いて算出する第2の特徴量算出部と、
前記第3の特徴量及び前記第4の特徴量を基に、前記第2の音響信号からラベルに対応する成分を抽出するためのマスクを生成するマスク生成部と、
を有することを特徴とする生成装置。 A first feature amount is calculated by mapping first information representing a label in a manner that allows interpretation of the meaning into a first space using a first model, and a first acoustic signal is calculated by using a first model. A second feature mapped in space is calculated using a second model, and the mask is generated based on the first feature and the second feature, the mask being generated based on the first feature and the second feature, An index for evaluating a mask for extracting a component corresponding to the label from a signal is calculated, and parameters of the first model and parameters of the second model are adjusted so that the index is optimized. A generation device that uses the first model and the second model that have been trained by an updating method,
a first feature calculation unit that uses the first model to calculate a third feature obtained by mapping second information representing a label in a manner that allows interpretation of the meaning onto the first space;
a second feature calculation unit that uses the second model to calculate a fourth feature obtained by mapping a second acoustic signal to the first space;
a mask generation unit that generates a mask for extracting a component corresponding to a label from the second acoustic signal based on the third feature amount and the fourth feature amount;
A generating device characterized by having:
意味を解釈可能な態様でラベルを表現した第2の情報を前記第1の空間にマッピングした第3の特徴量を、前記第1のモデルを用いて算出する第1の特徴量算出工程と、
第2の音響信号を前記第1の空間にマッピングした第4の特徴量を、前記第2のモデルを用いて算出する第2の特徴量算出工程と、
前記第3の特徴量及び前記第4の特徴量を基に、前記第2の音響信号からラベルに対応する成分を抽出するためのマスクを生成するマスク生成工程と、
を含むことを特徴とする生成方法。 A first feature amount is calculated by mapping first information representing a label in a manner that allows interpretation of the meaning into a first space using a first model, and a first acoustic signal is calculated by using a first model. A second feature mapped in space is calculated using a second model, and the mask is generated based on the first feature and the second feature, the mask being generated based on the first feature and the second feature, An index for evaluating a mask for extracting a component corresponding to the label from a signal is calculated, and parameters of the first model and parameters of the second model are adjusted so that the index is optimized. A generation method executed by a generation device using the first model and the second model that have been trained by an updating method ,
a first feature amount calculation step of calculating, using the first model, a third feature amount in which second information expressing a label in a manner that allows interpretation of the meaning is mapped to the first space;
a second feature calculation step of calculating a fourth feature obtained by mapping a second acoustic signal to the first space using the second model;
a mask generation step of generating a mask for extracting a component corresponding to a label from the second acoustic signal based on the third feature amount and the fourth feature amount;
A generation method characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020092463A JP7376896B2 (en) | 2020-05-27 | 2020-05-27 | Learning device, learning method, learning program, generation device, generation method, and generation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020092463A JP7376896B2 (en) | 2020-05-27 | 2020-05-27 | Learning device, learning method, learning program, generation device, generation method, and generation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021189247A JP2021189247A (en) | 2021-12-13 |
JP7376896B2 true JP7376896B2 (en) | 2023-11-09 |
Family
ID=78849554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020092463A Active JP7376896B2 (en) | 2020-05-27 | 2020-05-27 | Learning device, learning method, learning program, generation device, generation method, and generation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7376896B2 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019017403A1 (en) | 2017-07-19 | 2019-01-24 | 日本電信電話株式会社 | Mask calculating device, cluster-weight learning device, mask-calculating neural-network learning device, mask calculating method, cluster-weight learning method, and mask-calculating neural-network learning method |
JP2020034870A (en) | 2018-08-31 | 2020-03-05 | 日本電信電話株式会社 | Signal analysis device, method, and program |
-
2020
- 2020-05-27 JP JP2020092463A patent/JP7376896B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019017403A1 (en) | 2017-07-19 | 2019-01-24 | 日本電信電話株式会社 | Mask calculating device, cluster-weight learning device, mask-calculating neural-network learning device, mask calculating method, cluster-weight learning method, and mask-calculating neural-network learning method |
JP2020034870A (en) | 2018-08-31 | 2020-03-05 | 日本電信電話株式会社 | Signal analysis device, method, and program |
Non-Patent Citations (2)
Title |
---|
Andrew Rouditchenko, et al.,SELF-SUPERVISED AUDIO‐VISUAL CO‐SEGMENTATION,2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),2019年04月17日,pp. 2357-2361 |
Hang Zhao, et al.,Open Vocabulary Scene Parsing,2017 IEEE International Conference on Computer Vision (ICCV),IEEE,2017年10月22日,pp. 2021-2029 |
Also Published As
Publication number | Publication date |
---|---|
JP2021189247A (en) | 2021-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
Sriram et al. | Robust speech recognition using generative adversarial networks | |
US10014002B2 (en) | Real-time audio source separation using deep neural networks | |
WO2016100231A1 (en) | Systems and methods for speech transcription | |
JPS62231996A (en) | Allowance evaluation of word corresponding to voice input | |
CN112349289B (en) | Voice recognition method, device, equipment and storage medium | |
US11810546B2 (en) | Sample generation method and apparatus | |
Swain et al. | Study of feature combination using HMM and SVM for multilingual Odiya speech emotion recognition | |
Luo et al. | Group communication with context codec for lightweight source separation | |
Agrawal et al. | A review on speech separation in cocktail party environment: challenges and approaches | |
Hayes et al. | A review of differentiable digital signal processing for music and speech synthesis | |
JP2021039219A (en) | Speech signal processing device, speech signal processing method, speech signal process program, learning device, learning method, and learning program | |
Mirbeygi et al. | RPCA-based real-time speech and music separation method | |
Sharma et al. | Fast Griffin Lim based waveform generation strategy for text-to-speech synthesis | |
JP7423056B2 (en) | Reasoners and how to learn them | |
Kadyan et al. | Prosody features based low resource Punjabi children ASR and T-NT classifier using data augmentation | |
Koszewski et al. | Musical instrument tagging using data augmentation and effective noisy data processing | |
Dua et al. | Noise robust automatic speech recognition: review and analysis | |
JP7376896B2 (en) | Learning device, learning method, learning program, generation device, generation method, and generation program | |
JP7376895B2 (en) | Learning device, learning method, learning program, generation device, generation method, and generation program | |
CN116994553A (en) | Training method of speech synthesis model, speech synthesis method, device and equipment | |
CN114627885A (en) | Small sample data set musical instrument identification method based on ASRT algorithm | |
Mangla et al. | Intelligent audio analysis techniques for identification of music in smart devices | |
CN112420022A (en) | Noise extraction method, device, equipment and storage medium | |
Karpov | Efficient speaker recognition for mobile devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20200528 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20200730 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200730 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220801 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230524 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230530 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230728 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231003 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231019 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7376896 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |