JP2020003537A - オーディオ抽出装置、学習装置、カラオケ装置、オーディオ抽出方法、学習方法及びプログラム - Google Patents
オーディオ抽出装置、学習装置、カラオケ装置、オーディオ抽出方法、学習方法及びプログラム Download PDFInfo
- Publication number
- JP2020003537A JP2020003537A JP2018120236A JP2018120236A JP2020003537A JP 2020003537 A JP2020003537 A JP 2020003537A JP 2018120236 A JP2018120236 A JP 2018120236A JP 2018120236 A JP2018120236 A JP 2018120236A JP 2020003537 A JP2020003537 A JP 2020003537A
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- channel
- sound
- data
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims description 67
- 230000001755 vocal effect Effects 0.000 claims abstract description 145
- 238000007781 pre-processing Methods 0.000 claims abstract description 37
- 238000010801 machine learning Methods 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims description 44
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 239000000284 extract Substances 0.000 claims description 17
- 238000012545 processing Methods 0.000 abstract description 24
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000000926 separation method Methods 0.000 description 67
- 238000006243 chemical reaction Methods 0.000 description 41
- 238000013527 convolutional neural network Methods 0.000 description 22
- 239000011295 pitch Substances 0.000 description 21
- 238000010586 diagram Methods 0.000 description 19
- 230000015654 memory Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000013500 data storage Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000003936 working memory Effects 0.000 description 3
- 238000010191 image analysis Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- KNMAVSAGTYIFJF-UHFFFAOYSA-N 1-[2-[(2-hydroxy-3-phenoxypropyl)amino]ethylamino]-3-phenoxypropan-2-ol;dihydrochloride Chemical compound Cl.Cl.C=1C=CC=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC=C1 KNMAVSAGTYIFJF-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/02—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
- G10H1/06—Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
- G10H1/12—Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/005—Musical accompaniment, i.e. complete instrumental rhythm synthesis added to a performed melody, e.g. as output by drum machines
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/066—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/086—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for transcription of raw audio or music data to a displayed or printed staff representation or to displayable MIDI-like note-oriented data, e.g. in pianoroll format
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/005—Non-interactive screen display of musical or status data
- G10H2220/011—Lyrics displays, e.g. for karaoke applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
- G10H2250/235—Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/05—Generation or adaptation of centre channel in multi-channel audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Auxiliary Devices For Music (AREA)
- Stereophonic System (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
Description
以下の実施例では、オーディオデータから特定の種類の楽器音やボーカル音など(特定のオーディオ成分)を分離するための音響分離モデルを学習し、当該学習済みモデルを用いてオーディオデータから当該パートを分離する音響処理技術が開示される。
以下の実施例では、機械学習モデルによってボーカル音と伴奏音とを含むステレオ音源からボーカル音又は伴奏音の何れか一方を抽出するオーディオ抽出装置が開示される。
第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成する前処理部と、
学習済み機械学習モデルによって、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するオーディオ抽出部と、
を有するオーディオ抽出装置が提供される。
前記前処理部は、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換し、
前記オーディオ抽出部は、前記学習済み機械学習モデルに前記変換された各スペクトログラムを入力し、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを抽出してもよい。
前記センターカットオーディオデータは、前記ステレオ音源の周波数帯域のセンター周辺のオーディオ成分を前記ステレオ音源から消去することによって生成してもよい。
前記前処理部は、前記ステレオ音源から前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとを分離してもよい。
第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ、及び前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又はボーカル音の何れか一方を学習用出力データとして取得する学習用データ取得部と、
前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習するモデル学習部と、
を有する学習装置が提供される。
前記機械学習モデルは、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ、及び前記センターカットオーディオデータから変換された各スペクトログラムを前記学習用入力データとし、前記伴奏音のスペクトログラムを前記学習用出力データとして出力してもよい。
伴奏音とボーカル音とを含むオーディオデータを、少なくとも第1軸が時間に対応し、第2軸が音の周波数に関する音情報に対応する第1の多次元データに変換する前処理部と、
変換した前記第1の多次元データを、伴奏音とボーカル音が混合されているオーディオデータに対応する多次元データを入力して、前記ボーカル音が混合されずに前記伴奏音を含むオーディオデータに対応する多次元データを出力するように学習されているニューラルネットワークに入力して、第2の多次元データを取得する伴奏音抽出部と、
取得した前記第2の多次元データを、前記ボーカル音が混合されずに前記伴奏音を含む第2のオーディオデータに変換し、変換した前記第2のオーディオデータを再生する再生部と、
を有するカラオケ装置が提供される。
前記再生部は、前記伴奏音に同期して歌詞を表示してもよい。
プロセッサが、第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成するステップと、
前記プロセッサが、学習済み機械学習モデルによって、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するステップと、
を有するオーディオ抽出方法が提供される。
プロセッサが、第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ、及び前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又は前記ボーカル音の何れか一方を学習用出力データとして取得するステップと、
前記プロセッサが、前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習するステップと、
を有する学習方法が提供される。
第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成するステップと、
学習済み機械学習モデルによって、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するステップと、
をプロセッサに実行させるプログラムが提供される。
第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ、及び前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又は前記ボーカル音の何れか一方を学習用出力データとして取得するステップと、
前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習するステップと、
をプロセッサに実行させるプログラムが提供される。
上述したプログラムを記憶するコンピュータ可読記憶媒体が提供される。
100 学習装置
200 音響分離装置
300 電子楽器装置
400 オーディオ抽出装置
450 学習用データストレージ
500 学習装置
600 カラオケ装置
Claims (12)
- 第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成する前処理部と、
学習済み機械学習モデルによって、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するオーディオ抽出部と、
を有するオーディオ抽出装置。 - 前記前処理部は、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換し、
前記オーディオ抽出部は、前記学習済み機械学習モデルに前記変換された各スペクトログラムを入力し、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを抽出する、請求項1記載のオーディオ抽出装置。 - 前記センターカットオーディオデータは、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとの周波数帯域のセンター周辺のオーディオ成分を前記ステレオ音源から消去することによって生成される、請求項1又は2記載のオーディオ抽出装置。
- 前記前処理部は、前記ステレオ音源から前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとを分離する、請求項1乃至3何れか一項記載のオーディオ抽出装置。
- 第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ、及び前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又はボーカル音の何れか一方を学習用出力データとして取得する学習用データ取得部と、
前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習するモデル学習部と、
を有する学習装置。 - 前記機械学習モデルは、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ、及び前記センターカットオーディオデータから変換された各スペクトログラムを前記学習用入力データとし、前記伴奏音のスペクトログラムを前記学習用出力データとして出力する、請求項5記載の学習装置。
- 伴奏音とボーカル音とを含むオーディオデータを、少なくとも第1軸が時間に対応し、第2軸が音の周波数に関する音情報に対応する第1の多次元データに変換する前処理部と、
変換した前記第1の多次元データを、伴奏音とボーカル音が混合されているオーディオデータに対応する多次元データを入力して、前記ボーカル音が混合されずに前記伴奏音を含むオーディオデータに対応する多次元データを出力するように学習されているニューラルネットワークに入力して、第2の多次元データを取得する伴奏音抽出部と、
取得した前記第2の多次元データを、前記ボーカル音が混合されずに前記伴奏音を含む第2のオーディオデータに変換し、変換した前記第2のオーディオデータを再生する再生部と、
を有するカラオケ装置。 - 前記再生部は、前記伴奏音に同期して歌詞を表示する、請求項7に記載のカラオケ装置。
- プロセッサが、第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成するステップと、
前記プロセッサが、学習済み機械学習モデルによって、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するステップと、
を有するオーディオ抽出方法。 - プロセッサが、第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ、及び前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又は前記ボーカル音の何れか一方を学習用出力データとして取得するステップと、
前記プロセッサが、前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習するステップと、
を有する学習方法。 - 第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成するステップと、
学習済み機械学習モデルによって、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するステップと、
をプロセッサに実行させるプログラム。 - 第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ、及び前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又は前記ボーカル音の何れか一方を学習用出力データとして取得するステップと、
前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習するステップと、
をプロセッサに実行させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018120236A JP7243052B2 (ja) | 2018-06-25 | 2018-06-25 | オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム |
CN201910530186.4A CN110634501B (zh) | 2018-06-25 | 2019-06-19 | 音频提取装置、机器训练装置、卡拉ok装置 |
US16/447,796 US10789921B2 (en) | 2018-06-25 | 2019-06-20 | Audio extraction apparatus, machine learning apparatus and audio reproduction apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018120236A JP7243052B2 (ja) | 2018-06-25 | 2018-06-25 | オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020003537A true JP2020003537A (ja) | 2020-01-09 |
JP2020003537A5 JP2020003537A5 (ja) | 2021-07-29 |
JP7243052B2 JP7243052B2 (ja) | 2023-03-22 |
Family
ID=68968485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018120236A Active JP7243052B2 (ja) | 2018-06-25 | 2018-06-25 | オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10789921B2 (ja) |
JP (1) | JP7243052B2 (ja) |
CN (1) | CN110634501B (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112133327A (zh) * | 2020-09-17 | 2020-12-25 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频样本的提取方法、设备、终端及存储介质 |
JP2021516786A (ja) * | 2018-08-09 | 2021-07-08 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 複数人の音声を分離する方法、装置、およびコンピュータプログラム |
JP2021128252A (ja) * | 2020-02-13 | 2021-09-02 | 学校法人梅村学園 | 音源分離プログラム、音源分離装置、音源分離方法及び生成プログラム |
KR20230089046A (ko) * | 2021-12-13 | 2023-06-20 | 이모션웨이브 주식회사 | 인공지능 기타 연주 장치 |
KR20230089051A (ko) * | 2021-12-13 | 2023-06-20 | 이모션웨이브 주식회사 | 인공지능 피아노 연주 장치 |
KR20230137272A (ko) * | 2022-03-21 | 2023-10-04 | 주식회사 워프 | 음원 분류 모델을 생성하기 위한 방법, 서버 및 컴퓨터프로그램 |
WO2024048492A1 (ja) * | 2022-08-30 | 2024-03-07 | ヤマハ株式会社 | 楽器識別方法、楽器識別装置、および、楽器識別プログラム |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11010666B1 (en) * | 2017-10-24 | 2021-05-18 | Tunnel Technologies Inc. | Systems and methods for generation and use of tensor networks |
US11521592B2 (en) * | 2019-09-24 | 2022-12-06 | Baidu Usa Llc | Small-footprint flow-based models for raw audio |
CN111192594B (zh) * | 2020-01-10 | 2022-12-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 人声和伴奏分离方法及相关产品 |
CN111261186B (zh) * | 2020-01-16 | 2023-05-30 | 南京理工大学 | 基于改进自注意力机制与跨频带特征的音频音源分离方法 |
US11508042B1 (en) | 2020-01-29 | 2022-11-22 | State Farm Mutual Automobile Insurance Company | Imputation of 3D data using generative adversarial networks |
US20220101864A1 (en) * | 2020-09-25 | 2022-03-31 | Descript, Inc. | Training generative adversarial networks to upsample audio |
JP2023546147A (ja) * | 2020-10-17 | 2023-11-01 | ドルビー・インターナショナル・アーベー | 入力マルチチャンネルオーディオ信号から中間オーディオフォーマットを生成するための方法および装置 |
US20230306943A1 (en) * | 2020-10-22 | 2023-09-28 | Harman International Industries, Incorporated | Vocal track removal by convolutional neural network embedded voice finger printing on standard arm embedded platform |
CN112420062B (zh) * | 2020-11-18 | 2024-07-19 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频信号处理方法及设备 |
CN113055809B (zh) * | 2021-03-12 | 2023-02-28 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种5.1声道信号生成方法、设备及介质 |
US11947628B2 (en) * | 2021-03-30 | 2024-04-02 | Snap Inc. | Neural networks for accompaniment extraction from songs |
CN113571084B (zh) * | 2021-07-08 | 2024-03-22 | 咪咕音乐有限公司 | 音频处理方法、装置、设备及存储介质 |
GB2609021B (en) * | 2021-07-16 | 2024-04-17 | Sony Interactive Entertainment Europe Ltd | Audio generation methods and systems |
GB2609605B (en) * | 2021-07-16 | 2024-04-17 | Sony Interactive Entertainment Europe Ltd | Audio generation methods and systems |
GB2609019A (en) * | 2021-07-16 | 2023-01-25 | Sony Interactive Entertainment Europe Ltd | Audio generation methods and systems |
WO2023141133A2 (en) * | 2022-01-20 | 2023-07-27 | Malamute, Inc. | Sound isolation |
US20230282188A1 (en) * | 2022-03-07 | 2023-09-07 | Lemon Inc. | Beatboxing transcription |
CN116034425A (zh) * | 2022-11-16 | 2023-04-28 | 广州酷狗计算机科技有限公司 | 人声音符识别模型的训练方法、人声音符识别方法及设备 |
CN116189636B (zh) * | 2023-04-24 | 2023-07-07 | 深圳视感文化科技有限公司 | 基于电子乐器的伴奏生成方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150278686A1 (en) * | 2014-03-31 | 2015-10-01 | Sony Corporation | Method, system and artificial neural network |
WO2018042791A1 (ja) * | 2016-09-01 | 2018-03-08 | ソニー株式会社 | 情報処理装置、情報処理方法及び記録媒体 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06102893A (ja) | 1992-09-22 | 1994-04-15 | Matsushita Electric Ind Co Ltd | カラオケ装置 |
JP2006195385A (ja) | 2005-01-17 | 2006-07-27 | Matsushita Electric Ind Co Ltd | 音楽再生装置および音楽再生プログラム |
KR100636248B1 (ko) * | 2005-09-26 | 2006-10-19 | 삼성전자주식회사 | 보컬 제거 장치 및 방법 |
CN101577117B (zh) * | 2009-03-12 | 2012-04-11 | 无锡中星微电子有限公司 | 伴奏音乐提取方法及装置 |
CN101609667B (zh) * | 2009-07-22 | 2012-09-05 | 福州瑞芯微电子有限公司 | Pmp播放器中实现卡拉ok功能的方法 |
KR20120132342A (ko) * | 2011-05-25 | 2012-12-05 | 삼성전자주식회사 | 보컬 신호 제거 장치 및 방법 |
CN103915086A (zh) * | 2013-01-07 | 2014-07-09 | 华为技术有限公司 | 信息处理的方法、装置和*** |
US9794715B2 (en) * | 2013-03-13 | 2017-10-17 | Dts Llc | System and methods for processing stereo audio content |
US9852745B1 (en) * | 2016-06-24 | 2017-12-26 | Microsoft Technology Licensing, Llc | Analyzing changes in vocal power within music content using frequency spectrums |
CN107680611B (zh) * | 2017-09-13 | 2020-06-16 | 电子科技大学 | 基于卷积神经网络的单通道声音分离方法 |
-
2018
- 2018-06-25 JP JP2018120236A patent/JP7243052B2/ja active Active
-
2019
- 2019-06-19 CN CN201910530186.4A patent/CN110634501B/zh active Active
- 2019-06-20 US US16/447,796 patent/US10789921B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150278686A1 (en) * | 2014-03-31 | 2015-10-01 | Sony Corporation | Method, system and artificial neural network |
WO2018042791A1 (ja) * | 2016-09-01 | 2018-03-08 | ソニー株式会社 | 情報処理装置、情報処理方法及び記録媒体 |
Non-Patent Citations (1)
Title |
---|
ZHE-CHENG FAN,JYH-SHING ROGER JANG,CHUNG-L-I LU: "Singing Voice Separation and Pitch Extraction from Monaural Polyhonic Audio Music Via DNN and Adapti", 2016 IEEE SSECOND INTERNATIOAL CONFERENCE ON MULTIMEDIA BIG DATA, JPN6022006162, 18 August 2016 (2016-08-18), pages 178 - 185, ISSN: 0004710299 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021516786A (ja) * | 2018-08-09 | 2021-07-08 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 複数人の音声を分離する方法、装置、およびコンピュータプログラム |
US11450337B2 (en) | 2018-08-09 | 2022-09-20 | Tencent Technology (Shenzhen) Company Limited | Multi-person speech separation method and apparatus using a generative adversarial network model |
JP2021128252A (ja) * | 2020-02-13 | 2021-09-02 | 学校法人梅村学園 | 音源分離プログラム、音源分離装置、音源分離方法及び生成プログラム |
CN112133327A (zh) * | 2020-09-17 | 2020-12-25 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频样本的提取方法、设备、终端及存储介质 |
CN112133327B (zh) * | 2020-09-17 | 2024-02-13 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频样本的提取方法、设备、终端及存储介质 |
KR20230089046A (ko) * | 2021-12-13 | 2023-06-20 | 이모션웨이브 주식회사 | 인공지능 기타 연주 장치 |
KR20230089051A (ko) * | 2021-12-13 | 2023-06-20 | 이모션웨이브 주식회사 | 인공지능 피아노 연주 장치 |
KR102670800B1 (ko) * | 2021-12-13 | 2024-05-30 | 이모션웨이브 주식회사 | 인공지능 기타 연주 장치 |
KR102670804B1 (ko) * | 2021-12-13 | 2024-05-30 | 이모션웨이브 주식회사 | 인공지능 피아노 연주 장치 |
KR20230137272A (ko) * | 2022-03-21 | 2023-10-04 | 주식회사 워프 | 음원 분류 모델을 생성하기 위한 방법, 서버 및 컴퓨터프로그램 |
KR102623171B1 (ko) * | 2022-03-21 | 2024-01-11 | 주식회사 워프 | 음원 분류 모델을 생성하기 위한 방법, 서버 및 컴퓨터프로그램 |
WO2024048492A1 (ja) * | 2022-08-30 | 2024-03-07 | ヤマハ株式会社 | 楽器識別方法、楽器識別装置、および、楽器識別プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN110634501A (zh) | 2019-12-31 |
CN110634501B (zh) | 2023-10-31 |
JP7243052B2 (ja) | 2023-03-22 |
US20190392802A1 (en) | 2019-12-26 |
US10789921B2 (en) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7243052B2 (ja) | オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム | |
JP6617783B2 (ja) | 情報処理方法、電子機器及びプログラム | |
KR101602194B1 (ko) | 음악 음향 신호 생성 시스템 | |
CN112382257B (zh) | 一种音频处理方法、装置、设备及介质 | |
Bresin | Articulation rules for automatic music performance | |
CN107195289B (zh) | 一种可编辑的多级音色合成***及方法 | |
US10553188B2 (en) | Musical attribution in a two-dimensional digital representation | |
RU2729165C1 (ru) | Динамическая модификация звукового контента | |
JP6724938B2 (ja) | 情報処理方法、情報処理装置およびプログラム | |
US11842720B2 (en) | Audio processing method and audio processing system | |
JP2017111372A (ja) | 音声合成方法、音声合成制御方法、音声合成装置および音声合成制御装置 | |
CN108369800B (zh) | 声处理装置 | |
JP2020021098A (ja) | 情報処理装置、電子機器及びプログラム | |
CN112669811B (zh) | 一种歌曲处理方法、装置、电子设备及可读存储介质 | |
JP6617784B2 (ja) | 電子機器、情報処理方法、及びプログラム | |
JP4152502B2 (ja) | 音響信号の符号化装置および符号データの編集装置 | |
JP2006113487A (ja) | 楽音データ生成方法及び装置 | |
CN113851098B (zh) | 一种旋律的风格转换方法、装置、终端设备及存储介质 | |
WO2023062865A1 (ja) | 情報処理装置および方法、並びにプログラム | |
JP2013041128A (ja) | 複数音源の識別装置および複数音源に連動する情報処理装置 | |
Sarkar | Time-domain music source separation for choirs and ensembles | |
Vickery | Through the Eye of the Needle: Compositional Applications for Visual/Sonic Interplay | |
CN114005461A (zh) | 音乐伴奏的分离方法和装置 | |
CN117975981A (zh) | 一种变声处理方法、装置、设备及存储介质 | |
CN118135973A (zh) | 一种曲风转换方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210603 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210603 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220414 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220816 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221006 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7243052 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |