JP2015515647A - 曲、ラップ、または対象拍子もしくはリズムを有する他の可聴表現への発語自動変換 - Google Patents
曲、ラップ、または対象拍子もしくはリズムを有する他の可聴表現への発語自動変換 Download PDFInfo
- Publication number
- JP2015515647A JP2015515647A JP2015503661A JP2015503661A JP2015515647A JP 2015515647 A JP2015515647 A JP 2015515647A JP 2015503661 A JP2015503661 A JP 2015503661A JP 2015503661 A JP2015503661 A JP 2015503661A JP 2015515647 A JP2015515647 A JP 2015515647A
- Authority
- JP
- Japan
- Prior art keywords
- segments
- rhythm
- speech
- processing method
- computer processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000033764 rhythmic process Effects 0.000 title claims abstract description 95
- 238000006243 chemical reaction Methods 0.000 title abstract description 19
- 230000014509 gene expression Effects 0.000 title description 8
- 238000000034 method Methods 0.000 claims abstract description 89
- 238000012545 processing Methods 0.000 claims abstract description 28
- 230000002123 temporal effect Effects 0.000 claims abstract description 19
- 238000013507 mapping Methods 0.000 claims description 38
- 238000004590 computer program Methods 0.000 claims description 26
- 230000006835 compression Effects 0.000 claims description 22
- 238000007906 compression Methods 0.000 claims description 22
- 238000003672 processing method Methods 0.000 claims description 22
- 230000003595 spectral effect Effects 0.000 claims description 21
- 238000001514 detection method Methods 0.000 claims description 19
- 238000001228 spectrum Methods 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 7
- 239000000470 constituent Substances 0.000 claims description 6
- 238000002156 mixing Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 5
- 238000011049 filling Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000007619 statistical method Methods 0.000 claims 1
- 230000001755 vocal effect Effects 0.000 abstract description 23
- 230000011218 segmentation Effects 0.000 abstract description 8
- 238000012937 correction Methods 0.000 abstract description 5
- 239000011295 pitch Substances 0.000 description 26
- 230000006870 function Effects 0.000 description 21
- 230000008569 process Effects 0.000 description 17
- 230000005236 sound signal Effects 0.000 description 17
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000001020 rhythmical effect Effects 0.000 description 3
- 240000002791 Brassica napus Species 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000009527 percussion Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001447 compensatory effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 229920005994 diacetyl cellulose Polymers 0.000 description 1
- 210000000883 ear external Anatomy 0.000 description 1
- 210000003027 ear inner Anatomy 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000000527 sonication Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
- G10H1/366—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/055—Time compression or expansion for synchronising with other signals, e.g. video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/051—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
- G10H2240/141—Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
- G10H2250/235—Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
Description
図1は、演奏用の拍子もしくはリズムを有する曲、ラップもしくは他の表現様式へとサンプルされた音声信号を自動変換するために、(複数の)本発明の幾つかの実施形態に従ってプログラムされる、例示的なハンドヘルドコンピュートプラットフォーム101のマイクロフォン入力に近接して話すユーザの図である。図2は、サンプルされた音声信号の自動変換の準備で(例えば、マイクロフォン入力314から)発語型音声を取り込むために、アプリケーションソフトウェア(例えば、Songifyアプリケーション350)を実行するプログラムされたハンドヘルドコンピュートプラットフォーム101の例示的なキャプチャスクリーン画像である。
・ 音声信号として発語を取り込みもしくは記録する(401)
・ 取り込まれた音声信号中の開始もしくは開始候補の検出(402)
・ 音声信号セグメントの境界を定める分割境界を生成する(403)ために、開始、もしくは開始候補ピークもしくは他の最大値から選びとる
・ (例えば、分割計算の一部として決定された候補フレーズとして)対象曲のフレーズテンプレートもしくは他のスケルトン構造のうちの順序づけられたサブフレーズへと、個々のセグメントもしくはセグメント群をマッピングする(404)
・ 音色開始を有する音声開始を整列させために、かつ、(幾つかの場合においては)対象曲の旋律スコアに基づいて、音色期間を満たすために、対象曲および(適切な場合には)延伸/圧縮用のリズムスケルトンもしくは他のアクセントパターン/構造に対する候補フレーズのリズム整列を評価する(405)
・ 取り込まれた(今フレーズマッピングされ、リズム的に整列した)ボーカルが対象曲の特徴(例えば、リズム、拍子、リピート/反復構成)によって具体化されるボコーダもしくは他のフィルタ再合成タイプ音質スタンピング技術を利用する(406)
・ 対象曲用のバッキングトラックを有する、結果として生じる時間的に整列し、フレーズマッピングされ、かつ音質スタンピングされた音声信号を最終的にミキシングする(407)
これらおよび他の態様は、以下により詳細に記述され、図5−図8を参照して、示される。
詩を旋律へとのせるときに、音楽的な構造を強めるために、或るフレーズが繰り返される場合がしばしばある。我々の発語分割アルゴリズムは、フレーズを繰り返すかさもなければ再配列されるように、発語入力中の語およびフレーズ間の境界を判定することを試みる。単語は、典型的には静寂によって分離されないため、単純な静寂検出は、実践的な方法として、多くの用途においては不十分である可能性がある。取り込まれた発語音声信号の分割用の例示的な技術は、図5および以下の記述を参照して理解されるであろう。
発語は、44100Hzのサンプルレートを利用して、発語エンコーディング501として典型的にデジタル化される。パワースペクトルは、スペクトログラムから計算される。各フレームに対して、FFTは、1024のサイズのHannウインドウを利用して(50%の重複で)行われる。これは、マトリクスを返し、行は周波数ビンを表し、列はタイムステップを表す。人の音量知覚を考慮に入れるために、パワースペクトルは、ソーンベース表現へと変換される。幾つかの実装においては、このプロセスの最初のステップは、一組の臨界帯域フィルタもしくはバーク帯域フィルタ511を含み、それらは、内耳に存在する聴覚フィルタをモデル化したものである。フィルタ幅および応答は、周波数によって変化し、線形周波数スケールを対数スケールへと変換する。さらには、結果として生じるソーン表現502は、モデル化スペクトルマスキングと同様に、外耳のフィルタ特性を考慮に入れる。このプロセスの終わりに、新規マトリクスは、臨界帯域に対応する行および時間ステップに対応する列を有して返される。
分割に対する或るアプローチは、開始を検出することを含む。ピアノを打つなどの新規のイベントは、種々の周波数帯域における突然のエネルギー増大につながる。このことは、ローカルピークとして、波形の時間ドメイン表現においてしばしばみられる。開始検出用の或る種の技術は、スペクトル差関数(SDF)を計算すること(512)を含む。スペクトログラムを与えられると、SDFは、第一の差であり、隣接する時間ステップにおいて各周波数ビンに対して、振幅の差を合計することによって計算される。例えば、以下の様になる。
図6は、より大きい計算フローのフレーズ構成態様を、さらに詳細に(例えば、図3のコンピュートプラットフォーム上で実行するアプリケーションに関連して示され前述されたような機能的もしくは計算ブロックを通して、図4に要約されたように)示す。図6の図は、或る例示的な発語−曲実施形態に関連する。
上述された各可能性のある分割は、現在考えられるフレーズテンプレートに対する候補フレーズを表す。要約すると、我々は、一つ以上のセグメントをサブフレーズへと排他的にマッピングする。その後、全体フレーズは、フレーズテンプレートに従って、サブフレーズを組み立てることによって生成される。次の段階においては、我々は、バッキングトラックのリズム構造に対して、最も近くに整列させることができる候補フレーズを見つけることを望む。これによって、我々は、フレーズがビート上にあるように聞こえることを望む。これは、しばしば、発語内の確かなアクセントを、ビートもしくは他の韻律的に重要な位置と整列させるようにすることによって達成することができる。
と定義され、ここで、NはFFTの長さである。概して、より大きいk_rollフーリエビン指数がより高い周波数エネルギーの増大と調和し、ノイズもしくは無声子音の指示である。同様に、より低いk_rollフーリエビン指数は、時間延伸もしくは圧縮に適した有声音(例えば母音)を示す傾向がある。
発語の基本周波数もしくはピッチは連続的に変化するが、概して、音楽的旋律の様に聞こえることはない。典型的には、音楽的旋律の様に聞こえるには、変化はあまりにも小さく、速く、もしくは頻繁ではない。ピッチ変化は、音生成方法および話し手の感情状態を含む種々の理由のために生じ、フレーズ終了もしくは質問および音調言語の固有部分を示す。
上述された発語−音楽songificationプロセスの幾つかの実現は、声門パルスのピッチを決定するピッチ制御信号を使用する。理解されるように、制御信号は任意の数の方法で生成することができる。例えば、制御信号はランダムに生成されてもよいし、または、統計的モデルに従って生成されてもよい。幾つかの場合もしくは実施形態においては、ピッチ制御信号(例えば、711)は、記号的記譜法もしくは曲唱を利用して作曲された旋律(701)に基づく。前者の場合には、対象ピッチ値のベクトルで構成される音声レート制御信号を生成するために、MIDIなどの記号的記譜法がPythonスクリプトを利用して処理される。曲唱された旋律の場合には、ピッチ検出アルゴリズムは、制御信号を生成するために使用することができる。ピッチ推定の細分化の程度に依存して、音声レート制御信号を生成するために、線形補間が利用される。
我々は、ここで、“ラップ”(即ち、ビートに対してリズム的に整列した発語)に発語を変換するためにより適したさらなる方法を記述する。我々は、この手順を“オートラップ(AutoRap)”と称し、当業者は、本明細書の記述に基づいて広範囲の実現を理解するであろう。より詳細には、より大きなコンピュータ処理フロー(例えば、図4に要約されたように、図3のコンピュートプラットフォーム上で実行するアプリケーションに関連して以前図示され、記述されたような機能的もしくはコンピュータ処理ブロックを通して)の態様は、適用可能なままである。しかしながら、前述されたものに対するある適応、分割および整列技術は、発語−ラップ実施形態に対して適切である。図9の図面は、ある例示的な発語−ラップ実施形態に関連する。
(1)セグメントは、連続的パルス間の空間に適合するために、(より短い場合には)時間延伸されるか、(より長い場合には)時間圧縮される。プロセスは、図9に図示される。我々は、位相ボコーダ913の利用に基づく時間延伸および圧縮用の技術を以下に記述する。
(2)セグメントがより短い場合には、無音で満たされる。第一の手順はより頻繁に利用されるが、セグメントが適合するためにその後の延伸を必要とする場合には、後者の手順は時には、延伸のアーティファクト(影響)を回避するために利用される。
図10は、発語−音楽および/もしくは発語−ラップ対象実装(例えば、ハンドヘルドコンピュートプラットフォーム1001上で実行可能で、かつ本明細書で記述された信号処理技術の計算的実現を具現化するアプリケーション)が(例えば、マイクロフォン入力1012を介して)発語を取り込み、データ記憶装置もしくはサービスプラットフォーム(例えば、サーバ/サービス1005もしくはネットワーククラウド1004内)と、および/もしくは遠隔デバイス(例えば、さらなる発語−音楽および/もしくは発語−ラップアプリケーションインスタンスおよび/もしくはコンピュータ1006をホストするハンドヘルドコンピュートプラットフォーム1002)と通信し、(複数の)本発明の幾つかの実施形態に従って変換される音声信号の演奏用に適した、ネットワーク化された通信環境を示す。
(複数の)本発明は、種々の実施形態に関連して記述されているが、これらの実施形態は例示的なものであって、(複数の)本発明の範囲は、それらに限定されることはないことを理解されたい。多くの変形、改変、追加および改善が可能である。例えば、ボーカル発語が取り込まれ、自動変換され、バッキングトラックとのミキシング用に整列する実施形態が記述されてきたが、本明細書で記述された取り込まれたボーカルの自動変換は、音楽的伴奏なしで、対象リズムもしくは拍子(詩、弱強格の周期、リメリックなどの特性)と時間的に整列する印象的演奏を提供するために使用されてもよいことを理解されたい。
Claims (25)
- 対象曲にリズム的に調和する出力へと、発語の入力音声エンコーディングを変換するためのコンピュータ処理方法であって、
複数のセグメントへと前記発語の前記入力音声エンコーディングを分割することであって、前記複数のセグメントは、前記音声エンコーディングの複数のサンプルの連続的シーケンスに対応し、その中で識別される複数の開始によって境界が定められる、分割することと、
前記対象曲用のリズムスケルトンの複数の其々の連続的パルスと、前記複数のセグメントの連続的、時間順セグメントを時間的に整列させることと、
前記時間的に整列した複数のセグメントのうちの少なくとも幾つかを時間的に延伸し、ならびに、前記時間的に整列した複数のセグメントのうちの少なくとも他の幾つかを時間的に圧縮することであって、前記時間的に延伸および圧縮することは、前記リズムスケルトンの前記複数の連続的パルスのうちの其々のパルス間の利用可能な時間的スペースを実質的に満たし、前記時間的に延伸および圧縮することは、前記時間的に整列した複数のセグメントを実質的にピッチシフトすることなく実施される、時間的に延伸および圧縮することと、
前記入力音声エンコーディングの前記時間的に整列、延伸および圧縮された複数のセグメントに対応して、結果として生じる前記発語の音声エンコーディングを準備することと、
を含む、
ことを特徴とするコンピュータ処理方法。 - 前記対象曲用のバッキングトラックの音声エンコーディングと、前記結果として生じる音声エンコーディングをミキシングすることと、
前記ミキシングされた音声を演奏することと、
をさらに含む、
ことを特徴とする請求項1に記載のコンピュータ処理方法。 - ポータブルハンドヘルドデバイスのマイクロフォン入力から、前記入力音声エンコーディングとして、ユーザによって発された発語を取り込むことをさらに含む、
ことを特徴とする請求項1に記載のコンピュータ処理方法。 - 前記ユーザによる前記対象曲の選択に応じて、前記リズムスケルトンおよび前記対象曲用のバックングトラックのうちの少なくとも一つのコンピュータ可読エンコーディングを検索することをさらに含む、
ことを特徴とする請求項1に記載のコンピュータ処理方法。 - 前記ユーザの選択に応じて前記検索することは、前記ポータブルハンドヘルドデバイスの通信インターフェイスを介して、遠隔記憶装置から、前記リズムスケルトンおよび前記バッキングトラックのいずれかもしくはその双方を獲得することを含む、
ことを特徴とする請求項4に記載のコンピュータ処理方法。 - 前記分割することは、
前記発語の前記音声エンコーディングへと、帯域制限されたもしくは帯域加重されたスペクトル差タイプ(SDFタイプ)関数を適用し、前記発語エンコーディング内の複数の開始候補として、その結果における時間的に指数付けされた複数のピークを選び取ることと、
複数の開始候補の相対的強度に少なくとも部分的に基づいて、複数のセグメントへと、前記発語エンコーディングの隣接する開始候補によって境界を定められた複数のサブ部分をまとめることと、
を含む、
ことを特徴とする請求項1に記載のコンピュータ処理方法。 - 前記帯域制限されたもしくは帯域加重されたSDFタイプ関数は、前記発語エンコーディング用のパワースペクトルの心理音響に基づいた表現に対して動作し、
前記帯域制限もしくは加重は、約2000Hz未満の前記パワースペクトルのサブ帯域を強調する、
ことを特徴とする請求項6に記載のコンピュータ処理方法。 - 前記強調されたサブ帯域は、約700Hzから約1500Hzの間である、
ことを特徴とする請求項7に記載のコンピュータ処理方法。 - 前記まとめることは、最小セグメント長閾値に少なくとも部分的に基づいて実施される、
ことを特徴とする請求項6に記載のコンピュータ処理方法。 - 前記リズムスケルトンは、前記対象曲のテンポのパルス列エンコーディングに対応する、
ことを特徴とする請求項1に記載のコンピュータ処理方法。 - 前記対象曲は、複数の構成リズムを含み、
前記パルス列エンコーディングは、前記構成リズムの複数の相対的強度に従ってスケール変更された複数の其々のパルスを含む、
ことを特徴とする請求項10に記載のコンピュータ処理方法。 - 前記リズムスケルトンを作成するために、前記対象曲のバッキングトラック用のビート検出を実施することをさらに含む、
ことを特徴とする請求項1に記載のコンピュータ処理方法。 - 位相ボコーダを利用して、実質的にピッチシフトすることなく、前記延伸および圧縮を実施することをさらに含む、
ことを特徴とする請求項1に記載のコンピュータ処理方法。 - 延伸することおよび圧縮することは、前記リズムスケルトンの複数の連続的パルス間が満たされる時間的スペースへとセグメント長の其々の比に従って、前記時間的に整列した複数のセグメントの其々に対して変化する速度でリアルタイムに実施される、
ことを特徴とする請求項13に記載のコンピュータ処理方法。 - 前記発語エンコーディングの前記時間的に整列した複数のセグメントのうちの少なくとも幾つかに対して、前記リズムスケルトンの複数の前記連続的パルスのうちの其々のパルス間の利用可能な時間的スペースを実質的に満たすために、静寂で満たすことをさらに含む、
ことを特徴とする請求項1に記載のコンピュータ処理方法。 - 前記リズムスケルトンへと前記順序づけられた複数のセグメントの複数の候補マッピングの各々に対して、前記順序づけられた複数のセグメントのうちのそれぞれ一つに適用された時間的延伸および圧縮比率の統計学的分布を評価することと、
前記複数の其々の統計学的分布に少なくとも部分的に基づいて、前記複数の候補マッピングの間から選択することと、
をさらに含む、
ことを特徴とする請求項1に記載のコンピュータ処理方法。 - 前記リズムスケルトンへと前記順序づけられた複数のセグメントの複数の候補マッピングの各々に対して、前記複数の候補マッピングは、複数の異なる開始点を有し、前記時間的な延伸および圧縮の大きさを前記特定の候補マッピングに対して計算することと、
前記其々の計算された複数の大きさに少なくとも部分的に基づいて、前記複数の候補マッピングの間から選択することと、
をさらに含む、
ことを特徴とする請求項1に記載のコンピュータ処理方法。 - 前記複数の其々の大きさは、前記延伸および圧縮比率の幾何平均として計算され、
前記選択は、前記計算された幾何平均を実質的に最小限化する候補マッピングのものである、
ことを特徴とする請求項17に記載のコンピュータ処理方法。 - コンピュートパッド、
パーソナルデジタルアシスタントもしくはブックリーダ、
携帯電話もしくはメディアプレイヤー
の群から選択されたポータブルコンピューティングデバイス上で実施される、
ことを特徴とする請求項1に記載のコンピュータ処理方法。 - ポータブルコンピューティングデバイスに請求項1の方法を実施させるために、前記ポータブルコンピューティングデバイスのプロセッサ上で実行可能な複数の命令を含む、
ことを特徴とする一つ以上の媒体においてエンコードされるコンピュータプログラム製品。 - 前記一つ以上の媒体は、前記ポータブルコンピューティングデバイスによって読み取り可能であるか、または、前記ポータブルコンピューティングデバイスに伝送するコンピュータプログラム製品に付随して読み取り可能である、
ことを特徴とする請求項20に記載のコンピュータプログラム製品。 - ポータブルコンピューティングデバイスと、
非一時的媒体において具現化され、かつ、音声エンコーディングのうちの複数のサンプルの開始によって境界を定められた複数の連続的シーケンスを含む複数のセグメントへと、発語の入力音声エンコーディングを分割するために、前記ポータブルコンピューティングデバイス上で実行可能なマシン可読コードと、
を含み、
前記マシン可読コードは、前記対象曲用のリズムスケルトンの其々の複数の連続的パルスと、前記複数のセグメントの連続的、時間順セグメントを時間的に整列させるようにさらに実行可能であって、
前記マシン可読コードは、前記時間的に整列した複数のセグメントのうちの少なくとも幾つかを時間的に延伸し、ならびに前記時間的に整列した複数のセグメントのうちの少なくとも他の幾つかを時間的に圧縮するようにさらに実行可能であって、前記時間的に延伸および圧縮することは、前記時間的に整列した複数のセグメントを実質的にピッチシフトすることなく、前記リズムスケルトンの前記連続的複数のパルスのうちの其々のパルス間の利用可能な時間的スペースを実質的に満たし、
前記マシン可読コードは、前記入力音声エンコーディングのうち、前記時間的に整列、延伸、ならびに圧縮された複数のセグメントに対応して、結果として生じる前記発語の音声エンコーディングを準備するようにさらに実行可能である、
ことを特徴とする装置。 - コンピュータ処理パッド、ハンドヘルドモバイルデバイス、携帯電話、パーソナルデジタルアシスタント、スマートフォン、メディアプレイヤーおよびブックリーダのうちの一つ以上として具現化される、
ことを特徴とする請求項22に記載の装置。 - 対象曲とリズム的に調和する出力へと、発語の入力音声エンコーディングを変換するようにコンピュータ処理システム上で実行可能な複数の命令を含む非一時的媒体内にエンコードされたコンピュータプログラム製品であって、
前記コンピュータプログラム製品は、
前記音声エンコーディングから複数のサンプルの連続的、かつ開始によって境界を定められた複数のシーケンスに対応する複数のセグメントへと、前記発語の前記入力音声エンコーディングを分割するように実行可能な複数の命令と、
前記対象曲用のリズムスケルトンの其々の複数の連続的パルスと、前記複数のセグメントの連続的、時間順のセグメントを時間的に整列させるように実行可能な複数の命令と、
前記時間的に整列した複数のセグメントのうちの少なくとも幾つかを時間的に延伸し、前記時間的に整列した複数のセグメントのうちの他の少なくとも幾つかを時間的に圧縮するように実行可能な複数の命令であって、前記時間的に延伸および圧縮することは、前記時間的に整列した複数のセグメントを実質的にピッチシフトすることなく、前記リズムスケルトンの前記連続的複数のパルスのうちの其々のパルス間の利用可能な時間的スペースを実質的に満たす、命令と、
前記入力音声エンコーディングの前記時間的に整列、延伸および圧縮された複数のセグメントに対応して、結果として生じる前記発語の音声エンコーディングを準備するように実行可能な複数の命令と、
をエンコードして含む、
ことを特徴とするコンピュータプログラム製品。 - 前記媒体は、前記ポータブルコンピューティングデバイスによって読み取り可能であるか、または、前記ポータブルコンピューティングデバイスへと伝送するコンピュータプログラム製品に付随して読みとり可能である、
ことを特徴とする請求項24に記載のコンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261617643P | 2012-03-29 | 2012-03-29 | |
US61/617,643 | 2012-03-29 | ||
PCT/US2013/034678 WO2013149188A1 (en) | 2012-03-29 | 2013-03-29 | Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015515647A true JP2015515647A (ja) | 2015-05-28 |
JP6290858B2 JP6290858B2 (ja) | 2018-03-07 |
Family
ID=48093118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015503661A Active JP6290858B2 (ja) | 2012-03-29 | 2013-03-29 | 発話の入力オーディオエンコーディングを、対象歌曲にリズム的に調和する出力へと自動変換するための、コンピュータ処理方法、装置、及びコンピュータプログラム製品 |
Country Status (4)
Country | Link |
---|---|
US (5) | US9324330B2 (ja) |
JP (1) | JP6290858B2 (ja) |
KR (1) | KR102038171B1 (ja) |
WO (1) | WO2013149188A1 (ja) |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11062615B1 (en) | 2011-03-01 | 2021-07-13 | Intelligibility Training LLC | Methods and systems for remote language learning in a pandemic-aware world |
US10019995B1 (en) | 2011-03-01 | 2018-07-10 | Alice J. Stiebel | Methods and systems for language learning based on a series of pitch patterns |
US10262644B2 (en) * | 2012-03-29 | 2019-04-16 | Smule, Inc. | Computationally-assisted musical sequencing and/or composition techniques for social music challenge or competition |
KR102038171B1 (ko) | 2012-03-29 | 2019-10-29 | 스뮬, 인코포레이티드 | 타겟 운율 또는 리듬이 있는 노래, 랩 또는 다른 가청 표현으로의 스피치 자동 변환 |
US8961183B2 (en) * | 2012-06-04 | 2015-02-24 | Hallmark Cards, Incorporated | Fill-in-the-blank audio-story engine |
US10971191B2 (en) * | 2012-12-12 | 2021-04-06 | Smule, Inc. | Coordinated audiovisual montage from selected crowd-sourced content with alignment to audio baseline |
US9459768B2 (en) * | 2012-12-12 | 2016-10-04 | Smule, Inc. | Audiovisual capture and sharing framework with coordinated user-selectable audio and video effects filters |
US9123353B2 (en) * | 2012-12-21 | 2015-09-01 | Harman International Industries, Inc. | Dynamically adapted pitch correction based on audio input |
US9372925B2 (en) * | 2013-09-19 | 2016-06-21 | Microsoft Technology Licensing, Llc | Combining audio samples by automatically adjusting sample characteristics |
US9798974B2 (en) | 2013-09-19 | 2017-10-24 | Microsoft Technology Licensing, Llc | Recommending audio sample combinations |
JP6299141B2 (ja) * | 2013-10-17 | 2018-03-28 | ヤマハ株式会社 | 楽音情報生成装置および楽音情報生成方法 |
WO2015103415A1 (en) * | 2013-12-31 | 2015-07-09 | Smule, Inc. | Computationally-assisted musical sequencing and/or composition techniques for social music challenge or competition |
US11488569B2 (en) | 2015-06-03 | 2022-11-01 | Smule, Inc. | Audio-visual effects system for augmentation of captured performance based on content thereof |
WO2016196987A1 (en) | 2015-06-03 | 2016-12-08 | Smule, Inc. | Automated generation of coordinated audiovisual work based on content captured geographically distributed performers |
US11032602B2 (en) | 2017-04-03 | 2021-06-08 | Smule, Inc. | Audiovisual collaboration method with latency management for wide-area broadcast |
US9756281B2 (en) | 2016-02-05 | 2017-09-05 | Gopro, Inc. | Apparatus and method for audio based video synchronization |
US10460711B2 (en) * | 2016-07-13 | 2019-10-29 | Smule, Inc. | Crowd sourced technique for pitch track generation |
US9697849B1 (en) | 2016-07-25 | 2017-07-04 | Gopro, Inc. | Systems and methods for audio based synchronization using energy vectors |
US9640159B1 (en) | 2016-08-25 | 2017-05-02 | Gopro, Inc. | Systems and methods for audio based synchronization using sound harmonics |
US9653095B1 (en) | 2016-08-30 | 2017-05-16 | Gopro, Inc. | Systems and methods for determining a repeatogram in a music composition using audio features |
GB201615934D0 (en) | 2016-09-19 | 2016-11-02 | Jukedeck Ltd | A method of combining data |
US9916822B1 (en) | 2016-10-07 | 2018-03-13 | Gopro, Inc. | Systems and methods for audio remixing using repeated segments |
US10741197B2 (en) * | 2016-11-15 | 2020-08-11 | Amos Halava | Computer-implemented criminal intelligence gathering system and method |
US11310538B2 (en) | 2017-04-03 | 2022-04-19 | Smule, Inc. | Audiovisual collaboration system and method with latency management for wide-area broadcast and social media-type user interface mechanics |
EP3389028A1 (en) | 2017-04-10 | 2018-10-17 | Sugarmusic S.p.A. | Automatic music production from voice recording. |
US10818308B1 (en) * | 2017-04-28 | 2020-10-27 | Snap Inc. | Speech characteristic recognition and conversion |
US10614826B2 (en) * | 2017-05-24 | 2020-04-07 | Modulate, Inc. | System and method for voice-to-voice conversion |
IL253472B (en) * | 2017-07-13 | 2021-07-29 | Melotec Ltd | Method and system for performing melody recognition |
CN108257613B (zh) * | 2017-12-05 | 2021-12-10 | 北京小唱科技有限公司 | 修正音频内容音高偏差的方法及装置 |
CN108206026B (zh) * | 2017-12-05 | 2021-12-03 | 北京小唱科技有限公司 | 确定音频内容音高偏差的方法及装置 |
CN108257609A (zh) * | 2017-12-05 | 2018-07-06 | 北京小唱科技有限公司 | 音频内容修正的方法及其智能装置 |
CN108257588B (zh) * | 2018-01-22 | 2022-03-01 | 姜峰 | 一种谱曲方法及装置 |
CN108877753B (zh) * | 2018-06-15 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 音乐合成方法及***、终端以及计算机可读存储介质 |
EP3935622A4 (en) * | 2019-03-07 | 2023-03-01 | Yao the Bard, LLC. | SYSTEMS AND METHODS FOR TRANSFORMING SPOKE OR TEXTUAL INPUT INTO MUSIC |
US10762887B1 (en) * | 2019-07-24 | 2020-09-01 | Dialpad, Inc. | Smart voice enhancement architecture for tempo tracking among music, speech, and noise |
CN110675886B (zh) * | 2019-10-09 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、电子设备及存储介质 |
JP2023521476A (ja) * | 2020-04-16 | 2023-05-24 | ヴォイスエイジ・コーポレーション | サウンドコーデックにおける音声/音楽分類およびコアエンコーダ選択のための方法およびデバイス |
KR20220039018A (ko) * | 2020-09-21 | 2022-03-29 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
JP2023546989A (ja) | 2020-10-08 | 2023-11-08 | モジュレイト インク. | コンテンツモデレーションのためのマルチステージ適応型システム |
CN112420062B (zh) * | 2020-11-18 | 2024-07-19 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频信号处理方法及设备 |
CN112542159B (zh) * | 2020-12-01 | 2024-04-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种数据处理方法以及设备 |
US11495200B2 (en) * | 2021-01-14 | 2022-11-08 | Agora Lab, Inc. | Real-time speech to singing conversion |
TWI836255B (zh) * | 2021-08-17 | 2024-03-21 | 國立清華大學 | 透過歌聲轉換設計個人化虛擬歌手的方法及裝置 |
US12020138B2 (en) * | 2022-09-07 | 2024-06-25 | Google Llc | Generating audio using auto-regressive generative neural networks |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000105595A (ja) * | 1998-09-30 | 2000-04-11 | Victor Co Of Japan Ltd | 歌唱装置及び記録媒体 |
JP2006048377A (ja) * | 2004-08-04 | 2006-02-16 | Pioneer Electronic Corp | 報知制御装置、報知制御システム、それらの方法、それらのプログラム、および、それらのプログラムを記録した記録媒体 |
CN101399036A (zh) * | 2007-09-30 | 2009-04-01 | 三星电子株式会社 | 将语音转换为说唱音乐的设备和方法 |
JP2011048335A (ja) * | 2009-08-25 | 2011-03-10 | Inst For Information Industry | 歌声合成システム、歌声合成方法及び歌声合成装置 |
Family Cites Families (62)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BE757772A (fr) * | 1970-06-10 | 1971-04-01 | Kakehashi Ikutaro | Dispositif pour la production automatique d'un rythme |
JPS5241648B2 (ja) * | 1971-10-18 | 1977-10-19 | ||
US3723667A (en) * | 1972-01-03 | 1973-03-27 | Pkm Corp | Apparatus for speech compression |
US6001131A (en) * | 1995-02-24 | 1999-12-14 | Nynex Science & Technology, Inc. | Automatic target noise cancellation for speech enhancement |
US5842172A (en) * | 1995-04-21 | 1998-11-24 | Tensortech Corporation | Method and apparatus for modifying the play time of digital audio tracks |
US5749064A (en) * | 1996-03-01 | 1998-05-05 | Texas Instruments Incorporated | Method and system for time scale modification utilizing feature vectors about zero crossing points |
US5828994A (en) * | 1996-06-05 | 1998-10-27 | Interval Research Corporation | Non-uniform time scale modification of recorded audio |
US6570991B1 (en) * | 1996-12-18 | 2003-05-27 | Interval Research Corporation | Multi-feature speech/music discrimination system |
JP3620240B2 (ja) * | 1997-10-14 | 2005-02-16 | ヤマハ株式会社 | 自動作曲装置および記録媒体 |
US6236966B1 (en) * | 1998-04-14 | 2001-05-22 | Michael K. Fleming | System and method for production of audio control parameters using a learning machine |
JP3675287B2 (ja) * | 1999-08-09 | 2005-07-27 | ヤマハ株式会社 | 演奏データ作成装置 |
JP3570309B2 (ja) * | 1999-09-24 | 2004-09-29 | ヤマハ株式会社 | リミックス装置および記憶媒体 |
US6859778B1 (en) * | 2000-03-16 | 2005-02-22 | International Business Machines Corporation | Method and apparatus for translating natural-language speech using multiple output phrases |
US6535851B1 (en) * | 2000-03-24 | 2003-03-18 | Speechworks, International, Inc. | Segmentation approach for speech recognition systems |
JP2002023747A (ja) * | 2000-07-07 | 2002-01-25 | Yamaha Corp | 自動作曲方法と装置及び記録媒体 |
ATE338333T1 (de) * | 2001-04-05 | 2006-09-15 | Koninkl Philips Electronics Nv | Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp |
US7283954B2 (en) * | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
US7735011B2 (en) * | 2001-10-19 | 2010-06-08 | Sony Ericsson Mobile Communications Ab | Midi composer |
US7065485B1 (en) * | 2002-01-09 | 2006-06-20 | At&T Corp | Enhancing speech intelligibility using variable-rate time-scale modification |
JP2003302984A (ja) * | 2002-04-11 | 2003-10-24 | Yamaha Corp | 歌詞表示方法、歌詞表示プログラムおよび歌詞表示装置 |
US7411985B2 (en) * | 2003-03-21 | 2008-08-12 | Lucent Technologies Inc. | Low-complexity packet loss concealment method for voice-over-IP speech transmission |
TWI221561B (en) * | 2003-07-23 | 2004-10-01 | Ali Corp | Nonlinear overlap method for time scaling |
US7337108B2 (en) * | 2003-09-10 | 2008-02-26 | Microsoft Corporation | System and method for providing high-quality stretching and compression of a digital audio signal |
KR100571831B1 (ko) * | 2004-02-10 | 2006-04-17 | 삼성전자주식회사 | 음성 식별 장치 및 방법 |
DE102004047069A1 (de) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks |
US7164906B2 (en) * | 2004-10-08 | 2007-01-16 | Magix Ag | System and method of music generation |
US8296143B2 (en) * | 2004-12-27 | 2012-10-23 | P Softhouse Co., Ltd. | Audio signal processing apparatus, audio signal processing method, and program for having the method executed by computer |
US7825321B2 (en) * | 2005-01-27 | 2010-11-02 | Synchro Arts Limited | Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals |
WO2007011308A1 (en) * | 2005-07-22 | 2007-01-25 | Agency For Science, Technology And Research | Automatic creation of thumbnails for music videos |
KR100725018B1 (ko) * | 2005-11-24 | 2007-06-07 | 삼성전자주식회사 | 음악 내용 자동 요약 방법 및 그 장치 |
KR100717396B1 (ko) * | 2006-02-09 | 2007-05-11 | 삼성전자주식회사 | 로컬 스펙트럴 정보를 이용하여 음성 인식을 위한 유성음을판단하는 방법 및 장치 |
US7790974B2 (en) * | 2006-05-01 | 2010-09-07 | Microsoft Corporation | Metadata-based song creation and editing |
GB2443027B (en) * | 2006-10-19 | 2009-04-01 | Sony Comp Entertainment Europe | Apparatus and method of audio processing |
US7863511B2 (en) * | 2007-02-09 | 2011-01-04 | Avid Technology, Inc. | System for and method of generating audio sequences of prescribed duration |
US20080221876A1 (en) * | 2007-03-08 | 2008-09-11 | Universitat Fur Musik Und Darstellende Kunst | Method for processing audio data into a condensed version |
JP4640407B2 (ja) * | 2007-12-07 | 2011-03-02 | ソニー株式会社 | 信号処理装置、信号処理方法及びプログラム |
KR101455090B1 (ko) * | 2008-01-07 | 2014-10-28 | 삼성전자주식회사 | 재생 음악과 연주 음악간의 자동 키 매칭 방법 및 장치 및그 오디오 재생 장치 |
WO2009144368A1 (en) * | 2008-05-30 | 2009-12-03 | Nokia Corporation | Method, apparatus and computer program product for providing improved speech synthesis |
US8140330B2 (en) * | 2008-06-13 | 2012-03-20 | Robert Bosch Gmbh | System and method for detecting repeated patterns in dialog systems |
US8119897B2 (en) * | 2008-07-29 | 2012-02-21 | Teie David Ernest | Process of and apparatus for music arrangements adapted from animal noises to form species-specific music |
US20100095829A1 (en) * | 2008-10-16 | 2010-04-22 | Rehearsal Mix, Llc | Rehearsal mix delivery |
JP5282548B2 (ja) * | 2008-12-05 | 2013-09-04 | ソニー株式会社 | 情報処理装置、音素材の切り出し方法、及びプログラム |
US20100169105A1 (en) * | 2008-12-29 | 2010-07-01 | Youngtack Shim | Discrete time expansion systems and methods |
US8374712B2 (en) * | 2008-12-31 | 2013-02-12 | Microsoft Corporation | Gapless audio playback |
US8026436B2 (en) * | 2009-04-13 | 2011-09-27 | Smartsound Software, Inc. | Method and apparatus for producing audio tracks |
US8566258B2 (en) * | 2009-07-10 | 2013-10-22 | Sony Corporation | Markovian-sequence generator and new methods of generating Markovian sequences |
US8153882B2 (en) * | 2009-07-20 | 2012-04-10 | Apple Inc. | Time compression/expansion of selected audio segments in an audio file |
US8903730B2 (en) * | 2009-10-02 | 2014-12-02 | Stmicroelectronics Asia Pacific Pte Ltd | Content feature-preserving and complexity-scalable system and method to modify time scaling of digital audio signals |
US8222507B1 (en) * | 2009-11-04 | 2012-07-17 | Smule, Inc. | System and method for capture and rendering of performance on synthetic musical instrument |
US9147385B2 (en) * | 2009-12-15 | 2015-09-29 | Smule, Inc. | Continuous score-coded pitch correction |
US8682653B2 (en) * | 2009-12-15 | 2014-03-25 | Smule, Inc. | World stage for pitch-corrected vocal performances |
US9053695B2 (en) * | 2010-03-04 | 2015-06-09 | Avid Technology, Inc. | Identifying musical elements with similar rhythms |
GB2493470B (en) * | 2010-04-12 | 2017-06-07 | Smule Inc | Continuous score-coded pitch correction and harmony generation techniques for geographically distributed glee club |
JP5728913B2 (ja) * | 2010-12-02 | 2015-06-03 | ヤマハ株式会社 | 音声合成情報編集装置およびプログラム |
JP5598398B2 (ja) * | 2011-03-25 | 2014-10-01 | ヤマハ株式会社 | 伴奏データ生成装置及びプログラム |
US20130144626A1 (en) * | 2011-12-04 | 2013-06-06 | David Shau | Rap music generation |
KR102038171B1 (ko) * | 2012-03-29 | 2019-10-29 | 스뮬, 인코포레이티드 | 타겟 운율 또는 리듬이 있는 노래, 랩 또는 다른 가청 표현으로의 스피치 자동 변환 |
KR102246623B1 (ko) * | 2012-08-07 | 2021-04-29 | 스뮬, 인코포레이티드 | 선택적으로 적용가능한 보컬 효과 스케줄에 기초한 후속적 리렌더링을 위한 보컬 연주 및 드라이 보컬 캡쳐의 연속적인 실시간 피치 보정에 의한 소셜 음악 시스템 및 방법 |
US9451304B2 (en) * | 2012-11-29 | 2016-09-20 | Adobe Systems Incorporated | Sound feature priority alignment |
US10971191B2 (en) * | 2012-12-12 | 2021-04-06 | Smule, Inc. | Coordinated audiovisual montage from selected crowd-sourced content with alignment to audio baseline |
US9459768B2 (en) * | 2012-12-12 | 2016-10-04 | Smule, Inc. | Audiovisual capture and sharing framework with coordinated user-selectable audio and video effects filters |
CN103971689B (zh) * | 2013-02-04 | 2016-01-27 | 腾讯科技(深圳)有限公司 | 一种音频识别方法及装置 |
-
2013
- 2013-03-29 KR KR1020147030440A patent/KR102038171B1/ko active IP Right Grant
- 2013-03-29 JP JP2015503661A patent/JP6290858B2/ja active Active
- 2013-03-29 US US13/853,759 patent/US9324330B2/en active Active
- 2013-03-29 WO PCT/US2013/034678 patent/WO2013149188A1/en active Application Filing
- 2013-06-05 US US13/910,949 patent/US9666199B2/en active Active
-
2017
- 2017-05-26 US US15/606,111 patent/US10290307B2/en active Active
-
2019
- 2019-05-13 US US16/410,500 patent/US11127407B2/en active Active
-
2021
- 2021-09-20 US US17/479,912 patent/US12033644B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000105595A (ja) * | 1998-09-30 | 2000-04-11 | Victor Co Of Japan Ltd | 歌唱装置及び記録媒体 |
JP2006048377A (ja) * | 2004-08-04 | 2006-02-16 | Pioneer Electronic Corp | 報知制御装置、報知制御システム、それらの方法、それらのプログラム、および、それらのプログラムを記録した記録媒体 |
CN101399036A (zh) * | 2007-09-30 | 2009-04-01 | 三星电子株式会社 | 将语音转换为说唱音乐的设备和方法 |
JP2011048335A (ja) * | 2009-08-25 | 2011-03-10 | Inst For Information Industry | 歌声合成システム、歌声合成方法及び歌声合成装置 |
Non-Patent Citations (1)
Title |
---|
才野 慶二郎: "ラップスタイル歌声合成の検討", 情報処理学会研究報告 2011年度, JPN6017020663, 15 April 2012 (2012-04-15), pages 1 - 6, ISSN: 0003711503 * |
Also Published As
Publication number | Publication date |
---|---|
US9666199B2 (en) | 2017-05-30 |
US20170337927A1 (en) | 2017-11-23 |
US20140074459A1 (en) | 2014-03-13 |
KR20150016225A (ko) | 2015-02-11 |
US20130339035A1 (en) | 2013-12-19 |
WO2013149188A1 (en) | 2013-10-03 |
US10290307B2 (en) | 2019-05-14 |
US12033644B2 (en) | 2024-07-09 |
US9324330B2 (en) | 2016-04-26 |
US11127407B2 (en) | 2021-09-21 |
US20220180879A1 (en) | 2022-06-09 |
US20200105281A1 (en) | 2020-04-02 |
KR102038171B1 (ko) | 2019-10-29 |
JP6290858B2 (ja) | 2018-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6290858B2 (ja) | 発話の入力オーディオエンコーディングを、対象歌曲にリズム的に調和する出力へと自動変換するための、コンピュータ処理方法、装置、及びコンピュータプログラム製品 | |
US11264058B2 (en) | Audiovisual capture and sharing framework with coordinated, user-selectable audio and video effects filters | |
US20200082802A1 (en) | Computationally-assisted musical sequencing and/or composition techniques for social music challenge or competition | |
CN104272382B (zh) | 基于模板的个性化歌唱合成的方法和*** | |
US8706496B2 (en) | Audio signal transforming by utilizing a computational cost function | |
JP5961950B2 (ja) | 音声処理装置 | |
JP2016509384A (ja) | コーディネートされた、ユーザ選択可能な音響及びビデオ効果フィルタを有する音響視覚取得及び共有フレームワーク | |
CN108766409A (zh) | 一种戏曲合成方法、装置和计算机可读存储介质 | |
JP2018077283A (ja) | 音声合成方法 | |
WO2015103415A1 (en) | Computationally-assisted musical sequencing and/or composition techniques for social music challenge or competition | |
JP5573529B2 (ja) | 音声処理装置およびプログラム | |
JP6834370B2 (ja) | 音声合成方法 | |
US11495200B2 (en) | Real-time speech to singing conversion | |
TWI302296B (ja) | ||
JP2018077280A (ja) | 音声合成方法 | |
JP6822075B2 (ja) | 音声合成方法 | |
Maddage et al. | Word level automatic alignment of music and lyrics using vocal synthesis | |
Dhiman | Prosody Modifications for Voice Conversion | |
Calitz | Independent formant and pitch control applied to singing voice | |
Cooke | Audio Morphing Stuart Nicholas Wrigley 29 April 1998 | |
Möhlmann | A Parametric Sound Object Model for Sound Texture Synthesis | |
Kumar et al. | Automatic Audio Morphing on Detached Sound Waveforms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160325 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170529 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170905 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170919 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20171002 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180208 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6290858 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |