JP2020194098A - 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法 - Google Patents
推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法 Download PDFInfo
- Publication number
- JP2020194098A JP2020194098A JP2019099913A JP2019099913A JP2020194098A JP 2020194098 A JP2020194098 A JP 2020194098A JP 2019099913 A JP2019099913 A JP 2019099913A JP 2019099913 A JP2019099913 A JP 2019099913A JP 2020194098 A JP2020194098 A JP 2020194098A
- Authority
- JP
- Japan
- Prior art keywords
- reference signal
- phase
- tuning
- estimation model
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 238000012549 training Methods 0.000 title claims abstract description 68
- 238000002360 preparation method Methods 0.000 title claims description 20
- 238000012545 processing Methods 0.000 claims abstract description 127
- 238000001228 spectrum Methods 0.000 claims abstract description 88
- 230000008569 process Effects 0.000 claims abstract description 71
- 238000010801 machine learning Methods 0.000 claims abstract description 34
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 27
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 26
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- HAHMABKERDVYCH-ZUQRMPMESA-N neticonazole hydrochloride Chemical compound Cl.CCCCCOC1=CC=CC=C1\C(=C/SC)N1C=NC=C1 HAHMABKERDVYCH-ZUQRMPMESA-N 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10G—REPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
- G10G3/00—Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H7/00—Instruments in which the tones are synthesised from a data store, e.g. computer organs
- G10H7/08—Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/025—Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
- G10H2250/031—Spectrum envelope processing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Algebra (AREA)
- Mathematical Optimization (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
【課題】音響信号を推定するための推定モデルの機械学習を効率化する。【解決手段】推定モデル確立装置は、準備処理部31と訓練処理部32とを具備する。準備処理部31は、複数の参照信号Rの各々について、当該参照信号Rの各ピッチマークにおいて当該参照信号Rの位相スペクトルにおける調波成分の位相値が目標位相となるように、当該参照信号Rを区分した各解析区間の位相スペクトルを調整する調整処理と、調整処理後の位相スペクトルと当該参照信号Rの振幅スペクトルとから音響信号Vを合成する合成処理と、を実行することで、訓練データDを参照信号R毎に生成する。訓練処理部32は、複数の参照信号Rについてそれぞれ生成された複数の訓練データDを利用した機械学習により、制御データCに応じた音響信号Vを推定するための推定モデルMを確立する。【選択図】図2
Description
本開示は、音声または楽音等の音の合成に利用される推定モデルの確立に関する。
音声または楽音等の各種の音を合成する音合成技術が従来から提案されている。例えば特許文献1には、深層ニューラルネットワーク等の推定モデルを利用して音声を合成する技術が開示されている。非特許文献1には、特許文献1と同様の推定モデルを利用して歌唱音声を合成する技術が開示されている。推定モデルは、多数の音響信号を訓練データとして利用した機械学習により確立される。
Merlijn Blaauw, Jordi Bonada, "A NEWRAL PARATETRIC SINGING SYNTHESIZER," arXiv, 2017.4.12
推定モデルの機械学習には、非常に多数の音響信号と非常に長時間にわたる訓練が必要であり、機械学習の効率化という観点から改善の余地がある。以上の事情を考慮して、本開示は、音響信号を推定するための推定モデルの機械学習を効率化することを目的とする。
以上の課題を解決するために、本開示のひとつの態様に係る推定モデル確立方法は、複数の参照信号の各々について、当該参照信号の基本周波数に対応する間隔で設定された各ピッチマークにおいて当該参照信号の位相スペクトルにおける調波成分の位相値が目標位相となるように、当該参照信号を区分した複数の解析区間の各々における位相スペクトルを調整する調整処理と、前記調整処理後の位相スペクトルと当該参照信号の振幅スペクトルとから前記複数の解析区間にわたる音響信号を合成する合成処理と、を実行することで、当該参照信号の条件を指定する制御データと当該参照信号から合成された前記音響信号とを含む訓練データを前記参照信号毎に生成し、前記複数の参照信号についてそれぞれ生成された複数の訓練データを利用した機械学習により、制御データに応じた音響信号を推定するための推定モデルを確立する。
本開示の他の態様に係る推定モデル確立装置は、複数の参照信号の各々について、当該参照信号の基本周波数に対応する間隔で設定された各ピッチマークにおいて当該参照信号の位相スペクトルにおける調波成分の位相値が目標位相となるように、当該参照信号を区分した複数の解析区間の各々における位相スペクトルを調整する調整処理と、前記調整処理後の位相スペクトルと当該参照信号の振幅スペクトルとから前記複数の解析区間にわたる音響信号を合成する合成処理と、を実行することで、当該参照信号の条件を指定する制御データと当該参照信号から合成された前記音響信号とを含む訓練データを前記参照信号毎に生成する準備処理部と、前記複数の参照信号についてそれぞれ生成された複数の訓練データを利用した機械学習により、制御データに応じた音響信号を推定するための推定モデルを確立する訓練処理部とを具備する。
本開示の他の態様に係るプログラムは、複数の参照信号の各々について、当該参照信号の基本周波数に対応する間隔で設定された各ピッチマークにおいて当該参照信号の位相スペクトルにおける調波成分の位相値が目標位相となるように、当該参照信号を区分した複数の解析区間の各々における位相スペクトルを調整する調整処理と、前記調整処理後の位相スペクトルと当該参照信号の振幅スペクトルとから前記複数の解析区間にわたる音響信号を合成する合成処理と、を実行することで、当該参照信号の条件を指定する制御データと当該参照信号から合成された前記音響信号とを含む訓練データを前記参照信号毎に生成する準備処理部、および、前記複数の参照信号についてそれぞれ生成された複数の訓練データを利用した機械学習により、制御データに応じた音響信号を推定するための推定モデルを確立する訓練処理部、としてコンピュータを機能させる。
本開示のひとつの態様に係る訓練データ準備方法は、制御データに応じた音響信号を推定する推定モデルを確立するための機械学習に利用される複数の訓練データを準備する方法であって、複数の参照信号の各々について、当該参照信号の基本周波数に対応する間隔で設定された各ピッチマークにおいて当該参照信号の位相スペクトルにおける調波成分の位相値が目標位相となるように、当該参照信号を区分した複数の解析区間の各々における位相スペクトルを調整する調整処理と、前記調整処理後の位相スペクトルと当該参照信号の振幅スペクトルとから前記複数の解析区間にわたる音響信号を合成する合成処理と、を実行することで、当該参照信号の条件を指定する制御データと当該参照信号から合成された前記音響信号とを含む訓練データを前記参照信号毎に生成する。
<第1実施形態>
図1は、ひとつの形態に係る音合成装置100の構成を例示するブロック図である。音合成装置100は、任意の合成音を生成する信号処理装置である。合成音は、例えば、歌唱者が仮想的に歌唱した歌唱音声、または、演奏者による仮想的な楽器の演奏で発音される楽器音である。音合成装置100は、制御装置11と記憶装置12と放音装置13とを具備するコンピュータシステムで実現される。例えば携帯電話機、スマートフォンまたはパーソナルコンピュータ等の情報端末が、音合成装置100として利用される。
図1は、ひとつの形態に係る音合成装置100の構成を例示するブロック図である。音合成装置100は、任意の合成音を生成する信号処理装置である。合成音は、例えば、歌唱者が仮想的に歌唱した歌唱音声、または、演奏者による仮想的な楽器の演奏で発音される楽器音である。音合成装置100は、制御装置11と記憶装置12と放音装置13とを具備するコンピュータシステムで実現される。例えば携帯電話機、スマートフォンまたはパーソナルコンピュータ等の情報端末が、音合成装置100として利用される。
制御装置11は、音合成装置100の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置11は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより構成される。制御装置11は、合成音の波形を表す時間領域の音響信号Vを生成する。
放音装置13は、制御装置11が生成した音響信号Vが表す合成音を放音する。放音装置13は、例えばスピーカまたはヘッドホンである。なお、音響信号Vをデジタルからアナログに変換するD/A変換器と、音響信号Vを増幅する増幅器とについては、図示を便宜的に省略した。また、図1では、放音装置13を音合成装置100に搭載した構成を例示したが、音合成装置100とは別体の放音装置13を音合成装置100に有線または無線で接続してもよい。
記憶装置12は、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置12は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成される。なお、複数種の記録媒体の組合せにより記憶装置12を構成してもよい。また、音合成装置100に着脱可能な可搬型の記録媒体、または、音合成装置100が通信可能な外部記録媒体(例えばオンラインストレージ)を、記憶装置12として利用してもよい。
図2は、音合成装置100の機能的な構成を例示するブロック図である。制御装置11は、記憶装置12に記憶された音合成プログラムを実行することで合成処理部20として機能する。合成処理部20は、推定モデルMを利用して音響信号Vを生成する。また、制御装置11は、記憶装置12に記憶された機械学習プログラムを実行することで機械学習部30として機能する。機械学習部30は、合成処理部20が利用する推定モデルMを機械学習により確立する。
推定モデルMは、制御データCに応じた音響信号Vを生成するための統計的モデルである。すなわち、推定モデルMは、制御データCと音響信号Vとの関係を学習した学習済モデルである。制御データCは、合成音(音響信号V)に関する条件を指定するデータである。推定モデルMは、制御データCの時系列に対して、音響信号Vを構成するサンプルの時系列を出力する。
推定モデルMは、例えば深層ニューラルネットワークで構成される。具体的には、畳込ニューラルネットワーク(CNN:Convolutional Neural Network)または再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)等の各種のニューラルネットワークが推定モデルMとして利用される。また、推定モデルMは、長短期記憶(LSTM:Long Short-Term Memory)またはATTENTION等の付加的な要素を具備してもよい。
推定モデルMは、制御データCから音響信号Vを生成する演算を制御装置11に実行させるプログラムと、当該演算に適用される複数の係数(具体的には加重値およびバイアス)との組合せで実現される。推定モデルMを規定する複数の係数が、前述の学習機能による機械学習(深層学習)で設定される。
合成処理部20は、条件処理部21と信号推定部22とを具備する。条件処理部21は、記憶装置12に記憶された楽曲データSから制御データCを生成する。楽曲データSは、楽曲を構成する音符の時系列(すなわち楽譜)を指定する。例えば、音高と発音期間とを発音単位毎に指定する時系列データが楽曲データSとして利用される。発音単位は、例えば1個の音符である。ただし、楽曲内の1個の音符を複数の発音単位に区分してもよい。なお、歌唱音声を合成に利用される楽曲データSにおいては、発音単位毎に音韻(例えば発音文字)が指定される。
条件処理部21は、発音単位毎に制御データCを生成する。各発音単位の制御データCは、例えば、当該発音単位の発音期間と、他の発音単位に対する関係(例えば前後に位置する1以上の発音単位との音高差等のコンテキスト)とを指定する。発音期間は、例えば発音の開始点(アタック)と減衰の開始点(リリース)とにより規定される。なお、歌唱音声を合成する場合には、発音単位の音韻を指定する制御データCが生成される。
信号推定部22は、推定モデルMを利用して制御データCに応じた音響信号Vを生成する。具体的には、信号推定部22は、複数の制御データCを推定モデルMに順次に入力することで、音響信号Vを構成するサンプルの時系列を生成する。
機械学習部30は、準備処理部31と訓練処理部32とを具備する。準備処理部31は、複数の訓練データDを準備する。訓練処理部32は、準備処理部31により準備された複数の訓練データDを利用した機械学習により推定モデルMを訓練する機能である。
複数の訓練データDの各々は、制御データCと音響信号Wとを相互に対応させたデータである。各訓練データDの制御データCは、当該訓練データDに含まれる音響信号Vに関する条件を指定する。
訓練処理部32は、複数の訓練データDを利用した機械学習により推定モデルMを確立する。具体的には、訓練処理部32は、各訓練データDの制御データCから暫定的な推定モデルMが生成する音響信号Vと、当該訓練データDの音響信号Vとの間の誤差(損失関数)が低減されるように、推定モデルMの複数の係数を反復的に更新する。したがって、推定モデルMは、複数の訓練データDにおける制御データCと音響信号Vとの間に潜在する関係を学習する。すなわち、訓練後の推定モデルMは、未知の制御データCに対して当該関係のもとで統計的に妥当な音響信号Vを出力する。
準備処理部31は、記憶装置12に記憶された複数の単位データUから複数の訓練データDを生成する。複数の単位データUの各々は、楽曲データSと参照信号Rとを相互に対応させたデータである。楽曲データSは、楽曲を構成する音符の時系列を指定する。各単位データUの参照信号Rは、当該単位データUの楽曲データSが表す楽曲の歌唱または演奏により発音される音の波形を表す。多数の歌唱者による歌唱音声または多数の演奏者による楽器音が事前に収録され、歌唱音声または楽器音を表す参照信号Rが楽曲データSとともに記憶装置12に記憶される。
準備処理部31は、条件処理部41と調整処理部42とを具備する。条件処理部41は、前述の条件処理部21と同様に、各単位データUの楽曲データSから制御データCを生成する。
調整処理部42は、複数の参照信号Rの各々から音響信号Vを生成する。具体的には、調整処理部42は、参照信号Rの位相スペクトルを調整することで音響信号Vを生成する。各単位データUの楽曲データSから条件処理部41が生成した制御データCと、当該単位データUの参照信号Rから調整処理部42が生成した音響信号Vとを含む訓練データDが、記憶装置12に記憶される。
図3は、調整処理部42が参照信号Rから音響信号Vを生成する処理(以下「準備処理」という)Saの具体的な手順を例示するフローチャートである。複数の参照信号Rの各々について準備処理Saが実行される。
調整処理部42は、参照信号Rについて複数のピッチマークを設定する(Sa1)。各ピッチマークは、参照信号Rの基本周波数に対応する間隔で時間軸上に設定された基準点である。概略的には、参照信号Rの基本周波数の逆数である基本周期に相当する間隔でピッチマークが設定される。なお、参照信号Rの基本周波数の算定およびピッチマークの設定には公知の技術が任意に採用される。
調整処理部42は、参照信号Rを時間軸上で区分した複数の解析区間(フレーム)の何れかを選択する(Sa2)。具体的には、複数の解析区間の各々が時系列の順番で順次に選択される。調整処理部42が選択した1個の解析区間について以下の処理(Sa3−Sa8)が実行される。
調整処理部42は、参照信号Rの解析区間について振幅スペクトルXと位相スペクトルYとを算定する(Sa3)。振幅スペクトルXおよび位相スペクトルYの算定には、例えば短時間フーリエ変換等の公知の周波数解析が利用される。
図4には、振幅スペクトルXと位相スペクトルYとが図示されている。参照信号Rは、相異なる調波周波数Fnに対応する複数の調波成分を含む(nは自然数)。調波周波数Fnは、第n番目の調波成分のピークに対応する周波数である。すなわち、調波周波数F1は参照信号Rの基本周波数に相当し、以降の各調波周波数Fn(F2,F3,…)は、参照信号Rの第n倍音の周波数に相当する。
調整処理部42は、相異なる調波成分に対応する複数の調波帯域Hnを周波数軸上に画定する(Sa4)。例えば、各調波周波数Fnと当該調波周波数Fnの高域側の調波周波数Fn+1との中点を境界として各調波帯域Hnが周波数軸上に画定される。なお、調波帯域Hnを画定する方法は以上の例示に限定されない。例えば、調波周波数Fnと調波周波数Fn+1との間における中点の近傍で振幅値が最小となる地点を境界として各調波帯域Hnを画定してもよい。
調整処理部42は、調波帯域Hn毎に目標位相Qnを設定する(Sa5)。例えば、調整処理部42は、参照信号Rの解析区間における最小位相Ebに応じて目標位相Qnを設定する。具体的には、各調波帯域Hnの目標位相Qnは、当該調波帯域Hnの調波周波数Fnについて振幅スペクトルXの包絡線(以下「振幅スペクトル包絡」という)Eaから算定される最小位相Ebである。
調整処理部42は、例えば振幅スペクトル包絡Eaの対数値をヒルベルト変換することで最小位相Ebを算定する。例えば、調整処理部42は、第1に、振幅スペクトル包絡Eaの対数値に対して離散逆フーリエ変換を実行することで時間領域のサンプル系列を算定する。第2に、調整処理部42は、時間領域のサンプル系列のうち時間軸上で負数の時刻に相当する各サンプルをゼロに変更し、時間軸上の原点と時刻F/2(Fは離散フーリエ変換の点数)とを除外した各時刻に相当するサンプルを2倍したうえで離散フーリエ変換を実行する。第3に、調整処理部42は、離散フーリエ変換の結果のうちの虚数部分を最小位相Ebとして抽出する。調整処理部42は、以上の手順で算定した最小位相Ebのうち調波周波数Fnにおける数値を目標位相Qnとして選択する。
調整処理部42は、解析区間の位相スペクトルYを調整することで位相スペクトルZを生成する処理(以下「調整処理」という)Sa6を実行する。調整処理Sa6の実行後の位相スペクトルZのうち調波帯域Hn内の各周波数fにおける位相値zfは、以下の数式(1)で表現される。
zf=yf−(yFn−Qn)−2πf(m−t) …(1)
zf=yf−(yFn−Qn)−2πf(m−t) …(1)
数式(1)の記号yfは、調整前の位相スペクトルYのうち周波数fにおける位相値である。したがって、位相値yFnは、位相スペクトルYのうち調波周波数Fnにおける位相値を意味する。数式(1)の右辺における第2項(yFn−Qn)は、調波帯域Hn内の調波周波数Fnにおける位相値yFnと当該調波帯域Hnについて設定された目標位相Qnとの差分に応じた調整量である。調波帯域Hn内の調波周波数Fnにおける位相値yFnに応じた調整量(yFn−Qn)により、当該調波帯域Hn内の各周波数fにおける位相値yfが調整される。調波帯域Hn内には、調波成分だけでなく、各調波成分の間に存在する非調波成分も含まれる。調波帯域Hn内の各周波数fにおける位相値yfが調整量(yFn−Qn)により調整されるということは、当該調波帯域Hn内の調波成分と非調波成分との双方が共通の調整量(yFn−Qn)により調整されることを意味する。以上の説明から理解される通り、調波成分の位相値と非調波成分の位相値との相対的な関係を維持したまま位相スペクトルYが調整されるから、高品質な音響信号Vを生成できるという利点がある。
数式(1)の記号tは、解析区間に対して時間軸上で所定の関係にある時点の時刻を意味する。例えば時刻tは、解析区間の中点の時刻である。数式(1)の記号mは、参照信号Rについて設定された複数のピッチマークのうち解析区間に対応する1個のピッチマークの時刻である。例えば、時刻mは、複数のピッチマークのうち時刻tに最も近いピッチマークの時刻である。数式(1)の右辺における第3項は、時刻tを基準とした時刻mの相対的な時間に対応する線形位相分を意味する。
数式(1)から理解される通り、時刻tがピッチマークの時刻mに一致する場合、数式(1)の右辺における第3項はゼロとなる。すなわち、調整後の位相値zfは、調整前の位相値yfから調整値(yFn−Qn)を減算した数値(zf=yf−(yFn−Qn))に設定される。したがって、調波周波数Fnにおける位相値yf(=yFn)は目標位相Qnに調整される。以上の説明から理解される通り、調整処理Sa6は、解析区間の位相スペクトルYにおける調波成分の位相値yFnが、ピッチマークにおいて目標位相Qnとなるように、当該解析区間の位相スペクトルYを調整する処理である。
調整処理部42は、調整処理Sa6で生成された位相スペクトルZと参照信号Rの振幅スペクトルXとから時間領域の信号を合成する処理(以下「合成処理」という)Sa7を実行する。具体的には、調整処理部42は、振幅スペクトルXと調整後の位相スペクトルZとで規定される周波数スペクトルを例えば短時間逆フーリエ変換により時間領域の信号に変換し、変換後の信号を、直前の解析区間について生成された信号に部分的に重ねた状態で加算する。
調整処理部42は、参照信号Rの全部の解析区間について以上の処理(調整処理Sa6および合成処理Sa7)を実行したか否かを判定する(Sa8)。未処理の解析区間がある場合(Sa8:NO)、調整処理部42は、現在の解析区間の直後の解析区間を新たに選択したうえで(Sa2)、当該解析区間について前述の処理(Sa3−Sa8)を実行する。以上の説明から理解される通り、合成処理Sa7は、調整処理Sa6による調整後の位相スペクトルZと参照信号Rの振幅スペクトルXとから複数の解析区間にわたる音響信号Vを合成する処理である。参照信号Rの全部の解析区間について処理が完了した場合(Sa8:YES)、今回の参照信号Rに関する準備処理Saが終了する。
図5は、機械学習部30が推定モデルMを確立するための処理(以下「推定モデル確立処理」という)の具体的な手順を例示するフローチャートである。例えば利用者からの指示を契機として推定モデル確立処理が開始される。
準備処理部31(調整処理部42)は、調整処理Sa6および合成処理Sa7を含む準備処理Saにより、各単位データUの参照信号Rから音響信号Vを生成する(Sa)。準備処理部31(条件処理部41)は、記憶装置12に記憶された各単位データUの楽曲データSから制御データCを生成する(Sb)。なお、音響信号Vの生成(Sa)と制御データCの生成(Sb)との順序を逆転してもよい。
準備処理部31は、各単位データUの参照信号Rから生成された音響信号Vと、当該単位データUの楽曲データSから生成された制御データCとを相互に対応させた訓練データDを生成する(Sc)。以上の処理(Sa−Sc)は、訓練データ準備方法の一例である。準備処理部31が生成した複数の訓練データDが記憶装置12に記憶される。機械学習部30は、準備処理部31が生成した複数の訓練データDを利用した機械学習により推定モデルMを確立する(Sd)。
以上に例示した形態では、複数の参照信号Rの各々について、位相スペクトルYにおける調波成分の位相値yFnがピッチマークにおいて目標位相Qnとなるように各解析区間の位相スペクトルYが調整される。したがって、制御データCにより指定される条件が近い複数の音響信号Vの間では、調整処理Sa6により時間波形が相互に近付く。以上の構成によれば、位相スペクトルYが調整されていない複数の参照信号Rを利用する場合と比較して、推定モデルMの機械学習が効率的に進行する。したがって、推定モデルMの確立に必要な訓練データDの個数(さらには機械学習に必要な時間)が削減され、推定モデルMの規模も縮小されるという利点がある。
また、参照信号Rの振幅スペクトル包絡Eaから算定される最小位相Ebを目標位相Qnとして位相スペクトルYが調整されるから、聴感的に自然な音響信号Vを準備処理Saにより生成できる。したがって、聴感的に自然な音響信号Vを推定可能な推定モデルMを確立できるという利点もある。
<第2実施形態>
第2実施形態を説明する。なお、以下に例示する各形態において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
第2実施形態を説明する。なお、以下に例示する各形態において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
第1実施形態では、周波数軸上に画定された全部の調波帯域Hnについて調整処理Sa6を実行した、第2実施形態および第3実施形態は、複数の調波帯域Hnのうち一部の調波帯域Hnに限定して調整処理Sa6を実行する。
図6は、第2実施形態における準備処理Saの一部を例示するフローチャートである。周波数軸上に複数の調波帯域Hnを画定すると(Sa4)、調整処理部42は、複数の調波帯域Hnのうち調整処理Sa6の対象となる2以上の調波帯域(以下「選択調波帯域」という)Hnを選択する(Sa10)。
具体的には、調整処理部42は、複数の調波帯域Hnのうち調波成分の振幅値が所定の閾値を上回る調波帯域Hnを選択調波帯域Hnとして選択する。調波成分の振幅値は、例えば参照信号Rの振幅スペクトルXにおける調波周波数Fnでの振幅値(すなわち絶対値)である。なお、所定の基準値に対する相対的な振幅値に応じて選択調波帯域Hnを選択してもよい。例えば、調整処理部42は、振幅スペクトルXを周波数軸上または時間軸上で平滑化した数値を基準値とする相対的な振幅値を算定し、複数の調波帯域Hnのうち当該振幅値が閾値を上回る調波帯域Hnを選択調波帯域Hnとして選択する。
調整処理部42は、複数の選択調波帯域Hnの各々について目標位相Qnを設定する(Sa5)。非選択の調波帯域Hnについて目標位相Qnは設定されない。また、調整処理部42は、複数の選択調波帯域Hnの各々について調整処理Sa6を実行する。調整処理Sa6の内容は第1実施形態と同様である。非選択の調波帯域Hnについて調整処理Sa6は実行されない。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、調波成分の振幅値が閾値を上回る調波帯域Hnについて調整処理Sa6が実行される。したがって、全部の調波帯域Hnについて一律に調整処理Sa6を実行する構成と比較して調整処理Sa6の処理負荷を低減できる。また、振幅値が閾値を上回る調波帯域Hnについて調整処理Sa6が実行されるから、振幅値が充分に小さい調波帯域Hnについて調整処理Sa6を実行する構成と比較して、推定モデルMの機械学習が効率的に進行するという効果を維持しながら、調整処理Sa6の処理負荷を低減できる。
<第3実施形態>
第2実施形態では、調波成分の振幅値(絶対値または相対値)が閾値を上回る調波帯域Hnについて調整処理Sa6を実行した。第3実施形態の調整処理部42は、複数の調波帯域Hnのうち所定の周波数帯域(以下「基準帯域」という)内の調波帯域Hnについて調整処理Sa6を実行する。基準帯域は、周波数軸上の一部の周波数帯域であり、参照信号Rが表す音の発音源の種類毎に設定される。具体的には、基準帯域は、調波成分(周期成分)が非調波成分(非周期成分)と比較して優勢に存在する周波数帯域である。例えば音声については約8kHz未満の周波数帯域が基準帯域として設定される。
第2実施形態では、調波成分の振幅値(絶対値または相対値)が閾値を上回る調波帯域Hnについて調整処理Sa6を実行した。第3実施形態の調整処理部42は、複数の調波帯域Hnのうち所定の周波数帯域(以下「基準帯域」という)内の調波帯域Hnについて調整処理Sa6を実行する。基準帯域は、周波数軸上の一部の周波数帯域であり、参照信号Rが表す音の発音源の種類毎に設定される。具体的には、基準帯域は、調波成分(周期成分)が非調波成分(非周期成分)と比較して優勢に存在する周波数帯域である。例えば音声については約8kHz未満の周波数帯域が基準帯域として設定される。
複数の調波帯域Hnを画定すると(Sa4)、調整処理部42は、複数の調波帯域Hnのうち所定の周波数帯域内の調波帯域Hnを選択調波帯域Hnとして選択する。具体的には、調整処理部42は、調波周波数Fnが基準帯域内の数値である複数の調波帯域Hnを選択調波帯域Hnとして選択する。第3実施形態においても第2実施形態と同様に、複数の選択調波帯域Hnの各々について目標位相Qnの設定(Sa5)と調整処理Sa6とが実行される。非選択の調波帯域Hnについて目標位相Qnの設定および調整処理Sa6は実行されない。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態においては、基準帯域内の調波帯域Hnについて調整処理Sa6が実行されるから、第2実施形態と同様に、調整処理Sa6の処理負荷を低減できるという利点がある。
<変形例>
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各形態では、振幅スペクトル包絡Eaから算定される最小位相Ebを目標位相Qnとして設定したが、目標位相Qnの設定方法は以上の例示に限定されない。例えば、複数の調波帯域Hnにわたり共通する所定値を目標位相Qnとして設定してもよい。例えば、参照信号Rの音響特性とは無関係に設定された所定の数値(例えばゼロ)が目標位相Qnとして利用される。以上の構成によれば、目標位相Qnが所定値に設定されるから、調整処理の処理負荷を軽減することが可能である。なお、以上の例示では、複数の調波帯域Hnにわたり共通の目標位相Qnを設定したが、目標位相Qnを調波帯域Hn毎に相違させてもよい。
(2)前述の各形態では、制御データCに応じた音響信号Vを推定する推定モデルMを例示したが、音響信号Vの決定的成分と確率的成分とを別個の推定モデル(第1推定モデルおよび第2推定モデル)により推定してもよい。決定的成分は、音高または音韻等の発音条件が共通すれば音源による毎回の発音に同様に含まれる音響成分である。決定的成分は、調波成分を非調波成分と比較して優勢に含む音響成分とも換言される。例えば、発音者の声帯の規則的な振動に由来する周期的な成分が決定的成分である。他方、確率的成分は、発音過程における確率的な要因により発生する音響成分である。例えば、確率的成分は、発音過程における空気の乱流に由来する非周期的な音響成分である。確率的成分は、非調波成分を調波成分と比較して優勢に含む音響成分とも換言される。第1推定モデルは、決定的成分の条件を表す第1制御データに応じて決定的成分の時系列を生成する。他方、第2推定モデルは、確率的成分の条件を表す第2制御データに応じて確率的成分の時系列を生成する。
(3)前述の各形態では、合成処理部20を含む音合成装置100を例示したが、本開示のひとつの態様は、機械学習部30を具備する推定モデル確立装置としても表現される。推定モデル確立装置における合成処理部20の有無は不問である。端末装置と通信可能なサーバ装置を推定モデル確立装置として実現してもよい。推定モデル確立装置は、機械学習により確立した推定モデルMを端末装置に配信する。端末装置は、推定モデル確立装置から配信された推定モデルMを利用して音響信号Vを生成する合成処理部20を具備する。
また、本開示の他の態様は、準備処理部31を具備する訓練データ準備装置としても表現される。訓練データ準備装置における合成処理部20または訓練処理部32の有無は不問である。端末装置と通信可能なサーバ装置を訓練データ準備装置として実現してもよい。訓練データ準備装置は、準備処理Saにより準備した複数の訓練データD(訓練データセット)を端末装置に配信する。端末装置は、訓練データ準備装置から配信された訓練データセットを利用した機械学習により推定モデルMを確立する訓練処理部32を具備する。
(4)前述の各形態において例示した通り、音合成装置100の機能は、コンピュータ(例えば制御装置11)とプログラムとの協働により実現される。本開示のひとつの態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。
(5)推定モデルMを実現するための人工知能ソフトウェアの実行主体はCPUに限定されない。例えば、Tensor Processing UnitもしくはNeural Engine等のニューラルネットワーク専用の処理回路、または、人工知能に専用されるDSP(Digital Signal Processor)が、人工知能ソフトウェアを実行してもよい。また、以上の例示から選択された複数種の処理回路が協働して人工知能ソフトウェアを実行してもよい。
<付記>
以上に例示した形態から、例えば以下の構成が把握される。
以上に例示した形態から、例えば以下の構成が把握される。
本開示のひとつの態様(第1態様)に係る推定モデル確立方法は、複数の参照信号の各々について、当該参照信号の基本周波数に対応する間隔で設定された各ピッチマークにおいて当該参照信号の位相スペクトルにおける調波成分の位相値が目標位相となるように、当該参照信号を区分した複数の解析区間の各々における位相スペクトルを調整する調整処理と、前記調整処理後の位相スペクトルと当該参照信号の振幅スペクトルとから前記複数の解析区間にわたる音響信号を合成する合成処理と、を実行することで、当該参照信号の条件を指定する制御データと当該参照信号から合成された前記音響信号とを含む訓練データを前記参照信号毎に生成し、前記複数の参照信号についてそれぞれ生成された複数の訓練データを利用した機械学習により、制御データに応じた音響信号を推定するための推定モデルを確立する。以上の態様では、複数の参照信号の各々について、位相スペクトルにおける調波成分の位相値がピッチマークにおいて目標位相となるように各解析区間の位相スペクトルが調整されるから、条件が近い複数の音響信号の間では、調整処理により時間波形が相互に近付く。以上の態様によれば、位相スペクトルが調整されていない複数の参照信号を利用する場合と比較して、推定モデルに対する機械学習が効率的に進行する。したがって、推定モデルの確立に必要な訓練データの個数(さらには機械学習に必要な時間)が削減され、推定モデルの規模も縮小される。
第1態様の一例(第2態様)において、前記調整処理は、前記位相スペクトルを周波数軸上で調波成分毎に区分した複数の調波帯域の各々について、当該調波帯域内の調波周波数に対応する位相値と目標位相との差分に応じた調整量により、前記調波帯域内の各位相値を調整する処理である。以上の態様では、調波周波数の位相値と目標位相との差分に応じた調整量により調波帯域内の各位相値が調整される。したがって、調波周波数における位相値と他の周波数における位相値との相対的な関係を維持したまま位相スペクトルが調整され、結果的に高品質な音響信号を生成できる。
第2態様の一例(第3態様)において、前記複数の調波帯域の各々における前記目標位相は、当該調波帯域の前記調波周波数について前記振幅スペクトルの包絡線から算定される最小位相である。以上の態様では、振幅スペクトルの包絡線から算定される最小位相を目標位相として位相スペクトルが調整されるから、聴感的に自然な音響信号を生成できる。
第2態様の一例(第4態様)において、前記目標位相は、前記複数の調波帯域にわたり共通する所定値である。以上の態様では、目標位相が所定値(例えばゼロ)に設定されるから、調整処理の処理負荷を低減できる。
第2態様から第4態様の何れかの一例において、前記調整処理は、前記複数の調波帯域のうち調波成分の振幅値が閾値を上回る調波帯域について実行される。以上の態様では、調波成分の振幅値が閾値を上回る調波帯域について調整処理が実行されるから、全部の調波帯域について一律に調整処理を実行する構成と比較して調整処理の処理負荷が低減される。
第2態様から第4態様の何れかの一例において、前記調整処理は、前記複数の調波帯域のうち所定の周波数帯域内の調波帯域について実行される。以上の態様では、所定の周波数帯域内の調波帯域について調整処理が実行されるから、全部の調波帯域について一律に調整処理を実行する構成と比較して調整処理の処理負荷が低減される。
以上に例示した各態様の推定モデル確立方法を実行する推定モデル確立装置、または、以上に例示した各態様の推定モデル確立方法をコンピュータに実行させるプログラムとしても、本開示の態様は実現される。
本開示のひとつの態様に係る訓練データ準備方法は、制御データに応じた音響信号を推定する推定モデルを確立するための機械学習に利用される複数の訓練データを準備する方法であって、複数の参照信号の各々について、当該参照信号の基本周波数に対応する間隔で設定された各ピッチマークにおいて当該参照信号の位相スペクトルにおける調波成分の位相値が目標位相となるように、当該参照信号を区分した複数の解析区間の各々における位相スペクトルを調整する調整処理と、前記調整処理後の位相スペクトルと当該参照信号の振幅スペクトルとから前記複数の解析区間にわたる音響信号を合成する合成処理と、を実行することで、当該参照信号の条件を指定する制御データと当該参照信号から合成された前記音響信号とを含む訓練データを前記参照信号毎に生成する。
100…音合成装置、11…制御装置、12…記憶装置、13…放音装置、20…合成処理部、21…条件処理部、22…信号推定部、30…機械学習部、31…準備処理部、32…訓練処理部、41…条件処理部、42…調整処理部。
Claims (9)
- 複数の参照信号の各々について、
当該参照信号の各ピッチマークにおいて当該参照信号の位相スペクトルにおける調波成分の位相値が目標位相となるように、当該参照信号を区分した複数の解析区間の各々における位相スペクトルを調整する調整処理と、
前記調整処理後の位相スペクトルと当該参照信号の振幅スペクトルとから前記複数の解析区間にわたる音響信号を合成する合成処理と、
を実行することで、当該参照信号の条件を指定する制御データと当該参照信号から合成された前記音響信号とを含む訓練データを前記参照信号毎に生成し、
前記複数の参照信号についてそれぞれ生成された複数の訓練データを利用した機械学習により、制御データに応じた音響信号を推定するための推定モデルを確立する
コンピュータにより実現される推定モデル確立方法。 - 前記調整処理は、前記位相スペクトルを周波数軸上で調波成分毎に区分した複数の調波帯域の各々について、当該調波帯域内の調波周波数に対応する位相値と目標位相との差分に応じた調整量により、前記調波帯域内の各位相値を調整する処理である
請求項1の推定モデル確立方法。 - 前記複数の調波帯域の各々における前記目標位相は、当該調波帯域の前記調波周波数について前記振幅スペクトルの包絡線から算定される最小位相である
請求項2の推定モデル確立方法。 - 前記目標位相は、前記複数の調波帯域にわたり共通する所定値である
請求項2の推定モデル確立方法。 - 前記調整処理は、前記複数の調波帯域のうち調波成分の振幅値が閾値を上回る調波帯域について実行される
請求項2から請求項4の何れかの推定モデル確立方法。 - 前記調整処理は、前記複数の調波帯域のうち所定の周波数帯域内の調波帯域について実行される
請求項2から請求項4の何れかの推定モデル確立方法。 - 複数の参照信号の各々について、
当該参照信号の各ピッチマークにおいて当該参照信号の位相スペクトルにおける調波成分の位相値が目標位相となるように、当該参照信号を区分した複数の解析区間の各々における位相スペクトルを調整する調整処理と、
前記調整処理後の位相スペクトルと当該参照信号の振幅スペクトルとから前記複数の解析区間にわたる音響信号を合成する合成処理と、
を実行することで、当該参照信号の条件を指定する制御データと当該参照信号から合成された前記音響信号とを含む訓練データを前記参照信号毎に生成する準備処理部と、
前記複数の参照信号についてそれぞれ生成された複数の訓練データを利用した機械学習により、制御データに応じた音響信号を推定するための推定モデルを確立する訓練処理部と
を具備する推定モデル確立装置。 - 複数の参照信号の各々について、
当該参照信号の各ピッチマークにおいて当該参照信号の位相スペクトルにおける調波成分の位相値が目標位相となるように、当該参照信号を区分した複数の解析区間の各々における位相スペクトルを調整する調整処理と、
前記調整処理後の位相スペクトルと当該参照信号の振幅スペクトルとから前記複数の解析区間にわたる音響信号を合成する合成処理と、
を実行することで、当該参照信号の条件を指定する制御データと当該参照信号から合成された前記音響信号とを含む訓練データを前記参照信号毎に生成する準備処理部、および、
前記複数の参照信号についてそれぞれ生成された複数の訓練データを利用した機械学習により、制御データに応じた音響信号を推定するための推定モデルを確立する訓練処理部
としてコンピュータを機能させるプログラム。 - 制御データに応じた音響信号を推定する推定モデルを確立するための機械学習に利用される複数の訓練データを準備する方法であって、
複数の参照信号の各々について、
当該参照信号の各ピッチマークにおいて当該参照信号の位相スペクトルにおける調波成分の位相値が目標位相となるように、当該参照信号を区分した複数の解析区間の各々における位相スペクトルを調整する調整処理と、
前記調整処理後の位相スペクトルと当該参照信号の振幅スペクトルとから前記複数の解析区間にわたる音響信号を合成する合成処理と、
を実行することで、当該参照信号の条件を指定する制御データと当該参照信号から合成された前記音響信号とを含む訓練データを前記参照信号毎に生成する
コンピュータにより実現される訓練データ準備方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019099913A JP2020194098A (ja) | 2019-05-29 | 2019-05-29 | 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法 |
PCT/JP2020/020753 WO2020241641A1 (ja) | 2019-05-29 | 2020-05-26 | 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法 |
US17/534,664 US20220084492A1 (en) | 2019-05-29 | 2021-11-24 | Generative model establishment method, generative model establishment system, recording medium, and training data preparation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019099913A JP2020194098A (ja) | 2019-05-29 | 2019-05-29 | 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020194098A true JP2020194098A (ja) | 2020-12-03 |
Family
ID=73546601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019099913A Pending JP2020194098A (ja) | 2019-05-29 | 2019-05-29 | 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220084492A1 (ja) |
JP (1) | JP2020194098A (ja) |
WO (1) | WO2020241641A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023068042A1 (ja) * | 2021-10-18 | 2023-04-27 | ヤマハ株式会社 | 音響処理方法、音響処理システムおよびプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017046904A1 (ja) * | 2015-09-16 | 2017-03-23 | 株式会社東芝 | 音声処理装置、音声処理方法及び音声処理プログラム |
WO2018003849A1 (ja) * | 2016-06-30 | 2018-01-04 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
JP2018077281A (ja) * | 2016-11-07 | 2018-05-17 | ヤマハ株式会社 | 音声合成方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101402805B1 (ko) * | 2012-03-27 | 2014-06-03 | 광주과학기술원 | 음성분석장치, 음성합성장치, 및 음성분석합성시스템 |
CN107924678B (zh) * | 2015-09-16 | 2021-12-17 | 株式会社东芝 | 语音合成装置、语音合成方法及存储介质 |
CN109952609B (zh) * | 2016-11-07 | 2023-08-15 | 雅马哈株式会社 | 声音合成方法 |
JP6724932B2 (ja) * | 2018-01-11 | 2020-07-15 | ヤマハ株式会社 | 音声合成方法、音声合成システムおよびプログラム |
-
2019
- 2019-05-29 JP JP2019099913A patent/JP2020194098A/ja active Pending
-
2020
- 2020-05-26 WO PCT/JP2020/020753 patent/WO2020241641A1/ja active Application Filing
-
2021
- 2021-11-24 US US17/534,664 patent/US20220084492A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017046904A1 (ja) * | 2015-09-16 | 2017-03-23 | 株式会社東芝 | 音声処理装置、音声処理方法及び音声処理プログラム |
WO2018003849A1 (ja) * | 2016-06-30 | 2018-01-04 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
JP2018077281A (ja) * | 2016-11-07 | 2018-05-17 | ヤマハ株式会社 | 音声合成方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023068042A1 (ja) * | 2021-10-18 | 2023-04-27 | ヤマハ株式会社 | 音響処理方法、音響処理システムおよびプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2020241641A1 (ja) | 2020-12-03 |
US20220084492A1 (en) | 2022-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6724932B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
EP3719795B1 (en) | Voice synthesizing method, voice synthesizing apparatus, and computer program | |
WO2020171033A1 (ja) | 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム | |
JP6821970B2 (ja) | 音声合成装置および音声合成方法 | |
JP2019101094A (ja) | 音声合成方法およびプログラム | |
US11875777B2 (en) | Information processing method, estimation model construction method, information processing device, and estimation model constructing device | |
WO2020095951A1 (ja) | 音響処理方法および音響処理システム | |
WO2019181767A1 (ja) | 音処理方法、音処理装置およびプログラム | |
JP7359164B2 (ja) | 音信号合成方法およびニューラルネットワークの訓練方法 | |
WO2020241641A1 (ja) | 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法 | |
JP2020166299A (ja) | 音声合成方法 | |
US20210350783A1 (en) | Sound signal synthesis method, neural network training method, and sound synthesizer | |
WO2023068228A1 (ja) | 音響処理方法、音響処理システムおよびプログラム | |
US11756558B2 (en) | Sound signal generation method, generative model training method, sound signal generation system, and recording medium | |
WO2023068042A1 (ja) | 音響処理方法、音響処理システムおよびプログラム | |
US20210366453A1 (en) | Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium | |
RU2591640C1 (ru) | Способ модификации голоса и устройство для его осуществления (варианты) | |
JP2022150179A (ja) | 音響処理方法、音響処理システム、プログラム、および生成モデルの確立方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220318 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230131 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230725 |