JP6724932B2 - 音声合成方法、音声合成システムおよびプログラム - Google Patents

音声合成方法、音声合成システムおよびプログラム Download PDF

Info

Publication number
JP6724932B2
JP6724932B2 JP2018002451A JP2018002451A JP6724932B2 JP 6724932 B2 JP6724932 B2 JP 6724932B2 JP 2018002451 A JP2018002451 A JP 2018002451A JP 2018002451 A JP2018002451 A JP 2018002451A JP 6724932 B2 JP6724932 B2 JP 6724932B2
Authority
JP
Japan
Prior art keywords
harmonic
amplitude
distribution
frequency
phase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018002451A
Other languages
English (en)
Other versions
JP2019120892A (ja
JP2019120892A5 (ja
Inventor
竜之介 大道
竜之介 大道
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2018002451A priority Critical patent/JP6724932B2/ja
Priority to CN201880085358.5A priority patent/CN111542875B/zh
Priority to PCT/JP2018/047757 priority patent/WO2019138871A1/ja
Priority to EP18899045.1A priority patent/EP3739571A4/en
Publication of JP2019120892A publication Critical patent/JP2019120892A/ja
Publication of JP2019120892A5 publication Critical patent/JP2019120892A5/ja
Priority to US16/924,463 priority patent/US11094312B2/en
Application granted granted Critical
Publication of JP6724932B2 publication Critical patent/JP6724932B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/04Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation
    • G10H1/053Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only
    • G10H1/057Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only by envelope-forming circuits
    • G10H1/0575Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only by envelope-forming circuits using a data store from which the envelope is synthesized
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/471General musical sound synthesis principles, i.e. sound category-independent synthesis methods
    • G10H2250/481Formant synthesis, i.e. simulating the human speech production mechanism by exciting formant resonators, e.g. mimicking vocal tract filtering as in LPC synthesis vocoders, wherein musical instruments may be used as excitation signal to the time-varying filter estimated from a singer's speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、音声を合成する技術に関する。
任意の音韻の音声を合成する各種の音声合成技術が従来から提案されている。例えば特許文献1には、所望の音韻を標準的な声質(初期声質)で発音した音声を表す音声信号を例えば素片接続型の音声合成により生成し、当該音声信号が表す音声を例えば濁声または嗄声等の目標声質に変換する技術が開示されている。
特開2014−2338号公報
しかし、特許文献1の技術では、初期声質の音声の合成後に当該音声が目標声質に変換されるから、処理が煩雑であるという問題がある。以上の事情を考慮して、本発明の好適な態様は、目標声質の音声を合成するための処理を簡素化することを目的とする。
以上の課題を解決するために、本発明の好適な態様に係る音声合成方法は、複数の調波成分の各々について、目標声質と、振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、当該調波成分に対応したピークを含む単位帯域内の振幅の分布である調波振幅分布を特定し、前記振幅スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布とから、前記目標声質の音声の周波数スペクトルを生成する。
本発明の他の態様に係るプログラムは、複数の調波成分の各々について、目標声質と、振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、当該調波成分に対応したピークを含む単位帯域内の振幅の分布である調波振幅分布を特定する処理と、前記振幅スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布とから、前記目標声質の音声の周波数スペクトルを生成する処理とをコンピュータに実行させる。
本発明の第1実施形態に係る音声合成装置の構成を示すブロック図である。 音声合成装置の機能的な構成を示すブロック図である。 振幅スペクトルおよび位相スペクトルの説明図である。 音声合成処理のフローチャートである。 第2実施形態に係る音声合成装置の機能的な構成を示すブロック図である。 第3実施形態に係る音声合成装置の機能的な構成を示すブロック図である。 第4実施形態に係る音声合成装置の機能的な構成を示すブロック図である。 第5実施形態に係る音声合成装置の機能的な構成を示すブロック図である。 第7実施形態に係る音声合成装置の機能的な構成を示すブロック図である。 第7実施形態における音声合成処理のフローチャートである。 第9実施形態における振幅特定部の説明図である。
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100の構成を例示するブロック図である。第1実施形態の音声合成装置100は、歌唱者が楽曲を仮想的に歌唱した音声(以下「合成音声」という)を合成する歌唱合成装置であり、図1に例示される通り、制御装置11と記憶装置12と放音装置13とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、音声合成装置100として好適に利用される。
制御装置11は、例えばCPU(Central Processing Unit)等の処理回路であり、音声合成装置100を構成する各要素を統括的に制御する。第1実施形態の制御装置11は、合成音声の波形を表す時間領域の音声信号Vを生成する。放音装置13(例えばスピーカまたはヘッドホン)は、制御装置11が生成した音声信号Vが表す音声を再生する。なお、制御装置11が生成した音声信号Vをデジタルからアナログに変換するD/A変換器と音声信号Vを増幅する増幅器とについては図示を便宜的に省略した。また、放音装置13を音声合成装置100に搭載した構成を図1では例示したが、音声合成装置100とは別体の放音装置13を音声合成装置100に有線または無線で接続してもよい。
記憶装置12は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成され、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する。なお、音声合成装置100とは別体の記憶装置12(例えばクラウドストレージ)を用意し、移動体通信網またはインターネット等の通信網を介して制御装置11が記憶装置12に対する書込および読出を実行してもよい。すなわち、記憶装置12を音声合成装置100から省略してもよい。
記憶装置12は、楽曲の内容を表す楽曲データMを記憶する。第1実施形態の楽曲データMは、楽曲を構成する複数の音符の各々について音高と音韻と発音期間とを指定する。音高は、例えばMIDI(Musical Instrument Digital Interface)のノート番号である。音韻は、合成音声により発音される文字(すなわち楽曲の歌詞)である。発音期間は、楽曲の各音符が発音される期間であり、例えば音符の始点と終点または継続長とで指定される。また、第1実施形態の楽曲データMは、合成音声の声質(以下「目標声質」という)を指定する。例えば嗄声または濁声等の各種の声質が目標声質として楽曲データMにより指定される。なお、目標声質には、嗄声または濁声等の特徴的な声質のほか、標準的な声質も含まれる。
図2は、制御装置11の機能的な構成を例示するブロック図である。図2に例示される通り、制御装置11は、記憶装置12に記憶されたプログラムを実行することで、楽曲データMに応じた音声信号Vを生成するための複数の機能(調波処理部21および波形合成部22)を実現する。なお、複数の装置の集合(すなわちシステム)で制御装置11の機能を実現してもよいし、制御装置11の機能の一部または全部を専用の電子回路(例えば信号処理回路)で実現してもよい。
調波処理部21は、楽曲データMに応じた合成音声の周波数スペクトルQを時間軸上の単位期間(フレーム)毎に順次に生成する。周波数スペクトルQは、振幅スペクトルQaと位相スペクトルQpとで構成される複素スペクトルである。波形合成部22は、調波処理部21が順次に生成した複数の周波数スペクトルQの時系列から時間領域の音声信号Vを生成する。音声信号Vの生成には離散逆フーリエ変換が好適に利用される。波形合成部22が生成した音声信号Vが放音装置13に供給されて音波として再生される。
図3は、調波処理部21が生成する周波数スペクトルQを構成する振幅スペクトルQaおよび位相スペクトルQpの模式図である。図3に例示される通り、合成音声(特に有声音)の振幅スペクトルQaには調波構造が観測される。調波構造は、複数(N個)の調波成分が相互に間隔をあけて周波数軸上に配列された構造である。第n番目(n=1〜N)の調波成分のピークは基本周波数F0の略n倍の周波数に存在する。第1番目の調波成分は、基本周波数F0に振幅のピークが存在する基音成分であり、第2番目以降の各調波成分は、基本周波数F0のn倍の倍音周波数nF0に振幅のピークが存在する第n次の倍音成分である。以下の説明では、基本周波数F0のn倍の周波数(基本周波数F0および各倍音周波数nF0)を調波周波数H_nと表記する。調波周波数H_1は、基本周波数F0に相当する。
図3には、振幅スペクトルQaの概形を示す振幅スペクトル包絡Eaが図示されている。各調波成分のピークの頂点は振幅スペクトル包絡Eaの線上に位置する。すなわち、振幅スペクトル包絡Eaのうち各調波成分の調波周波数H_nにおける振幅が、当該調波成分のピークの振幅に相当する。
図3に例示される通り、振幅スペクトルQaは、相異なる調波成分に対応するN個の単位帯域B_1〜B_Nに周波数軸上で区分される。任意の1個の単位帯域B_nには、第n番目の調波成分に対応する振幅のピークが存在する。例えば、周波数軸上で相互に隣合う調波周波数H_nの中点を境界として各単位帯域B_nが画定される。振幅スペクトルQaのうち単位帯域B_n内における振幅の分布を以下では「調波振幅分布Da_n」と表記する。図3から理解される通り、N個の調波振幅分布Da_1〜Da_Nを振幅スペクトル包絡Eaに沿って周波数軸上に配列することで振幅スペクトルQaが構成される。
図3に例示される通り、位相スペクトルQpは、振幅スペクトルQaと同様のN個の単位帯域B_1〜B_Nに周波数軸上で区分される。位相スペクトルQpのうち単位帯域B_n内における位相の分布を以下では「調波位相分布Dp_n」と表記する。図3から理解される通り、N個の調波位相分布Dp_1〜Dp_Nを周波数軸上に配列することで位相スペクトルQpが構成される。なお、単位帯域B_nの帯域幅は、例えば基本周波数F0に応じた可変長である。
図2に例示される通り、調波処理部21は、制御データ生成部31と第1学習済モデル32と第2学習済モデル33と周波数スペクトル生成部34とを具備する。制御データ生成部31は、振幅スペクトル包絡Eaと位相スペクトル包絡EpとN個の制御データC_1〜C_Nとを時間軸上の単位期間(フレーム)毎に順次に生成する。第1学習済モデル32は、制御データC_nに応じた調波振幅分布Da_nを特定する統計的予測モデルである。すなわち、第1学習済モデル32は、制御データ生成部31が生成したN個の制御データC_1〜C_Nにそれぞれ対応するN個の調波振幅分布Da_1〜Da_Nを単位期間毎に出力する。他方、第2学習済モデル33は、制御データC_nに応じた調波位相分布Dp_nを特定する統計的予測モデルである。すなわち、第2学習済モデル33は、制御データ生成部31が生成したN個の制御データC_1〜C_Nにそれぞれ対応するN個の調波位相分布Dp_1〜Dp_Nを単位期間毎に出力する。以上の説明から理解される通り、制御データC_nは、調波振幅分布Da_nおよび調波位相分布Dp_nの条件を規定するデータである。
図2に例示される通り、第n番目の調波成分に対応する制御データC_nは、調波周波数H_nと振幅スペクトル包絡Eaと所望の声質を示す目標声質Xとを指定する。振幅スペクトル包絡Eaおよび目標声質Xは、N個の調波成分について共通する。
調波周波数H_nは、前述の通り、第n番目の調波成分の振幅がピークとなる周波数(nF0)である。調波周波数H_nを調波成分毎の個別の数値で指定してもよいし、基本周波数F0と調波次数nとの組合せで調波周波数H_nを指定してもよい。制御データ生成部31は、例えば楽曲データMが指定する各音符の音高に応じて変化する調波周波数H_nを設定する。例えば、楽曲データMが指定する音高に対応する基本周波数F0のn倍の数値が調波周波数H_nとして算定される。なお、制御データ生成部31が調波周波数H_nを設定する方法は任意である。例えば、楽曲データMと調波周波数H_n(または基本周波数F0)との間の関係を機械学習により学習した統計的予測モデルを利用して調波周波数H_nの設定してもよい。統計的予測モデルとしては例えばニューラルネットワーク(以下「NN」という)が好適である。
振幅スペクトル包絡Eaは、前述の通り、合成音声の振幅スペクトルQaの概形である。振幅スペクトル包絡Eaには、調波振幅分布Da_nにおける調波成分の近傍の微細な構造は含まれない。例えば、振幅スペクトル包絡Eaは、例えば低次側の所定個のメルケプストラム係数により表現される。制御データ生成部31は、楽曲データMが指定する音韻の情報に応じて振幅スペクトル包絡Eaを特定する。例えば、事前に用意された振幅スペクトル包絡Eaが音韻毎に記憶装置12に記憶され、制御データ生成部31は、記憶装置12に記憶された複数の振幅スペクトル包絡Eaのうち、楽曲データMが指定する音韻に対応する振幅スペクトル包絡Eaを選択して制御データC_nに含める。なお、振幅スペクトル包絡Eaの特定には公知の任意の方法が利用される。例えば、楽曲データMと振幅スペクトル包絡Eaとの間の関係を機械学習により学習した統計的予測モデル(例えばNN)を利用して振幅スペクトル包絡Eaを特定してもよい。
位相スペクトル包絡Epは、合成音声の位相スペクトルQpの概形である。位相スペクトル包絡Epには、調波位相分布Dp_nにおける調波成分の近傍の微細な構造は含まれない。制御データ生成部31は、楽曲データMが指定する音韻等の情報に応じて位相スペクトル包絡Epを特定する。例えば、事前に用意された位相スペクトル包絡Epが音韻毎に記憶装置12に記憶され、制御データ生成部31は、記憶装置12に記憶された複数の位相スペクトル包絡Epのうち、楽曲データMが指定する音韻に対応する位相スペクトル包絡Epを選択する。なお、位相スペクトル包絡Epを表現するデータの形式は任意である。また、位相スペクトル包絡Epの特定には公知の任意の方法が利用される。例えば、楽曲データMと位相スペクトル包絡Epとの間の関係を機械学習により学習した統計的予測モデル(例えばNN)を利用して位相スペクトル包絡Epを特定してもよい。
第1学習済モデル32は、特定の歌唱者(以下「目標歌唱者」という)の歌唱音声について、制御データC_nと調波振幅分布Da_nとの間の関係を学習した統計的予測モデルである。例えば、制御データC_nの入力に対して調波振幅分布Da_nを推定および出力するNNが第1学習済モデル32として好適に利用される。具体的には、単純なフィードフォワード型NN、長期短期記憶(LSTM:Long Short Term Memory)を利用した再帰型NN(RNN:Recurrent Neural Network)、およびそれら発展型のNNが第1学習済モデル32として好適である。複数種のNNの組合せを第1学習済モデル32として利用してもよい。
第1学習済モデル32は、制御データC_nと調波振幅分布Da_nとを対応させた複数の教師データを利用した機械学習(特に深層学習)により、制御データC_nと調波振幅分布Da_nとの間の関係を学習した学習済モデルである。第1学習済モデル32を規定する複数の係数K1が、各目標声質Xに対応する複数の教師データを利用した機械学習により設定されて記憶装置12に記憶される。したがって、複数の教師データから抽出される傾向(制御データC_nと調波振幅分布Da_nとの間の関係)のもとで未知の制御データC_nに対して統計的に妥当な調波振幅分布Da_nが第1学習済モデル32から出力される。すなわち、調波振幅分布Da_nは、楽曲データMが指定する音高および音韻を、目標歌唱者が目標声質Xで発音した音声の振幅スペクトルQaのうち第n番目の調波成分の振幅分布に相当する。なお、第1学習済モデル32による調波振幅分布Da_nの推定には、制御データC_nに含まれる振幅スペクトル包絡Eaの全部の係数のうち例えば低次数側の一部の係数だけを利用してもよい。
第2学習済モデル33は、目標歌唱者の歌唱音声について、制御データC_nと調波位相分布Dp_nとの間の関係を学習した統計的予測モデルである。例えば、制御データC_nの入力に対して調波位相分布Dp_nを推定および出力するNNが第2学習済モデル33として好適に利用される。第1学習済モデル32と同様に、公知の種々の形式のNNが第2学習済モデル33として利用される。
図2の第2学習済モデル33は、制御データC_nと調波位相分布Dp_nとを対応させた複数の教師データを利用した機械学習(特に深層学習)により、制御データC_nと調波位相分布Dp_nとの間の関係を学習した学習済モデルである。第2学習済モデル33を規定する複数の係数K2が、各目標声質Xに対応する複数の教師データを利用した機械学習により設定されて記憶装置12に記憶される。したがって、複数の教師データから抽出される傾向(制御データC_nと調波位相分布Dp_nとの間の関係)のもとで未知の制御データC_nに対して統計的に妥当な調波位相分布Dp_nが第2学習済モデル33から出力される。すなわち、調波位相分布Dp_nは、楽曲データMが指定する音高および音韻を、目標歌唱者が目標声質Xで発音した音声の位相スペクトルQpのうち第n番目の調波成分の位相分布に相当する。なお、第2学習済モデル33による調波位相分布Dp_nの推定には、制御データC_nに含まれる振幅スペクトル包絡Eaの全部の係数のうち低次数側の一部の係数だけを利用してもよい。
図3から理解される通り、第1学習済モデル32が各調波成分について出力する調波振幅分布Da_nは、調波周波数H_nでの振幅(以下「代表振幅」という)Ra_nに対する相対的な振幅の分布である。すなわち、調波振幅分布Da_nを構成する各振幅は、代表振幅Ra_nを所定の基準値Ra0(例えばRa0=0)とした相対値である。相対値は、線形振幅の差分および対数振幅の差分(すなわち線形振幅の比)の何れでもよい。代表振幅Ra_nは、調波振幅分布Da_nのうち調波成分に対応する振幅のピークの頂点における振幅である。同様に、第2学習済モデル33が各調波成分について出力する調波位相分布Dp_nは、調波周波数H_nにおける位相(以下「代表位相」という)Rp_nに対する相対的な位相の分布である。すなわち、調波位相分布Dp_nを構成する各位相は、代表位相Rp_nを所定の基準値Rp0(例えばRp0=0)とした相対値である。なお、基準値Ra0および基準値Rp0は0に限定されない。
以上に説明した通り、N個の調波振幅分布Da_1〜Da_Nの系列が単位期間毎に第1学習済モデル32から出力され、N個の調波位相分布Dp_1〜Dp_Nの系列が単位期間毎に第2学習済モデル33から出力される。図2の周波数スペクトル生成部34は、振幅スペクトル包絡Eaおよび位相スペクトル包絡Epと、第1学習済モデル32が出力するN個の調波振幅分布Da_1〜Da_Nと、第2学習済モデル33が出力するN個の調波位相分布Dp_1〜Dp_Nとから、合成音声の周波数スペクトルQを生成する。周波数スペクトルQの生成は単位期間毎(すなわちN個の調波振幅分布Da_1〜Da_NとN個の調波位相分布Dp_1〜Dp_Nとの生成毎)に実行される。周波数スペクトルQは、図3に例示した通り、振幅スペクトルQaと位相スペクトルQpとで構成される複素スペクトルである。
具体的には、周波数スペクトル生成部34は、第1に、N個の調波振幅分布Da_1〜Da_Nの各々とN個の調波位相分布Dp_1〜Dp_Nの各々とを周波数軸上の各調波周波数H_nに配置する。第2に、周波数スペクトル生成部34は、調波振幅分布Da_nの代表振幅Ra_nが振幅スペクトル包絡Eaの線上に位置するように各調波振幅分布Da_nを調整する。調波振幅分布Da_nの調整は、例えば、調波振幅分布Da_nが対数振幅である場合には定数の加算により実現され、調波振幅分布Da_nが線形振幅である場合には定数の乗算により実現される。第3に、周波数スペクトル生成部34は、調波位相分布Dp_nの代表位相Rp_nが位相スペクトル包絡Epの線上に位置するように各調波位相分布Dp_nを調整する。調波位相分布Dp_nの調整は、当該調波位相分布Dp_nに定数を加算することで実現される。周波数スペクトル生成部34は、以上に説明した調整後のN個の調波振幅分布Da_1〜Da_NとN個の調波位相分布Dp_1〜Dp_Nとを合成することで、周波数スペクトルQを生成する。なお、周波数軸上で隣合う2個の調波成分の間で調波振幅分布Da_nおよび調波振幅分布Da_n+1が相互に重複する場合、その重複の部分は複素平面上で加算される。他方、周波数軸上で隣合う2個の調波成分の間で調波振幅分布Da_nおよび調波振幅分布Da_n+1が相互に離間する場合、両者間の間隔はそのまま維持される。以上の処理で生成される周波数スペクトルQは、楽曲データMが指定する音高および音韻を、目標歌唱者が目標声質Xで発音した音声の周波数特性に相当する。なお、以上の説明では、調波振幅分布Da_nの調整(調整量a)と調波位相分布Dp_nの調整(調整量p)とを個別に実行したが、調波振幅分布Da_nと調波位相分布Dp_nとを合成して複素表現とし、当該複素表現に対して複素数{a×exp(jp)}を乗算すれば、調波振幅分布Da_nの調整と調波位相分布Dp_nの調整とを同時に実現することができる(jは虚数単位)。
周波数スペクトル生成部34が生成した周波数スペクトルQが、単位期間毎に調波処理部21から波形合成部22に出力される。前述の通り、波形合成部22は、調波処理部21が単位期間毎に生成した複数の周波数スペクトルQの時系列から時間領域の音声信号Vを生成する。
図4は、目標歌唱者が目標声質Xで発声した合成音声を表す音声信号Vを制御装置11が合成する処理(以下「音声合成処理」という)のフローチャートである。音声合成処理は、例えば音声合成装置100の利用者からの指示を契機として開始されて単位期間毎に反復される。
任意の1個の単位期間について音声合成処理を開始すると、制御データ生成部31は、N個の制御データC_1〜C_Nを生成する(Sa1,Sa2)。具体的には、制御データ生成部31は、楽曲データMに応じてN個の調波周波数H_1〜H_Nを設定する(Sa1)。例えば、制御データ生成部31は、N個の調波周波数H_1〜H_Nの各々を個別に設定してもよいし、1個の基本周波数F0のn倍の周波数をN個の調波周波数H_1〜H_Nとして設定してもよい。制御データ生成部31は、楽曲データMに応じて振幅スペクトル包絡Eaおよび位相スペクトル包絡Epを特定する(Sa2)。なお、調波周波数H_n、振幅スペクトル包絡Eaおよび位相スペクトル包絡Epは、目標歌唱者に対応する特徴量でもよいし、目標歌唱者以外の歌唱者の特徴量でもよい。また、調波周波数H_n、振幅スペクトル包絡Eaおよび位相スペクトル包絡Epは、目標声質Xに対応する特徴量でもよいし、目標声質Xに対応しない特徴量でもよい。調波周波数H_nの設定(Sa1)と振幅スペクトル包絡Eaおよび位相スペクトル包絡Epの特定(Sa2)との順序を逆転してもよい。以上の処理により、調波周波数H_nと振幅スペクトル包絡Eaと目標声質Xとを含む制御データC_nが生成される。
制御装置11は、N個の制御データC_1〜C_Nにそれぞれ対応するN個の調波振幅分布Da_1〜Da_Nを第1学習済モデル32により生成する(Sa3)。また、制御装置11は、N個の制御データC_1〜C_Nにそれぞれ対応するN個の調波位相分布Dp_1〜Dp_Nを第2学習済モデル33により生成する(Sa4)。なお、N個の調波振幅分布Da_1〜Da_Nの生成(Sa3)とN個の調波位相分布Dp_1〜Dp_Nの生成(Sa4)との順序を逆転してもよい。
周波数スペクトル生成部34は、振幅スペクトル包絡Eaと位相スペクトル包絡EpとN個の調波振幅分布Da_1〜Da_NとN個の調波位相分布Dp_1〜Dp_Nとから目標声質Xの周波数スペクトルQを生成する(Sa5)。具体的には、前述の通り、周波数スペクトル生成部34は、振幅スペクトル包絡Eaに沿うN個の調波振幅分布Da_1〜Da_Nと位相スペクトル包絡Epに沿うN個の調波位相分布Dp_1〜Dp_Nとを合成することで周波数スペクトルQを生成する。波形合成部22は、周波数スペクトルQから時間領域の音声信号Vを生成する(Sa6)。以上の手順により単位期間毎に生成された音声信号Vを時間軸上で相互に重複させて加算することで、楽曲データMが指定する音高および音韻を目標声質Xで発音した音声を表す音声信号Vが生成される。
以上に説明した通り、第1実施形態では、目標声質Xと調波周波数H_nと振幅スペクトル包絡Eaとに応じて調波成分毎の調波振幅分布Da_nが特定され、振幅スペクトル包絡EaとN個の調波振幅分布Da_1〜Da_Nとから目標声質Xの音声の周波数スペクトルQ(振幅スペクトル)が生成される。したがって、標準的な声質の音声を合成してから当該声質の音声を変換する特許文献1の技術と比較して、目標声質Xの音声の合成処理が簡素化されるという利点がある。
第1実施形態では、制御データC_nと調波振幅分布Da_nとの間の関係を学習した第1学習済モデル32により各調波成分の調波振幅分布Da_nが特定される。したがって、未知の制御データC_nに対応する調波振幅分布Da_nを適切に特定できるという利点がある。なお、各調波振幅分布Da_nの形状は相互に近似するから、小規模な統計的予測モデル(例えばNN)を第1学習済モデル32として利用できるという利点もある。また、各調波振幅分布Da_nの形状が相互に近似するから、調波振幅分布Da_nの推定に誤りが発生した場合でも、音声信号Vの波形の破綻のように音質上の重大な問題には直結しないという利点もある。
目標声質Xと調波周波数H_nと振幅スペクトル包絡Eaとに応じて調波成分毎の調波位相分布Dp_nが特定され、位相スペクトル包絡EpとN個の調波位相分布Dp_1〜Dp_Nとから目標声質Xの音声の周波数スペクトルQ(位相スペクトル)が生成される。したがって、位相スペクトルが適切な目標声質Xの音声を合成できるという利点がある。第1実施形態では特に、制御データC_nと調波位相分布Dp_nとの間の関係を学習した第2学習済モデル33により各調波成分の調波位相分布Dp_nが特定される。したがって、未知の制御データC_nに対応する調波位相分布Dp_nを適切に特定できるという利点がある。
第1実施形態では、代表振幅Ra_nに対する振幅の相対値の分布が調波振幅分布Da_nとして利用されるから、代表振幅Ra_nの高低に関わらず適切な周波数スペクトルQを生成できるという利点がある。同様に、代表位相Rp_nに対する位相の相対値の分布が調波位相分布Dp_nとして利用されるから、代表位相Rp_nの高低に関わらず適切な周波数スペクトルQを生成できるという利点がある。
<第2実施形態>
本発明の第2実施形態を説明する。以下に例示する各形態において作用または機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
図5は、第2実施形態における制御装置11の機能的な構成を部分的に例示するブロック図である。図5に例示される通り、第2実施形態における制御データ生成部31は、位相算定部311を包含する。位相算定部311は、振幅スペクトル包絡Eaから算定される周波数軸上の数値系列を位相スペクトル包絡Epとして代替的に生成する。
第2実施形態の位相算定部311は、振幅スペクトル包絡Eaに対応する最小位相を位相スペクトル包絡Ep0として算定する。具体的には、位相算定部311は、振幅スペクトル包絡Eaの対数値をヒルベルト変換することで算定される最小位相を位相スペクトル包絡Ep0として利用する。例えば、位相算定部311は、第1に、振幅スペクトル包絡Eaの対数値に対して離散逆フーリエ変換を実行することで時間領域のサンプル系列を算定する。第2に、位相算定部311は、時間領域のサンプル系列のうち時間軸上で負数の時刻に相当する部分を0に設定し、時間軸上の原点(時刻0)と時刻F/2(Fは離散フーリエ変換の点数)とを除く各時刻に相当する部分を2倍したうえで、離散フーリエ変換を実行する。第3に、位相算定部311は、離散フーリエ変換の結果のうちの虚数部分(最小位相)を位相スペクトル包絡Ep0として抽出する。
また、位相算定部311は、基本周波数F0の時系列に対応する各単位期間内の位相基準位置(ピッチマーク)を設定する。具体的には、位相算定部311は、基本周波数F0に応じた位相の変化量を積分することで瞬時位相の時系列を算定し、各単位期間の中央付近において瞬時位相が(θ+2mπ)となる時間軸上の位置を位相基準位置として選択する。なお、記号θは任意の実数であり、記号mは任意の整数である。そして、位相算定部311は、各単位期間の中央の時刻と位相基準位置との時間差だけ位相スペクトル包絡Ep0を線形位相シフト(すなわち時間軸上で移動)することで、位相スペクトル包絡Epを生成する。以上の手順で算定された位相スペクトル包絡Epから周波数スペクトル生成部34が周波数スペクトルQを生成する方法は第1実施形態と同様である。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、振幅スペクトル包絡Eaから位相スペクトル包絡Epが算定されるから、位相スペクトル包絡Epを設定する処理が簡素化されるという利点がある。
<第3実施形態>
図6は、第3実施形態における制御装置11の機能的な構成を部分的に例示するブロック図である。図6に例示される通り、第3実施形態の第1学習済モデル32には制御データCa_nが供給される。第t番目の単位期間(第1単位期間の例示)における各調波成分の制御データCa_nは、第1実施形態と制御データC_nと同様の要素(調波周波数H_n,振幅スペクトル包絡Eaおよび目標声質X)に加えて、直前に位置する第(t-1)番目の単位期間(第2単位期間の例示)について第1学習済モデル32が特定した調波振幅分布Da_nを包含する。すなわち、各単位期間について特定された調波振幅分布Da_nが、直後の単位期間の調波振幅分布Da_nを算定するための入力として帰還される。第3実施形態の第1学習済モデル32は、調波周波数H_nと振幅スペクトル包絡Eaと目標声質Xと直前の調波振幅分布Da_nとを含む制御データCa_nと、調波振幅分布Da_nとの間の関係を学習した統計的予測モデルである。
図6に例示される通り、第3実施形態の第2学習済モデル33には制御データCp_nが供給される。第t番目の単位期間における各調波成分の制御データCp_nは、第1実施形態の制御データC_nと同様の要素(調波周波数H_n,振幅スペクトル包絡Eaおよび目標声質X)に加えて、直前に位置する第(t-1)番目の単位期間について第2学習済モデル33が特定した調波位相分布Dp_nを包含する。すなわち、第3実施形態の第2学習済モデル33は、調波周波数H_nと振幅スペクトル包絡Eaと目標声質Xと直前の調波位相分布Dp_nとを含む制御データCp_nと、調波位相分布Dp_nとの間の関係を学習した統計的予測モデルである。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、各単位期間における制御データCa_nが、直前の単位期間で特定された調波振幅分布Da_nを含む。したがって、複数の教師データにおける調波振幅分布Da_nの時間的な変化の傾向を反映した適切な調波振幅分布Da_nの時系列を特定できるという利点がある。同様に、各単位期間における制御データCp_nが、直前の単位期間で特定された調波位相分布Dp_nを含む。したがって、複数の教師データにおける調波位相分布Dp_nの時間的な変化の傾向を反映した適切な調波位相分布Dp_nの時系列を特定できるという利点がある。なお、振幅スペクトル包絡Eaから位相スペクトル包絡Epを算定する第2実施形態の構成を第3実施形態に採用してもよい。
<第4実施形態>
図7は、第4実施形態における制御装置11の機能的な構成を部分的に例示するブロック図である。図7に例示される通り、第4実施形態の第1学習済モデル32には制御データCa_nが供給される。第n番目の調波成分(第1調波成分の例示)の制御データCa_nは、第1実施形態の制御データC_nと同様の要素(調波周波数H_n,振幅スペクトル包絡Eaおよび目標声質X)に加えて、周波数軸上で当該調波成分に隣合う第(n-1)番目の調波成分(第2調波成分の例示)について第1学習済モデル32が特定した調波振幅分布Da_n-1を包含する。すなわち、第4実施形態の第1学習済モデル32は、調波周波数H_nと振幅スペクトル包絡Eaと目標声質Xと他の調波成分の調波振幅分布Da_n-1とを含む制御データCa_nと、調波振幅分布Da_nとの間の関係を学習した統計的予測モデルである。
図7に例示される通り、第4実施形態の第2学習済モデル33には制御データCp_nが供給される。第n番目の調波成分の制御データCp_nは、第1実施形態の制御データC_nと同様の要素(調波周波数H_n,振幅スペクトル包絡Eaおよび目標声質X)に加えて、周波数軸上で当該調波成分に隣合う第(n-1)番目の調波成分について第1学習済モデル32が特定した調波位相分布Dp_n-1を包含する。すなわち、第4実施形態の第2学習済モデル33は、調波周波数H_nと振幅スペクトル包絡Eaと目標声質Xと他の調波成分の調波位相分布Dp_n-1とを含む制御データCp_nと、調波位相分布Dp_nとの間の関係を学習した統計的予測モデルである。
第4実施形態においても第1実施形態と同様の効果が実現される。また、第4実施形態では、各調波成分の調波振幅分布Da_nを特定するための制御データCa_nが、周波数軸上で当該調波成分に隣合う他の調波成分について特定された調波振幅分布Da_n-1を含む。したがって、複数の教師データにおける各調波振幅分布Da_nの相関の傾向を反映した適切な調波振幅分布Da_nを特定できるという利点がある。同様に、各調波成分の調波位相分布Dp_nを特定するための制御データCp_nが、周波数軸上で当該調波成分に隣合う他の調波成分について特定された調波位相分布Dp_n-1を含む。したがって、複数の教師データにおける各調波位相分布Dp_nの相関の傾向を反映した適切な調波位相分布Dp_nを特定できるという利点がある。なお、振幅スペクトル包絡Eaから位相スペクトル包絡Epを算定する第2実施形態の構成を第4実施形態に採用してもよい。
<第5実施形態>
図8は、第5実施形態における制御装置11の機能的な構成を部分的に例示するブロック図である。第1学習済モデル32に対する入力および出力は第1実施形態と同様である。すなわち、第1学習済モデル32は、調波周波数H_nと振幅スペクトル包絡Eaと目標声質Xとを含む制御データC_nに応じた調波振幅分布Da_nを出力する。
他方、第5実施形態の第2学習済モデル33には制御データCp_nが供給される。制御データCp_nは、第1実施形態の制御データC_nと同様の要素(調波周波数H_n,振幅スペクトル包絡Eaおよび目標声質X)に加えて、第1学習済モデル32が生成した調波振幅分布Da_nを包含する。具体的には、任意の1個の単位期間における第n番目の調波成分に対応する制御データCp_nは、当該単位期間と当該調波成分との組合せについて第1学習済モデル32が生成した調波振幅分布Da_nを包含する。すなわち、第5実施形態の第2学習済モデル33は、調波周波数H_nと振幅スペクトル包絡Eaと目標声質Xと調波振幅分布Da_nとを含む制御データCp_nと、調波位相分布Dp_nとの間の関係を学習した統計的予測モデルである。
第5実施形態においても第1実施形態と同様の効果が実現される。また、第5実施形態では、各調波成分の調波位相分布Dp_nを特定するための制御データCp_nが、第1学習済モデル32により生成された調波振幅分布Da_nを含む。したがって、複数の教師データにおける調波振幅分布Da_nと調波位相分布Dp_nとの相関を反映した適切な調波位相分布Dp_nを特定できるという利点がある。なお、振幅スペクトル包絡Eaから位相スペクトル包絡Epを算定する第2実施形態の構成を第5実施形態に採用してもよい。
<第6実施形態>
第1実施形態から第5実施形態では、1個の単位期間における調波周波数H_nを第1学習済モデル32および第2学習済モデル33に付与した。例えば1個の音符の発音期間内において調波周波数H_nが経時的に変化するという傾向を考慮すると、任意の1個の単位期間における制御データC_nに、当該単位期間における調波周波数H_nに加えて、当該単位期間の前後の単位期間における調波周波数H_nを含めた構成も好適である。すなわち、第6実施形態の制御データC_nは、調波周波数H_nの時間的な変化を表す。
具体的には、第6実施形態の制御データ生成部31は、第t番目の単位期間における制御データC_nに、当該単位期間の調波周波数H_nと、直前に位置する第(t-1)番目の単位期間の調波周波数H_nと、直後に位置する第(t+1)番目の単位期間の調波周波数H_nとを含める。以上の説明から理解される通り、第6実施形態の第1学習済モデル32が学習する制御データC_nと調波振幅分布Da_nとの間の関係には、調波周波数H_nの時間的な変化の傾向が反映される。したがって、調波周波数H_nの時間的な変化の傾向を反映した適切な調波振幅分布Da_nを特定できるという利点がある。同様に、第6実施形態の第2学習済モデル33が学習する制御データC_nと調波位相分布Dp_nとの間の関係には、調波周波数H_nの時間的な変化の傾向が反映される。したがって、調波周波数H_nの時間的な変化の傾向を反映した適切な調波位相分布Dp_nを特定できるという利点がある。
なお、以上の説明では、直前および直後の単位期間における調波周波数H_nを制御データC_nに含めたが、制御データC_nに含まれる調波周波数H_nの個数は適宜に変更される。例えば、直前(第(t-1)番目)の単位期間の調波周波数H_nと直後(第(t+1)番目)の単位期間の調波周波数H_nの一方を、第t番目の単位期間の調波周波数H_nとともに制御データC_nに含めてもよい。第t番目の単位期間の前方に位置する複数の単位期間における調波周波数H_nを第t番目の単位期間の制御データC_nに含めた構成、および、第t番目の単位期間の後方に位置する複数の単位期間における調波周波数H_nを第t番目の単位期間の制御データC_nに含めた構成も想定される。
また、前述の例示では、第t番目の単位期間の制御データC_nに他の単位期間の調波周波数H_nを含めた構成を例示したが、調波周波数H_nの変化量(例えば周波数の時間微分値)を制御データC_nに含めてもよい。例えば、第t番目の単位期間の制御データC_nには、第(t-1)番目の単位期間と第t番目の単位期間との間における調波周波数H_nの変化量、または、第t番目の単位期間と第(t+1)番目の単位期間との間における調波周波数H_nの変化量が含められる。
以上の説明から理解される通り、第t番目の単位期間における第n番目の調波成分の制御データC_nは、
(1)第t番目の単位期間における当該調波成分の調波周波数H_nと、
(2)第t番目以外の単位期間(典型的には直前または直後の単位期間)における当該調波成分の調波周波数H_n、または、第t番目の単位期間の前後における当該調波周波数H_nの変化量とを含む。なお、第2実施形態から第5実施形態の構成を第6実施形態に適用してもよい。
<第7実施形態>
図9は、第7実施形態における制御装置11の機能的な構成を例示するブロック図である。図9に例示される通り、第7実施形態の調波処理部21は、第1実施形態における第1学習済モデル32および第2学習済モデル33を振幅特定部41および位相特定部42に置換した構成である。制御データ生成部31が振幅スペクトル包絡Eaと位相スペクトル包絡EpとN個の制御データC_1〜C_Nとを生成する動作は第1実施形態と同様である。
振幅特定部41は、制御データ生成部31が生成した制御データC_nに応じた調波振幅分布Da_nを特定する。N個の制御データC_1〜C_Nにそれぞれ対応するN個の調波振幅分布Da_1〜Da_Nが単位期間毎に振幅特定部41から出力される。他方、位相特定部42は、制御データ生成部31が生成した制御データC_nに応じた調波位相分布Dp_nを特定する。N個の制御データC_1〜C_Nにそれぞれ対応するN個の調波位相分布Dp_1〜Dp_Nが単位期間毎に位相特定部42から出力される。
第7実施形態の記憶装置12は、調波振幅分布Da_nの特定のために振幅特定部41が使用する参照テーブルTaと、調波位相分布Dp_nの特定のために位相特定部42が使用する参照テーブルTpとを記憶する。なお、参照テーブルTaと参照テーブルTpとを別個の記録媒体に記憶してもよい。
参照テーブルTaは、図9に例示される通り、制御データ生成部31が生成し得る複数通りの制御データCの各々について、単位帯域B内の調波振幅分布Daを表す形状データWaが登録されたデータテーブルである。参照テーブルTaに登録された各調波振幅分布Daの形状は制御データC毎に相違する。以上の説明から理解される通り、第7実施形態の記憶装置12には、制御データC毎(すなわち、調波周波数H_nと振幅スペクトル包絡Eaと目標声質Xとの組合せ毎)に調波振幅分布Da_nが記憶される。
参照テーブルTpは、図9に例示される通り、制御データ生成部31が生成し得る複数通りの制御データCの各々について、単位帯域B内の調波位相分布Dpを表す形状データWpが登録されたデータテーブルである。参照テーブルTpに登録された各調波位相分布Dpの形状は制御データC毎に相違する。以上の説明から理解される通り、第7実施形態の記憶装置12には、制御データC毎(すなわち、調波周波数H_nと振幅スペクトル包絡Eaと目標声質Xとの組合せ毎)に調波位相分布Dp_nが記憶される。なお、図9においては参照テーブルTaと参照テーブルTpとを区別したが、制御データCと形状データWaと形状データWpとを対応させた単体の参照テーブルを、振幅特定部41および位相特定部42が利用してもよい。
図9の振幅特定部41は、参照テーブルTaに登録された複数の形状データWaのうち、制御データ生成部31が生成した制御データC_nに対応する形状データWaを検索し、当該形状データWaが表す調波振幅分布Da_nを出力する。すなわち、振幅特定部41は、N個の調波成分の各々の制御データC_nに対応する形状データWaを記憶装置12から取得することで、当該調波成分の調波振幅分布Da_nを特定する。
位相特定部42は、参照テーブルTpに登録された複数の形状データWpのうち、制御データ生成部31が生成した制御データC_nに対応する形状データWpを検索し、当該形状データWpが表す調波位相分布Dp_nを出力する。すなわち、位相特定部42は、N個の調波成分の各々の制御データC_nに対応する形状データWpを記憶装置12から取得することで、当該調波成分の調波位相分布Dp_nを特定する。
周波数スペクトル生成部34は、振幅スペクトル包絡Eaおよび位相スペクトル包絡Epと、振幅特定部41が特定したN個の調波振幅分布Da_1〜Da_Nと、位相特定部42が特定したN個の調波位相分布Dp_1〜Dp_Nとから、合成音声の周波数スペクトルQを生成する。周波数スペクトルQの生成は、第1実施形態と同様の構成および方法により単位期間毎に実行される。波形合成部22は、第1実施形態と同様に、調波処理部21が単位期間毎に生成した複数の周波数スペクトルQの時系列から時間領域の音声信号Vを生成する。
図10は、第7実施形態の制御装置11が実行する音声合成処理のフローチャートである。音声合成処理は、例えば音声合成装置100の利用者からの指示を契機として開始されて単位期間毎に反復される。
音声合成処理を開始すると、第1実施形態と同様に、制御データ生成部31は、N個の制御データC_1〜C_Nを生成する(Sa1,Sa2)。振幅特定部41は、N個の調波成分の各々について、制御データC_nに対応する形状データWa(調波振幅分布Da_n)を取得する(Sb3)。位相特定部42は、N個の調波成分の各々について、制御データC_nに対応する形状データWp(調波位相分布Dp_n)を取得する(Sb4)。なお、N個の調波振幅分布Da_1〜Da_Nの取得(Sb3)とN個の調波位相分布Dp_1〜Dp_Nの取得(Sb4)との順序を逆転してもよい。周波数スペクトル生成部34が周波数スペクトルQを生成する処理(Sa5)、および、波形合成部22が複数の周波数スペクトルQの時系列から音声信号Vを生成する処理(Sa6)は、第1実施形態と同様である。
以上に説明した通り、第7実施形態では、目標声質Xと調波周波数H_nと振幅スペクトル包絡Eaとに応じて調波成分毎の調波振幅分布Da_nが特定される。したがって、第1実施形態と同様に、標準的な声質の音声を合成してから当該声質の音声を変換する特許文献1の技術と比較して、目標声質Xの音声の合成処理が簡素化されるという利点がある。同様に、目標声質Xと調波周波数H_nと振幅スペクトル包絡Eaとに応じて調波成分毎の調波位相分布Dp_nが特定されるから、第1実施形態と同様に、位相スペクトルQpが適切な目標声質Xの音声を合成できるという利点がある。
また、第7実施形態では、制御データCに対応させて形状データWaを記憶する記憶装置12から、各調波成分の制御データC_nに対応する形状データWaを取得することで調波振幅分布Da_nが特定される。したがって、第1実施形態に例示した第1学習済モデル32を生成するための機械学習と第1学習済モデル32により調波振幅分布Da_nを特定する演算とが不要であるという利点がある。同様に、制御データCに対応させて形状データWpを記憶する記憶装置12から、各調波成分の制御データC_nに対応する形状データWpを取得することで調波位相分布Dp_nが特定される。したがって、第1実施形態に例示した第2学習済モデル33を生成するための機械学習と第2学習済モデル33により調波位相分布Dp_nを特定する演算とが不要であるという利点がある。
<第8実施形態>
第8実施形態の音声合成装置100の構成は第7実施形態と同様である。すなわち、第8実施形態の調波処理部21は、図9の例示と同様に、制御データ生成部31と振幅特定部41と位相特定部42と周波数スペクトル生成部34とを具備する。
第7実施形態では、記憶装置12が制御データC毎に形状データWaを記憶した構成を例示したが、制御データ生成部31が生成した制御データC_nについて記憶装置12に形状データWaが記憶されていない可能性も想定される。以上の事情を考慮して、第8実施形態では、制御データC_nについて形状データWaが記憶装置12に記憶されていない場合、記憶装置12に記憶された複数の形状データWaの補間により調波振幅分布Da_nが特定される。具体的には、第8実施形態の振幅特定部41は、制御データ生成部31が生成した制御データC_nに距離が近い順番で複数の制御データCを参照テーブルTaから選択し、当該複数の制御データCにそれぞれ対応する複数の形状データWaを補間することで調波振幅分布Da_nを特定する。例えば、複数の形状データWaの加重和により調波振幅分布Da_nが特定される。
なお、制御データ生成部31が生成した制御データC_nと当該制御データC_nに最も近い制御データCとの距離が所定の閾値を下回る場合に、振幅特定部41が、当該制御データCに対応する1個の形状データWaが表す調波振幅分布Da_nを特定してもよい。すなわち、制御データC_nに充分に近い制御データCが参照テーブルTaに存在する場合、形状データWaの補間は省略される。
以上の説明では振幅に着目したが、位相についても同様である。すなわち、制御データC_nについて形状データWpが記憶装置12に記憶されていない場合に、記憶装置12に記憶された複数の形状データWpの補間により調波位相分布Dp_nが特定される。具体的には、第8実施形態の位相特定部42は、制御データ生成部31が生成した制御データC_nに距離が近い順番で複数の制御データCを参照テーブルTpから選択し、当該複数の制御データCにそれぞれ対応する複数の形状データWpを補間することで調波位相分布Dp_nを特定する。
なお、制御データ生成部31が生成した制御データC_nと当該制御データC_nに最も近い制御データCとの距離が所定の閾値を下回る場合に、位相特定部42が、当該制御データCに対応する形状データWpが表す調波位相分布Dp_nを特定してもよい。すなわち、制御データC_nに充分に近い制御データCが参照テーブルTpに存在する場合、形状データWpの補間は省略される。また、制御データCと形状データWaと形状データWpを対応させた参照テーブルを利用する構成では、制御データC_nに近い制御データCの検索が、振幅特定部41と位相特定部42とで別個に実行されるのではなく、振幅特定部41と位相特定部42との間で共通に実行される。
第8実施形態においても第7実施形態と同様の効果が実現される。また、第8実施形態では、記憶装置12に記憶された複数の形状データWaの補間により各調波成分の調波振幅分布Da_nが特定されるから、記憶装置12に記憶される形状データWaの個数を削減できるという利点がある。同様に、複数の形状データWpの補間により各調波成分の調波位相分布Dp_nが特定されるから、記憶装置12に記憶される形状データWpの個数を削減できるという利点もある。
<第9実施形態>
第9実施形態の音声合成装置100の構成は第7実施形態と同様である。すなわち、第9実施形態の調波処理部21は、図9の例示と同様に、制御データ生成部31と振幅特定部41と位相特定部42と周波数スペクトル生成部34とを具備する。第9実施形態では、振幅特定部41が各調波成分の調波振幅分布Da_nを特定する動作が第7実施形態とは相違する。
図11は、第9実施形態における振幅特定部41の動作の説明図である。図11に例示される通り、第9実施形態の記憶装置12が記憶する形状データWaは、単位帯域B内における非調波成分の振幅の分布を表す。すなわち、形状データWaが表す振幅の分布は、調波成分に対応する振幅のピークを含まない。振幅特定部41は、第7実施形態と同様に、制御データ生成部31が生成した制御データC_nに対応する形状データWaを記憶装置12から取得する。
図11に例示される通り、振幅特定部41は、第n番目の調波成分について取得した形状データWaに振幅ピーク成分σ_nを付加することで、当該調波成分の調波振幅分布Da_nを生成する。振幅ピーク成分σ_nは、例えば調波周波数H_nの周期関数(例えば正弦波)に対応する振幅の分布である。形状データWaが表す非調波成分の振幅の分布に対して振幅ピーク成分σ_nを合成することで、調波振幅分布Da_nが特定される。以上の説明から理解される通り、形状データWaが表す振幅の分布は、調波振幅分布Daから振幅ピーク成分σ_nを除去した形状である。
N個の調波成分にそれぞれ対応するN個の調波振幅分布Da_1〜Da_Nが単位期間毎に特定される。振幅特定部41が特定したN個の調波振幅分布Da_1〜Da_Nと位相特定部42が特定したN個の調波位相分布Dp_1〜Dp_Nとから周波数スペクトル生成部34が周波数スペクトルQを生成する処理は第1実施形態と同様である。
第9実施形態においても第7実施形態と同様の効果が実現される。また、第9実施形態では、形状データWaに振幅ピーク成分σ_nを付加することで調波振幅分布Da_nが特定されるから、調波成分(振幅ピーク成分σ_n)および非調波成分の双方について振幅の分布を形状データWaが表す構成と比較して、形状データWaのデータ量が削減されるという利点がある。
<変形例>
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)第1実施形態ないし第9実施形態から選択された2以上の形態を併合してもよい。例えば、振幅スペクトル包絡Eaから位相スペクトル包絡Epを算定する第2実施形態の構成は、第7実施形態から第9実施形態にも適用される。また、第t番目の単位期間における制御データCa_nが第(t-1)番目の単位期間(第2単位期間の例示)の調波振幅分布Da_nを包含する第3実施形態の構成を、第7実施形態から第9実施形態に適用してもよい。制御データCa_nが他の調波成分の調波振幅分布Da_n-1を含む第4実施形態の構成を、第7実施形態から第9実施形態に適用してもよい。制御データCp_nが調波振幅分布Da_nを含む第5実施形態の構成を、第7実施形態から第9実施形態に適用してもよい。
第1実施形態と第7実施形態とを併合してもよい。例えば、第1実施形態の第1学習済モデル32により調波振幅分布Da_nを特定するとともに第7実施形態の位相特定部42により調波位相分布Dp_nを特定する構成、または、第7実施形態の振幅特定部41により調波振幅分布Da_nを特定するとともに第1実施形態の第2学習済モデル33により調波位相分布Dp_nを特定する構成も想定される。
(2)第2実施形態では、振幅スペクトル包絡Eaから算定される最小位相を位相スペクトル包絡Epとして利用したが、位相スペクトル包絡Epは最小位相に限定されない。例えば、振幅スペクトル包絡Eaの周波数微分を位相スペクトル包絡Epとして利用してもよい。また、振幅スペクトル包絡Eaに依存しない数値系列(例えば全周波数にわたる所定値の系列)を位相スペクトル包絡Epとして利用してもよい。
(3)第4実施形態では、第n番目の調波成分に対応する制御データCa_nが、当該調波成分の低域側に位置する調波成分の調波振幅分布Da_n-1を含む構成を例示したが、当該調波成分の高域側に位置する調波成分について特定された調波振幅分布Da_n+1を制御データCa_nに含めてもよい。
(4)例えば移動体通信網またはインターネット等の通信網を介して端末装置(例えば携帯電話機またはスマートフォン)と通信するサーバ装置により音声合成装置100を実現してもよい。具体的には、音声合成装置100は、端末装置から受信した楽曲データMに対する音声合成処理(図4または図10)により音声信号Vを生成し、当該音声信号Vを端末装置に送信する。端末装置の放音装置は、音声合成装置100から受信した音声信号Vが表す音声を再生する。なお、音声合成装置100の周波数スペクトル生成部34が生成した周波数スペクトルQを端末装置に送信し、端末装置に設置された波形合成部22が周波数スペクトルQから音声信号Vを生成してもよい。すなわち、波形合成部22は音声合成装置100から省略される。また、端末装置に設置された制御データ生成部31が生成した制御データC_nおよび制御データCp_nを音声合成装置100に送信し、端末装置から受信した制御データC_nおよび制御データCp_nから生成した音声信号V(または周波数スペクトルQ)を音声合成装置100から端末装置に送信してもよい。すなわち、制御データ生成部31は音声合成装置100から省略される。
(5)前述の各形態に係る音声合成装置100は、各形態での例示の通り、コンピュータ(具体的には制御装置11)とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供することも可能である。
(6)学習済モデル(第1学習済モデル32および第2学習済モデル33)は、入力Aから出力Bを特定する演算を制御装置11に実行させるプログラム(例えば人工知能ソフトウェアを構成するプログラムモジュール)と、当該演算に適用される複数の係数との組合せで実現される。学習済モデルの複数の係数は、入力Aと出力Bとを対応させた複数の教師データを利用した事前の機械学習(特に深層学習)により最適化される。すなわち、学習済モデルは、入力Aと出力Bとの間の関係を学習した統計的モデルである。制御装置11は、学習済の複数の係数と所定の応答関数とを適用した演算を未知の入力Aに対して実行することで、複数の教師データから抽出される傾向(入力Aと出力Bとの間の関係)のもとで入力Aに対して統計的に妥当な出力Bを生成する。なお、人工知能ソフトウェアを実行する主体はCPUに限定されない。例えば、Tensor Processing UnitおよびNeural Engine等のNN用の処理回路、または、人工知能に専用されるDSP(Digital Signal Processor)が、人工知能ソフトウェアを実行してもよい。また、以上の例示から選択された複数種の処理回路が協働して人工知能ソフトウェアを実行してもよい。
(7)以上に例示した形態から、例えば以下の構成が把握される。
本発明の好適な態様(第1態様)に係る音声合成方法は、複数の調波成分の各々について、目標声質と、振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、当該調波成分に対応したピークを含む単位帯域内の振幅の分布である調波振幅分布を特定し、前記振幅スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布とから、前記目標声質の音声の周波数スペクトルを生成する。以上の態様では、目標声質と振幅スペクトル包絡と調波成分の調波周波数とに応じて調波成分毎の調波振幅分布が特定され、複数の調波振幅分布から目標声質の音声の周波数スペクトルが生成される。したがって、標準的な声質の音声を合成してから当該音声の声質を変換する特許文献1の技術と比較して合成処理が簡素化されるという利点がある。
第1態様の好適例(第2態様)において、前記調波振幅分布の特定では、目標声質と調波周波数と振幅スペクトル包絡とを含む制御データと調波振幅分布との間の関係を学習した第1学習済モデルにより、前記調波振幅分布を特定する。以上の態様では、目標声質と調波周波数と振幅スペクトル包絡とを含む制御データと調波振幅分布との間の関係を学習した第1学習済モデルにより各調波成分の調波振幅分布が特定される。したがって、制御データと調波振幅分布とを対応させた参照テーブルを利用して調波振幅分布を特定する構成と比較して、未知の制御データに対応する調波振幅分布を適切に特定できるという利点がある。
第2態様の好適例(第3態様)において、前記複数の調波振幅分布を単位期間毎に特定し、第1単位期間における各調波成分の調波振幅分布を特定するための前記制御データは、前記第1単位期間の直前の第2単位期間において当該調波成分について特定された調波振幅分布を含む。以上の態様では、第1単位期間における制御データが、直前の第2単位期間で特定された調波振幅分布を含むから、各調波成分に対応する調波振幅分布の時間的な変化の傾向を反映した適切な調波振幅分布の時系列を特定できるという利点がある。
第2態様または第3態様の好適例(第4態様)において、前記複数の調波成分のうち第1調波成分の調波振幅分布を特定するための前記制御データは、周波数軸上で前記第1調波成分に隣合う第2調波成分について特定された調波振幅分布を含む。以上の態様では、第1調波成分の調波振幅分布を特定するための制御データが、周波数軸上で第1調波成分に隣合う第2調波成分について特定された調波振幅分布を含むから、周波数軸上で隣合う調波振幅分布の相関の傾向を反映した適切な調波振幅分布を特定できるという利点がある。
第2態様の好適例(第5態様)において、前記複数の調波振幅分布を単位期間毎に特定し、一の単位期間における各調波成分の調波振幅分布を特定するための前記制御データは、前記一の単位期間における当該調波成分の調波周波数と、前記一の単位期間以外の単位期間における当該調波成分の調波周波数、または、前記一の単位期間の前後における当該調波周波数の変化量とを含む。以上の態様によれば、調波周波数の時間的な変化の傾向を反映した適切な調波振幅分布を特定できるという利点がある。
第2態様から第5態様の何れかの好適例(第6態様)において、前記複数の調波成分の各々について、前記目標声質と、前記振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、前記単位帯域内の位相の分布である調波位相分布を特定し、前記振幅スペクトル包絡および位相スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布および複数の調波位相分布とから、前記目標声質の音声の周波数スペクトルを生成する。以上の態様では、目標声質と調波成分の調波周波数および振幅スペクトル包絡とに応じて調波成分毎の調波位相分布が特定され、複数の調波振幅分布と複数の調波位相分布とから目標声質の音声の周波数スペクトルが生成される。したがって、位相スペクトルが適切な目標声質の音声を合成できるという利点がある。
第6態様の好適例(第7態様)において、前記調波位相分布の特定では、目標声質と調波周波数と振幅スペクトル包絡とを含む制御データと調波位相分布との間の関係を学習した第2学習済モデルにより、前記調波位相分布を特定する。以上の態様では、目標声質と調波周波数と振幅スペクトル包絡とを含む制御データと調波位相分布との間の関係を学習した第2学習済モデルにより各調波成分の調波位相分布が特定される。したがって、制御データと調波位相分布とを対応させた参照テーブルを利用して調波位相分布を特定する構成と比較して、未知の制御データに対応する調波位相分布を適切に特定できるという利点がある。
第7態様の好適例(第8態様)では、目標声質と調波周波数と振幅スペクトル包絡と、前記第1学習済モデルにより特定された調波振幅分布とから、前記第2学習済モデルにより前記調波位相分布を特定する。以上の態様によれば、調波振幅分布と調波位相分布との相関の傾向を反映した適切な調波位相分布を特定できるという利点がある。
第6態様から第8態様の何れかの好適例(第9態様)において、前記位相スペクトル包絡は、前記振幅スペクトル包絡から算定される。以上の態様では、振幅スペクトル包絡から位相スペクトル包絡が算定されるから、位相スペクトル包絡を生成する処理が簡素化されるという利点がある。
第1態様の好適例(第10態様)において、前記調波振幅分布の特定では、前記単位帯域内の振幅の分布を示す形状データを、目標声質と調波周波数と振幅スペクトル包絡とを含む制御データに対応させて記憶する記憶装置から、前記複数の調波成分の各々の制御データに対応する形状データを取得し、当該形状データから前記調波成分の調波振幅分布を特定する。以上の態様では、制御データに対応させて形状データを記憶する記憶装置から、各調波成分の制御データに対応する形状データを取得することで調波振幅分布が特定される。したがって、制御データに対応する調波振幅分布を簡便に特定できるという利点がある。
第10態様の好適例(第11態様)において、前記調波振幅分布の特定では、前記記憶装置に記憶された複数の形状データの補間により、前記複数の調波成分の各々について調波振幅分布を特定する。以上の態様では、記憶装置に記憶された複数の形状データの補間により各調波成分の調波振幅分布が特定されるから、記憶装置に記憶される形状データの個数を削減できるという利点がある。
第10態様の好適例(第12態様)において、前記形状データは、前記単位帯域における非調波成分の振幅の分布を表し、前記調波振幅分布の特定においては、前記複数の調波成分の各々について、前記記憶装置から取得した形状データに、当該調波成分の調波周波数に対応する振幅ピーク成分を付加することで、当該調波成分の調波振幅分布を生成する。以上の態様では、形状データに振幅ピーク成分を付加することで調波振幅分布が特定されるから、形状データのデータ量を削減できるという利点がある。
第1態様から第12態様の何れかの好適例(第13態様)において、前記調波振幅分布は、前記代表振幅に対する振幅の相対値の分布である。以上の態様では、調波振幅分布が代表振幅に対する振幅の相対値の分布であるから、代表振幅の高低に関わらず適切な周波数スペクトルを生成できるという利点がある。
本発明の好適な態様(第14態様)に係るプログラムは、複数の調波成分の各々について、目標声質と、振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、当該調波成分に対応したピークを含む単位帯域内の振幅の分布である調波振幅分布を特定する処理(例えば図4のステップSa3または図10のステップSb3)と、前記振幅スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布とから、前記目標声質の音声の周波数スペクトルを生成する処理(例えば図4または図10のステップSa6)とをコンピュータに実行させる。以上の態様では、目標声質と振幅スペクトル包絡と調波成分の調波周波数とに応じて調波成分毎の調波振幅分布が特定され、複数の調波振幅分布から目標声質の音声の周波数スペクトルが生成される。したがって、標準的な声質の音声を合成してから当該音声の声質を変換する特許文献1の技術と比較して合成処理が簡素化されるという利点がある。
100…音声合成装置、11…制御装置、12…記憶装置、13…放音装置、21…調波処理部、22…波形合成部、31…制御データ生成部、311…位相算定部、32…第1学習済モデル、33…第2学習済モデル、34…周波数スペクトル生成部、41…振幅特定部、42…位相特定部。

Claims (15)

  1. 複数の調波成分の各々について、目標声質と、振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、当該調波成分に対応したピークを含む単位帯域内の振幅の分布である調波振幅分布を特定し、
    前記振幅スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布とから、前記目標声質の音声の周波数スペクトルを生成する
    コンピュータにより実現される音声合成方法。
  2. 前記調波振幅分布の特定においては、目標声質と調波周波数と振幅スペクトル包絡とを含む制御データと調波振幅分布との間の関係を学習した第1学習済モデルにより、前記調波振幅分布を特定する
    請求項1の音声合成方法。
  3. 前記複数の調波振幅分布を単位期間毎に特定し、
    前記制御データは、第1単位期間における各調波成分の調波振幅分布を特定するためデータであり、前記第1単位期間の直前の第2単位期間において当該調波成分について特定された調波振幅分布を含む
    請求項2の音声合成方法。
  4. 前記制御データは、前記複数の調波成分のうち第1調波成分の調波振幅分布を特定するためデータであり、周波数軸上で前記第1調波成分に隣合う第2調波成分について特定された調波振幅分布を含む
    請求項2または請求項3の音声合成方法。
  5. 前記複数の調波振幅分布を単位期間毎に特定し、
    前記制御データは、一の単位期間における各調波成分の調波振幅分布を特定するためデータであり
    前記一の単位期間における当該調波成分の調波周波数と、
    前記一の単位期間以外の単位期間における当該調波成分の調波周波数、または、前記一の単位期間の前後における当該調波周波数の変化量とを含む
    請求項2の音声合成方法。
  6. 前記複数の調波成分の各々について、前記目標声質と、前記振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、前記単位帯域内の位相の分布である調波位相分布を特定し、
    前記振幅スペクトル包絡および位相スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布および複数の調波位相分布とから、前記目標声質の音声の周波数スペクトルを生成する
    請求項2から請求項5の何れかの音声合成方法。
  7. 前記調波位相分布の特定においては、目標声質と調波周波数と振幅スペクトル包絡とを含む制御データと調波位相分布との間の関係を学習した第2学習済モデルにより、前記調波位相分布を特定する
    請求項6の音声合成方法。
  8. 前記調波位相分布の特定においては、目標声質と調波周波数と振幅スペクトル包絡と、前記第1学習済モデルにより特定された調波振幅分布とから、前記第2学習済モデルにより前記調波位相分布を特定する
    請求項7の音声合成方法。
  9. 前記位相スペクトル包絡は、前記振幅スペクトル包絡から算定される
    請求項6から請求項8の何れか音声合成方法。
  10. 前記調波振幅分布の特定においては、前記単位帯域内の振幅の分布を示す形状データを、目標声質と調波周波数と振幅スペクトル包絡とを含む制御データに対応させて記憶する記憶装置から、前記複数の調波成分の各々の制御データに対応する形状データを取得し、当該形状データから前記調波成分の調波振幅分布を特定する
    請求項1の音声合成方法。
  11. 前記調波振幅分布の特定においては、前記記憶装置に記憶された複数の形状データの補間により、前記複数の調波成分の各々について調波振幅分布を特定する
    請求項10の音声合成方法。
  12. 前記形状データは、前記単位帯域における非調波成分の振幅の分布を表し、
    前記調波振幅分布の特定においては、前記複数の調波成分の各々について、前記記憶装置から取得した形状データに、当該調波成分の調波周波数に対応する振幅ピーク成分を付加することで、当該調波成分の調波振幅分布を生成する
    請求項10の音声合成方法。
  13. 前記調波振幅分布は、各調波成分に対応する代表振幅に対する振幅の相対値の分布である
    請求項1から請求項12の何れかの音声合成方法。
  14. プロセッサを具備する音声合成システムであって、
    前記プロセッサが、メモリに記憶されたプログラムを実行することにより、
    複数の調波成分の各々について、目標声質と、振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、当該調波成分に対応したピークを含む単位帯域内の振幅の分布である調波振幅分布を特定し、
    前記振幅スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布とから、前記目標声質の音声の周波数スペクトルを生成する
    音声合成システム。
  15. 複数の調波成分の各々について、目標声質と、振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、当該調波成分に対応したピークを含む単位帯域内の振幅の分布である調波振幅分布を特定する処理と、
    前記振幅スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布とから、前記目標声質の音声の周波数スペクトルを生成する処理と
    をコンピュータに実行させるプログラム。
JP2018002451A 2018-01-11 2018-01-11 音声合成方法、音声合成システムおよびプログラム Active JP6724932B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2018002451A JP6724932B2 (ja) 2018-01-11 2018-01-11 音声合成方法、音声合成システムおよびプログラム
CN201880085358.5A CN111542875B (zh) 2018-01-11 2018-12-26 声音合成方法、声音合成装置及存储介质
PCT/JP2018/047757 WO2019138871A1 (ja) 2018-01-11 2018-12-26 音声合成方法、音声合成装置およびプログラム
EP18899045.1A EP3739571A4 (en) 2018-01-11 2018-12-26 VOICE SYNTHESIS PROCESS, VOICE SYNTHESIS DEVICE AND PROGRAM
US16/924,463 US11094312B2 (en) 2018-01-11 2020-07-09 Voice synthesis method, voice synthesis apparatus, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018002451A JP6724932B2 (ja) 2018-01-11 2018-01-11 音声合成方法、音声合成システムおよびプログラム

Publications (3)

Publication Number Publication Date
JP2019120892A JP2019120892A (ja) 2019-07-22
JP2019120892A5 JP2019120892A5 (ja) 2020-05-07
JP6724932B2 true JP6724932B2 (ja) 2020-07-15

Family

ID=67219548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018002451A Active JP6724932B2 (ja) 2018-01-11 2018-01-11 音声合成方法、音声合成システムおよびプログラム

Country Status (5)

Country Link
US (1) US11094312B2 (ja)
EP (1) EP3739571A4 (ja)
JP (1) JP6724932B2 (ja)
CN (1) CN111542875B (ja)
WO (1) WO2019138871A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020194098A (ja) * 2019-05-29 2020-12-03 ヤマハ株式会社 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法
US11373633B2 (en) * 2019-09-27 2022-06-28 Amazon Technologies, Inc. Text-to-speech processing using input voice characteristic data
CN111429881B (zh) * 2020-03-19 2023-08-18 北京字节跳动网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN112634914B (zh) * 2020-12-15 2024-03-29 中国科学技术大学 基于短时谱一致性的神经网络声码器训练方法
CN112820267B (zh) * 2021-01-15 2022-10-04 科大讯飞股份有限公司 波形生成方法以及相关模型的训练方法和相关设备、装置
CN113423005B (zh) * 2021-05-18 2022-05-03 电子科技大学 一种基于改进神经网络的智能音乐生成方法及***
CN113889073B (zh) * 2021-09-27 2022-10-18 北京百度网讯科技有限公司 语音处理方法、装置、电子设备和存储介质
JPWO2023068228A1 (ja) * 2021-10-18 2023-04-27

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
BE1010336A3 (fr) * 1996-06-10 1998-06-02 Faculte Polytechnique De Mons Procede de synthese de son.
US6324505B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Amplitude quantization scheme for low-bit-rate speech coders
JP3815347B2 (ja) * 2002-02-27 2006-08-30 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP4153220B2 (ja) * 2002-02-28 2008-09-24 ヤマハ株式会社 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
KR100446242B1 (ko) * 2002-04-30 2004-08-30 엘지전자 주식회사 음성 부호화기에서 하모닉 추정 방법 및 장치
JP2005234337A (ja) * 2004-02-20 2005-09-02 Yamaha Corp 音声合成装置、音声合成方法、及び音声合成プログラム
JP4456537B2 (ja) * 2004-09-14 2010-04-28 本田技研工業株式会社 情報伝達装置
KR100827153B1 (ko) * 2006-04-17 2008-05-02 삼성전자주식회사 음성 신호의 유성음화 비율 검출 장치 및 방법
JP4209461B1 (ja) * 2008-07-11 2009-01-14 株式会社オトデザイナーズ 合成音声作成方法および装置
JP4705203B2 (ja) * 2009-07-06 2011-06-22 パナソニック株式会社 声質変換装置、音高変換装置および声質変換方法
JP5772739B2 (ja) * 2012-06-21 2015-09-02 ヤマハ株式会社 音声処理装置
US9368103B2 (en) * 2012-08-01 2016-06-14 National Institute Of Advanced Industrial Science And Technology Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system

Also Published As

Publication number Publication date
US11094312B2 (en) 2021-08-17
JP2019120892A (ja) 2019-07-22
WO2019138871A1 (ja) 2019-07-18
CN111542875B (zh) 2023-08-11
EP3739571A1 (en) 2020-11-18
CN111542875A (zh) 2020-08-14
EP3739571A4 (en) 2021-10-06
US20200342848A1 (en) 2020-10-29

Similar Documents

Publication Publication Date Title
JP6724932B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP6791258B2 (ja) 音声合成方法、音声合成装置およびプログラム
JP6733644B2 (ja) 音声合成方法、音声合成システムおよびプログラム
US20210375248A1 (en) Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium
JP6729539B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP2016161919A (ja) 音声合成装置
US20210366454A1 (en) Sound signal synthesis method, neural network training method, and sound synthesizer
JP6821970B2 (ja) 音声合成装置および音声合成方法
WO2020095951A1 (ja) 音響処理方法および音響処理システム
US20210350783A1 (en) Sound signal synthesis method, neural network training method, and sound synthesizer
JP6977818B2 (ja) 音声合成方法、音声合成システムおよびプログラム
WO2021060493A1 (ja) 情報処理方法、推定モデル構築方法、情報処理装置、および推定モデル構築装置
JP2003345400A (ja) ピッチ変換装置、ピッチ変換方法及びプログラム
WO2020241641A1 (ja) 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法
US11756558B2 (en) Sound signal generation method, generative model training method, sound signal generation system, and recording medium
JP6213217B2 (ja) 音声合成装置及び音声合成用コンピュータプログラム
JP2018077281A (ja) 音声合成方法
JP2012063501A (ja) 音声処理装置
JP2018077280A (ja) 音声合成方法
RU2591640C1 (ru) Способ модификации голоса и устройство для его осуществления (варианты)
JP2020166298A (ja) 音声合成方法
JP2018077282A (ja) 音声合成方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200324

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200324

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200324

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200515

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200608

R151 Written notification of patent or utility model registration

Ref document number: 6724932

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151