JP3815347B2 - 歌唱合成方法と装置及び記録媒体 - Google Patents
歌唱合成方法と装置及び記録媒体 Download PDFInfo
- Publication number
- JP3815347B2 JP3815347B2 JP2002052006A JP2002052006A JP3815347B2 JP 3815347 B2 JP3815347 B2 JP 3815347B2 JP 2002052006 A JP2002052006 A JP 2002052006A JP 2002052006 A JP2002052006 A JP 2002052006A JP 3815347 B2 JP3815347 B2 JP 3815347B2
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- speech
- data
- amplitude
- spectrum data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001308 synthesis method Methods 0.000 title claims description 21
- 238000001228 spectrum Methods 0.000 claims abstract description 444
- 239000011295 pitch Substances 0.000 claims description 143
- 230000003595 spectral effect Effects 0.000 claims description 113
- 238000000034 method Methods 0.000 claims description 74
- 238000012937 correction Methods 0.000 claims description 64
- 230000008569 process Effects 0.000 claims description 51
- 238000004458 analytical method Methods 0.000 claims description 36
- 238000006243 chemical reaction Methods 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 27
- 230000002194 synthesizing effect Effects 0.000 claims description 15
- 238000009499 grossing Methods 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 claims description 10
- 230000015572 biosynthetic process Effects 0.000 abstract description 32
- 238000003786 synthesis reaction Methods 0.000 abstract description 32
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H7/00—Instruments in which the tones are synthesised from a data store, e.g. computer organs
- G10H7/002—Instruments in which the tones are synthesised from a data store, e.g. computer organs using a common processing for different operations or calculations, and a set of microinstructions (programme) to control the sequence thereof
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/011—Files or data streams containing coded musical information, e.g. for transmission
- G10H2240/046—File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
- G10H2240/056—MIDI or other note-oriented file format
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/171—Transmission of musical instrument data, control or status information; Transmission, remote access or control of music data for electrophonic musical instruments
- G10H2240/281—Protocol or standard connector for transmission of analog or digital data to or from an electrophonic musical instrument
- G10H2240/311—MIDI transmission
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
- G10H2250/235—Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/315—Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
- G10H2250/455—Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Electrophonic Musical Instruments (AREA)
Description
【発明の属する技術分野】
この発明は、フェーズボコーダ技術を用いて歌唱音声を合成する方法と装置及び記録媒体に関するものである。
【0002】
【従来の技術】
従来、歌唱合成技術としては、米国特許第5029509号明細書等により公知のSMS(Spectral Modeling Synthesis)技術を用いて歌唱合成を行なうものが知られている(例えば、特許第2906970号参照)。
【0003】
図21は、特許2906970号に示される技術を採用した歌唱合成装置を示すものである。ステップS1では、歌唱音声信号を入力し、ステップS2では、入力された歌唱音声信号にSMS分析処理及び区間切出し処理を施す。
【0004】
SMS分析処理では、入力音声信号を一連の時間フレームに区分し、各フレーム毎にFFT(Fast Fourier Transform)等により1組の強度(マグニチュード)スペクトルデータを生成し、各フレーム毎に1組の強度スペクトルデータから複数のピークに対応する線スペクトルを抽出する。これらの線スペクトルの振幅値及び周波数を表わすデータを調和成分(Deterministic Component)のデータと称する。次に、入力音声波形のスペクトルから調和成分のスペクトルを差引いて残差スペクトルを得る。この残差スペクトルを非調和成分(Stochastic Component)と称する。
【0005】
区間切出し処理では、SMS分析処理で得られた調和成分のデータ及び非調和成分のデータを音声素片に対応して区分する。音声素片とは、歌詞の構成要素であり、例えば[a],[i]のような単一の音素(又は音韻:Phoneme)又は例えば「a i」,[a p]のような音素連鎖(複数音素の連鎖)からなるものである。
【0006】
音声素片データベースDBには、音声素片毎に調和成分のデータ及び非調和成分のデータが記憶される。
【0007】
歌唱合成に際しては、ステップS3で歌詞データ及びメロディデータを入力する。そして、ステップS4では、歌詞データが表わす音素列に音素列/音声素片変換処理を施して音素列を音声素片に区分し、音声素片毎にそれに対応する調和成分のデータ及び非調和成分のデータを音声素片データとしてデータベースDBから読出す。
【0008】
ステップS5では、データベースDBから読出された音声素片データ(調和成分のデータ及び非調和成分のデータ)に音声素片接続処理を施して音声素片データ同士を発音順に接続する。ステップS6では、音声素片毎に調和成分のデータと入力メロディデータの示す音符ピッチとに基づいて該音符ピッチに適合した新たな調和成分のデータを生成する。このとき、新たな調和成分のデータでは、ステップS5の処理を受けた調和成分のデータが表わすスペクトル包絡の形状をそのまま引継ぐようにスペクトル強度を調整すると、ステップS1で入力した音声信号の音色を再現することができる。
【0009】
ステップS7では、ステップS6で生成した調和成分のデータとステップS5の処理を受けた非調和成分のデータとを音声素片毎に加算する。そして、ステップS8では、ステップS7で加算処理を受けたデータを音声素片毎に逆FFT等により時間領域の合成音声信号に変換する。
【0010】
一例として、「サイタ」(saita)という歌唱音声を合成するには、データベースDBから音声素片「#s」、「s a」、「a」、「a i」、「i」、「i t」、「t a」、「a」、「a#」(#は無音を表わす)にそれぞれ対応する音声素片データを読出してステップS5で接続する。そして、ステップS6で音声素片毎に入力音符ピッチに対応するピッチを有する調和成分のデータを生成し、ステップS7の加算処理及びステップS8の変換処理を経ると、「サイタ」の歌唱合成音信号が得られる。
【0011】
【発明が解決しようとする課題】
上記した従来技術によると、調和成分と非調和成分の一体感が十分でないという問題点がある。すなわち、ステップS1で入力した音声信号のピッチをステップS6で入力音符ピッチに対応して変更し、変更したピッチを有する調和成分のデータにステップS7で非調和成分のデータを加算するため、例えば、「サイタ」の歌唱における「i」のような伸ばし音の区間で非調和成分が分離して響き、人工的な音声として聴こえるという問題点がある。
【0012】
このような問題点に対処するため、非調和成分のデータが表わす低域の振幅スペクトル分布を入力音符ピッチに応じて修正することを本願出願人は先に提案した(特願2000−401041参照)。しかし、このように非調和成分のデータを修正しても、非調和成分が分離して響くのを完全に抑えるのは容易でない。
【0013】
また、SMS技術にあっては、有音の摩擦音や破裂音等の分析が難しく、合成音が非常に人工的な音になってしまうという問題点もある。SMS技術は、音声信号が調和成分と非調和成分とから成り立っていることを前提にしているものであり、音声信号を調和成分と非調和成分とに完全に分離できないことは、SMS技術にとって根本的な問題といえる。
【0014】
一方、フェーズボコーダ技術は、米国特許第3360610号明細書に示されている。フェーズボコーダ技術では、古くはフィルタバンクとして、新しくは入力信号のFFT結果として周波数領域で信号を表現する。最近では、フェーズボコーダ技術が楽音の時間軸圧伸(ピッチをそのままにして時間だけ圧縮又は伸張する)やピッチ変換(時間長はそのままにしてピッチだけ変化させる)などに広く利用されている。この種のピッチ変換技術としては、入力信号のFFT結果をそのまま用いるのではなく、FFTスペクトルを局所的ピークを中心とした複数のスペクトル分布領域に分割し、各スペクトル分布領域毎にスペクトル分布を周波数軸上で移動することによりピッチ変換を行なうものが知られている(例えば、J.Laroche and M.Dolson,“New Phase−Vocoder Techniques for Real−Time Pitch Shifting,Chorusing,Harmonizing,and Other Exotic Audio Modifications”J.Audio Eng.Soc.,Vol.47,No.11,1999 November 参照)。しかし、このようなピッチ変換技術と歌唱合成技術との関連性については明らかにされていない。
【0015】
この発明の目的は、フェーズボコーダ技術を用いて自然で高品質の音声合成を可能にした新規な歌唱合成方法と装置及び記録媒体を提供することにある。
【0016】
【課題を解決するための手段】
この発明に係る第1の歌唱合成方法は、
合成すべき音声の音声素片に対応する音声波形を周波数分析して周波数スペクトルを検出するステップと、
前記周波数スペクトル上でスペクトル強度の局所的ピークを複数検知するステップと、
各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域を前記周波数スペクトル上で指定し、各スペクトル分布領域毎に振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルデータを生成するステップと、
各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わす位相スペクトルデータを生成するステップと、
前記合成すべき音声についてピッチを指定するステップと、
各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を前記ピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正するステップと、
各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正するステップと、
前記修正に係る振幅スペクトルデータ及び前記修正に係る位相スペクトルデータを時間領域の合成音声信号に変換するステップと
を含むものである。
【0017】
第1の歌唱合成方法によれば、音声素片(音素又は音素連鎖)に対応する音声波形が周波数分析されて周波数スペクトルが検出される。そして、周波数スペクトルに基づいて振幅スペクトルデータと、位相スペクトルデータとが生成される。所望のピッチが指定されると、指定のピッチに応じて振幅スペクトルデータ及び位相スペクトルデータが修正され、修正に係る振幅スペクトルデータ及び位相スペクトルデータに基づいて時間領域の合成音声信号が発生される。このように音声波形の周波数分析結果を調和成分と非調和成分とに分離しないで音声合成を行なうため、非調和成分が分離して響くことがなく、自然な合成音を得ることができる。また、有声の摩擦音や破裂音であっても自然な合成音が得られる。
【0018】
この発明に係る第2の歌唱合成方法は、
合成すべき音声の音声素片に対応する振幅スペクトルデータ及び位相スペクトルデータを取得するステップであって、前記振幅スペクトルデータとしては、前記音声素片の音声波形を周波数分析して得た周波数スペクトルにおいてスペクトル強度の複数の局所的ピークのうちの各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域における振幅スペクトル分布を周波数軸に関して表わすデータを取得し、前記位相スペクトルデータとしては、各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わすデータを取得するものと、
前記合成すべき音声についてピッチを指定するステップと、
各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を前記ピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正するステップと、
各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正するステップと、
前記修正に係る振幅スペクトルデータ及び前記修正に係る位相スペクトルデータを時間領域の合成音声信号に変換するステップと
を含むものである。
【0019】
第2の歌唱合成方法は、第1の歌唱合成方法において、位相スペクトルデータを生成するステップまでの処理を予め実行して振幅スペクトルデータ及び位相スペクトルデータを音声素片毎にデータベースに記憶しておいた場合、又は位相スペクトルデータを生成するステップまでの処理を他の機器で実行する場合に相当する。すなわち、第2の歌唱合成方法において、取得するステップでは、他の機器又はデータベースから合成すべき音声の音声素片に対応する振幅スペクトルデータ及び位相スペクトルデータを取得し、ピッチを指定するステップ以降の処理を第1の歌唱合成方法と同様に実行する。従って、第2の歌唱合成方法によれば、第1の歌唱合成方法と同様に自然な合成音が得られる。
【0020】
第1又は第2の歌唱合成方法において、前記ピッチを指定するステップでは、経時的なピッチ変化を示すピッチゆらぎデータに従って前記ピッチを指定するようにしてもよい。このようにすると、合成音のピッチを経時的に変化させることができ、例えばピッチベンド、ビブラート等を付加することができる。また、前記ピッチゆらぎデータとしては、前記合成すべき音声について音楽的表情を制御するための制御パラメータに対応したピッチゆらぎデータを用いるようにしてもよい。このようにすると、例えば音色、ダイナミクス等の制御パラメータに応じて経時的なピッチ変化態様を異ならせることができる。
【0021】
第1又は第2の歌唱合成方法において、前記振幅スペクトルデータを修正するステップでは、修正前の複数の局所的ピークを結ぶ線に対応するスペクトル包絡に沿わない局所的ピークについてスペクトル強度を該スペクトル包絡に沿うように修正するようにしてもよい。このようにすると、元の音声波形の音色を再現することができる。また、前記振幅スペクトルデータを修正するステップでは、予め定めたスペクトル包絡に沿わない局所的ピークについてスペクトル強度を該スペクトル包絡に沿うように修正するようにしてもよい。このようにすると、元の音声波形とは音色を異ならせることができる。
【0022】
上記のようにスペクトル強度をスペクトル包絡に沿うように修正する場合において、前記振幅スペクトルデータを修正するステップでは、一連の時間フレームについて経時的なスペクトル包絡の変化を示すスペクトル包絡ゆらぎデータに従ってスペクトル強度を調整することにより経時的に変化するスペクトル包絡を設定するようにしてもよい。このようにすると、合成音の音色を経時的に変化させることができ、例えばトーンベンド等を付加することができる。また、前記スペクトル包絡ゆらぎデータとしては、前記合成すべき音声について音楽的表情を制御するための制御パラメータに対応したスペクトル包絡ゆらぎデータを用いるようにしてもよい。このようにすると、例えば音色、ダイナミクス等の制御パラメータに応じて経時的な音色変化態様を異ならせることができる。
【0023】
この発明に係る第1の歌唱合成装置は、
合成すべき音声について音声素片及びピッチを指定する指定手段と、
音声素片データベースから音声素片データとして前記音声素片に対応する音声波形を表わす音声波形データを読出す読出手段と、
前記音声波形データが表わす音声波形を周波数分析して周波数スペクトルを検出する検出手段と、
前記音声波形に対応する周波数スペクトル上でスペクトル強度の局所的ピークを複数検知する検知手段と、
各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域を前記周波数スペクトル上で指定し、各スペクトル分布領域毎に振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルデータを生成する第1の生成手段と、
各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わす位相スペクトルデータを生成する第2の生成手段と、
各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を前記ピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正する第1の修正手段と、
各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正する第2の修正手段と、前記修正に係る振幅スペクトルデータ及び前記修正に係る位相スペクトルデータを時間領域の合成音声信号に変換する変換手段と
を備えたものである。
【0024】
また、この発明に係る第2の歌唱合成装置は、
合成すべき音声について音声素片及びピッチを指定する指定手段と、
音声素片データベースから音声素片データとして前記音声素片に対応する振幅スペクトルデータ及び位相スペクトルデータを読出す読出手段であって、前記振幅スペクトルデータとしては、前記音声素片の音声波形を周波数分析して得た周波数スペクトルにおいてスペクトル強度の複数の局所的ピークのうちの各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域における振幅スペクトル分布を周波数軸に関して表わすデータを読出し、前記位相スペクトルデータとしては、各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わすデータを読出すものと、
各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を前記ピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正する第1の修正手段と、
各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正する第2の修正手段と、前記修正に係る振幅スペクトルデータ及び前記修正に係る位相スペクトルデータを時間領域の合成音声信号に変換する変換手段と
を備えたものである。
【0025】
第1又は第2の歌唱合成装置は、音声素片データベースを用いて前述の第1又は第2の歌唱合成方法を実施するものであり、自然な歌唱合成音を得ることができる。
【0026】
第1又は第2の歌唱合成装置において、前記指定手段は、前記合成すべき音声について音楽的表情を制御するための制御パラメータを指定し、前記読出手段は、前記音声素片及び前記制御パラメータに対応する音声素片データを読出すようにしてもよい。このようにすると、例えば音色、ダイナミクス等の制御パラメータに最適の音声素片データを用いて歌唱合成を行なうことができる。
【0027】
第1又は第2の歌唱合成装置において、前記指定手段は、前記合成すべき音声について音符長及び/又はテンポを指定し、前記読出手段は、前記音声素片データを読出す際に前記音声素片データの一部を省略するか又は前記音声素片データの一部もしくは全部を繰返すかして前記音符長及び/又はテンポに対応する時間のあいだ前記音声素片データの読出しを継続するようにしてもよい。このようにすると、音符長及び/又はテンポに最適の発音継続時間を得ることができる。
【0028】
この発明に係る第3の歌唱合成装置は、
順次に合成すべき音声のうちの各音声毎に音声素片及びピッチを指定する指定手段と、
音声素片データベースから前記指定手段での指定に係る各音声素片に対応する音声波形を読出す読出手段と、
各音声素片に対応する音声波形を周波数分析して周波数スペクトルを検出する検出手段と、
各音声素片に対応する周波数スペクトル上でスペクトル強度の局所的ピークを複数検知する検知手段と、
各音声素片について各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域を該音声素片に対応する周波数スペクトル上で指定し、各音声素片について各スペクトル分布領域毎に振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルデータを生成する第1の生成手段と、
各音声素片について各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わす位相スペクトルデータを生成する第2の生成手段と、
各音声素片について各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を該音声素片に対応するピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正する第1の修正手段と、
各音声素片について各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正する第2の修正手段と、
前記順次に合成すべき音声にそれぞれ対応する順次の音声素片が発音順につながるように前記修正に係る振幅スペクトルデータを接続する第1の接続手段であって、前記順次の音声素片のつながり部においてスペクトル強度を一致又は近似させるべくスムージング処理又はレベル整合処理により調整するものと、
前記順次に合成すべき音声にそれぞれ対応する順次の音声素片が発音順につながるように前記修正に係る位相スペクトルデータを接続する第2の接続手段であって、前記順次の音声素片のつながり部において位相を一致又は近似させるべくスムージング処理又はレベル整合処理により調整するものと、
前記接続に係る振幅スペクトルデータ及び前記接続に係る位相スペクトルデータを時間領域の合成音声信号に変換する変換手段と
を備えたものである。
【0029】
また、この発明に係る第4の歌唱合成装置は、
順次に合成すべき音声のうちの各音声毎に音声素片及びピッチを指定する指定手段と、
音声素片データベースから前記指定手段での指定に係る各音声素片に対応する振幅スペクトルデータ及び位相スペクトルデータを読出す読出手段であって、前記振幅スペクトルデータとしては、対応する音声素片の音声波形を周波数分析して得た周波数スペクトルにおいてスペクトル強度の複数の局所的ピークのうちの各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域における振幅スペクトル分布を周波数軸に関して表わすデータを読出し、前記位相スペクトルデータとしては、各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わすデータを読出すものと、
各音声素片について各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を該音声素片に対応するピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正する第1の修正手段と、
各音声素片について各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正する第2の修正手段と、
前記順次に合成すべき音声にそれぞれ対応する順次の音声素片が発音順につながるように前記修正に係る振幅スペクトルデータを接続する第1の接続手段であって、前記順次の音声素片のつながり部においてスペクトル強度を一致又は近似させるべくスムージング処理又はレベル整合処理により調整するものと、
前記順次に合成すべき音声にそれぞれ対応する順次の音声素片が発音順につながるように前記修正に係る位相スペクトルデータを接続する第2の接続手段であって、前記順次の音声素片のつながり部において位相を一致又は近似させるべくスムージング処理又はレベル整合処理により調整するものと、
前記接続に係る振幅スペクトルデータ及び前記接続に係る位相スペクトルデータを時間領域の合成音声信号に変換する変換手段と
を備えたものである。
【0030】
第3又は第4の歌唱合成装置は、音声素片データベースを用いて前述の第1又は第2の歌唱合成方法を実施するものであり、自然な歌唱合成音を得ることができる。その上、順次の音声素片が発音順につながるように修正に係る振幅スペクトルデータ同士、修正に係る位相スペクトルデータ同士をそれぞれ接続する際に順次の音声素片のつながり部においてスペクトル強度、位相をそれぞれ一致又は近似させるべく調整するようにしたので、合成音の発生時にノイズが発生するのを防止することができる。
【0031】
【発明の実施の形態】
図1は、この発明の一実施形態に係る歌唱合成装置の回路構成を示すものである。この歌唱合成装置は、小型コンピュータ10によって動作が制御される構成になっている。
【0032】
バス11には、CPU(中央処理装置)12、ROM(リード・オンリィ・メモリ)14、RAM(ランダム・アクセス・メモリ)16、歌唱入力部17、歌詞・メロディ入力部18、制御パラメータ入力部20、外部記憶装置22、表示部24、タイマ26、D/A(ディジタル/アナログ)変換部28、MIDI(Musical Instrument Digital Interface)インターフェース30、通信インターフェース32等が接続されている。
【0033】
CPU12は、ROM14にストアされたプログラムに従って歌唱合成等に関する各種処理を実行するもので、歌唱合成に関する処理については図2〜7等を参照して後述する。
【0034】
RAM16は、CPU12の各種処理に際してワーキングエリアとして使用される種々の記憶部を含むものである。この発明の実施に関係する記憶部としては、例えば入力部17,18,20にそれぞれ対応する入力データ記憶領域等が存在するが、詳細については後述する。
【0035】
歌唱入力部17は、歌唱音声信号を入力するためのマイクロホン、音声入力端子等を有するもので、入力した歌唱音声信号をディジタル波形データに変換するA/D(アナログ/ディジタル)変換器を備えている。入力に係るディジタル波形データは、RAM16内の所定領域に記憶される。
【0036】
歌詞・メロディ入力部18は、文字、数字等を入力可能なキーボード、楽譜読取り可能な読取器等を備えたもので、所望の歌唱曲について歌詞を構成する音素列を表わす歌詞データとメロディを構成する音符列(休符も含む)を表わすメロディデータを入力可能である。入力に係る歌詞データ及びメロディデータは、RAM16内の所定の領域に記憶される。
【0037】
制御パラメータ入力部20は、スイッチ、ボリューム等のパラメータ設定器を備えたもので、歌唱合成音について音楽的表情を制御するための制御パラメータを設定可能である。制御パラメータとしては、音色、ピッチ区分(高、中、低等)、ピッチのゆらぎ(ピッチベンド、ビブラート等)、ダイナミクス区分(音量レベルの大、中、小等)、テンポ区分(テンポの速い、中位、遅い等)などを設定可能である。設定に係る制御パラメータを表わす制御パラメータデータは、RAM16内の所定領域に記憶される。
【0038】
外部記憶装置22は、HD(ハードディスク)、FD(フレキシブルディスク)、CD(コンパクトディスク)、DVD(ディジタル多目的ディスク)、MO(光磁気ディスク)等のうち1又は複数種類の記録媒体を着脱可能なものである。外部記憶装置22に所望の記録媒体を装着した状態では、記録媒体からRAM16へデータを転送可能である。また、装着した記録媒体がHDやFDのように書込み可能なものであれば、RAM16のデータを記録媒体に転送可能である。
【0039】
プログラム記録手段としては、ROM14の代わりに外部記憶装置22の記録媒体を用いることができる。この場合、記録媒体に記録したプログラムは、外部記憶装置22からRAM16へ転送する。そして、RAM16に記憶したプログラムにしたがってCPU12を動作させる。このようにすると、プログラムの追加やバージョンアップ等を容易に行なうことができる。
【0040】
表示部24は、液晶表示器等の表示器を含むもので、前述した歌詞データ及びメロディデータ、後述する周波数分析結果等の種々の情報を表示可能である。
【0041】
タイマ26は、テンポデータTMの指示するテンポに対応した周期でテンポクロック信号TCLを発生するもので、テンポクロック信号TCLは、CPU12に供給される。CPU12は、テンポクロック信号TCLに基づいてD/A変換部28への信号出力処理を行なう。テンポデータTMの指示するテンポは、入力部20内のテンポ設定器により可変設定することができる。
【0042】
D/A変換部28は、合成されたディジタル音声信号をアナログ音声信号に変換するものである。D/A変換部28から送出されるアナログ音声信号は、アンプ、スピーカ等を含むサウンドシステム34により音響に変換される。
【0043】
MIDIインターフェース30は、この歌唱合成装置とは別体のMIDI機器36との間でMIDI通信を行なうために設けられたもので、この発明では、MIDI機器36から歌唱合成用のデータを受信するために用いられる。歌唱合成用のデータとしては、所望の歌唱曲に関する歌詞データ及びメロディデータ、音楽的表情を制御するための制御パラメータデータ等を受信可能である。これらの歌唱合成用データは、いわゆるMIDIフォーマットに従って作成されるものであり、入力部18から入力される歌詞データ及びメロディデータや入力部20から入力される制御パラメータデータについてもMIDIフォーマットを採用するのが好ましい。
【0044】
MIDIインターフェース30を介して受信される歌詞データ、メロディデータ及び制御パラメータデータについては、他のデータより時間的に先送り可能とするため、MIDIのシステムエクスクルーシブデータ(メーカーで独自に定義可能なデータ)とするのが好ましい。また、入力部20から入力される制御パラメータデータ又はMIDIインターフェース30を介して受信される制御パラメータデータのうちの1種類のデータとしては、後述するデータベースに歌手(音色)毎に音声素片データを記憶した場合に歌手(音色)指定データを用いるようにしてもよい。この場合、歌手(音色)指定データとしては、MIDIのプログラムチェンジデータを使用することができる。
【0045】
通信インターフェース32は、通信ネットワーク(例えばLAN(ローカル・エリア・ネットワーク)、インターネット、電話回線等)37を介して他のコンピュータ38と情報通信を行なうために設けられたものである。この発明の実施に必要なプログラムや各種データ(例えば歌詞データ、メロディデータ、音声素片データ等)は、コンピュータ38から通信ネットワーク37及び通信インターフェース32を介してRAM16または外部記憶装置22へダウンロード要求に応じて取込むようにしてもよい。
【0046】
次に、図2を参照して歌唱分析処理の一例を説明する。ステップ40では、入力部17からマイクロホン又は音声入力端子を介して歌唱音声信号を入力してA/D変換し、入力信号の音声波形を表わすディジタル波形データをRAM16に記憶させる。図8(A)には、入力音声波形の一例を示す。なお、図8(A)及びその他の図において、「t」は時間を表わす。
【0047】
ステップ42では、記憶に係るディジタル波形データについて音声素片(音素又は音素連鎖)に対応する区間毎に区間波形を切出す(ディジタル波形データを分割する)。音声素片としては、母音の音素、母音と子音又は子音と母音の音素連鎖、子音と子音の音素連鎖、母音と母音の音素連鎖、無音と子音又は母音の音素連鎖、母音又は子音と無音の音素連鎖等があり、母音の音素としては、母音を伸ばして歌唱した伸ばし音の音素もある。一例として、「サイタ」の歌唱については、音声素片「#s」、「s a」、「a」、「a i」、「i」、「i t」、「t a」、「a」、「a#」にそれぞれ対応する区間波形を切出す。
【0048】
ステップ44では、区間波形毎に1又は複数の時間フレームを定め、各フレーム毎にFFT等により周波数分析を実行して周波数スペクトル(振幅スペクトルと位相スペクトル)を検出する。そして、周波数スペクトルを表わすデータをRAM16の所定領域に記憶させる。フレーム長は、一定長であってもよく、あるいは可変長であってもよい。フレーム長を可変長とするには、あるフレームを固定長として周波数分析した後、周波数分析の結果からピッチを検出し、検出ピッチに応じたフレーム長を設定して再び該フレームの周波数分析を行なう方法、あるいはあるフレームを固定長として周波数分析した後、周波数分析の結果からピッチを検出し、検出ピッチに応じて次のフレームの長さを設定し、該次のフレームの周波数分析を行なう方法等を採用することができる。フレーム数は、母音のみからなる単一の音素については、1又は複数フレームとするが、音素連鎖については、複数フレームとする。図8(B)には、図8(A)の音声波形をFFTにより周波数分析して得た周波数スペクトルを示す。なお、図8(B)及びその他の図において、「f」は周波数を表わす。
【0049】
次に、ステップ46では、音声素片毎に振幅スペクトルに基づいてピッチを検出し、検出ピッチを表わすピッチデータを生成し、RAM16の所定領域に記憶させる。ピッチ検出は、フレーム毎に求めたピッチを全フレームについて平均する方法等により行なうことができる。
【0050】
ステップ48では、フレーム毎に振幅スペクトル上でスペクトル強度(振幅)の局所的ピークを複数検知する。局所的ピークを検知するには、近隣の複数(例えば4つ)のピークについて振幅値が最大のピークを検知する方法等を用いることができる。図8(B)には、検知した複数の局所的ピークP1,P2,P3…が示されている。
【0051】
ステップ50では、フレーム毎に振幅スペクトル上で各局所的ピークに対応するスペクトル分布領域を指定し、該領域内の振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルデータを生成し、RAM16の所定領域に記憶させる。スペクトル分布領域を指定する方法としては、隣り合う2つの局所的ピーク間で周波数軸を半分に切り、各半分を近い方の局所的ピークを含むスペクトル分布領域に割当てる方法、あるいは隣り合う2つの局所的ピーク間で振幅値が最低の谷を見出し、最低の振幅値に対応する周波数を隣り合うスペクトル分布領域間の境界とする方法等を採用することができる。図8(B)には、前者の方法により局所的ピークP1,P2,P3…をそれぞれ含むスペクトル分布領域R1,R2,R3…を指定した例を示す。
【0052】
ステップ52では、フレーム毎に位相スペクトルに基づいて各スペクトル分布領域内の位相スペクトル分布を周波数軸に関して表わす位相スペクトルデータを生成し、RAM16内の所定領域に記憶させる。図10(A)には、あるフレームのあるスペクトル分布領域における振幅スペクトル分布及び位相スペクトル分布がそれぞれ曲線AM1及びPH1により示されている。
【0053】
ステップ54では、音声素片毎にピッチデータ、振幅スペクトルデータ及び位相スペクトルデータを音声素片データベースに記憶させる。音声素片データベースとしては、RAM16または外部記憶装置22を使用することができる。
【0054】
図3は、音声素片データベースDBSにおける記憶状況の一例を示すものである。データベースDBSには、「a」、「i」…等の単一音素に対応する音声素片データと、「a i」、「s a」…等の音素連鎖に対応する音声素片データとが記憶される。ステップ54では、音声素片データとして、ピッチデータ、振幅スペクトルデータ及び位相スペクトルデータが記憶される。
【0055】
音声素片データの記憶に際しては、各音声素片毎に歌手(音色)、ピッチ区分、ダイナミクス区分、テンポ区分等を異にする音声素片データを記憶すると、自然な(又は高品質)の歌唱音を合成可能になる。例えば、[a]の音声素片について、歌手Aにピッチ区分を低、中、高として、ダイナミクス区分を小、中、大として、テンポ区分を遅い、中位、速いとして歌ってもらい、ピッチ区分「低」で且つダイナミクス区分「小」であっても、テンポ区分「遅い」、「中位」、「速い」にそれぞれ対応する音声素片データM1,M2,M3を記憶し、同様にしてピッチ区分「中」、「高」やダイナミクス区分「中」、「大」についても音声素片データを記憶する。ステップ46で生成したピッチデータは、音声素片データが「低」、「中」、「高」のいずれのピッチ区分に属するか判定する際に利用される。
【0056】
また、歌手Aとは音色を異にする歌手Bについても、歌手Aについて上記したと同様にピッチ区分、ダイナミクス区分、テンポ区分等を異にする多数の[a]の音声素片データをデータベースDBSに記憶させる。[a]以外の他の音声素片についても、歌手A,Bについて上記したと同様に多数の音声素片データをデータベースDBSに記憶させる。
【0057】
上記した例では、入力部17から入力した歌唱音声信号に基づいて音声素片データを作成したが、歌唱音声信号は、インターフェース30又は32を介して入力し、この入力音声信号に基づいて音声素片データを作成するようにしてもよい。また、データベースDBSとしては、RAM16や外部記憶装置22に限らず、ROM14、MIDI機器36内の記憶装置、コンピュータ38内の記憶装置等を用いてもよい。
【0058】
図4は、歌唱合成処理の一例を示すものである。ステップ60では、所望の歌唱曲に関して歌詞データ及びメロディデータを入力部18から入力し、RAM16に記憶させる。歌詞データ及びメロディデータは、インターフェース30又は32を介して入力することもできる。
【0059】
ステップ62では、入力に係る歌詞データが表わす音素列を個々の音声素片に変換する。そして、ステップ64では、音声素片毎に対応する音声素片データ(ピッチデータ、振幅スペクトルデータ及び位相スペクトルデータ)をデータベースDBSから読出す。ステップ64では、入力部20から制御パラメータとして音色、ピッチ区分、ダイナミクス区分、テンポ区分等のデータを入力し、該データの指示する制御パラメータに対応した音声素片データを読出してもよい。
【0060】
ところで、音声素片の発音継続時間は、音声素片データのフレーム数に対応する。すなわち、記憶に係る音声素片データをそのまま用いて音声合成を行なうと、該音声素片データのフレーム数に対応した発音継続時間が得られる。しかし、入力される音符の音価(入力音符長)や設定テンポ等によっては記憶に係る音声素片データをそのまま用いたのでは発音継続時間が不適切になることがあり、 発音継続時間を変更することが必要となる。このような必要に応えるためには、入力音符長や設定テンポ等に応じて音声素片データの読出しフレーム数を制御すればよい。
【0061】
例えば、音声素片の発音継続時間を短縮するには、音声素片データを読出す際に、一部のフレームを飛ばして読出す。また、音声素片の発音継続時間を伸張するには、音声素片データを反復的に読出す。なお、「a」のような単一音素の伸ばし音を合成する際には、発音継続時間を変更することが多い。伸ばし音の合成については、図14〜16を参照して後述する。
【0062】
ステップ66では、音声素片毎に対応する入力音符のピッチに応じて各フレームの振幅スペクトルデータを修正する。すなわち、各スペクトル分布領域毎に振幅スペクトルデータが表わす振幅スペクトル分布を入力音符ピッチに相当するピッチになる様に周波数軸上で移動する。
【0063】
図10(A),(B)は、局所的ピークの周波数がfiであり且つ下限周波数及び上限周波数がそれぞれfL及びfUであるスペクトル分布領域についてピッチを上昇させるためスペクトル分布AM1をAM2のように周波数軸上で高音側に移動した例を示す。この場合、スペクトル分布AM2については、局所的ピークの周波数がFi=T・fiであり、T=Fi/fiをピッチ変換比と称する。また、下限周波数FL及び上限周波数FUは、それぞれ周波数差(fi−fL)及び(fU−fi)に対応して定める。
【0064】
図9には、(A)に示すようなスペクトル分布領域(図8(B)と同じもの)R1,R2,R3…について局所的ピークP1,P2,P3…をそれぞれ有するスペクトル分布を(B)に示す様に周波数軸上で高音側に移動した例を示す。図9(B)に示されるスペクトル分布領域R1において、局所的ピークP1の周波数、下限周波数f11及び上限周波数f12は、図10に関して上記したと同様に定められる。このことは、他のスペクトル分布領域についても同様である。
【0065】
上記した例では、ピッチを上昇させるためスペクトル分布を周波数軸上で高音側に移動したが、ピッチを低下させるためスペクトル分布を周波数軸上で低音側に移動することもできる。この場合、図11に示す様に2つのスペクトル分布領域Ra,Rbに部分的な重なりが生ずる。
【0066】
図11の例では、局所的ピークPaと下限周波数fa1と上限周波数fa2とを有するスペクトル分布領域Raに対して、局所的ピークPbと下限周波数fb1(fb1<fa2)と上限周波数fb2(fb2>fa2)とを有するスペクトル分布領域Rbが周波数fb1〜fa2の領域で重なっている。このような事態を回避するため、一例として、fb1〜fa2の周波数領域を中心周波数fcで2分割し、領域Raの上限周波数fa2をfcより低い所定の周波数に変更すると共に、領域Rbの下限周波数fb1をfcより高い所定の周波数に変更する。この結果、領域Raでは、fcより低い周波数領域でスペクトル分布AMaを利用可能となり、領域Rbでは、fcより高い周波数領域でスペクトル分布AMbを利用可能となる。
【0067】
上記のように局所的ピークを含むスペクトル分布を周波数軸上で移動する際、周波数の設定を変更するだけではスペクトル包絡が伸び縮みすることになり、音色が入力音声波形のものとは異なる事態が生ずる。そこで、入力音声波形の音色を再現するためには、各フレーム毎に一連のスペクトル分布領域の局所的ピークを結ぶ線に相当するスペクトル包絡に沿うように1又は複数のスペクトル分布領域の局所的ピークについてスペクトル強度を調整する必要がある。
【0068】
図12は、スペクトル強度調整の一例を示すもので、(A)は、ピッチ変換前の局所的ピークP11〜P18に対応するスペクトル包絡EVを示す。入力音符ピッチに応じてピッチを上昇させるため局所的ピークP11〜P18をそれぞれ(B)のP21〜P28に示すように周波数軸上で移動する際にスペクトル包絡EVに沿わない局所的ピークについてはスペクトル包絡EVに沿うようにスペクトル強度を増大又は減少させる。この結果、入力音声波形と同様の音色が得られる。
【0069】
図12(A)において、Rfは、スペクトル包絡が欠如した周波数領域であり、ピッチを上昇させる場合には、図12(B)に示す様に周波数領域Rf内にP27,P28等の局所的ピークを移動する必要が生ずることがある。このような事態に対処するには、図12(B)に示す様に周波数領域Rfについて補間法によりスペクトル包絡EVを求め、求めたスペクトル包絡EVに従って局所的ピークのスペクトル強度の調整を行なえばよい。
【0070】
上記した例では、入力音声波形の音色を再現するようにしたが、入力音声波形とは異なる音色を合成音声に付与するようにしてもよい。このためには、図12に示したようなスペクトル包絡EVを変形したスペクトル包絡を用いるか又は全く新しいスペクトル包絡を用いるかして上記したと同様に局所的ピークのスペクトル強度を調整すればよい。
【0071】
スペクトル包絡を用いた処理を簡素化するには、スペクトル包絡を曲線又は直線等で表現するのが好ましい。図13には、2種類のスペクトル包線曲線EV1,EV2を示す。曲線EV1は、局所的ピーク間を直線で結ぶことによりスペクトル包絡を折れ線で簡単に表現したものである。また、曲線EV2は、スペクトル包絡を3次のスプライン関数で表わしたものである。曲線EV2を用いると、補間をより正確に行なうことができる。
【0072】
次に、図4のステップ68では、音声素片毎に各フレームの振幅スペクトルデータの修正に対応して位相スペクトルデータを修正する。すなわち、図10(A)に示すようにあるフレームにおけるi番目の局所的ピークを含むスペクトル分布領域では、位相スペクトル分布PH1が振幅スペクトル分布AM1に対応したものであり、ステップ66で振幅スペクトル分布AM1をAM2のように移動したときは、振幅スペクトル分布AM2に対応して位相スペクトル分布PH1を調整する必要がある。これは、移動先の局所的ピークの周波数で正弦波になるようにするためである。
【0073】
i番目の局所的ピークを含むスペクトル分布領域に関する位相の補正量Δψiは、フレーム間の時間間隔をΔt、局所的ピークの周波数をfi、ピッチ変換比をTとすると、次の数1の式で与えられる。
【0074】
【数1】
Δψi=2πfi(T−1)Δt
数1の式で求められた補正量Δψiは、図10(B)に示す様に周波数FL〜FUの領域内の各位相スペクトルの位相に加算され、局所的ピークの周波数Fiでは位相がψi+Δψiとなる。
【0075】
上記のような位相の補正は、各スペクトル分布領域毎に行なわれる。例えば、あるフレームにおいて、局所的ピークの周波数が完全に調和関係にある(倍音の周波数が基音の周波数の完全な整数倍になっている)場合には、入力音声の基音周波数(すなわち音声素片データ内のピッチデータが示すピッチ)をf0とし、スペクトル分布領域の番号をk=1,2,3…とすると、位相補正量Δψiは、次の数2の式で与えられる。
【0076】
【数2】
Δψi=2πf0k(T−1)Δt
ステップ70では、音声素片毎に設定テンポ等に応じて発音開始時刻を決定する。発音開始時刻は、設定テンポや入力音符長等に依存し、テンポクロック信号TCLのクロック数で表わすことができる。一例として、「サイタ」の歌唱の場合、「s a」の音声素片の発音開始時刻は、入力音符長及び設定テンポで決まるノートオン時刻に「s」ではなく「a」の発音が開始されるように設定する。ステップ60でリアルタイムで歌詞データ及びメロディを入力してリアルタイムで歌唱合成を行なうときは、子音及び母音の音素連鎖について上記のような発音開始時刻の設定が可能になるようにノートオン時刻より前に歌詞データ及びメロディデータを入力する。
【0077】
ステップ72では、音声素片間でスペクトル強度のレベルを調整する。このレベル調整処理は、振幅スペクトルデータ及び位相スペクトルデータのいずれについても行なわれるもので、次のステップ74でのデータ接続に伴って合成音発生時にノイズが発生するのを回避するために行なわれる。レベル調整処理としては、スムージング処理、レベル整合処理等があるが、これらの処理については図17〜20を参照して後述する。
【0078】
ステップ74では、音声素片の発音順に振幅スペクトルデータ同士、位相スペクトルデータ同士をそれぞれ接続する。そして、ステップ76では、音声素片毎に振幅スペクトルデータ及び位相スペクトルデータを時間領域の合成音声信号(ディジタル波形データ)に変換する。
【0079】
図5は、ステップ76の変換処理の一例を示すもので、ステップ76aでは、周波数領域のフレームデータ(振幅スペクトルデータ及び位相スペクトルデータ)に逆FFT処理を施して時間領域の合成音声信号を得る。そして、ステップ76bでは、時間領域の合成音声信号に窓掛け処理を施す。この処理は、時間領域の合成音声信号に時間窓関数を乗算するものである。ステップ76cでは、時間領域の合成音声信号にオーバーラップ処理を施す。この処理は、順次の音声素片について波形をオーバーラップさせながら時間領域の合成音声信号を接続するものである。
【0080】
ステップ78では、ステップ70で決定した発音開始時刻を参照して音声素片毎に合成音声信号をD/A変換部28に出力する。この結果、サウンドシステム34から合成に係る歌唱音声が発生される。
【0081】
図6は、歌唱分析処理の他の例を示すものである。ステップ80では、ステップ40に関して前述したと同様にして歌唱音声信号を入力し、入力信号の音声波形を表すディジタル波形データをRAM16に記憶させる。歌唱音声信号は、インターフェース30又は32を介して入力してもよい。
【0082】
ステップ82では、ステップ42に関して前述したと同様にして記憶に係るディジタル波形データについて音声素片に対応する区間ごとに区間波形を切出す。
【0083】
ステップ84では、音声素片毎に区間波形を表わす区間波形データ(音声素片データ)を音声素片データベースに記憶させる。音声素片データベースとしては、RAM16や外部記憶装置22を用いることができ、所望によりROM14、MIDI機器36内の記憶装置、コンピュータ38内の記憶装置等を用いてもよい。音声素片データの記憶に際しては、図3に関して前述したと同様に各音声素片毎に歌手(音色)、ピッチ区分、ダイナミクス区分、テンポ区分等を異にする区間波形データm1,m2,m3…を音声素片データベースDBSに記憶させることができる。
【0084】
次に、図7を参照して歌唱合成処理の他の例を説明する。ステップ90では、ステップ60に関して前述したと同様にして所望の歌唱曲に関して歌詞データ及びメロディデータを入力する。
【0085】
ステップ92では、ステップ62に関して前述したと同様にして歌詞データが表わす音素列を個々の音声素片に変換する。そして、ステップ94では、ステップ84で記憶処理したデータベースから音声素片毎に対応する区間波形データ(音声素片データ)を読出す。この場合、入力部20から制御パラメータとして音色、ピッチ区分、ダイナミクス区分、テンポ区分等のデータを入力し、該データの指示する制御パラメータに対応した区間波形データを読出すようにしてもよい。また、ステップ64に関して前述したと同様に入力音符長や設定テンポ等に応じて音声素片の発音継続時間を変更するようにしてもよい。このためには、音声波形を読出す際に音声波形の一部を省略するか又は音声波形の一部あるいは全部を繰返すかして所望の発音継続時間だけ音声波形の読出しを継続すればよい。
【0086】
ステップ96では、読出しに係る区間波形データ毎に区間波形について1又は複数の時間フレームを定め、各フレーム毎にFFT等により周波数分析を実行して周波数スペクトル(振幅スペクトルと位相スペクトル)を検出する。そして,周波数スペクトルを表わすデータをRAM16の所定領域に記憶させる。
【0087】
ステップ98では、図2のステップ46〜52と同様の処理を実行して音声素片毎にピッチデータ、振幅スペクトルデータ及び位相スペクトルデータを生成する。そして、ステップ100では、図4のステップ66〜78と同様の処理を実行して歌唱音声を合成し、発音させる。
【0088】
図7の歌唱合成処理を図4の歌唱合成処理と対比すると、図4の歌唱合成処理では、データベースから音声素片毎にピッチデータ、振幅スペクトルデータ及び位相スペクトルデータを取得して歌唱合成を行なうのに対し、図7の歌唱合成処理では、データベースから音声素片毎に区間波形データを取得して歌唱合成を行なっている点で両者が異なるものの、歌唱合成の手順は、両者で実質的に同一である。図4又は図7の歌唱合成処理によれば、入力音声波形の周波数分析結果を調和成分と非調和成分とに分離しないので、非調和成分が分離して響くことがなく、自然な(又は高品質の)合成音が得られる。また、有声の摩擦音や破裂音についても自然な合成音が得られる。
【0089】
図14は、例えば「a」のような単一音素の伸ばし音に関するピッチ変換処理及び音色調整処理(図4のステップ66に対応)を示すものである。この場合、伸ばし音の音声素片データSDとして、図3に示したようなピッチデータ、振幅スペクトルデータ及び位相スペクトルデータのデータ組(又は区間波形データ)をデータベース内に用意する。また、伸ばし音毎に歌手(音色)、ピッチ区分、ダイナミクス区分、テンポ区分等を異にする音声素片データをデータベースに記憶しておき、入力部20で所望の歌手(音色)、ピッチ区分、ダイナミクス区分、テンポ区分等の制御パラメータを指定すると、指定に係る制御パラメータに対応する音声素片データを読出すようにする。
【0090】
ステップ110では、伸ばし音の音声素片データSDに由来する振幅スペクトルデータFSPにステップ66で述べたと同様のピッチ変換処理を施す。すなわち、振幅スペクトルデータFSPに関して各フレームの各スペクトル分布領域毎にスペクトル分布を入力音符ピッチデータPTの示す入力音符ピッチに相当するピッチになるように周波数軸上で移動する。
【0091】
音声素片データSDの時間長より長い発音継続時間の伸ばし音が要求される場合には、音声素片データSDを最後まで読出した後最初に戻って再び読出し、必要に応じてこのような時間的に順方向の読出しを繰返す方法を採用することができる。別の方法としては、音声素片データSDを最後まで読出した後最初に向かって読出し、必要に応じてこのような時間的に順方向の読出しと時間的に逆方向の読出しとを繰返す方法を採用してもよい。この方法では、時間的に逆方向に読出す際の読出開始点をランダムに設定するようにしてもよい。
【0092】
ステップ110のピッチ変換処理では、図3に示したデータベースDBSにおいて、例えば「a」のような伸ばし音声素片データM1(又はm1),M2(又はm2),M3(又はm3)…にそれぞれ対応して経時的なピッチ変化を表わすピッチゆらぎデータを記憶しておき、入力部20で音色、ピッチ区分、ダイナミクス区分、テンポ区分等の制御パラメータを指定するのに応答して指定に係る制御パラメータに対応するピッチゆらぎデータを読出すようにしてもよい。この場合、ステップ112では、読出しに係るピッチゆらぎデータVPを入力音符ピッチデータPTに加算し、加算結果としてのピッチ制御データに応じてステップ110でのピッチ変換を制御する。このようにすると、合成音にピッチのゆらぎ(例えばピッチベンド、ビブラート等)を付加することができ、自然な合成音が得られる。また、音色、ピッチ区分、ダイナミクス区分、テンポ区分等の制御パラメータに応じてピッチのゆらぎ態様を異ならせることができるので、自然感が一層向上する。なお、ピッチゆらぎデータは、音声素片に対応する1又は複数のピッチゆらぎデータを音色等の制御パラメータに応じて補間等により改変して使うようにしてもよい。
【0093】
ステップ114では、ステップ110でピッチ変換処理を受けた振幅スペクトルデータFSP’に音色調整処理を施す。この処理は、図12に関して前述したように各フレーム毎にスペクトル包絡に従ってスペクトル強度を調整して合成音の音色を設定するものである。
【0094】
図15は、ステップ114の音色調整処理の一例を示すものである。この例では、図3に示したデータベースDBSにおいて、例えば「a」の伸ばし音の音声素片に対応して代表的な1つのスペクトル包絡を表わすスペクトル包絡データを記憶する。
【0095】
ステップ116では、伸ばし音の音声素片に対応するスペクトル包絡データをデータベースDBSから読出す。そして、ステップ118では、読出しに係るスペクトル包絡データに基づいてスペクトル包絡設定処理を行なう。すなわち、伸ばし音のフレーム群FRにおける複数n個のフレームの振幅スペクトルデータFR1〜FRnのうちの各フレームの振幅スペクトルデータ毎に、読出しに係るスペクトル包絡データの示すスペクトル包絡に沿うようにスペクトル強度を調整することによりスペクトル包絡を設定する。この結果、伸ばし音に適切な音色を付与することができる。
【0096】
ステップ118のスペクトル包絡設定処理では、図3に示したデータベースDBSにおいて、例えば「a」のような伸ばし音声素片データM1(又はm1),M2(又はm2),M3(又はm3)…にそれぞれ対応して経時的なスペクトル包絡変化を表わすスペクトル包絡ゆらぎデータを記憶しておき、入力部20で音色、ピッチ区分、ダイナミクス区分、テンポ区分等の制御パラメータを指定するのに応答して指定に係る制御パラメータに対応するスペクトル包絡ゆらぎデータを読出すようにしてもよい。この場合、ステップ118では、各フレーム毎にステップ116での読出しに係るスペクトル包絡データに読出しに係るスペクトル包絡ゆらぎデータVEを加算し、加算結果としてのスペクトル包絡制御データに応じてステップ118でのスペクトル包絡設定を制御する。このようにすると、合成音に音色のゆらぎ(例えばトーンベンド等)を付加することができ、自然な合成音が得られる。また、音色、ピッチ区分、ダイナミクス区分、テンポ区分等の制御パラメータに応じてピッチのゆらぎ態様を異ならせることができるので、自然感が一層向上する。なお、ピッチゆらぎデータは、音声素片に対応する1又は複数のピッチゆらぎデータを音色等の制御パラメータに応じて補間等により改変して使うようにしてもよい。
【0097】
図16は、ステップ114の音色調整処理の他の例を示すものである。歌唱合成では、前述した「サイタ」の歌唱例の様に音素連鎖(例えば「s a」)−単一音素(例えば「a」)−音素連鎖(例えば「a i」)の歌唱合成が典型的な例であり、このような歌唱合成例に適したのが図16の例である。図16において、前音の最終フレームの振幅スペクトルデータPFRにおける前音とは、例えば「s a」の音素連鎖に対応し、伸ばし音のn個のフレームの振幅スペクトルデータFR1〜FRnにおける伸ばし音とは、例えば「a」の単一音素に対応し、後音の先頭フレームの振幅スペクトルデータNFRにおける後音とは、例えば「a i」の音素連鎖に対応する。
【0098】
ステップ120では、前音の最終フレームの振幅スペクトルデータPFRからスペクトル包絡を抽出すると共に、後音の先頭フレームの振幅スペクトルデータNFRからスペクトル包絡を抽出する。そして、抽出に係る2つのスペクトル包絡を時間的に補間して伸ばし音用のスペクトル包絡を表わすスペクトル包絡データを作成する。
【0099】
ステップ122では、n個のフレームの振幅スペクトルデータFR1〜FRnのうちの各フレームの振幅スペクトルデータ毎に、ステップ120での作成に係るスペクトル包絡データの示すスペクトル包絡に沿うようにスペクトル強度を調整することによりスペクトル包絡を設定する。この結果、音素連鎖間の伸ばし音に適切な音色を付与することができる。
【0100】
ステップ122においても、ステップ118に関して前述したと同様にしてデータベースDBSから音色等の制御パラメータに応じてスペクトル包絡ゆらぎデータVEを読出すなどしてスペクトル包絡の設定を制御することができる。このようにすると、自然な合成音が得られる。
【0101】
次に、図17〜19を参照してスムージング処理(ステップ72に対応)の一例を説明する。この例では、データを扱いやすくして計算を簡単にするために、音声素片の各フレームのスペクトル包絡を図17に示すように直線(あるいは指数関数)で表現した傾き成分と指数関数などで表現した1又は複数の共鳴部分とに分解する。すなわち、共鳴部分の強度は、傾き成分を基準に計算し、傾き成分と共鳴成分を足し合わせてスペクトル包絡を表わす。また、傾き成分を0Hzまで延長した値を傾き成分のゲインと称する。
【0102】
一例として、図18に示すような2つの音声素片「a i」と「i a」とを接続するものとする。これらの音声素片は、もともと別の録音から採取したものであるため、接続部のiの音色とレベルにミスマッチがあり、図18に示すように接続部分で波形の段差が発生し、ノイズとして聴こえる。2つの音声素片について接続部を中心として前後に何フレームかかけて、傾き成分のパラメータ同士、共鳴成分のパラメータ同士をそれぞれクロスフェードしてやれば、接続部分での段差が消え去り、ノイズの発生を防止することができる。
【0103】
例えば、共鳴成分のパラメータをクロスフェードするためには、図19に示すように、接続部分で0.5となるような関数(クロスフェードパラメータ)を両音声素片の共鳴成分のパラメータに掛けて足し合わせてやればよい。図19に示す例では、「a i」,「i a」の音声素片における第1の共鳴成分の(傾き成分を基準とした)強度の時間的変化を示す波形に対してそれぞれクロスフェードパラメータを掛けて加算することによりクロスフェードを行なった例を示している。
【0104】
他の共鳴成分、傾き成分等のパタメータについても、上記したと同様にクロスフェードを行なうことができる。
【0105】
図20は、レベル整合処理(ステップ72に対応)の一例を示すものである。この例では、上記と同様に「a i」と「i a」を接続して合成する場合について、レベル整合処理を説明する。
【0106】
この場合、上記のようにクロスフェードする代りに、音声素片の接続部分で前後の振幅がほぼ同じになる様にレベル整合を行なう。レベル整合は、音声素片の振幅に対し、一定あるいは時変の係数を掛けることにより行なうことができる。
【0107】
この例では、2つの音声素片について傾き成分のゲインを合わせる処理について説明する。まず、図20(a),(b)に示すように、「a i」と「i a」の各音声素片について、その最初のフレームと最終フレームの間の傾き成分のゲインを直線補間したパラメータ(図中の破線)を求め、各パラメータを基準に、実際の傾き成分のゲインとの差分を求める。
【0108】
次に、[a],[i]の各音韻の代表的なサンプル(傾き成分及び共鳴成分の各パラメータ)を求める。これは、例えば、「a i」の最初のフレームと最終フレームの振幅スペクトルデータを用いて求めてもよい。
【0109】
[a],[i]の代表的なサンプルをもとに、まず、図20(c)に破線で示すように[a],[i]の間の傾き成分のゲインを直線補間したパラメータを求めると共に、[i]と[a]の間の傾き成分のゲインを直線補間したパラメータを求める。次いで、図20(a),(b)で求めた差分を直線補間に係るパラメータにそれぞれ足し込んでいけば、図20(c)に示すように、境界では必ず直線補間に係るパラメータが一致するため、傾き成分のゲインの不連続は発生しない。共鳴成分のパラメータなど他のパラメータについても、同様に不連続を防止することができる。
【0110】
前述したステップ72では、振幅スペクトルデータのみならず位相スペクトルデータについても、上記のようなスムージング処理又はレベル整合処理を準用して位相の調整を行なう。この結果、ノイズ発生を回避することができ、高品質の歌唱合成が可能となる。なお、スムージング処理又はレベル整合処理において、接続部では、スペクトル強度を一致させたが近似させるだけでよいこともある。
【0111】
【発明の効果】
以上のように、この発明によれば、音声素片に対応する音声波形を周波数分析した結果に基づいて振幅スペクトルデータ及び位相スペクトルデータを生成し、指定のピッチに応じて振幅スペクトルデータ及び位相スペクトルデータを修正し、修正に係る振幅スペクトルデータ及び位相スペクトルデータに基づいて時間領域の合成音声信号を発生させるようにしたので、周波数分析結果を調和成分と非調和成分とに分離した従来例のように非調和成分が分離して響くといった事態は原理的に発生しなくなり、自然な歌唱音声又は高品質の歌唱音声を合成可能となる効果が得られる。
【図面の簡単な説明】
【図1】 この発明の一実施形態に係る歌唱合成装置の回路構成を示すブロック図である。
【図2】 歌唱分析処理の一例を示すフローチャートである。
【図3】 音声素片データベース内の記憶状況を示す図である。
【図4】 歌唱合成処理の一例を示すフローチャートである。
【図5】 図4のステップ76の変換処理の一例を示すフローチャートである。
【図6】 歌唱分析処理の他の例を示すフローチャートである。
【図7】 歌唱合成処理の他の例を示すフローチャートである。
【図8】 (A)は、分析対象としての入力音声信号を示す波形図、(B)は、(A)の波形の周波数分析結果を示すスペクトル図である。
【図9】 (A)は、ピッチ変換前のスペクトル分布領域配置を示すスペクトル図、(B)は、ピッチ変換後のスペクトル分布領域配置を示すスペクトル図である。
【図10】 (A)は、ピッチ変換前の振幅スペクトル分布及び位相スペクトル分布を示すグラフ、(B)は、ピッチ変換後の振幅スペクトル分布及び位相スペクトル分布を示すグラフである。
【図11】 ピッチを低下させた場合のスペクトル分布領域の指定処理を説明するためのグラフである。
【図12】 (A)は、ピッチ変換前の局所的ピーク配置及びスペクトル包絡を示すグラフ、(B)は、ピッチ変換後の局所的ピーク配置及びスペクトル包絡を示すグラフである。
【図13】 スペクトル包絡曲線を例示するグラフである。
【図14】 伸ばし音に関するピッチ変換処理及び音色調整処理を示すブロック図である。
【図15】 伸ばし音に関する音色調整処理の一例を示すブロック図である。
【図16】 伸ばし音に関する音色調整処理の他の例を示すブロック図である。
【図17】 スペクトル包絡のモデル化を説明するためのグラフである。
【図18】 音声素片の接続時に生ずるレベル及び音色のミスマッチを説明するためのグラフである。
【図19】 スムージング処理を説明するためのグラフである。
【図20】 レベル整合処理を説明するためのグラフである。
【図21】 歌唱合成処理の従来例を示すブロック図である。
【符号の説明】
10:小型コンピュータ、11:バス、12:CPU、14:ROM、16:RAM、17:歌唱入力部、18:歌詞・メロディ入力部、20:制御パラメータ入力部、22:外部記憶装置、24:表示部、26:タイマ、28:D/A変換部、30:MIDIインターフェース、32:通信インターフェース、34:サウンドシステム、36:MIDI機器、37:通信ネットワーク、38:他のコンピュータ、DBS:音声素片データベース。
Claims (16)
- 合成すべき音声の音声素片に対応する音声波形を周波数分析して周波数スペクトルを検出するステップと、
前記周波数スペクトル上でスペクトル強度の局所的ピークを複数検知するステップと、
各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域を前記周波数スペクトル上で指定し、各スペクトル分布領域毎に振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルデータを生成するステップと、
各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わす位相スペクトルデータを生成するステップと、
前記合成すべき音声についてピッチを指定するステップと、
各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を前記ピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正するステップと、
各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正するステップと、
前記修正に係る振幅スペクトルデータ及び前記修正に係る位相スペクトルデータを時間領域の合成音声信号に変換するステップと
を含む歌唱合成方法。 - 合成すべき音声の音声素片に対応する振幅スペクトルデータ及び位相スペクトルデータを取得するステップであって、前記振幅スペクトルデータとしては、前記音声素片の音声波形を周波数分析して得た周波数スペクトルにおいてスペクトル強度の複数の局所的ピークのうちの各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域における振幅スペクトル分布を周波数軸に関して表わすデータを取得し、前記位相スペクトルデータとしては、各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わすデータを取得するものと、
前記合成すべき音声についてピッチを指定するステップと、
各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を前記ピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正するステップと、
各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正するステップと、
前記修正に係る振幅スペクトルデータ及び前記修正に係る位相スペクトルデータを時間領域の合成音声信号に変換するステップと
を含む歌唱合成方法。 - 前記ピッチを指定するステップでは、経時的なピッチ変化を示すピッチゆらぎデータに従って前記ピッチを指定する請求項1又は2記載の歌唱合成方法。
- 前記ピッチゆらぎデータとしては、前記合成すべき音声について音楽的表情を制御するための制御パラメータに対応したピッチゆらぎデータを用いる請求項3記載の歌唱合成方法。
- 前記振幅スペクトルデータを修正するステップでは、修正前の複数の局所的ピークを結ぶ線に対応するスペクトル包絡に沿わない局所的ピークについてスペクトル強度を該スペクトル包絡に沿うように修正する請求項1又は2記載の歌唱合成方法。
- 前記振幅スペクトルデータを修正するステップでは、予め定めたスペクトル包絡に沿わない局所的ピークについてスペクトル強度を該スペクトル包絡に沿うように修正する請求項1又は2記載の歌唱合成方法。
- 前記振幅スペクトルデータを修正するステップでは、一連の時間フレームについて経時的なスペクトル包絡の変化を示すスペクトル包絡ゆらぎデータに従ってスペクトル強度を調整することにより経時的に変化するスペクトル包絡を設定する請求項5又は6記載の歌唱合成方法。
- 前記スペクトル包絡ゆらぎデータとしては、前記合成すべき音声について音楽的表情を制御するための制御パラメータに対応したスペクトル包絡ゆらぎデータを用いる請求項7記載の歌唱合成方法。
- 合成すべき音声について音声素片及びピッチを指定する指定手段と、
音声素片データベースから音声素片データとして前記音声素片に対応する音声波形を表わす音声波形データを読出す読出手段と、
前記音声波形データが表わす音声波形を周波数分析して周波数スペクトルを検出する検出手段と、
前記音声波形に対応する周波数スペクトル上でスペクトル強度の局所的ピークを複数検知する検知手段と、
各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域を前記周波数スペクトル上で指定し、各スペクトル分布領域毎に振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルデータを生成する第1の生成手段と、
各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わす位相スペクトルデータを生成する第2の生成手段と、
各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を前記ピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正する第1の修正手段と、
各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正する第2の修正手段と、
前記修正に係る振幅スペクトルデータ及び前記修正に係る位相スペクトルデータを時間領域の合成音声信号に変換する変換手段と
を備えた歌唱合成装置。 - 合成すべき音声について音声素片及びピッチを指定する指定手段と、
音声素片データベースから音声素片データとして前記音声素片に対応する振幅スペクトルデータ及び位相スペクトルデータを読出す読出手段であって、前記振幅スペクトルデータとしては、前記音声素片の音声波形を周波数分析して得た周波数スペクトルにおいてスペクトル強度の複数の局所的ピークのうちの各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域における振幅スペクトル分布を周波数軸に関して表わすデータを読出し、前記位相スペクトルデータとしては、各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わすデータを読出すものと、
各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を前記ピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正する第1の修正手段と、
各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正する第2の修正手段と、
前記修正に係る振幅スペクトルデータ及び前記修正に係る位相スペクトルデータを時間領域の合成音声信号に変換する変換手段と
を備えた歌唱合成装置。 - 前記指定手段は、前記合成すべき音声について音楽的表情を制御するための制御パラメータを指定し、前記読出手段は、前記音声素片及び前記制御パラメータに対応する音声素片データを読出す請求項9又は10記載の歌唱合成装置。
- 前記指定手段は、前記合成すべき音声について音符長及び/又はテンポを指定し、前記読出手段は、前記音声素片データを読出す際に前記音声素片データの一部を省略するか又は前記音声素片データの一部もしくは全部を繰返すかして前記音符長及び/又はテンポに対応する時間のあいだ前記音声素片データの読出しを継続する請求項9又は10記載の歌唱合成装置。
- 順次に合成すべき音声のうちの各音声毎に音声素片及びピッチを指定する指定手段と、
音声素片データベースから前記指定手段での指定に係る各音声素片に対応する音声波形を読出す読出手段と、
各音声素片に対応する音声波形を周波数分析して周波数スペクトルを検出する検出手段と、
各音声素片に対応する周波数スペクトル上でスペクトル強度の局所的ピークを複数検知する検知手段と、
各音声素片について各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域を該音声素片に対応する周波数スペクトル上で指定し、各音声素片について各スペクトル分布領域毎に振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルデータを生成する第1の生成手段と、
各音声素片について各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わす位相スペクトルデータを生成する第2の生成手段と、
各音声素片について各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を該音声素片に対応するピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正する第1の修正手段と、
各音声素片について各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正する第2の修正手段と、
前記順次に合成すべき音声にそれぞれ対応する順次の音声素片が発音順につながるように前記修正に係る振幅スペクトルデータを接続する第1の接続手段であって、前記順次の音声素片のつながり部においてスペクトル強度を一致又は近似させるべくスムージング処理又はレベル整合処理により調整するものと、
前記順次に合成すべき音声にそれぞれ対応する順次の音声素片が発音順につながるように前記修正に係る位相スペクトルデータを接続する第2の接続手段であって、前記順次の音声素片のつながり部において位相を一致又は近似させるべくスムージング処理又はレベル整合処理により調整するものと、
前記接続に係る振幅スペクトルデータ及び前記接続に係る位相スペクトルデータを時間領域の合成音声信号に変換する変換手段と
を備えた歌唱合成装置。 - 順次に合成すべき音声のうちの各音声毎に音声素片及びピッチを指定する指定手段と、
音声素片データベースから前記指定手段での指定に係る各音声素片に対応する振幅スペクトルデータ及び位相スペクトルデータを読出す読出手段であって、前記振幅スペクトルデータとしては、対応する音声素片の音声波形を周波数分析して得た周波数スペクトルにおいてスペクトル強度の複数の局所的ピークのうちの各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域における振幅スペクトル分布を周波数軸に関して表わすデータを読出し、前記位相スペクトルデータとしては、各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わすデータを読出すものと、
各音声素片について各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を該音声素片に対応するピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正する第1の修正手段と、
各音声素片について各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正する第2の修正手段と、
前記順次に合成すべき音声にそれぞれ対応する順次の音声素片が発音順につながるように前記修正に係る振幅スペクトルデータを接続する第1の接続手段であって、前記順次の音声素片のつながり部においてスペクトル強度を一致又は近似させるべくスムージング処理又はレベル整合処理により調整するものと、
前記順次に合成すべき音声にそれぞれ対応する順次の音声素片が発音順につながるように前記修正に係る位相スペクトルデータを接続する第2の接続手段であって、前記順次の音声素片のつながり部において位相を一致又は近似させるべくスムージング処理又はレベル整合処理により調整するものと、
前記接続に係る振幅スペクトルデータ及び前記接続に係る位相スペクトルデータを時間領域の合成音声信号に変換する変換手段と
を備えた歌唱合成装置。 - 合成すべき音声の音声素片に対応する音声波形を周波数分析して周波数スペクトルを検出するステップと、
前記周波数スペクトル上でスペクトル強度の局所的ピークを複数検知するステップと、
各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域を前記周波数スペクトル上で指定し、各スペクトル分布領域毎に振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルデータを生成するステップと、
各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わす位相スペクトルデータを生成するステップと、
前記合成すべき音声についてピッチを指定するステップと、
各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を前記ピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正するステップと、
各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正するステップと、
前記修正に係る振幅スペクトルデータ及び前記修正に係る位相スペクトルデータを時間領域の合成音声信号に変換するステップと
をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。 - 合成すべき音声の音声素片に対応する振幅スペクトルデータ及び位相スペクトルデータを取得するステップであって、前記振幅スペクトルデータとしては、前記音声素片の音声波形を周波数分析して得た周波数スペクトルにおいてスペクトル強度の複数の局所的ピークのうちの各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域における振幅スペクトル分布を周波数軸に関して表わすデータを取得し、前記位相スペクトルデータとしては、各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わすデータを取得するものと、
前記合成すべき音声についてピッチを指定するステップと、
各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を前記ピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正するステップと、
各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正するステップと、
前記修正に係る振幅スペクトルデータ及び前記修正に係る位相スペクトルデータを時間領域の合成音声信号に変換するステップと
をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002052006A JP3815347B2 (ja) | 2002-02-27 | 2002-02-27 | 歌唱合成方法と装置及び記録媒体 |
US10/375,420 US6992245B2 (en) | 2002-02-27 | 2003-02-27 | Singing voice synthesizing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002052006A JP3815347B2 (ja) | 2002-02-27 | 2002-02-27 | 歌唱合成方法と装置及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003255998A JP2003255998A (ja) | 2003-09-10 |
JP3815347B2 true JP3815347B2 (ja) | 2006-08-30 |
Family
ID=28663836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002052006A Expired - Fee Related JP3815347B2 (ja) | 2002-02-27 | 2002-02-27 | 歌唱合成方法と装置及び記録媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6992245B2 (ja) |
JP (1) | JP3815347B2 (ja) |
Families Citing this family (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4067762B2 (ja) * | 2000-12-28 | 2008-03-26 | ヤマハ株式会社 | 歌唱合成装置 |
JP3879402B2 (ja) * | 2000-12-28 | 2007-02-14 | ヤマハ株式会社 | 歌唱合成方法と装置及び記録媒体 |
JP4178319B2 (ja) * | 2002-09-13 | 2008-11-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理におけるフェーズ・アライメント |
US7521623B2 (en) | 2004-11-24 | 2009-04-21 | Apple Inc. | Music synchronization arrangement |
TWI227010B (en) * | 2003-05-23 | 2005-01-21 | Mediatek Inc | Wavetable audio synthesis system |
JP4448378B2 (ja) * | 2003-07-30 | 2010-04-07 | ヤマハ株式会社 | 電子管楽器 |
JP2005049439A (ja) * | 2003-07-30 | 2005-02-24 | Yamaha Corp | 電子楽器 |
US7179979B2 (en) * | 2004-06-02 | 2007-02-20 | Alan Steven Howarth | Frequency spectrum conversion to natural harmonic frequencies process |
JP4654616B2 (ja) * | 2004-06-24 | 2011-03-23 | ヤマハ株式会社 | 音声効果付与装置及び音声効果付与プログラム |
JP4649888B2 (ja) * | 2004-06-24 | 2011-03-16 | ヤマハ株式会社 | 音声効果付与装置及び音声効果付与プログラム |
JP4654621B2 (ja) * | 2004-06-30 | 2011-03-23 | ヤマハ株式会社 | 音声処理装置およびプログラム |
JP4265501B2 (ja) * | 2004-07-15 | 2009-05-20 | ヤマハ株式会社 | 音声合成装置およびプログラム |
JP4218624B2 (ja) * | 2004-10-18 | 2009-02-04 | ヤマハ株式会社 | 楽音データ生成方法及び装置 |
EP1806740B1 (en) * | 2004-10-27 | 2011-06-29 | Yamaha Corporation | Pitch converting apparatus |
JP4701684B2 (ja) * | 2004-11-19 | 2011-06-15 | ヤマハ株式会社 | 音声処理装置およびプログラム |
JP4207902B2 (ja) * | 2005-02-02 | 2009-01-14 | ヤマハ株式会社 | 音声合成装置およびプログラム |
JP4645241B2 (ja) * | 2005-03-10 | 2011-03-09 | ヤマハ株式会社 | 音声処理装置およびプログラム |
JP4645337B2 (ja) * | 2005-07-19 | 2011-03-09 | カシオ計算機株式会社 | 波形データ補間装置 |
KR100658869B1 (ko) * | 2005-12-21 | 2006-12-15 | 엘지전자 주식회사 | 음악생성장치 및 그 운용방법 |
JP4839891B2 (ja) * | 2006-03-04 | 2011-12-21 | ヤマハ株式会社 | 歌唱合成装置および歌唱合成プログラム |
WO2008010413A1 (fr) * | 2006-07-21 | 2008-01-24 | Nec Corporation | Dispositif, procédé et programme de synthèse audio |
US9159325B2 (en) * | 2007-12-31 | 2015-10-13 | Adobe Systems Incorporated | Pitch shifting frequencies |
JP5262324B2 (ja) | 2008-06-11 | 2013-08-14 | ヤマハ株式会社 | 音声合成装置およびプログラム |
US7977562B2 (en) * | 2008-06-20 | 2011-07-12 | Microsoft Corporation | Synthesized singing voice waveform generator |
JP4209461B1 (ja) * | 2008-07-11 | 2009-01-14 | 株式会社オトデザイナーズ | 合成音声作成方法および装置 |
US7977560B2 (en) * | 2008-12-29 | 2011-07-12 | International Business Machines Corporation | Automated generation of a song for process learning |
JP2010191042A (ja) * | 2009-02-17 | 2010-09-02 | Yamaha Corp | 音声処理装置およびプログラム |
JP5515342B2 (ja) * | 2009-03-16 | 2014-06-11 | ヤマハ株式会社 | 音波形抽出装置、およびプログラム |
JP5387076B2 (ja) * | 2009-03-17 | 2014-01-15 | ヤマハ株式会社 | 音処理装置およびプログラム |
CN102421372B (zh) * | 2009-05-13 | 2014-10-29 | 皇家飞利浦电子股份有限公司 | 具有音高偏移的超声血流多普勒音频 |
JP5471858B2 (ja) * | 2009-07-02 | 2014-04-16 | ヤマハ株式会社 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
US20110219940A1 (en) * | 2010-03-11 | 2011-09-15 | Hubin Jiang | System and method for generating custom songs |
FR2958068B1 (fr) * | 2010-03-24 | 2012-05-25 | Etienne Edmond Jacques Thuillier | Procede et dispositif de synthese d'un signal audio selon un phrase melodique imparti sur un organe vibrant |
US8716586B2 (en) | 2010-04-05 | 2014-05-06 | Etienne Edmond Jacques Thuillier | Process and device for synthesis of an audio signal according to the playing of an instrumentalist that is carried out on a vibrating body |
JP5850216B2 (ja) | 2010-04-13 | 2016-02-03 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
FR2961938B1 (fr) * | 2010-06-25 | 2013-03-01 | Inst Nat Rech Inf Automat | Synthetiseur numerique audio ameliore |
JP5961950B2 (ja) * | 2010-09-15 | 2016-08-03 | ヤマハ株式会社 | 音声処理装置 |
US9185225B1 (en) * | 2011-06-08 | 2015-11-10 | Cellco Partnership | Method and apparatus for modifying digital messages containing at least audio |
JP5057535B1 (ja) * | 2011-08-31 | 2012-10-24 | 国立大学法人電気通信大学 | ミキシング装置、ミキシング信号処理装置、ミキシングプログラム及びミキシング方法 |
JP5987365B2 (ja) * | 2012-03-07 | 2016-09-07 | ヤマハ株式会社 | 伝達関数演算装置、およびプログラム |
US9159310B2 (en) | 2012-10-19 | 2015-10-13 | The Tc Group A/S | Musical modification effects |
JP5949607B2 (ja) * | 2013-03-15 | 2016-07-13 | ヤマハ株式会社 | 音声合成装置 |
KR101541606B1 (ko) * | 2013-11-21 | 2015-08-04 | 연세대학교 산학협력단 | 초음파 신호의 포락선 검출 방법 및 그 장치 |
CA3162763A1 (en) * | 2013-12-27 | 2015-07-02 | Sony Corporation | Decoding apparatus and method, and program |
JP6281336B2 (ja) * | 2014-03-12 | 2018-02-21 | 沖電気工業株式会社 | 音声復号化装置及びプログラム |
US9123315B1 (en) * | 2014-06-30 | 2015-09-01 | William R Bachand | Systems and methods for transcoding music notation |
JP6561499B2 (ja) * | 2015-03-05 | 2019-08-21 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
JP6728754B2 (ja) * | 2015-03-20 | 2020-07-22 | ヤマハ株式会社 | 発音装置、発音方法および発音プログラム |
EP3537432A4 (en) * | 2016-11-07 | 2020-06-03 | Yamaha Corporation | LANGUAGE SYNTHESIS PROCEDURE |
CN106652997B (zh) * | 2016-12-29 | 2020-07-28 | 腾讯音乐娱乐(深圳)有限公司 | 一种音频合成的方法及终端 |
JP6497404B2 (ja) * | 2017-03-23 | 2019-04-10 | カシオ計算機株式会社 | 電子楽器、その電子楽器の制御方法及びその電子楽器用のプログラム |
JP6569712B2 (ja) * | 2017-09-27 | 2019-09-04 | カシオ計算機株式会社 | 電子楽器、電子楽器の楽音発生方法、及びプログラム |
JP7000782B2 (ja) * | 2017-09-29 | 2022-01-19 | ヤマハ株式会社 | 歌唱音声の編集支援方法、および歌唱音声の編集支援装置 |
JP6724932B2 (ja) * | 2018-01-11 | 2020-07-15 | ヤマハ株式会社 | 音声合成方法、音声合成システムおよびプログラム |
EP3783912B1 (en) * | 2018-04-17 | 2023-08-23 | The University of Electro-Communications | Mixing device, mixing method, and mixing program |
CN109147757B (zh) * | 2018-09-11 | 2021-07-02 | 广州酷狗计算机科技有限公司 | 歌声合成方法及装置 |
CN112037757B (zh) * | 2020-09-04 | 2024-03-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌声合成方法、设备及计算机可读存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5536902A (en) * | 1993-04-14 | 1996-07-16 | Yamaha Corporation | Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter |
US5712437A (en) * | 1995-02-13 | 1998-01-27 | Yamaha Corporation | Audio signal processor selectively deriving harmony part from polyphonic parts |
WO1997017692A1 (en) * | 1995-11-07 | 1997-05-15 | Euphonics, Incorporated | Parametric signal modeling musical synthesizer |
JP3102335B2 (ja) * | 1996-01-18 | 2000-10-23 | ヤマハ株式会社 | フォルマント変換装置およびカラオケ装置 |
US6101469A (en) * | 1998-03-02 | 2000-08-08 | Lucent Technologies Inc. | Formant shift-compensated sound synthesizer and method of operation thereof |
US6836761B1 (en) * | 1999-10-21 | 2004-12-28 | Yamaha Corporation | Voice converter for assimilation by frame synthesis with temporal alignment |
-
2002
- 2002-02-27 JP JP2002052006A patent/JP3815347B2/ja not_active Expired - Fee Related
-
2003
- 2003-02-27 US US10/375,420 patent/US6992245B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US20030221542A1 (en) | 2003-12-04 |
US6992245B2 (en) | 2006-01-31 |
JP2003255998A (ja) | 2003-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3815347B2 (ja) | 歌唱合成方法と装置及び記録媒体 | |
JP4067762B2 (ja) | 歌唱合成装置 | |
EP1125272B1 (en) | Method of modifying harmonic content of a complex waveform | |
JP4839891B2 (ja) | 歌唱合成装置および歌唱合成プログラム | |
US7003120B1 (en) | Method of modifying harmonic content of a complex waveform | |
US5703311A (en) | Electronic musical apparatus for synthesizing vocal sounds using format sound synthesis techniques | |
EP1701336B1 (en) | Sound processing apparatus and method, and program therefor | |
JP4265501B2 (ja) | 音声合成装置およびプログラム | |
JP2002268658A (ja) | 音声分析及び合成装置、方法、プログラム | |
JP3966074B2 (ja) | ピッチ変換装置、ピッチ変換方法及びプログラム | |
JP4844623B2 (ja) | 合唱合成装置、合唱合成方法およびプログラム | |
CN100524456C (zh) | 歌唱声音合成方法和装置 | |
JP4304934B2 (ja) | 合唱合成装置、合唱合成方法およびプログラム | |
Dutilleux et al. | Time‐segment Processing | |
JPH11259066A (ja) | 音楽音響信号分離方法、その装置およびそのプログラム記録媒体 | |
TWI377557B (en) | Apparatus and method for correcting a singing voice | |
EP1505570B1 (en) | Singing voice synthesizing method | |
JP2000010597A (ja) | 音声変換装置及び音声変換方法 | |
JP4565846B2 (ja) | ピッチ変換装置 | |
JP2000010595A (ja) | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 | |
Bonada et al. | Sample-based singing voice synthesizer using spectral models and source-filter decomposition | |
JP3540609B2 (ja) | 音声変換装置及び音声変換方法 | |
JP2000259164A (ja) | 音声データ作成装置および声質変換方法 | |
JP3979213B2 (ja) | 歌唱合成装置、歌唱合成方法並びに歌唱合成用プログラム | |
JP3447220B2 (ja) | 音声変換装置及び音声変換方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040402 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060516 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060529 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 3815347 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100616 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100616 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110616 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120616 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120616 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130616 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140616 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |