JP3815347B2

JP3815347B2 - 歌唱合成方法と装置及び記録媒体

Info

Publication number: JP3815347B2
Application number: JP2002052006A
Authority: JP
Inventors: 秀紀劔持; ボナダジョルディ; ロスコスアレックス
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2002-02-27
Filing date: 2002-02-27
Publication date: 2006-08-30
Anticipated expiration: 2022-02-27
Also published as: US20030221542A1; US6992245B2; JP2003255998A

Description

【０００１】
【発明の属する技術分野】
この発明は、フェーズボコーダ技術を用いて歌唱音声を合成する方法と装置及び記録媒体に関するものである。
【０００２】
【従来の技術】
従来、歌唱合成技術としては、米国特許第５０２９５０９号明細書等により公知のＳＭＳ（Spectral Modeling Synthesis）技術を用いて歌唱合成を行なうものが知られている（例えば、特許第２９０６９７０号参照）。
【０００３】
図２１は、特許２９０６９７０号に示される技術を採用した歌唱合成装置を示すものである。ステップＳ１では、歌唱音声信号を入力し、ステップＳ２では、入力された歌唱音声信号にＳＭＳ分析処理及び区間切出し処理を施す。
【０００４】
ＳＭＳ分析処理では、入力音声信号を一連の時間フレームに区分し、各フレーム毎にＦＦＴ（Fast Fourier Transform）等により１組の強度（マグニチュード）スペクトルデータを生成し、各フレーム毎に１組の強度スペクトルデータから複数のピークに対応する線スペクトルを抽出する。これらの線スペクトルの振幅値及び周波数を表わすデータを調和成分（Deterministic Component）のデータと称する。次に、入力音声波形のスペクトルから調和成分のスペクトルを差引いて残差スペクトルを得る。この残差スペクトルを非調和成分（Stochastic Component）と称する。
【０００５】
区間切出し処理では、ＳＭＳ分析処理で得られた調和成分のデータ及び非調和成分のデータを音声素片に対応して区分する。音声素片とは、歌詞の構成要素であり、例えば［ａ］，［ｉ］のような単一の音素（又は音韻：Phoneme）又は例えば「ａｉ」，［ａｐ］のような音素連鎖（複数音素の連鎖）からなるものである。
【０００６】
音声素片データベースＤＢには、音声素片毎に調和成分のデータ及び非調和成分のデータが記憶される。
【０００７】
歌唱合成に際しては、ステップＳ３で歌詞データ及びメロディデータを入力する。そして、ステップＳ４では、歌詞データが表わす音素列に音素列／音声素片変換処理を施して音素列を音声素片に区分し、音声素片毎にそれに対応する調和成分のデータ及び非調和成分のデータを音声素片データとしてデータベースＤＢから読出す。
【０００８】
ステップＳ５では、データベースＤＢから読出された音声素片データ（調和成分のデータ及び非調和成分のデータ）に音声素片接続処理を施して音声素片データ同士を発音順に接続する。ステップＳ６では、音声素片毎に調和成分のデータと入力メロディデータの示す音符ピッチとに基づいて該音符ピッチに適合した新たな調和成分のデータを生成する。このとき、新たな調和成分のデータでは、ステップＳ５の処理を受けた調和成分のデータが表わすスペクトル包絡の形状をそのまま引継ぐようにスペクトル強度を調整すると、ステップＳ１で入力した音声信号の音色を再現することができる。
【０００９】
ステップＳ７では、ステップＳ６で生成した調和成分のデータとステップＳ５の処理を受けた非調和成分のデータとを音声素片毎に加算する。そして、ステップＳ８では、ステップＳ７で加算処理を受けたデータを音声素片毎に逆ＦＦＴ等により時間領域の合成音声信号に変換する。
【００１０】
一例として、「サイタ」（ｓａｉｔａ）という歌唱音声を合成するには、データベースＤＢから音声素片「＃ｓ」、「ｓａ」、「ａ」、「ａｉ」、「ｉ」、「ｉｔ」、「ｔａ」、「ａ」、「ａ＃」（＃は無音を表わす）にそれぞれ対応する音声素片データを読出してステップＳ５で接続する。そして、ステップＳ６で音声素片毎に入力音符ピッチに対応するピッチを有する調和成分のデータを生成し、ステップＳ７の加算処理及びステップＳ８の変換処理を経ると、「サイタ」の歌唱合成音信号が得られる。
【００１１】
【発明が解決しようとする課題】
上記した従来技術によると、調和成分と非調和成分の一体感が十分でないという問題点がある。すなわち、ステップＳ１で入力した音声信号のピッチをステップＳ６で入力音符ピッチに対応して変更し、変更したピッチを有する調和成分のデータにステップＳ７で非調和成分のデータを加算するため、例えば、「サイタ」の歌唱における「ｉ」のような伸ばし音の区間で非調和成分が分離して響き、人工的な音声として聴こえるという問題点がある。
【００１２】
このような問題点に対処するため、非調和成分のデータが表わす低域の振幅スペクトル分布を入力音符ピッチに応じて修正することを本願出願人は先に提案した（特願２０００−４０１０４１参照）。しかし、このように非調和成分のデータを修正しても、非調和成分が分離して響くのを完全に抑えるのは容易でない。
【００１３】
また、ＳＭＳ技術にあっては、有音の摩擦音や破裂音等の分析が難しく、合成音が非常に人工的な音になってしまうという問題点もある。ＳＭＳ技術は、音声信号が調和成分と非調和成分とから成り立っていることを前提にしているものであり、音声信号を調和成分と非調和成分とに完全に分離できないことは、ＳＭＳ技術にとって根本的な問題といえる。
【００１４】
一方、フェーズボコーダ技術は、米国特許第３３６０６１０号明細書に示されている。フェーズボコーダ技術では、古くはフィルタバンクとして、新しくは入力信号のＦＦＴ結果として周波数領域で信号を表現する。最近では、フェーズボコーダ技術が楽音の時間軸圧伸（ピッチをそのままにして時間だけ圧縮又は伸張する）やピッチ変換（時間長はそのままにしてピッチだけ変化させる）などに広く利用されている。この種のピッチ変換技術としては、入力信号のＦＦＴ結果をそのまま用いるのではなく、ＦＦＴスペクトルを局所的ピークを中心とした複数のスペクトル分布領域に分割し、各スペクトル分布領域毎にスペクトル分布を周波数軸上で移動することによりピッチ変換を行なうものが知られている（例えば、Ｊ．Laroche and Ｍ．Dolson，“New Phase−Vocoder Techniques for Real−Time Pitch Shifting，Chorusing，Harmonizing，and Other Exotic Audio Modifications”Ｊ．Audio Eng．Soc．，Vol．４７，No．１１，１９９９ November 参照）。しかし、このようなピッチ変換技術と歌唱合成技術との関連性については明らかにされていない。
【００１５】
この発明の目的は、フェーズボコーダ技術を用いて自然で高品質の音声合成を可能にした新規な歌唱合成方法と装置及び記録媒体を提供することにある。
【００１６】
【課題を解決するための手段】
この発明に係る第１の歌唱合成方法は、
合成すべき音声の音声素片に対応する音声波形を周波数分析して周波数スペクトルを検出するステップと、
前記周波数スペクトル上でスペクトル強度の局所的ピークを複数検知するステップと、
各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域を前記周波数スペクトル上で指定し、各スペクトル分布領域毎に振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルデータを生成するステップと、
各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わす位相スペクトルデータを生成するステップと、
前記合成すべき音声についてピッチを指定するステップと、
各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を前記ピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正するステップと、
各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正するステップと、
前記修正に係る振幅スペクトルデータ及び前記修正に係る位相スペクトルデータを時間領域の合成音声信号に変換するステップと
を含むものである。
【００１７】
第１の歌唱合成方法によれば、音声素片（音素又は音素連鎖）に対応する音声波形が周波数分析されて周波数スペクトルが検出される。そして、周波数スペクトルに基づいて振幅スペクトルデータと、位相スペクトルデータとが生成される。所望のピッチが指定されると、指定のピッチに応じて振幅スペクトルデータ及び位相スペクトルデータが修正され、修正に係る振幅スペクトルデータ及び位相スペクトルデータに基づいて時間領域の合成音声信号が発生される。このように音声波形の周波数分析結果を調和成分と非調和成分とに分離しないで音声合成を行なうため、非調和成分が分離して響くことがなく、自然な合成音を得ることができる。また、有声の摩擦音や破裂音であっても自然な合成音が得られる。
【００１８】
この発明に係る第２の歌唱合成方法は、
合成すべき音声の音声素片に対応する振幅スペクトルデータ及び位相スペクトルデータを取得するステップであって、前記振幅スペクトルデータとしては、前記音声素片の音声波形を周波数分析して得た周波数スペクトルにおいてスペクトル強度の複数の局所的ピークのうちの各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域における振幅スペクトル分布を周波数軸に関して表わすデータを取得し、前記位相スペクトルデータとしては、各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わすデータを取得するものと、
前記合成すべき音声についてピッチを指定するステップと、
各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を前記ピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正するステップと、
各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正するステップと、
前記修正に係る振幅スペクトルデータ及び前記修正に係る位相スペクトルデータを時間領域の合成音声信号に変換するステップと
を含むものである。
【００１９】
第２の歌唱合成方法は、第１の歌唱合成方法において、位相スペクトルデータを生成するステップまでの処理を予め実行して振幅スペクトルデータ及び位相スペクトルデータを音声素片毎にデータベースに記憶しておいた場合、又は位相スペクトルデータを生成するステップまでの処理を他の機器で実行する場合に相当する。すなわち、第２の歌唱合成方法において、取得するステップでは、他の機器又はデータベースから合成すべき音声の音声素片に対応する振幅スペクトルデータ及び位相スペクトルデータを取得し、ピッチを指定するステップ以降の処理を第１の歌唱合成方法と同様に実行する。従って、第２の歌唱合成方法によれば、第１の歌唱合成方法と同様に自然な合成音が得られる。
【００２０】
第１又は第２の歌唱合成方法において、前記ピッチを指定するステップでは、経時的なピッチ変化を示すピッチゆらぎデータに従って前記ピッチを指定するようにしてもよい。このようにすると、合成音のピッチを経時的に変化させることができ、例えばピッチベンド、ビブラート等を付加することができる。また、前記ピッチゆらぎデータとしては、前記合成すべき音声について音楽的表情を制御するための制御パラメータに対応したピッチゆらぎデータを用いるようにしてもよい。このようにすると、例えば音色、ダイナミクス等の制御パラメータに応じて経時的なピッチ変化態様を異ならせることができる。
【００２１】
第１又は第２の歌唱合成方法において、前記振幅スペクトルデータを修正するステップでは、修正前の複数の局所的ピークを結ぶ線に対応するスペクトル包絡に沿わない局所的ピークについてスペクトル強度を該スペクトル包絡に沿うように修正するようにしてもよい。このようにすると、元の音声波形の音色を再現することができる。また、前記振幅スペクトルデータを修正するステップでは、予め定めたスペクトル包絡に沿わない局所的ピークについてスペクトル強度を該スペクトル包絡に沿うように修正するようにしてもよい。このようにすると、元の音声波形とは音色を異ならせることができる。
【００２２】
上記のようにスペクトル強度をスペクトル包絡に沿うように修正する場合において、前記振幅スペクトルデータを修正するステップでは、一連の時間フレームについて経時的なスペクトル包絡の変化を示すスペクトル包絡ゆらぎデータに従ってスペクトル強度を調整することにより経時的に変化するスペクトル包絡を設定するようにしてもよい。このようにすると、合成音の音色を経時的に変化させることができ、例えばトーンベンド等を付加することができる。また、前記スペクトル包絡ゆらぎデータとしては、前記合成すべき音声について音楽的表情を制御するための制御パラメータに対応したスペクトル包絡ゆらぎデータを用いるようにしてもよい。このようにすると、例えば音色、ダイナミクス等の制御パラメータに応じて経時的な音色変化態様を異ならせることができる。
【００２３】
この発明に係る第１の歌唱合成装置は、
合成すべき音声について音声素片及びピッチを指定する指定手段と、
音声素片データベースから音声素片データとして前記音声素片に対応する音声波形を表わす音声波形データを読出す読出手段と、
前記音声波形データが表わす音声波形を周波数分析して周波数スペクトルを検出する検出手段と、
前記音声波形に対応する周波数スペクトル上でスペクトル強度の局所的ピークを複数検知する検知手段と、
各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域を前記周波数スペクトル上で指定し、各スペクトル分布領域毎に振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルデータを生成する第１の生成手段と、
各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わす位相スペクトルデータを生成する第２の生成手段と、
各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を前記ピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正する第１の修正手段と、
各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正する第２の修正手段と、前記修正に係る振幅スペクトルデータ及び前記修正に係る位相スペクトルデータを時間領域の合成音声信号に変換する変換手段と
を備えたものである。
【００２４】
また、この発明に係る第２の歌唱合成装置は、
合成すべき音声について音声素片及びピッチを指定する指定手段と、
音声素片データベースから音声素片データとして前記音声素片に対応する振幅スペクトルデータ及び位相スペクトルデータを読出す読出手段であって、前記振幅スペクトルデータとしては、前記音声素片の音声波形を周波数分析して得た周波数スペクトルにおいてスペクトル強度の複数の局所的ピークのうちの各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域における振幅スペクトル分布を周波数軸に関して表わすデータを読出し、前記位相スペクトルデータとしては、各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わすデータを読出すものと、
各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を前記ピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正する第１の修正手段と、
各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正する第２の修正手段と、前記修正に係る振幅スペクトルデータ及び前記修正に係る位相スペクトルデータを時間領域の合成音声信号に変換する変換手段と
を備えたものである。
【００２５】
第１又は第２の歌唱合成装置は、音声素片データベースを用いて前述の第１又は第２の歌唱合成方法を実施するものであり、自然な歌唱合成音を得ることができる。
【００２６】
第１又は第２の歌唱合成装置において、前記指定手段は、前記合成すべき音声について音楽的表情を制御するための制御パラメータを指定し、前記読出手段は、前記音声素片及び前記制御パラメータに対応する音声素片データを読出すようにしてもよい。このようにすると、例えば音色、ダイナミクス等の制御パラメータに最適の音声素片データを用いて歌唱合成を行なうことができる。
【００２７】
第１又は第２の歌唱合成装置において、前記指定手段は、前記合成すべき音声について音符長及び／又はテンポを指定し、前記読出手段は、前記音声素片データを読出す際に前記音声素片データの一部を省略するか又は前記音声素片データの一部もしくは全部を繰返すかして前記音符長及び／又はテンポに対応する時間のあいだ前記音声素片データの読出しを継続するようにしてもよい。このようにすると、音符長及び／又はテンポに最適の発音継続時間を得ることができる。
【００２８】
この発明に係る第３の歌唱合成装置は、
順次に合成すべき音声のうちの各音声毎に音声素片及びピッチを指定する指定手段と、
音声素片データベースから前記指定手段での指定に係る各音声素片に対応する音声波形を読出す読出手段と、
各音声素片に対応する音声波形を周波数分析して周波数スペクトルを検出する検出手段と、
各音声素片に対応する周波数スペクトル上でスペクトル強度の局所的ピークを複数検知する検知手段と、
各音声素片について各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域を該音声素片に対応する周波数スペクトル上で指定し、各音声素片について各スペクトル分布領域毎に振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルデータを生成する第１の生成手段と、
各音声素片について各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わす位相スペクトルデータを生成する第２の生成手段と、
各音声素片について各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を該音声素片に対応するピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正する第１の修正手段と、
各音声素片について各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正する第２の修正手段と、
前記順次に合成すべき音声にそれぞれ対応する順次の音声素片が発音順につながるように前記修正に係る振幅スペクトルデータを接続する第１の接続手段であって、前記順次の音声素片のつながり部においてスペクトル強度を一致又は近似させるべくスムージング処理又はレベル整合処理により調整するものと、
前記順次に合成すべき音声にそれぞれ対応する順次の音声素片が発音順につながるように前記修正に係る位相スペクトルデータを接続する第２の接続手段であって、前記順次の音声素片のつながり部において位相を一致又は近似させるべくスムージング処理又はレベル整合処理により調整するものと、
前記接続に係る振幅スペクトルデータ及び前記接続に係る位相スペクトルデータを時間領域の合成音声信号に変換する変換手段と
を備えたものである。
【００２９】
また、この発明に係る第４の歌唱合成装置は、
順次に合成すべき音声のうちの各音声毎に音声素片及びピッチを指定する指定手段と、
音声素片データベースから前記指定手段での指定に係る各音声素片に対応する振幅スペクトルデータ及び位相スペクトルデータを読出す読出手段であって、前記振幅スペクトルデータとしては、対応する音声素片の音声波形を周波数分析して得た周波数スペクトルにおいてスペクトル強度の複数の局所的ピークのうちの各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域における振幅スペクトル分布を周波数軸に関して表わすデータを読出し、前記位相スペクトルデータとしては、各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わすデータを読出すものと、
各音声素片について各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を該音声素片に対応するピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正する第１の修正手段と、
各音声素片について各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正する第２の修正手段と、
前記順次に合成すべき音声にそれぞれ対応する順次の音声素片が発音順につながるように前記修正に係る振幅スペクトルデータを接続する第１の接続手段であって、前記順次の音声素片のつながり部においてスペクトル強度を一致又は近似させるべくスムージング処理又はレベル整合処理により調整するものと、
前記順次に合成すべき音声にそれぞれ対応する順次の音声素片が発音順につながるように前記修正に係る位相スペクトルデータを接続する第２の接続手段であって、前記順次の音声素片のつながり部において位相を一致又は近似させるべくスムージング処理又はレベル整合処理により調整するものと、
前記接続に係る振幅スペクトルデータ及び前記接続に係る位相スペクトルデータを時間領域の合成音声信号に変換する変換手段と
を備えたものである。
【００３０】
第３又は第４の歌唱合成装置は、音声素片データベースを用いて前述の第１又は第２の歌唱合成方法を実施するものであり、自然な歌唱合成音を得ることができる。その上、順次の音声素片が発音順につながるように修正に係る振幅スペクトルデータ同士、修正に係る位相スペクトルデータ同士をそれぞれ接続する際に順次の音声素片のつながり部においてスペクトル強度、位相をそれぞれ一致又は近似させるべく調整するようにしたので、合成音の発生時にノイズが発生するのを防止することができる。
【００３１】
【発明の実施の形態】
図１は、この発明の一実施形態に係る歌唱合成装置の回路構成を示すものである。この歌唱合成装置は、小型コンピュータ１０によって動作が制御される構成になっている。
【００３２】
バス１１には、ＣＰＵ（中央処理装置）１２、ＲＯＭ（リード・オンリィ・メモリ）１４、ＲＡＭ（ランダム・アクセス・メモリ）１６、歌唱入力部１７、歌詞・メロディ入力部１８、制御パラメータ入力部２０、外部記憶装置２２、表示部２４、タイマ２６、Ｄ／Ａ（ディジタル／アナログ）変換部２８、ＭＩＤＩ（Musical Instrument Digital Interface）インターフェース３０、通信インターフェース３２等が接続されている。
【００３３】
ＣＰＵ１２は、ＲＯＭ１４にストアされたプログラムに従って歌唱合成等に関する各種処理を実行するもので、歌唱合成に関する処理については図２〜７等を参照して後述する。
【００３４】
ＲＡＭ１６は、ＣＰＵ１２の各種処理に際してワーキングエリアとして使用される種々の記憶部を含むものである。この発明の実施に関係する記憶部としては、例えば入力部１７，１８，２０にそれぞれ対応する入力データ記憶領域等が存在するが、詳細については後述する。
【００３５】
歌唱入力部１７は、歌唱音声信号を入力するためのマイクロホン、音声入力端子等を有するもので、入力した歌唱音声信号をディジタル波形データに変換するＡ／Ｄ（アナログ／ディジタル）変換器を備えている。入力に係るディジタル波形データは、ＲＡＭ１６内の所定領域に記憶される。
【００３６】
歌詞・メロディ入力部１８は、文字、数字等を入力可能なキーボード、楽譜読取り可能な読取器等を備えたもので、所望の歌唱曲について歌詞を構成する音素列を表わす歌詞データとメロディを構成する音符列（休符も含む）を表わすメロディデータを入力可能である。入力に係る歌詞データ及びメロディデータは、ＲＡＭ１６内の所定の領域に記憶される。
【００３７】
制御パラメータ入力部２０は、スイッチ、ボリューム等のパラメータ設定器を備えたもので、歌唱合成音について音楽的表情を制御するための制御パラメータを設定可能である。制御パラメータとしては、音色、ピッチ区分（高、中、低等）、ピッチのゆらぎ（ピッチベンド、ビブラート等）、ダイナミクス区分（音量レベルの大、中、小等）、テンポ区分（テンポの速い、中位、遅い等）などを設定可能である。設定に係る制御パラメータを表わす制御パラメータデータは、ＲＡＭ１６内の所定領域に記憶される。
【００３８】
外部記憶装置２２は、ＨＤ（ハードディスク）、ＦＤ（フレキシブルディスク）、ＣＤ（コンパクトディスク）、ＤＶＤ（ディジタル多目的ディスク）、ＭＯ（光磁気ディスク）等のうち１又は複数種類の記録媒体を着脱可能なものである。外部記憶装置２２に所望の記録媒体を装着した状態では、記録媒体からＲＡＭ１６へデータを転送可能である。また、装着した記録媒体がＨＤやＦＤのように書込み可能なものであれば、ＲＡＭ１６のデータを記録媒体に転送可能である。
【００３９】
プログラム記録手段としては、ＲＯＭ１４の代わりに外部記憶装置２２の記録媒体を用いることができる。この場合、記録媒体に記録したプログラムは、外部記憶装置２２からＲＡＭ１６へ転送する。そして、ＲＡＭ１６に記憶したプログラムにしたがってＣＰＵ１２を動作させる。このようにすると、プログラムの追加やバージョンアップ等を容易に行なうことができる。
【００４０】
表示部２４は、液晶表示器等の表示器を含むもので、前述した歌詞データ及びメロディデータ、後述する周波数分析結果等の種々の情報を表示可能である。
【００４１】
タイマ２６は、テンポデータＴＭの指示するテンポに対応した周期でテンポクロック信号ＴＣＬを発生するもので、テンポクロック信号ＴＣＬは、ＣＰＵ１２に供給される。ＣＰＵ１２は、テンポクロック信号ＴＣＬに基づいてＤ／Ａ変換部２８への信号出力処理を行なう。テンポデータＴＭの指示するテンポは、入力部２０内のテンポ設定器により可変設定することができる。
【００４２】
Ｄ／Ａ変換部２８は、合成されたディジタル音声信号をアナログ音声信号に変換するものである。Ｄ／Ａ変換部２８から送出されるアナログ音声信号は、アンプ、スピーカ等を含むサウンドシステム３４により音響に変換される。
【００４３】
ＭＩＤＩインターフェース３０は、この歌唱合成装置とは別体のＭＩＤＩ機器３６との間でＭＩＤＩ通信を行なうために設けられたもので、この発明では、ＭＩＤＩ機器３６から歌唱合成用のデータを受信するために用いられる。歌唱合成用のデータとしては、所望の歌唱曲に関する歌詞データ及びメロディデータ、音楽的表情を制御するための制御パラメータデータ等を受信可能である。これらの歌唱合成用データは、いわゆるＭＩＤＩフォーマットに従って作成されるものであり、入力部１８から入力される歌詞データ及びメロディデータや入力部２０から入力される制御パラメータデータについてもＭＩＤＩフォーマットを採用するのが好ましい。
【００４４】
ＭＩＤＩインターフェース３０を介して受信される歌詞データ、メロディデータ及び制御パラメータデータについては、他のデータより時間的に先送り可能とするため、ＭＩＤＩのシステムエクスクルーシブデータ（メーカーで独自に定義可能なデータ）とするのが好ましい。また、入力部２０から入力される制御パラメータデータ又はＭＩＤＩインターフェース３０を介して受信される制御パラメータデータのうちの１種類のデータとしては、後述するデータベースに歌手（音色）毎に音声素片データを記憶した場合に歌手（音色）指定データを用いるようにしてもよい。この場合、歌手（音色）指定データとしては、ＭＩＤＩのプログラムチェンジデータを使用することができる。
【００４５】
通信インターフェース３２は、通信ネットワーク（例えばＬＡＮ（ローカル・エリア・ネットワーク）、インターネット、電話回線等）３７を介して他のコンピュータ３８と情報通信を行なうために設けられたものである。この発明の実施に必要なプログラムや各種データ（例えば歌詞データ、メロディデータ、音声素片データ等）は、コンピュータ３８から通信ネットワーク３７及び通信インターフェース３２を介してＲＡＭ１６または外部記憶装置２２へダウンロード要求に応じて取込むようにしてもよい。
【００４６】
次に、図２を参照して歌唱分析処理の一例を説明する。ステップ４０では、入力部１７からマイクロホン又は音声入力端子を介して歌唱音声信号を入力してＡ／Ｄ変換し、入力信号の音声波形を表わすディジタル波形データをＲＡＭ１６に記憶させる。図８（Ａ）には、入力音声波形の一例を示す。なお、図８（Ａ）及びその他の図において、「ｔ」は時間を表わす。
【００４７】
ステップ４２では、記憶に係るディジタル波形データについて音声素片（音素又は音素連鎖）に対応する区間毎に区間波形を切出す（ディジタル波形データを分割する）。音声素片としては、母音の音素、母音と子音又は子音と母音の音素連鎖、子音と子音の音素連鎖、母音と母音の音素連鎖、無音と子音又は母音の音素連鎖、母音又は子音と無音の音素連鎖等があり、母音の音素としては、母音を伸ばして歌唱した伸ばし音の音素もある。一例として、「サイタ」の歌唱については、音声素片「＃ｓ」、「ｓａ」、「ａ」、「ａｉ」、「ｉ」、「ｉｔ」、「ｔａ」、「ａ」、「ａ＃」にそれぞれ対応する区間波形を切出す。
【００４８】
ステップ４４では、区間波形毎に１又は複数の時間フレームを定め、各フレーム毎にＦＦＴ等により周波数分析を実行して周波数スペクトル（振幅スペクトルと位相スペクトル）を検出する。そして、周波数スペクトルを表わすデータをＲＡＭ１６の所定領域に記憶させる。フレーム長は、一定長であってもよく、あるいは可変長であってもよい。フレーム長を可変長とするには、あるフレームを固定長として周波数分析した後、周波数分析の結果からピッチを検出し、検出ピッチに応じたフレーム長を設定して再び該フレームの周波数分析を行なう方法、あるいはあるフレームを固定長として周波数分析した後、周波数分析の結果からピッチを検出し、検出ピッチに応じて次のフレームの長さを設定し、該次のフレームの周波数分析を行なう方法等を採用することができる。フレーム数は、母音のみからなる単一の音素については、１又は複数フレームとするが、音素連鎖については、複数フレームとする。図８（Ｂ）には、図８（Ａ）の音声波形をＦＦＴにより周波数分析して得た周波数スペクトルを示す。なお、図８（Ｂ）及びその他の図において、「ｆ」は周波数を表わす。
【００４９】
次に、ステップ４６では、音声素片毎に振幅スペクトルに基づいてピッチを検出し、検出ピッチを表わすピッチデータを生成し、ＲＡＭ１６の所定領域に記憶させる。ピッチ検出は、フレーム毎に求めたピッチを全フレームについて平均する方法等により行なうことができる。
【００５０】
ステップ４８では、フレーム毎に振幅スペクトル上でスペクトル強度（振幅）の局所的ピークを複数検知する。局所的ピークを検知するには、近隣の複数（例えば４つ）のピークについて振幅値が最大のピークを検知する方法等を用いることができる。図８（Ｂ）には、検知した複数の局所的ピークＰ_１，Ｐ_２，Ｐ_３…が示されている。
【００５１】
ステップ５０では、フレーム毎に振幅スペクトル上で各局所的ピークに対応するスペクトル分布領域を指定し、該領域内の振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルデータを生成し、ＲＡＭ１６の所定領域に記憶させる。スペクトル分布領域を指定する方法としては、隣り合う２つの局所的ピーク間で周波数軸を半分に切り、各半分を近い方の局所的ピークを含むスペクトル分布領域に割当てる方法、あるいは隣り合う２つの局所的ピーク間で振幅値が最低の谷を見出し、最低の振幅値に対応する周波数を隣り合うスペクトル分布領域間の境界とする方法等を採用することができる。図８（Ｂ）には、前者の方法により局所的ピークＰ_１，Ｐ_２，Ｐ_３…をそれぞれ含むスペクトル分布領域Ｒ_１，Ｒ_２，Ｒ_３…を指定した例を示す。
【００５２】
ステップ５２では、フレーム毎に位相スペクトルに基づいて各スペクトル分布領域内の位相スペクトル分布を周波数軸に関して表わす位相スペクトルデータを生成し、ＲＡＭ１６内の所定領域に記憶させる。図１０（Ａ）には、あるフレームのあるスペクトル分布領域における振幅スペクトル分布及び位相スペクトル分布がそれぞれ曲線ＡＭ_１及びＰＨ_１により示されている。
【００５３】
ステップ５４では、音声素片毎にピッチデータ、振幅スペクトルデータ及び位相スペクトルデータを音声素片データベースに記憶させる。音声素片データベースとしては、ＲＡＭ１６または外部記憶装置２２を使用することができる。
【００５４】
図３は、音声素片データベースＤＢＳにおける記憶状況の一例を示すものである。データベースＤＢＳには、「ａ」、「ｉ」…等の単一音素に対応する音声素片データと、「ａｉ」、「ｓａ」…等の音素連鎖に対応する音声素片データとが記憶される。ステップ５４では、音声素片データとして、ピッチデータ、振幅スペクトルデータ及び位相スペクトルデータが記憶される。
【００５５】
音声素片データの記憶に際しては、各音声素片毎に歌手（音色）、ピッチ区分、ダイナミクス区分、テンポ区分等を異にする音声素片データを記憶すると、自然な（又は高品質）の歌唱音を合成可能になる。例えば、［ａ］の音声素片について、歌手Ａにピッチ区分を低、中、高として、ダイナミクス区分を小、中、大として、テンポ区分を遅い、中位、速いとして歌ってもらい、ピッチ区分「低」で且つダイナミクス区分「小」であっても、テンポ区分「遅い」、「中位」、「速い」にそれぞれ対応する音声素片データＭ１，Ｍ２，Ｍ３を記憶し、同様にしてピッチ区分「中」、「高」やダイナミクス区分「中」、「大」についても音声素片データを記憶する。ステップ４６で生成したピッチデータは、音声素片データが「低」、「中」、「高」のいずれのピッチ区分に属するか判定する際に利用される。
【００５６】
また、歌手Ａとは音色を異にする歌手Ｂについても、歌手Ａについて上記したと同様にピッチ区分、ダイナミクス区分、テンポ区分等を異にする多数の［ａ］の音声素片データをデータベースＤＢＳに記憶させる。［ａ］以外の他の音声素片についても、歌手Ａ，Ｂについて上記したと同様に多数の音声素片データをデータベースＤＢＳに記憶させる。
【００５７】
上記した例では、入力部１７から入力した歌唱音声信号に基づいて音声素片データを作成したが、歌唱音声信号は、インターフェース３０又は３２を介して入力し、この入力音声信号に基づいて音声素片データを作成するようにしてもよい。また、データベースＤＢＳとしては、ＲＡＭ１６や外部記憶装置２２に限らず、ＲＯＭ１４、ＭＩＤＩ機器３６内の記憶装置、コンピュータ３８内の記憶装置等を用いてもよい。
【００５８】
図４は、歌唱合成処理の一例を示すものである。ステップ６０では、所望の歌唱曲に関して歌詞データ及びメロディデータを入力部１８から入力し、ＲＡＭ１６に記憶させる。歌詞データ及びメロディデータは、インターフェース３０又は３２を介して入力することもできる。
【００５９】
ステップ６２では、入力に係る歌詞データが表わす音素列を個々の音声素片に変換する。そして、ステップ６４では、音声素片毎に対応する音声素片データ（ピッチデータ、振幅スペクトルデータ及び位相スペクトルデータ）をデータベースＤＢＳから読出す。ステップ６４では、入力部２０から制御パラメータとして音色、ピッチ区分、ダイナミクス区分、テンポ区分等のデータを入力し、該データの指示する制御パラメータに対応した音声素片データを読出してもよい。
【００６０】
ところで、音声素片の発音継続時間は、音声素片データのフレーム数に対応する。すなわち、記憶に係る音声素片データをそのまま用いて音声合成を行なうと、該音声素片データのフレーム数に対応した発音継続時間が得られる。しかし、入力される音符の音価（入力音符長）や設定テンポ等によっては記憶に係る音声素片データをそのまま用いたのでは発音継続時間が不適切になることがあり、発音継続時間を変更することが必要となる。このような必要に応えるためには、入力音符長や設定テンポ等に応じて音声素片データの読出しフレーム数を制御すればよい。
【００６１】
例えば、音声素片の発音継続時間を短縮するには、音声素片データを読出す際に、一部のフレームを飛ばして読出す。また、音声素片の発音継続時間を伸張するには、音声素片データを反復的に読出す。なお、「ａ」のような単一音素の伸ばし音を合成する際には、発音継続時間を変更することが多い。伸ばし音の合成については、図１４〜１６を参照して後述する。
【００６２】
ステップ６６では、音声素片毎に対応する入力音符のピッチに応じて各フレームの振幅スペクトルデータを修正する。すなわち、各スペクトル分布領域毎に振幅スペクトルデータが表わす振幅スペクトル分布を入力音符ピッチに相当するピッチになる様に周波数軸上で移動する。
【００６３】
図１０（Ａ），（Ｂ）は、局所的ピークの周波数がｆ_ｉであり且つ下限周波数及び上限周波数がそれぞれｆ_Ｌ及びｆ_Ｕであるスペクトル分布領域についてピッチを上昇させるためスペクトル分布ＡＭ_１をＡＭ_２のように周波数軸上で高音側に移動した例を示す。この場合、スペクトル分布ＡＭ_２については、局所的ピークの周波数がＦ_ｉ＝Ｔ・ｆ_ｉであり、Ｔ＝Ｆ_ｉ／ｆ_ｉをピッチ変換比と称する。また、下限周波数Ｆ_Ｌ及び上限周波数Ｆ_Ｕは、それぞれ周波数差（ｆ_ｉ−ｆ_Ｌ）及び（ｆ_Ｕ−ｆ_ｉ）に対応して定める。
【００６４】
図９には、（Ａ）に示すようなスペクトル分布領域（図８（Ｂ）と同じもの）Ｒ_１，Ｒ_２，Ｒ_３…について局所的ピークＰ_１，Ｐ_２，Ｐ_３…をそれぞれ有するスペクトル分布を（Ｂ）に示す様に周波数軸上で高音側に移動した例を示す。図９（Ｂ）に示されるスペクトル分布領域Ｒ_１において、局所的ピークＰ_１の周波数、下限周波数ｆ_１１及び上限周波数ｆ_１２は、図１０に関して上記したと同様に定められる。このことは、他のスペクトル分布領域についても同様である。
【００６５】
上記した例では、ピッチを上昇させるためスペクトル分布を周波数軸上で高音側に移動したが、ピッチを低下させるためスペクトル分布を周波数軸上で低音側に移動することもできる。この場合、図１１に示す様に２つのスペクトル分布領域Ｒａ，Ｒｂに部分的な重なりが生ずる。
【００６６】
図１１の例では、局所的ピークＰａと下限周波数ｆ_ａ１と上限周波数ｆ_ａ２とを有するスペクトル分布領域Ｒａに対して、局所的ピークＰｂと下限周波数ｆ_ｂ１（ｆ_ｂ１＜ｆ_ａ２）と上限周波数ｆ_ｂ２（ｆ_ｂ２＞ｆ_ａ２）とを有するスペクトル分布領域Ｒｂが周波数ｆ_ｂ１〜ｆ_ａ２の領域で重なっている。このような事態を回避するため、一例として、ｆ_ｂ１〜ｆ_ａ２の周波数領域を中心周波数ｆ_ｃで２分割し、領域Ｒａの上限周波数ｆ_ａ２をｆ_ｃより低い所定の周波数に変更すると共に、領域Ｒｂの下限周波数ｆ_ｂ１をｆ_ｃより高い所定の周波数に変更する。この結果、領域Ｒａでは、ｆ_ｃより低い周波数領域でスペクトル分布ＡＭａを利用可能となり、領域Ｒｂでは、ｆ_ｃより高い周波数領域でスペクトル分布ＡＭｂを利用可能となる。
【００６７】
上記のように局所的ピークを含むスペクトル分布を周波数軸上で移動する際、周波数の設定を変更するだけではスペクトル包絡が伸び縮みすることになり、音色が入力音声波形のものとは異なる事態が生ずる。そこで、入力音声波形の音色を再現するためには、各フレーム毎に一連のスペクトル分布領域の局所的ピークを結ぶ線に相当するスペクトル包絡に沿うように１又は複数のスペクトル分布領域の局所的ピークについてスペクトル強度を調整する必要がある。
【００６８】
図１２は、スペクトル強度調整の一例を示すもので、（Ａ）は、ピッチ変換前の局所的ピークＰ_１１〜Ｐ_１８に対応するスペクトル包絡ＥＶを示す。入力音符ピッチに応じてピッチを上昇させるため局所的ピークＰ_１１〜Ｐ_１８をそれぞれ（Ｂ）のＰ_２１〜Ｐ_２８に示すように周波数軸上で移動する際にスペクトル包絡ＥＶに沿わない局所的ピークについてはスペクトル包絡ＥＶに沿うようにスペクトル強度を増大又は減少させる。この結果、入力音声波形と同様の音色が得られる。
【００６９】
図１２（Ａ）において、Ｒｆは、スペクトル包絡が欠如した周波数領域であり、ピッチを上昇させる場合には、図１２（Ｂ）に示す様に周波数領域Ｒｆ内にＰ_２７，Ｐ_２８等の局所的ピークを移動する必要が生ずることがある。このような事態に対処するには、図１２（Ｂ）に示す様に周波数領域Ｒｆについて補間法によりスペクトル包絡ＥＶを求め、求めたスペクトル包絡ＥＶに従って局所的ピークのスペクトル強度の調整を行なえばよい。
【００７０】
上記した例では、入力音声波形の音色を再現するようにしたが、入力音声波形とは異なる音色を合成音声に付与するようにしてもよい。このためには、図１２に示したようなスペクトル包絡ＥＶを変形したスペクトル包絡を用いるか又は全く新しいスペクトル包絡を用いるかして上記したと同様に局所的ピークのスペクトル強度を調整すればよい。
【００７１】
スペクトル包絡を用いた処理を簡素化するには、スペクトル包絡を曲線又は直線等で表現するのが好ましい。図１３には、２種類のスペクトル包線曲線ＥＶ_１，ＥＶ_２を示す。曲線ＥＶ_１は、局所的ピーク間を直線で結ぶことによりスペクトル包絡を折れ線で簡単に表現したものである。また、曲線ＥＶ_２は、スペクトル包絡を３次のスプライン関数で表わしたものである。曲線ＥＶ_２を用いると、補間をより正確に行なうことができる。
【００７２】
次に、図４のステップ６８では、音声素片毎に各フレームの振幅スペクトルデータの修正に対応して位相スペクトルデータを修正する。すなわち、図１０（Ａ）に示すようにあるフレームにおけるｉ番目の局所的ピークを含むスペクトル分布領域では、位相スペクトル分布ＰＨ_１が振幅スペクトル分布ＡＭ_１に対応したものであり、ステップ６６で振幅スペクトル分布ＡＭ_１をＡＭ_２のように移動したときは、振幅スペクトル分布ＡＭ_２に対応して位相スペクトル分布ＰＨ_１を調整する必要がある。これは、移動先の局所的ピークの周波数で正弦波になるようにするためである。
【００７３】
ｉ番目の局所的ピークを含むスペクトル分布領域に関する位相の補正量Δψ_ｉは、フレーム間の時間間隔をΔｔ、局所的ピークの周波数をｆ_ｉ、ピッチ変換比をＴとすると、次の数１の式で与えられる。
【００７４】
【数１】
Δψ_ｉ＝２πｆ_ｉ（Ｔ−１）Δｔ
数１の式で求められた補正量Δψ_ｉは、図１０（Ｂ）に示す様に周波数Ｆ_Ｌ〜Ｆ_Ｕの領域内の各位相スペクトルの位相に加算され、局所的ピークの周波数Ｆ_ｉでは位相がψ_ｉ＋Δψ_ｉとなる。
【００７５】
上記のような位相の補正は、各スペクトル分布領域毎に行なわれる。例えば、あるフレームにおいて、局所的ピークの周波数が完全に調和関係にある（倍音の周波数が基音の周波数の完全な整数倍になっている）場合には、入力音声の基音周波数（すなわち音声素片データ内のピッチデータが示すピッチ）をｆ_０とし、スペクトル分布領域の番号をｋ＝１，２，３…とすると、位相補正量Δψ_ｉは、次の数２の式で与えられる。
【００７６】
【数２】
Δψ_ｉ＝２πｆ_０ｋ（Ｔ−１）Δｔ
ステップ７０では、音声素片毎に設定テンポ等に応じて発音開始時刻を決定する。発音開始時刻は、設定テンポや入力音符長等に依存し、テンポクロック信号ＴＣＬのクロック数で表わすことができる。一例として、「サイタ」の歌唱の場合、「ｓａ」の音声素片の発音開始時刻は、入力音符長及び設定テンポで決まるノートオン時刻に「ｓ」ではなく「ａ」の発音が開始されるように設定する。ステップ６０でリアルタイムで歌詞データ及びメロディを入力してリアルタイムで歌唱合成を行なうときは、子音及び母音の音素連鎖について上記のような発音開始時刻の設定が可能になるようにノートオン時刻より前に歌詞データ及びメロディデータを入力する。
【００７７】
ステップ７２では、音声素片間でスペクトル強度のレベルを調整する。このレベル調整処理は、振幅スペクトルデータ及び位相スペクトルデータのいずれについても行なわれるもので、次のステップ７４でのデータ接続に伴って合成音発生時にノイズが発生するのを回避するために行なわれる。レベル調整処理としては、スムージング処理、レベル整合処理等があるが、これらの処理については図１７〜２０を参照して後述する。
【００７８】
ステップ７４では、音声素片の発音順に振幅スペクトルデータ同士、位相スペクトルデータ同士をそれぞれ接続する。そして、ステップ７６では、音声素片毎に振幅スペクトルデータ及び位相スペクトルデータを時間領域の合成音声信号（ディジタル波形データ）に変換する。
【００７９】
図５は、ステップ７６の変換処理の一例を示すもので、ステップ７６ａでは、周波数領域のフレームデータ（振幅スペクトルデータ及び位相スペクトルデータ）に逆ＦＦＴ処理を施して時間領域の合成音声信号を得る。そして、ステップ７６ｂでは、時間領域の合成音声信号に窓掛け処理を施す。この処理は、時間領域の合成音声信号に時間窓関数を乗算するものである。ステップ７６ｃでは、時間領域の合成音声信号にオーバーラップ処理を施す。この処理は、順次の音声素片について波形をオーバーラップさせながら時間領域の合成音声信号を接続するものである。
【００８０】
ステップ７８では、ステップ７０で決定した発音開始時刻を参照して音声素片毎に合成音声信号をＤ／Ａ変換部２８に出力する。この結果、サウンドシステム３４から合成に係る歌唱音声が発生される。
【００８１】
図６は、歌唱分析処理の他の例を示すものである。ステップ８０では、ステップ４０に関して前述したと同様にして歌唱音声信号を入力し、入力信号の音声波形を表すディジタル波形データをＲＡＭ１６に記憶させる。歌唱音声信号は、インターフェース３０又は３２を介して入力してもよい。
【００８２】
ステップ８２では、ステップ４２に関して前述したと同様にして記憶に係るディジタル波形データについて音声素片に対応する区間ごとに区間波形を切出す。
【００８３】
ステップ８４では、音声素片毎に区間波形を表わす区間波形データ（音声素片データ）を音声素片データベースに記憶させる。音声素片データベースとしては、ＲＡＭ１６や外部記憶装置２２を用いることができ、所望によりＲＯＭ１４、ＭＩＤＩ機器３６内の記憶装置、コンピュータ３８内の記憶装置等を用いてもよい。音声素片データの記憶に際しては、図３に関して前述したと同様に各音声素片毎に歌手（音色）、ピッチ区分、ダイナミクス区分、テンポ区分等を異にする区間波形データｍ１，ｍ２，ｍ３…を音声素片データベースＤＢＳに記憶させることができる。
【００８４】
次に、図７を参照して歌唱合成処理の他の例を説明する。ステップ９０では、ステップ６０に関して前述したと同様にして所望の歌唱曲に関して歌詞データ及びメロディデータを入力する。
【００８５】
ステップ９２では、ステップ６２に関して前述したと同様にして歌詞データが表わす音素列を個々の音声素片に変換する。そして、ステップ９４では、ステップ８４で記憶処理したデータベースから音声素片毎に対応する区間波形データ（音声素片データ）を読出す。この場合、入力部２０から制御パラメータとして音色、ピッチ区分、ダイナミクス区分、テンポ区分等のデータを入力し、該データの指示する制御パラメータに対応した区間波形データを読出すようにしてもよい。また、ステップ６４に関して前述したと同様に入力音符長や設定テンポ等に応じて音声素片の発音継続時間を変更するようにしてもよい。このためには、音声波形を読出す際に音声波形の一部を省略するか又は音声波形の一部あるいは全部を繰返すかして所望の発音継続時間だけ音声波形の読出しを継続すればよい。
【００８６】
ステップ９６では、読出しに係る区間波形データ毎に区間波形について１又は複数の時間フレームを定め、各フレーム毎にＦＦＴ等により周波数分析を実行して周波数スペクトル（振幅スペクトルと位相スペクトル）を検出する。そして，周波数スペクトルを表わすデータをＲＡＭ１６の所定領域に記憶させる。
【００８７】
ステップ９８では、図２のステップ４６〜５２と同様の処理を実行して音声素片毎にピッチデータ、振幅スペクトルデータ及び位相スペクトルデータを生成する。そして、ステップ１００では、図４のステップ６６〜７８と同様の処理を実行して歌唱音声を合成し、発音させる。
【００８８】
図７の歌唱合成処理を図４の歌唱合成処理と対比すると、図４の歌唱合成処理では、データベースから音声素片毎にピッチデータ、振幅スペクトルデータ及び位相スペクトルデータを取得して歌唱合成を行なうのに対し、図７の歌唱合成処理では、データベースから音声素片毎に区間波形データを取得して歌唱合成を行なっている点で両者が異なるものの、歌唱合成の手順は、両者で実質的に同一である。図４又は図７の歌唱合成処理によれば、入力音声波形の周波数分析結果を調和成分と非調和成分とに分離しないので、非調和成分が分離して響くことがなく、自然な（又は高品質の）合成音が得られる。また、有声の摩擦音や破裂音についても自然な合成音が得られる。
【００８９】
図１４は、例えば「ａ」のような単一音素の伸ばし音に関するピッチ変換処理及び音色調整処理（図４のステップ６６に対応）を示すものである。この場合、伸ばし音の音声素片データＳＤとして、図３に示したようなピッチデータ、振幅スペクトルデータ及び位相スペクトルデータのデータ組（又は区間波形データ）をデータベース内に用意する。また、伸ばし音毎に歌手（音色）、ピッチ区分、ダイナミクス区分、テンポ区分等を異にする音声素片データをデータベースに記憶しておき、入力部２０で所望の歌手（音色）、ピッチ区分、ダイナミクス区分、テンポ区分等の制御パラメータを指定すると、指定に係る制御パラメータに対応する音声素片データを読出すようにする。
【００９０】
ステップ１１０では、伸ばし音の音声素片データＳＤに由来する振幅スペクトルデータＦＳＰにステップ６６で述べたと同様のピッチ変換処理を施す。すなわち、振幅スペクトルデータＦＳＰに関して各フレームの各スペクトル分布領域毎にスペクトル分布を入力音符ピッチデータＰＴの示す入力音符ピッチに相当するピッチになるように周波数軸上で移動する。
【００９１】
音声素片データＳＤの時間長より長い発音継続時間の伸ばし音が要求される場合には、音声素片データＳＤを最後まで読出した後最初に戻って再び読出し、必要に応じてこのような時間的に順方向の読出しを繰返す方法を採用することができる。別の方法としては、音声素片データＳＤを最後まで読出した後最初に向かって読出し、必要に応じてこのような時間的に順方向の読出しと時間的に逆方向の読出しとを繰返す方法を採用してもよい。この方法では、時間的に逆方向に読出す際の読出開始点をランダムに設定するようにしてもよい。
【００９２】
ステップ１１０のピッチ変換処理では、図３に示したデータベースＤＢＳにおいて、例えば「ａ」のような伸ばし音声素片データＭ１（又はｍ１），Ｍ２（又はｍ２），Ｍ３（又はｍ３）…にそれぞれ対応して経時的なピッチ変化を表わすピッチゆらぎデータを記憶しておき、入力部２０で音色、ピッチ区分、ダイナミクス区分、テンポ区分等の制御パラメータを指定するのに応答して指定に係る制御パラメータに対応するピッチゆらぎデータを読出すようにしてもよい。この場合、ステップ１１２では、読出しに係るピッチゆらぎデータＶＰを入力音符ピッチデータＰＴに加算し、加算結果としてのピッチ制御データに応じてステップ１１０でのピッチ変換を制御する。このようにすると、合成音にピッチのゆらぎ（例えばピッチベンド、ビブラート等）を付加することができ、自然な合成音が得られる。また、音色、ピッチ区分、ダイナミクス区分、テンポ区分等の制御パラメータに応じてピッチのゆらぎ態様を異ならせることができるので、自然感が一層向上する。なお、ピッチゆらぎデータは、音声素片に対応する１又は複数のピッチゆらぎデータを音色等の制御パラメータに応じて補間等により改変して使うようにしてもよい。
【００９３】
ステップ１１４では、ステップ１１０でピッチ変換処理を受けた振幅スペクトルデータＦＳＰ’に音色調整処理を施す。この処理は、図１２に関して前述したように各フレーム毎にスペクトル包絡に従ってスペクトル強度を調整して合成音の音色を設定するものである。
【００９４】
図１５は、ステップ１１４の音色調整処理の一例を示すものである。この例では、図３に示したデータベースＤＢＳにおいて、例えば「ａ」の伸ばし音の音声素片に対応して代表的な１つのスペクトル包絡を表わすスペクトル包絡データを記憶する。
【００９５】
ステップ１１６では、伸ばし音の音声素片に対応するスペクトル包絡データをデータベースＤＢＳから読出す。そして、ステップ１１８では、読出しに係るスペクトル包絡データに基づいてスペクトル包絡設定処理を行なう。すなわち、伸ばし音のフレーム群ＦＲにおける複数ｎ個のフレームの振幅スペクトルデータＦＲ_１〜ＦＲ_ｎのうちの各フレームの振幅スペクトルデータ毎に、読出しに係るスペクトル包絡データの示すスペクトル包絡に沿うようにスペクトル強度を調整することによりスペクトル包絡を設定する。この結果、伸ばし音に適切な音色を付与することができる。
【００９６】
ステップ１１８のスペクトル包絡設定処理では、図３に示したデータベースＤＢＳにおいて、例えば「ａ」のような伸ばし音声素片データＭ１（又はｍ１），Ｍ２（又はｍ２），Ｍ３（又はｍ３）…にそれぞれ対応して経時的なスペクトル包絡変化を表わすスペクトル包絡ゆらぎデータを記憶しておき、入力部２０で音色、ピッチ区分、ダイナミクス区分、テンポ区分等の制御パラメータを指定するのに応答して指定に係る制御パラメータに対応するスペクトル包絡ゆらぎデータを読出すようにしてもよい。この場合、ステップ１１８では、各フレーム毎にステップ１１６での読出しに係るスペクトル包絡データに読出しに係るスペクトル包絡ゆらぎデータＶＥを加算し、加算結果としてのスペクトル包絡制御データに応じてステップ１１８でのスペクトル包絡設定を制御する。このようにすると、合成音に音色のゆらぎ（例えばトーンベンド等）を付加することができ、自然な合成音が得られる。また、音色、ピッチ区分、ダイナミクス区分、テンポ区分等の制御パラメータに応じてピッチのゆらぎ態様を異ならせることができるので、自然感が一層向上する。なお、ピッチゆらぎデータは、音声素片に対応する１又は複数のピッチゆらぎデータを音色等の制御パラメータに応じて補間等により改変して使うようにしてもよい。
【００９７】
図１６は、ステップ１１４の音色調整処理の他の例を示すものである。歌唱合成では、前述した「サイタ」の歌唱例の様に音素連鎖（例えば「ｓａ」）−単一音素（例えば「ａ」）−音素連鎖（例えば「ａｉ」）の歌唱合成が典型的な例であり、このような歌唱合成例に適したのが図１６の例である。図１６において、前音の最終フレームの振幅スペクトルデータＰＦＲにおける前音とは、例えば「ｓａ」の音素連鎖に対応し、伸ばし音のｎ個のフレームの振幅スペクトルデータＦＲ_１〜ＦＲ_ｎにおける伸ばし音とは、例えば「ａ」の単一音素に対応し、後音の先頭フレームの振幅スペクトルデータＮＦＲにおける後音とは、例えば「ａｉ」の音素連鎖に対応する。
【００９８】
ステップ１２０では、前音の最終フレームの振幅スペクトルデータＰＦＲからスペクトル包絡を抽出すると共に、後音の先頭フレームの振幅スペクトルデータＮＦＲからスペクトル包絡を抽出する。そして、抽出に係る２つのスペクトル包絡を時間的に補間して伸ばし音用のスペクトル包絡を表わすスペクトル包絡データを作成する。
【００９９】
ステップ１２２では、ｎ個のフレームの振幅スペクトルデータＦＲ_１〜ＦＲ_ｎのうちの各フレームの振幅スペクトルデータ毎に、ステップ１２０での作成に係るスペクトル包絡データの示すスペクトル包絡に沿うようにスペクトル強度を調整することによりスペクトル包絡を設定する。この結果、音素連鎖間の伸ばし音に適切な音色を付与することができる。
【０１００】
ステップ１２２においても、ステップ１１８に関して前述したと同様にしてデータベースＤＢＳから音色等の制御パラメータに応じてスペクトル包絡ゆらぎデータＶＥを読出すなどしてスペクトル包絡の設定を制御することができる。このようにすると、自然な合成音が得られる。
【０１０１】
次に、図１７〜１９を参照してスムージング処理（ステップ７２に対応）の一例を説明する。この例では、データを扱いやすくして計算を簡単にするために、音声素片の各フレームのスペクトル包絡を図１７に示すように直線（あるいは指数関数）で表現した傾き成分と指数関数などで表現した１又は複数の共鳴部分とに分解する。すなわち、共鳴部分の強度は、傾き成分を基準に計算し、傾き成分と共鳴成分を足し合わせてスペクトル包絡を表わす。また、傾き成分を０Ｈｚまで延長した値を傾き成分のゲインと称する。
【０１０２】
一例として、図１８に示すような２つの音声素片「ａｉ」と「ｉａ」とを接続するものとする。これらの音声素片は、もともと別の録音から採取したものであるため、接続部のｉの音色とレベルにミスマッチがあり、図１８に示すように接続部分で波形の段差が発生し、ノイズとして聴こえる。２つの音声素片について接続部を中心として前後に何フレームかかけて、傾き成分のパラメータ同士、共鳴成分のパラメータ同士をそれぞれクロスフェードしてやれば、接続部分での段差が消え去り、ノイズの発生を防止することができる。
【０１０３】
例えば、共鳴成分のパラメータをクロスフェードするためには、図１９に示すように、接続部分で０．５となるような関数（クロスフェードパラメータ）を両音声素片の共鳴成分のパラメータに掛けて足し合わせてやればよい。図１９に示す例では、「ａｉ」，「ｉａ」の音声素片における第１の共鳴成分の（傾き成分を基準とした）強度の時間的変化を示す波形に対してそれぞれクロスフェードパラメータを掛けて加算することによりクロスフェードを行なった例を示している。
【０１０４】
他の共鳴成分、傾き成分等のパタメータについても、上記したと同様にクロスフェードを行なうことができる。
【０１０５】
図２０は、レベル整合処理（ステップ７２に対応）の一例を示すものである。この例では、上記と同様に「ａｉ」と「ｉａ」を接続して合成する場合について、レベル整合処理を説明する。
【０１０６】
この場合、上記のようにクロスフェードする代りに、音声素片の接続部分で前後の振幅がほぼ同じになる様にレベル整合を行なう。レベル整合は、音声素片の振幅に対し、一定あるいは時変の係数を掛けることにより行なうことができる。
【０１０７】
この例では、２つの音声素片について傾き成分のゲインを合わせる処理について説明する。まず、図２０（ａ），（ｂ）に示すように、「ａｉ」と「ｉａ」の各音声素片について、その最初のフレームと最終フレームの間の傾き成分のゲインを直線補間したパラメータ（図中の破線）を求め、各パラメータを基準に、実際の傾き成分のゲインとの差分を求める。
【０１０８】
次に、［ａ］，［ｉ］の各音韻の代表的なサンプル（傾き成分及び共鳴成分の各パラメータ）を求める。これは、例えば、「ａｉ」の最初のフレームと最終フレームの振幅スペクトルデータを用いて求めてもよい。
【０１０９】
［ａ］，［ｉ］の代表的なサンプルをもとに、まず、図２０（ｃ）に破線で示すように［ａ］，［ｉ］の間の傾き成分のゲインを直線補間したパラメータを求めると共に、［ｉ］と［ａ］の間の傾き成分のゲインを直線補間したパラメータを求める。次いで、図２０（ａ），（ｂ）で求めた差分を直線補間に係るパラメータにそれぞれ足し込んでいけば、図２０（ｃ）に示すように、境界では必ず直線補間に係るパラメータが一致するため、傾き成分のゲインの不連続は発生しない。共鳴成分のパラメータなど他のパラメータについても、同様に不連続を防止することができる。
【０１１０】
前述したステップ７２では、振幅スペクトルデータのみならず位相スペクトルデータについても、上記のようなスムージング処理又はレベル整合処理を準用して位相の調整を行なう。この結果、ノイズ発生を回避することができ、高品質の歌唱合成が可能となる。なお、スムージング処理又はレベル整合処理において、接続部では、スペクトル強度を一致させたが近似させるだけでよいこともある。
【０１１１】
【発明の効果】
以上のように、この発明によれば、音声素片に対応する音声波形を周波数分析した結果に基づいて振幅スペクトルデータ及び位相スペクトルデータを生成し、指定のピッチに応じて振幅スペクトルデータ及び位相スペクトルデータを修正し、修正に係る振幅スペクトルデータ及び位相スペクトルデータに基づいて時間領域の合成音声信号を発生させるようにしたので、周波数分析結果を調和成分と非調和成分とに分離した従来例のように非調和成分が分離して響くといった事態は原理的に発生しなくなり、自然な歌唱音声又は高品質の歌唱音声を合成可能となる効果が得られる。
【図面の簡単な説明】
【図１】この発明の一実施形態に係る歌唱合成装置の回路構成を示すブロック図である。
【図２】歌唱分析処理の一例を示すフローチャートである。
【図３】音声素片データベース内の記憶状況を示す図である。
【図４】歌唱合成処理の一例を示すフローチャートである。
【図５】図４のステップ７６の変換処理の一例を示すフローチャートである。
【図６】歌唱分析処理の他の例を示すフローチャートである。
【図７】歌唱合成処理の他の例を示すフローチャートである。
【図８】（Ａ）は、分析対象としての入力音声信号を示す波形図、（Ｂ）は、（Ａ）の波形の周波数分析結果を示すスペクトル図である。
【図９】（Ａ）は、ピッチ変換前のスペクトル分布領域配置を示すスペクトル図、（Ｂ）は、ピッチ変換後のスペクトル分布領域配置を示すスペクトル図である。
【図１０】（Ａ）は、ピッチ変換前の振幅スペクトル分布及び位相スペクトル分布を示すグラフ、（Ｂ）は、ピッチ変換後の振幅スペクトル分布及び位相スペクトル分布を示すグラフである。
【図１１】ピッチを低下させた場合のスペクトル分布領域の指定処理を説明するためのグラフである。
【図１２】（Ａ）は、ピッチ変換前の局所的ピーク配置及びスペクトル包絡を示すグラフ、（Ｂ）は、ピッチ変換後の局所的ピーク配置及びスペクトル包絡を示すグラフである。
【図１３】スペクトル包絡曲線を例示するグラフである。
【図１４】伸ばし音に関するピッチ変換処理及び音色調整処理を示すブロック図である。
【図１５】伸ばし音に関する音色調整処理の一例を示すブロック図である。
【図１６】伸ばし音に関する音色調整処理の他の例を示すブロック図である。
【図１７】スペクトル包絡のモデル化を説明するためのグラフである。
【図１８】音声素片の接続時に生ずるレベル及び音色のミスマッチを説明するためのグラフである。
【図１９】スムージング処理を説明するためのグラフである。
【図２０】レベル整合処理を説明するためのグラフである。
【図２１】歌唱合成処理の従来例を示すブロック図である。
【符号の説明】
１０：小型コンピュータ、１１：バス、１２：ＣＰＵ、１４：ＲＯＭ、１６：ＲＡＭ、１７：歌唱入力部、１８：歌詞・メロディ入力部、２０：制御パラメータ入力部、２２：外部記憶装置、２４：表示部、２６：タイマ、２８：Ｄ／Ａ変換部、３０：ＭＩＤＩインターフェース、３２：通信インターフェース、３４：サウンドシステム、３６：ＭＩＤＩ機器、３７：通信ネットワーク、３８：他のコンピュータ、ＤＢＳ：音声素片データベース。

Claims

合成すべき音声の音声素片に対応する音声波形を周波数分析して周波数スペクトルを検出するステップと、
前記周波数スペクトル上でスペクトル強度の局所的ピークを複数検知するステップと、
各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域を前記周波数スペクトル上で指定し、各スペクトル分布領域毎に振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルデータを生成するステップと、
各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わす位相スペクトルデータを生成するステップと、
前記合成すべき音声についてピッチを指定するステップと、
各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を前記ピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正するステップと、
各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正するステップと、
前記修正に係る振幅スペクトルデータ及び前記修正に係る位相スペクトルデータを時間領域の合成音声信号に変換するステップと
を含む歌唱合成方法。
合成すべき音声の音声素片に対応する振幅スペクトルデータ及び位相スペクトルデータを取得するステップであって、前記振幅スペクトルデータとしては、前記音声素片の音声波形を周波数分析して得た周波数スペクトルにおいてスペクトル強度の複数の局所的ピークのうちの各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域における振幅スペクトル分布を周波数軸に関して表わすデータを取得し、前記位相スペクトルデータとしては、各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わすデータを取得するものと、
前記合成すべき音声についてピッチを指定するステップと、
各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を前記ピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正するステップと、
各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正するステップと、
前記修正に係る振幅スペクトルデータ及び前記修正に係る位相スペクトルデータを時間領域の合成音声信号に変換するステップと
を含む歌唱合成方法。
前記ピッチを指定するステップでは、経時的なピッチ変化を示すピッチゆらぎデータに従って前記ピッチを指定する請求項１又は２記載の歌唱合成方法。
前記ピッチゆらぎデータとしては、前記合成すべき音声について音楽的表情を制御するための制御パラメータに対応したピッチゆらぎデータを用いる請求項３記載の歌唱合成方法。
前記振幅スペクトルデータを修正するステップでは、修正前の複数の局所的ピークを結ぶ線に対応するスペクトル包絡に沿わない局所的ピークについてスペクトル強度を該スペクトル包絡に沿うように修正する請求項１又は２記載の歌唱合成方法。
前記振幅スペクトルデータを修正するステップでは、予め定めたスペクトル包絡に沿わない局所的ピークについてスペクトル強度を該スペクトル包絡に沿うように修正する請求項１又は２記載の歌唱合成方法。
前記振幅スペクトルデータを修正するステップでは、一連の時間フレームについて経時的なスペクトル包絡の変化を示すスペクトル包絡ゆらぎデータに従ってスペクトル強度を調整することにより経時的に変化するスペクトル包絡を設定する請求項５又は６記載の歌唱合成方法。
前記スペクトル包絡ゆらぎデータとしては、前記合成すべき音声について音楽的表情を制御するための制御パラメータに対応したスペクトル包絡ゆらぎデータを用いる請求項７記載の歌唱合成方法。
合成すべき音声について音声素片及びピッチを指定する指定手段と、
音声素片データベースから音声素片データとして前記音声素片に対応する音声波形を表わす音声波形データを読出す読出手段と、
前記音声波形データが表わす音声波形を周波数分析して周波数スペクトルを検出する検出手段と、
前記音声波形に対応する周波数スペクトル上でスペクトル強度の局所的ピークを複数検知する検知手段と、
各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域を前記周波数スペクトル上で指定し、各スペクトル分布領域毎に振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルデータを生成する第１の生成手段と、
各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わす位相スペクトルデータを生成する第２の生成手段と、
各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を前記ピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正する第１の修正手段と、
各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正する第２の修正手段と、
前記修正に係る振幅スペクトルデータ及び前記修正に係る位相スペクトルデータを時間領域の合成音声信号に変換する変換手段と
を備えた歌唱合成装置。
合成すべき音声について音声素片及びピッチを指定する指定手段と、
音声素片データベースから音声素片データとして前記音声素片に対応する振幅スペクトルデータ及び位相スペクトルデータを読出す読出手段であって、前記振幅スペクトルデータとしては、前記音声素片の音声波形を周波数分析して得た周波数スペクトルにおいてスペクトル強度の複数の局所的ピークのうちの各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域における振幅スペクトル分布を周波数軸に関して表わすデータを読出し、前記位相スペクトルデータとしては、各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わすデータを読出すものと、
各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を前記ピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正する第１の修正手段と、
各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正する第２の修正手段と、
前記修正に係る振幅スペクトルデータ及び前記修正に係る位相スペクトルデータを時間領域の合成音声信号に変換する変換手段と
を備えた歌唱合成装置。
前記指定手段は、前記合成すべき音声について音楽的表情を制御するための制御パラメータを指定し、前記読出手段は、前記音声素片及び前記制御パラメータに対応する音声素片データを読出す請求項９又は１０記載の歌唱合成装置。
前記指定手段は、前記合成すべき音声について音符長及び／又はテンポを指定し、前記読出手段は、前記音声素片データを読出す際に前記音声素片データの一部を省略するか又は前記音声素片データの一部もしくは全部を繰返すかして前記音符長及び／又はテンポに対応する時間のあいだ前記音声素片データの読出しを継続する請求項９又は１０記載の歌唱合成装置。
順次に合成すべき音声のうちの各音声毎に音声素片及びピッチを指定する指定手段と、
音声素片データベースから前記指定手段での指定に係る各音声素片に対応する音声波形を読出す読出手段と、
各音声素片に対応する音声波形を周波数分析して周波数スペクトルを検出する検出手段と、
各音声素片に対応する周波数スペクトル上でスペクトル強度の局所的ピークを複数検知する検知手段と、
各音声素片について各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域を該音声素片に対応する周波数スペクトル上で指定し、各音声素片について各スペクトル分布領域毎に振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルデータを生成する第１の生成手段と、
各音声素片について各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わす位相スペクトルデータを生成する第２の生成手段と、
各音声素片について各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を該音声素片に対応するピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正する第１の修正手段と、
各音声素片について各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正する第２の修正手段と、
前記順次に合成すべき音声にそれぞれ対応する順次の音声素片が発音順につながるように前記修正に係る振幅スペクトルデータを接続する第１の接続手段であって、前記順次の音声素片のつながり部においてスペクトル強度を一致又は近似させるべくスムージング処理又はレベル整合処理により調整するものと、
前記順次に合成すべき音声にそれぞれ対応する順次の音声素片が発音順につながるように前記修正に係る位相スペクトルデータを接続する第２の接続手段であって、前記順次の音声素片のつながり部において位相を一致又は近似させるべくスムージング処理又はレベル整合処理により調整するものと、
前記接続に係る振幅スペクトルデータ及び前記接続に係る位相スペクトルデータを時間領域の合成音声信号に変換する変換手段と
を備えた歌唱合成装置。
順次に合成すべき音声のうちの各音声毎に音声素片及びピッチを指定する指定手段と、
音声素片データベースから前記指定手段での指定に係る各音声素片に対応する振幅スペクトルデータ及び位相スペクトルデータを読出す読出手段であって、前記振幅スペクトルデータとしては、対応する音声素片の音声波形を周波数分析して得た周波数スペクトルにおいてスペクトル強度の複数の局所的ピークのうちの各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域における振幅スペクトル分布を周波数軸に関して表わすデータを読出し、前記位相スペクトルデータとしては、各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わすデータを読出すものと、
各音声素片について各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を該音声素片に対応するピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正する第１の修正手段と、
各音声素片について各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正する第２の修正手段と、
前記順次に合成すべき音声にそれぞれ対応する順次の音声素片が発音順につながるように前記修正に係る振幅スペクトルデータを接続する第１の接続手段であって、前記順次の音声素片のつながり部においてスペクトル強度を一致又は近似させるべくスムージング処理又はレベル整合処理により調整するものと、
前記順次に合成すべき音声にそれぞれ対応する順次の音声素片が発音順につながるように前記修正に係る位相スペクトルデータを接続する第２の接続手段であって、前記順次の音声素片のつながり部において位相を一致又は近似させるべくスムージング処理又はレベル整合処理により調整するものと、
前記接続に係る振幅スペクトルデータ及び前記接続に係る位相スペクトルデータを時間領域の合成音声信号に変換する変換手段と
を備えた歌唱合成装置。
合成すべき音声の音声素片に対応する音声波形を周波数分析して周波数スペクトルを検出するステップと、
前記周波数スペクトル上でスペクトル強度の局所的ピークを複数検知するステップと、
各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域を前記周波数スペクトル上で指定し、各スペクトル分布領域毎に振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルデータを生成するステップと、
各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わす位相スペクトルデータを生成するステップと、
前記合成すべき音声についてピッチを指定するステップと、
各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を前記ピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正するステップと、
各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正するステップと、
前記修正に係る振幅スペクトルデータ及び前記修正に係る位相スペクトルデータを時間領域の合成音声信号に変換するステップと
をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
合成すべき音声の音声素片に対応する振幅スペクトルデータ及び位相スペクトルデータを取得するステップであって、前記振幅スペクトルデータとしては、前記音声素片の音声波形を周波数分析して得た周波数スペクトルにおいてスペクトル強度の複数の局所的ピークのうちの各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域における振幅スペクトル分布を周波数軸に関して表わすデータを取得し、前記位相スペクトルデータとしては、各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わすデータを取得するものと、
前記合成すべき音声についてピッチを指定するステップと、
各スペクトル分布領域毎に前記振幅スペクトルデータが表わす振幅スペクトル分布を前記ピッチに応じて周波数軸上で移動するように前記振幅スペクトルデータを修正するステップと、
各スペクトル分布領域毎に前記位相スペクトルデータが表わす位相スペクトル分布を前記振幅スペクトルデータの修正に対応して修正するステップと、
前記修正に係る振幅スペクトルデータ及び前記修正に係る位相スペクトルデータを時間領域の合成音声信号に変換するステップと
をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。