JP5810947B2

JP5810947B2 - 発声区間特定装置、音声パラメータ生成装置、及びプログラム

Info

Publication number: JP5810947B2
Application number: JP2012018609A
Authority: JP
Inventors: 典昭阿瀬見
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2012-01-31
Filing date: 2012-01-31
Publication date: 2015-11-11
Anticipated expiration: 2032-01-31
Also published as: JP2013156544A

Description

本発明は、音声波形における発声区間を特定する発声区間特定装置、プログラム、及びその特定した発声区間での音声データから音声パラメータを生成する音声パラメータ生成装置に関する。

従来、入力された音から音声パラメータを用意する音声パラメータ生成装置を備え、音声パラメータ生成装置によって用意された音声パラメータを合成することで、指定された内容の音声を生成する音声合成装置が知られている（例えば、特許文献１参照）。

この特許文献１に記載された音声合成装置における音声パラメータ生成装置は、入力された音（以下、音声データと称す）を調波成分と非調波成分とに分離する音分離部と、音分離部にて分離した調波成分に基づいて、音声データを、各音素について発声したと推定される区間（以下、発声区間と称す）ごとに切り分ける音素切分部と、音素切分部にて切り分けられた各発声区間での音声データから音声パラメータを生成するパラメータ生成部とを備えている。

そして、特許文献１に記載された音素切分部における音声データを発声区間ごとに切り分ける方法では、当該音声データの波形を表示した上で、その表示された波形を当該音声パラメータ生成装置の使用者が目視で確認しながら、各音素の発声開始時刻と発声終了時刻とをスイッチ操作にて指定することで、各発声区間を特定することがなされている。

特開２００４−０３８０７１号公報

このような特許文献１に記載された、音声データから各発声区間を切り分ける方法では、各発声区間の始端（発声開始時刻）及び終端（発声終了時刻）を、当該音声パラメータ生成装置の使用者自身が目視で確認しながら指定しなければならず、音声データを発声区間ごとに切り分ける際の精度が低いという問題があった。

さらに、特許文献１に記載された方法では、人手に頼る以上、多量の音声データについて、各音声データを発声区間ごとに切り分けることが困難であるという問題があった。
そこで、本発明は、多量の音声データについて、各音声データを発声区間ごとに切り分け可能とすることを目的とする。

上記目的を達成するためになされた本発明の発声区間特定装置では、内容情報取得手段が、発声内容情報を取得し、タイミング情報取得手段が、発声タイミング情報を取得すると共に、楽譜データ取得手段が、楽曲楽譜データを取得すると共に、音声データ取得手段が、音声データを取得する。なお、本発明において、発声内容情報とは、一つの楽曲である対象楽曲において発声すべき内容の文字列を表す情報であり、発声タイミング情報とは、内容情報取得手段で取得した発声内容情報（以下、特定内容情報）によって表される文字の発声開始タイミングを規定する情報である。さらに、本発明において、楽曲楽譜データとは、少なくとも対象楽曲における歌唱旋律の楽譜を表し、当該歌唱旋律を構成する個々の出力音について、少なくとも音高及び演奏開始タイミングが規定されたデータであり、音声データとは、特定内容情報によって表される文字列について発声された音声波形を表すデータである。

そして、本発明の発声区間特定装置では、パワー推移導出手段が、音声データ取得手段で取得した音声データに基づいて、当該音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出したパワーの時間推移を表す音声パワー推移を導出する。すると、発声区間特定手段が、その音声パワー推移が時間軸に沿って変化する時刻を、発声開始時刻及び発声終了時刻として特定し、発声開始時刻、発声終了時刻の順に連続する当該発声開始時刻と当該発声終了時刻とのペアによって規定される発声区間それぞれを特定する。

さらに、本発明の発声区間特定装置では、音符歌詞対応付手段が、内容情報取得手段で取得した特定内容情報、タイミング情報取得手段で取得した発声タイミング情報、及び楽譜データ取得手段で取得した楽曲楽譜データに基づいて、特定内容情報によって表される文字列の音節ごとに、当該音節に対応する文字の発声開始タイミングとの時間差分が最小となる演奏開始タイミングを有した出力音を特定すると共に、当該出力音と当該音節の内容とを対応付けた音符音節組それぞれを生成する。その後、音符歌声統合手段が、発声区間特定手段にて特定された発声区間ごとに、当該発声区間を規定する発声開始時刻との時間差分が最小となる演奏開始タイミングを有し、かつ音符歌詞対応付手段で生成された音符音節組を特定し、少なくとも、当該発声区間と当該音符音節組とを対応付けた音節データを生成する。
そして、本発明における発声区間特定手段は、音声パワー推移の時間進行において、パワーが予め規定された規定閾値以上となるタイミングそれぞれを発声開始時刻とし、パワーが規定閾値以下となるタイミングそれぞれを発声終了時刻として、発声区間それぞれを特定しても良い。
また、本発明における発声区間特定手段は、音声パワー推移を時間微分した結果、極大となるタイミングそれぞれを発声開始時刻とし、極小となるタイミングそれぞれを発声終了時刻として、発声区間それぞれを特定しても良い。

このような発声区間特定装置によれば、発声された音声波形が時間軸に沿って推移しながら、その音声パワーが変化するタイミングに基づいて、発声開始時刻及び発声終了時刻、ひいては発声区間を自動的に特定することができる。

この結果、本発明の発声区間特定装置によれば、特許文献１に記載された装置とは異なり、発声開始時刻及び発声終了時刻を当該装置の使用者が指定する必要が無く、多量の音声データについて、各音声データを発声区間ごとに切り分けることが可能となる。

しかも、本発明の発声区間特定装置では、特定した発声区間それぞれに当該発声区間に対応する音符音節組を対応付けることで音節データを生成している。
このため、本発明の発声区間特定装置によれば、当該音節データに含まれる発声区間での音声データから音声パラメータを生成する際に、信頼度の高い音節の内容を当該音声パラメータに付加することができ、ひいては、音声合成に必要な音声パラメータに多様な情報を付加することができる。この結果、本発明の発声区間特定装置によれば、音声合成の際に、その音声合成を利用する人物が望む音声を実現しやすくできる。

また、本発明の発声区間特定装置においては、音高推移導出手段が、少なくとも、音声データ取得手段で取得した音声データに基づいて、音声波形における音高が時間軸に沿って推移した音高時間推移を導出し、音高特定手段が、その音高時間推移において、発声区間特定手段で特定された発声区間それぞれでの音高を発声音高として特定しても良い。

この場合、本発明における音符歌声統合手段は、音高特定手段で特定された各発声音高と、当該発声音高に対応する発声区間と、当該発声区間に対応する音符音節組とを対応付けることで、音節データを生成しても良い。

このような発声区間特定装置によれば、各音節データに、発声区間それぞれでの音高を付加することができる。この結果、当該音節データに含まれる発声区間での音声データから音声パラメータを生成する際に、当該発声区間での信頼度の高い音高の情報を音声パラメータに付加することができる。

さらに、本発明における音高特定手段は、音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出した周波数スペクトルの自己相関値に、楽曲楽譜データによって表される出力音のうち、当該単位時間に対応する出力音の音高に対応する周波数ほど大きな重みとなるように周波数軸に沿って重みが規定された重み関数を乗じた結果が最大となる周波数に対応する音高を、発声音高として特定しても良い。

このような発声区間特定装置によれば、発声音高を、対象楽曲において発声すべき音高に近い音高として特定できる。
そして、本発明における音高特定手段は、音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出した周波数スペクトルの自己相関値が最大となる周波数に対応する音高を、発声音高として特定しても良い。

このような発声区間特定装置によれば、実際に発声された音声の音高を発声音高として特定できる。
ところで、本発明における音符歌声統合手段は、音声パワー推移における各時刻でのパワーと、当該時刻に対応する発声区間と、当該発声区間に対応する音符音節組とを対応付けることで、音節データを生成しても良い。

このような発声区間特定装置によれば、各音節データに、発声区間それぞれでのパワーを付加することができる。この結果、当該音節データに含まれる発声区間での音声データから音声パラメータを生成する際に、当該発声区間における信頼度の高い音声のパワー（強さ）に関する情報を音声パラメータに付加することが可能となる。

ところで、本発明の適用対象は、音声パラメータ生成装置であっても良い。ただし、本発明が適用される音声パラメータ生成装置は、請求項１に記載された発声区間特定装置と、パラメータ導出手段とを備えている必要がある。なお、ここで言うパラメータ導出手段とは、発声区間特定装置における音符歌声統合手段で生成された音節データにおける発声区間での音声データから、予め規定された少なくとも一つの特徴量である音声パラメータを導出する手段である。

このような音声パラメータ生成装置によれば、当該音節データに含まれる発声区間での音声データから音声パラメータを生成する際に、信頼度の高い音節の内容を当該音声パラメータに付加することができ、ひいては、音声合成に必要な音声パラメータに多様な情報を付加することができる。この結果、本発明の発声区間特定装置によれば、音声合成の際に、その音声合成を利用する人物が望む音声を実現しやすくすることができる。

なお、ここで言う音声パラメータとしての特徴量は、フォルマント合成による音声合成を実行する際に必要となる特徴量であり、例えば、基本周波数や、メル周波数ケプストラム（ＭＦＣＣ）、パワーなど、及びそれらの各時間差分などを含む。

さらには、本発明は、コンピュータに実行させるプログラムとしてなされていても良い。この場合、本発明が適用されたプログラムは、発声内容情報を取得する内容情報取得手順と、発声タイミング情報を取得するタイミング情報取得手順と、楽曲楽譜データを取得する楽譜データ取得手順と、音声データを取得する音声データ取得手順と、音声パワー推移を導出するパワー推移導出手順と、発声区間それぞれを特定する発声区間特定手順と、音符音節組それぞれを生成する音符歌詞対応付手順と、音節データを生成する音符歌声統合手順とをコンピュータに実行させるプログラムである必要がある。
なお、発声区間特定手順は、音声パワー推移の時間進行において、パワーが予め規定された規定閾値以上となるタイミングそれぞれを発声開始時刻とし、パワーが規定閾値以下となるタイミングそれぞれを発声終了時刻として、発声区間それぞれを特定しても良いし、音声パワー推移を時間微分した結果、極大となるタイミングそれぞれを発声開始時刻とし、極小となるタイミングそれぞれを発声終了時刻として、発声区間それぞれを特定しても良い。

なお、本発明は、コンピュータを発声区間特定装置として機能させるためのプログラムであっても良い。
本発明のプログラムが、このようになされていれば、例えば、ＤＶＤ−ＲＯＭ、ＣＤ−ＲＯＭ、ハードディスク等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、請求項１に記載された発声区間特定装置として機能させることができる。

音声合成システムの概略構成を示すブロック図である。音声パラメータ登録処理の処理手順を示すフローチャートである。発声区間推定処理の処理手順を示すフローチャートである。音声データを例示する図である。音高時間変化の導出方法を例示する図である。音高時間変化を例示する図である。パワー時間変化の導出方法を例示する図である。発声区間の特定方法を例示する図である。発声区間の特定方法の変形例を示す図である。音声合成処理の処理手順を示す図である。

以下に本発明の実施形態を図面と共に説明する。
〈音声合成システムについて〉
図１は、本発明が適用された音声合成システムの概略構成を示す図である。

本発明が適用された音声合成システム１は、当該音声合成システム１の利用者が指定した内容の音声が出力されるように、予め登録された音声パラメータに基づいて音声合成した音声（即ち、合成音）を出力するシステムである。

これを実現するために、音声合成システム１は、音声を入力する音声入力装置１０と、音声入力装置１０を介して入力された音声（以下、音声波形データＳＶと称す）及びカラオケの用途に用いられる各種データ（以下、音楽データＭＤと称す）を格納するＭＩＤＩ格納サーバ２５とを備えている。さらに、音声合成システム１は、ＭＩＤＩ格納サーバ２５に格納されている音声波形データＳＶ及び音楽データＭＤに基づいて、音声パラメータを生成する処理を実行する情報処理装置３０と、情報処理装置３０にて生成された音声パラメータを格納するデータ格納サーバ５０とを備えている。その上、音声合成システム１は、データ格納サーバ５０に格納されている音声パラメータに基づいて音声合成した合成音を出力する音声出力端末６０を備えている。なお、本実施形態における音声合成システム１は、音声出力端末６０を複数台備えている。

すなわち、本実施形態の音声合成システム１においては、情報処理装置３０が、ＭＩＤＩ格納サーバ２５に格納されている音声波形データＳＶ及び音楽データＭＤに基づいて、少なくとも音声パラメータＰＭを生成してデータ格納サーバ５０に格納する。そして、音声出力端末６０は、当該音声出力端末６０を介して、利用者が指定した内容の音声が出力されるように、データ格納サーバ５０に格納された音声パラメータＰＭに基づいて音声合成した合成音を出力する。

なお、ここで言う音声パラメータＰＭとは、詳しくは後述するが、いわゆるフォルマント合成に用いる音声の特徴量であり、例えば、発声音声における各音節での基本周波数、メル周波数ケプストラム（ＭＦＣＣ）、パワー、及びそれらの時間差分を含むものである。
〈ＭＩＤＩ格納サーバについて〉
まず、ＭＩＤＩ格納サーバ２５は、記憶内容を読み書き可能に構成された記憶装置を中心に構成された装置であり、通信網を介して、音声入力装置１０に接続されている。

このＭＩＤＩ格納サーバ２５には、少なくとも、楽曲ごとに予め用意された音楽データＭＤが格納されている。この音楽データＭＤには、楽曲ＭＩＤＩデータＤＭ（特許請求の範囲における楽曲楽譜データに相当）と、歌詞データ群ＤＬとが含まれ、これら楽曲ＭＩＤＩデータＤＭと歌詞データ群ＤＬとは、それぞれ対応する楽曲ごとに対応付けられている。

このうち、楽曲ＭＩＤＩデータＤＭは、周知のＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）規格によって、一つの楽曲の楽譜を表すデータであり、楽曲ごとに予め用意されている。この楽曲ＭＩＤＩデータＤＭの各々は、楽曲を区別するデータである識別データと、当該楽曲にて用いられる楽器ごとの楽譜を表す楽譜トラックとを少なくとも有している。

そして、楽譜トラックには、ＭＩＤＩ音源から出力される個々の出力音について、少なくとも、音高（いわゆるノートナンバー）と、音源モジュールが出力音を出力する期間（以下、音符長）とが規定されている。ただし、楽譜トラックの音符長は、当該出力音の出力を開始するまでの当該楽曲の演奏開始からの時間を表す演奏開始タイミング（いわゆるノートオンタイミング）と、当該出力音の出力を終了するまでの当該楽曲の演奏開始からの時間を表す演奏終了タイミング（いわゆるノートオフタイミング）とによって規定されている。

なお、楽譜トラックは、例えば、鍵盤楽器（例えば、ピアノやパイプオルガンなど）、弦楽器（例えば、バイオリンやビオラ、ギター、ベースギター、琴など）、打楽器（例えば、ヴィブラフォンや、ドラム、シンバル、ティンパニー、木琴など）、及び管楽器（例えば、クラリネットやトランペット、フルート、尺八など）などの楽器ごとに用意されている。このうち、本実施形態では、ヴィブラフォンが、当該楽曲において歌唱旋律（メロディライン）を担当する楽器として規定されている。また、以下では、歌唱旋律を担当する楽器に対応する楽譜トラックに規定された出力音を歌唱出力音と称す。

一方、歌詞データ群ＤＬは、周知のカラオケ装置を構成する表示装置に表示される歌詞に関するデータであり、楽曲の歌詞を構成する文字（以下、歌詞構成文字とする）を表す歌詞テロップデータＤＴ（本発明における発声内容情報に相当）と、歌詞構成文字の出力タイミングである歌詞出力タイミングを、楽曲ＭＩＤＩデータＤＭの演奏と対応付けるタイミング対応関係が規定された歌詞出力データＤＯ（本発明における発声タイミング情報に相当）とを備えている。

具体的に、本実施形態におけるタイミング対応関係は、楽曲ＭＩＤＩデータＤＭの演奏を開始するタイミングに、歌詞テロップデータＤＴの出力を開始するタイミングが対応付けられた上で、当該楽曲の時間軸に沿った各歌詞構成文字の歌詞出力タイミングが、楽曲ＭＩＤＩデータＤＭの演奏を開始からの経過時間によって規定されている。なお、ここで言う経過時間とは、例えば、表示された歌詞構成文字の色替えを実行するタイミングを表す時間であり、色替えの速度によって規定されている。また、ここで言う歌詞構成文字は、歌詞を構成する文字の各々であっても良いし、その文字の各々を時間軸に沿った特定の規則に従って一群とした文節やフレーズであっても良い。
〈音声入力装置の構成について〉
次に、音声入力装置１０について説明する。

音声入力装置１０は、通信部１１と、入力受付部１２と、表示部１３と、音声入力部１４と、音声出力部１５と、音源モジュール１６と、記憶部１７と、制御部２０とを備えている。すなわち、本実施形態における音声入力装置１０は、いわゆる周知のカラオケ装置として構成されている。

このうち、通信部１１は、通信網（例えば、公衆無線通信網やネットワーク回線）を介して、音声入力装置１０が外部との間で通信を行う。入力受付部１２は、外部からの操作に従って情報や指令の入力を受け付ける入力機器（例えば、キーやスイッチ、リモコンの受付部など）である。

表示部１３は、少なくとも、文字コードで示される情報を含む画像を表示する表示装置（例えば、液晶ディスプレイやＣＲＴ等）である。また、音声入力部１４は、音を電気信号に変換して制御部２０に入力する装置（いわゆるマイクロホン）である。音声出力部１５は、制御部２０からの電気信号を音に変換して出力する装置（いわゆるスピーカ）である。さらに、音源モジュール１６は、ＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）規格によって規定されたデータに基づいて、音源からの音を模擬した音（即ち、出力音）を出力する装置（例えば、ＭＩＤＩ音源）である。

記憶部１７は、記憶内容を読み書き可能に構成された不揮発性の記憶装置（例えば、ハードディスク装置や、フラッシュメモリ）である。
また、制御部２０は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するＲＯＭ２１と、処理プログラムやデータを一時的に格納するＲＡＭ２２と、ＲＯＭ２１やＲＡＭ２２に記憶された処理プログラムに従って各処理（各種演算）を実行するＣＰＵ２３とを少なくとも有した周知のコンピュータを中心に構成されている。

そして、ＲＯＭ２１には、周知のカラオケ演奏処理を制御部が実行する処理プログラムや、カラオケ演奏処理によって一つの楽曲が演奏されている期間中に、音声入力部１４を介して入力された音声を音声波形データＳＶとして、当該対象楽曲を識別する楽曲識別情報と対応付けて、ＭＩＤＩ格納サーバ２５に格納する音声格納処理を制御部２０が実行する処理プログラムが記憶されている。

つまり、音声入力装置１０では、カラオケ演奏処理に従って、入力受付部１２を介して指定された一つの楽曲（以下、対象楽曲とする）に対応する音楽データＭＤをＭＩＤＩ格納サーバ２５から取得して、当該音楽データＭＤ中の楽曲ＭＩＤＩデータＤＭに基づいて、対象楽曲を演奏すると共に、当該音楽データＭＤ中の歌詞データ群ＤＬに基づいて対象楽曲の歌詞を表示部１３に表示する。

さらに、音声入力装置１０では、音声波形データＳＶを、当該対象楽曲を識別する楽曲識別情報（ここでは、音楽データＭＤそのもの）及び音声を入力した人物（以下、発声者とする）を識別する発声者識別情報（以下、発声者ＩＤと称す）と対応付けて、ＭＩＤＩ格納サーバ２５に格納する。なお、ＭＩＤＩ格納サーバ２５に格納される音声波形データＳＶには、発声者の特徴を表す発声者特徴情報も対応付けられており、この発声者特徴情報には、例えば、発声者の性別、年齢などを含む。
〈情報処理装置の構成について〉
次に、情報処理装置３０について説明する。

この情報処理装置３０は、通信部３１と、入力受付部３２と、表示部３３と、記憶部３４と、制御部４０とを備えている。
このうち、通信部３１は、通信網（例えば、公衆無線通信網やネットワーク回線）を介して外部との間で通信を行う。入力受付部３２は、外部からの操作に従って情報や指令の入力を受け付ける入力機器（例えば、キーボードやポインティングデバイス）である。表示部３３は、画像を表示する表示装置（例えば、液晶ディスプレイやＣＲＴ等）である。

記憶部３４は、記憶内容を読み書き可能に構成された不揮発性の記憶装置（例えば、ハードディスク装置や、フラッシュメモリ）である。また、制御部４０は、ＲＯＭ４１、ＲＡＭ４２、ＣＰＵ４３を少なくとも有した周知のコンピュータを中心に構成されている。

そして、情報処理装置３０のＲＯＭ４１には、ＭＩＤＩ格納サーバ２５に格納されている音声波形データＳＶ及び音楽データＭＤに基づいて生成した音声パラメータＰＭを、データ格納サーバ５０に格納する音声パラメータ登録処理を制御部４０が実行するための処理プログラムが記憶されている。

なお、データ格納サーバ５０は、記憶内容を読み書き可能に構成された記憶装置を中心に構成された装置であり、通信網を介して情報処理装置３０に接続されている。
〈音声パラメータ登録処理について〉
次に、情報処理装置３０が実行する音声パラメータ登録処理について説明する。

図２に示すように、音声パラメータ登録処理は、起動されると、入力受付部３２を介して指定された楽曲（即ち、対象楽曲）の楽曲ＭＩＤＩデータＤＭを取得する（Ｓ１１０）。続いて、対象楽曲の歌詞データ群ＤＬを取得し（Ｓ１２０）、対象楽曲に対応し、かつ入力受付部３２を介して指定された発声者ＩＤに対応する一つの音声波形データＳＶを取得する（Ｓ１３０）。

さらに、Ｓ１３０で取得した音声波形データＳＶにおいて、当該音声波形データＳＶの発声内容に含まれる音節それぞれに対応して発声されたと推定される区間（以下、発声区間と称す）を特定し、各発声区間に各種情報を対応付けた音節データを生成する発声区間推定処理を実行する（Ｓ１４０）。

そして、音節データそれぞれによって表された発声区間での音声波形（以下、音節波形と称す）から音声パラメータＰＭを導出する（Ｓ１５０）。本実施形態のＳ１５０では、基本周波数、メル周波数ケプストラム（ＭＦＣＣ）、パワー、それらの時間差分それぞれを、音声パラメータＰＭとして導出する。これらの基本周波数、ＭＦＣＣ、パワーの導出方法は、周知であるため、ここでの詳しい説明は省略するが、例えば、基本周波数であれば、音節波形の時間軸に沿った自己相関、音節波形の周波数スペクトルの自己相関、またはケプストラム法などの手法を用いて導出すれば良い。また、ＭＦＣＣであれば、音節波形に対して時間分析窓を適用して、時間分析窓ごとに周波数解析（例えば、ＦＦＴ）をした結果について、周波数ごとの大きさを対数化した結果を、さらに、周波数解析することで導出すれば良い。パワーについては、音節波形に対して時間分析窓を適用して振幅の二乗した結果を時間方向に積分することで導出すれば良い。

続いて、Ｓ１５０にて導出した音声パラメータＰＭを格納する音声パラメータ登録を実行する（Ｓ１６０）。なお、本実施形態のＳ１６０にてデータ格納サーバ５０に格納される音声パラメータＰＭは、発声した音節の内容（種類）や、発声者ＩＤ、発声者特徴情報と対応付けられている。

その後、本音声パラメータ登録処理を終了する。
〈発声区間推定処理について〉
次に、音声パラメータ登録処理におけるＳ１４０にて起動される発声区間推定処理について説明する。

図３に示すように、発声区間推定処理は、起動されると、先のＳ１３０にて取得した音声波形データＳＶに基づいて、音声波形における音高が時間軸に沿って推移した音高時間変化を算出する（Ｓ２１０）。

具体的に、本実施形態のＳ２１０では、図４に示すような音声波形データＳＶから、当該音声波形データＳＶによって表される音声波形ｘ（ｎ）を一定の時間幅ＬＷを有した時間窓ずらしながら波形素片ｘｗ（ｎ）を切り出す（下記（１）式参照）。ただし、ｘは、サンプリング周波数ＦＳでサンプリングされた離散信号であり、ｎは、時間を表すインデックスである。また、（１）式中の符号“ｓｉ”は、時間窓の最初の位置を示すインデックスであり、一定の間隔（例えば、ＬＷの５０％など）で変化する。

この切り出した波形素片ｘｗ（ｎ）それぞれをＤＦＴ（離散フーリエ変換）し、下記（２）式に示すような周波数スペクトルＸ（ｋ）を導出する。周波数スペクトルＸ（ｋ）は、図５（Ａ）に示すように、横軸に単位時間に含まれる周波数を、縦軸に各周波数のレベル（振幅）を示したものである。ただし、（２）式中のｋは、０から“ＬＷ−１”までの値である。

さらに、周波数スペクトルＸ（ｋ）について、下記（３）式に従って周波数軸に沿った自己相関関数ＣＯＲＸ（ｐ）を算出する。自己相関関数ＣＯＲＸ（ｐ）は、図５（Ｂ）に示すように、横軸に周波数のズレ量を、縦軸に各周波数のズレに応じた相関値を示したものである。ただし、（３）式中の符号ｐは、周波数インデックスのズレであり、Ａｂｓは、複素数の絶対値をとる関数である。

続いて、このように算出された自己相関関数ＣＯＲＸ（ｐ）に、予め規定された重み関数ｗｆ（ｐ）を乗じる。この重み関数ｗｆ（ｐ）は、下記（４）式にて表されるものであり、図５（Ｃ）に示すように、各時間窓に対応する歌唱出力音の音高（以下、模範音高とする）に対応する周波数ほど大きな重みとなるように周波数軸に沿って重みが規定されている。ただし、（４）式中の符号“σ”は、模範音高に対する音高の分布を示す標準偏差である。

この重み関数ｗｆ（ｐ）を自己相関関数ＣＯＲＸ（ｐ）に乗じた結果（以下、最終演算結果と称す）、図５（Ｄ）に示すように、最終演算結果が最大となる周波数インデックスのズレｐを特定し、その特定した周波数インデックスのズレｐに基づいて、当該時間窓における音高を導出する。具体的に当該時間窓における音高は、音高＝Ｆｓ・ｐ／ＬＷにて導出する。

なお、本実施形態のＳ２１０では、この一連の処理を、音声波形データＳＶの全時間に対して時間窓をスライドさせながら実行し、導出された音高を時間軸に沿って配置することで、図６に示すような音高時間変化を算出する。

ただし、本実施形態のＳ２１０においては、最終演算結果において、突出するピークが存在しない場合には、歌声が含まれていないものと判定しても良い。この場合、歌声が含まれていないものと判定する条件は、「最終演算結果におけるピークレベル／最終演算結果における平均レベル」が予め規定された閾値以下である場合としても良い。

発声区間推定処理では、続いて、各時間窓について、Ｓ２１０にて求めた音高及びその調波成分（以下、歌声成分と称す）の周波数を抽出し、その抽出した周波数からなる音声波形（以下、歌声波形と称す）を抽出する（Ｓ２２０）。具体的に、本実施形態のＳ２２０において、歌声成分の周波数を抽出する手法として、音声波形データＳＶに対し、図７に示すような櫛形フィルタを用いる周知の手法を用いる。なお、本実施形態のＳ２２０では、Ｓ２１０にて、歌声が含まれていないものと判定された時間窓については、音高及び調波成分の周波数の抽出を実施しなくとも良い。

また、Ｓ２２０においては、音声波形データＳＶに対するＦＦＴの結果から歌声成分の周波数を抽出しても良い。
そして、Ｓ２２０にて抽出した歌声波形におけるパワーの時間推移（以下、音声パワー推移と称す）を導出する（Ｓ２３０）。具体的に、本実施形態のＳ２３０では、歌声波形に対し時間軸に沿って連続するように規定された時間窓ｉごとにパワーを算出し、その算出したパワーを時間軸に沿って配置することで、図８（Ａ）に示すような音声パワー推移を導出する。

このパワーを算出する方法は、歌声成分の周波数の抽出を櫛形フィルタにて実施した場合には、前記時間窓ｉにおける歌声波形の振幅の二乗値を時間軸方向に累積することで、当該時間窓ｉにおけるパワーを導出する。一方、歌声成分の周波数の抽出をＦＦＴにて実施した場合には、パワーを算出する方法は、ＦＦＴにて抽出された歌声成分の周波数成分について、振幅二乗値を周波数方向の累積値を、当該時間窓ｉにおけるパワーとして導出する。

ここで、下記（５）式は、歌声成分の周波数成分の各振幅値の二乗値和（すなわち、パワー）ｐｗを算出する式である。ただし、（５）式における符号ｍは、何番目の高調波であるかを表すインデックスであり、ｐ０は、Ｓ２１０にて求めた音高を表すインデックスである。

続いて、Ｓ２３０にて導出された音声パワー時間推移に基づいて、先のＳ１３０にて取得した音声波形データＳＶにおける各発声区間を特定する（Ｓ２４０）。具体的に、本実施形態のＳ２４０では、音声パワー推移が時間軸に沿って変化する時刻から、発声開始時刻ｖｓ及び発声終了時刻ｖｅを特定し、それら発声開始時刻ｖｓ及び発声終了時刻ｖｅの順に連続する当該発声開始時刻ｖｓと当該発声終了時刻ｖｅとのペアによって規定される区間それぞれを発声区間として特定する。

本実施形態において、発声開始時刻ｖｓ及び発声終了時刻ｖｅを特定する方法は、図８（Ｂ）に示すように、音声パワー推移の時間進行において、パワーｐｗが予め規定された規定閾値以上となるタイミングそれぞれを発声開始時刻ｖｓとし、パワーｐｗが規定閾値以下となるタイミングそれぞれを発声終了時刻ｖｅとして特定しても良い。

また、発声開始時刻ｖｓ及び発声終了時刻ｖｅを特定する方法は、下記（６）式に従って、音声パワー推移の時間微分ｄｐｗ（ｉ）を導出し、図９に示すように、その時間微分ｄｐｗ（ｉ）が、極大となるタイミングそれぞれを発声開始時刻ｖｓとし、極小となるタイミングそれぞれを発声終了時刻ｖｅとして特定しても良い。

発声区間推定処理では、先のＳ１２０にて取得した歌詞データ群ＤＬのうちの歌詞テロップデータＤＴによって表される歌詞に対して周知の形態素解析を実行し、さらに、予め用意された辞書を参照して、形態素解析の結果を読みに変換する（Ｓ２５０）。すなわち、本実施形態のＳ２５０では、対象楽曲の歌詞を音節（音素）単位で表すように変換すると共に、各音節の内容を特定する。

そして、Ｓ２５０にて変換された歌詞の音節ごとに、当該音節に対応する出力音と当該音節の内容とを対応付けた音符音節組それぞれを生成する（Ｓ２６０）。本実施形態のＳ２６０では、具体的に、先のＳ１１０にて取得した楽曲ＭＩＤＩデータにおける歌唱旋律を構成する出力音の演奏開始タイミングであって、歌詞出力データＤＯによって表される当該音節の歌詞出力タイミングとの時間差分が最小となる演奏開始タイミングを特定し、その特定した演奏開始タイミングを有した出力音と当該音節の内容とを対応付ける。

続いて、先のＳ１３０にて取得した音声波形データＳＶと、先のＳ１１０にて取得した楽曲ＭＩＤＩデータとの時間ズレを修正すると共に、音声波形データＳＶにおける各発声区間に、当該発声区間に対応する音符音節組それぞれを対応づけることで、音節データを生成する（Ｓ２７０）。

具体的に、本実施形態のＳ２７０では、歌詞出力データＤＯによって表される歌詞の時間軸に沿った最初の歌詞出力タイミングと音声波形データＳＶにおける時間軸に沿った最初の発声区間とのズレ、及び歌詞出力データＤＯによって表される歌詞の時間軸に沿った最後の歌詞出力タイミングと音声波形データＳＶにおける時間軸に沿った最後の発声区間とのズレの平均値を算出する。そして、発声区間ごとに、算出した平均値を加味した発声開始時刻ｖｓとの時間差分が最小となる演奏開始タイミングを有した音符音節組を特定し、少なくとも、当該発声区間と当該音符音節組とを対応付けた音節データを生成する。

さらに、Ｓ２１０にて算出された音高時間推移において、発声区間それぞれに対応する区間での音高を発声音高として特定し、その特定した各発声音高と、当該発声音高に対応する発声区間を有した音節データと対応付ける（Ｓ２８０）。このＳ２８０にて対応付ける発声音高は、ＭＩＤＩ規格におけるノートナンバーでも良いし、音階でも良い。

そして、Ｓ２３０で導出された音声パワー推移における各時刻でのパワーを、当該時刻に対応する発声区間を有した音節データと対応付ける（Ｓ２９０）。このＳ２９０にて対応付けるパワーは、ＭＩＤＩ規格におけるベロシティでも良いし、五線譜に記載される強弱記号（例えば、ピアノやフォルテなど）でも良い。

その後、本発声区間推定処理を終了して、音声パラメータ登録処理のＳ１５０へと移行する。
〈音声出力端末の構成について〉
次に、音声出力端末について説明する（図１参照）。

この音声出力端末６０は、情報受付部６１と、表示部６２と、音出力部６３と、通信部６４と、記憶部６５と、制御部６７とを備えている。本実施形態における音声出力端末６０として、例えば、周知の携帯端末（携帯電話や携帯情報端末）や、周知の情報処理装置（いわゆるパーソナルコンピュータ）を想定しても良い。

このうち、情報受付部６１は、入力装置（図示せず）を介して入力された情報を受け付ける。表示部６２は、制御部６７からの指令に基づいて画像を表示する。音出力部６３は、音を出力する周知の装置であり、例えば、ＰＣＭ音源と、スピーカとを備えている。

通信部６４は、通信網（例えば、公衆無線通信網やネットワーク回線）を介して音声出力端末６０が外部との間で情報通信を行うものである。記憶部６５は、記憶内容を読み書き可能に構成された不揮発性の記憶装置（例えば、ハードディスク装置や、フラッシュメモリ）であり、各種処理プログラムや各種データが記憶される。

また、制御部６７は、ＲＯＭ、ＲＡＭ、ＣＰＵを少なくとも有した周知のコンピュータを中心に構成されている。
〈音声合成処理について〉
次に、音声出力端末６０の制御部６７が実行する音声合成処理について説明する。

この音声合成処理は、音声出力端末６０の情報受付部６１を介して起動指令が入力されると起動される。
図１０に示すように、音声合成処理は、起動されると、まず、情報受付部６１を介して入力された情報（以下、入力情報と称す）を取得する（Ｓ５１０）。このＳ５１０にて取得する入力情報とは、例えば、合成音として出力する音声の内容（文言）を表す出力文言や、合成音として出力する音の性質を表す出力性質情報を含むものである。なお、ここで言う音の性質（即ち、出力性質情報）とは、発声者の性別、発声者の年齢といった、発声者の声の特徴を含むものである。

続いて、Ｓ５１０にて取得した出力文言を合成音として出力するために必要な音節それぞれに対応し、かつＳ５１０にて取得した出力性質情報に最も類似する情報と対応付けられた音声パラメータＰＭを、データ格納サーバ５０から抽出する（Ｓ５２０）。

そして、Ｓ５１０にて取得した出力文言の内容にて合成音が出力されるように、Ｓ５２０にて取得した音声パラメータＰＭを設定する（Ｓ５３０）。続いて、Ｓ５３０にて設定された音声パラメータＰＭに基づいて、音声合成する（Ｓ５４０）。このＳ５４０における音声合成は、特許文献１の他にもフォルマント合成による周知の音声合成の手法を用いれば良い。

さらに、Ｓ５４０にて音声合成することによって生成された合成音を音出力部６３から出力する（Ｓ５５０）。
その後、本音声合成処理を終了する。
［実施形態の効果］
以上説明したように、本実施形態の発声区間推定処理によれば、発声された音声波形が時間軸に沿って推移しながら、その音声パワーが変化するタイミングに基づいて、発声開始時刻及び発声終了時刻、ひいては発声区間を自動的に特定することができる。

より詳細には、本実施形態の発声区間推定処理によれば、音声パワー推移の時間進行において、パワーが予め規定された規定閾値以上となるタイミングそれぞれを発声開始時刻とし、パワーが規定閾値以下となるタイミングそれぞれを発声終了時刻とすることで、発声区間を自動的に特定できる。また、本実施形態の発声区間推定処理によれば、音声パワー推移を時間微分した結果、極大となるタイミングそれぞれを発声開始時刻とし、極小となるタイミングそれぞれを発声終了時刻とすることで、発声区間を自動的に特定できる。

この結果、本実施形態の情報処理装置によれば、特許文献１に記載された装置とは異なり、発声開始時刻及び発声終了時刻を当該装置の使用者が指定する必要が無く、多量の音声波形データについて、各音声波形データを発声区間ごとに切り分けることが可能となる。

しかも、本実施形態の発声区間推定処理では、特定した発声区間それぞれに、当該発声区間に対応する音符音節組を対応付けることで音節データを生成している。さらに、本実施形態の発声区間推定処理では、その音節データそれぞれに、各音節データに含まれる発声区間それぞれでの音高や、パワーを付加している。

この結果、本実施形態の音声パラメータ登録処理において、当該音節データに含まれる発声区間での音声波形データから音声パラメータを生成する際に、当該発声区間での信頼度の高い発声内容や、音高、パワーなどの情報を音声パラメータに付加することができる。

換言すれば、本実施形態の音声パラメータ登録処理によれば、音声合成に必要な音声パラメータに多様な情報を付加することができ、ひいては、音声出力端末にて音声合成処理を実行する際に、その音声合成を利用する人物が望む音声を実現しやすくできる。

なお、本実施形態の発声区間推定処理では、単位時間ごとに算出した周波数スペクトルの自己相関値に重み関数を乗じた結果が最大となる周波数に対応する音高を、発声音高として特定している。このため、本実施形態の発声区間推定処理によれば、発声音高を、対象楽曲において発声すべき音高に近い音高として特定できる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。

例えば、上記実施形態では、重み関数ｗｆを、（４）式にて規定したが、重み関数ｗｆは、これに限るものではなく、音声入力装置１０の利用者が、対象楽曲の歌唱旋律に対して、音高が１オクターブ高くなるように歌唱する場合や、音高が１オクターブ低くなるように歌唱する場合を考慮して重み関数ｗｆを設定しても良い。

この場合の重み関数ｗｆ（ｐ）は、前者であれば、下記（７）式のように規定し、後者であれば、下記（８）式のように規定すれば良い。

また、上記実施形態の発声区間推定処理におけるＳ２３０では、歌声成分の周波数成分の各振幅値の二乗値和（すなわち、パワー）ｐｗを（５）式に従って算出していたが、パワーｐｗの算出方法は、これに限るものではない。例えば、パワーｐｗの算出は、歌声成分のスペクトル上での拡がりを考慮し、基本波と高調波成分の近傍の成分を考慮し算出しても良い。具体的には、下記（９）式に示すように、フィルタＦＰ（ｋ）を混合ガウス分布にて数式化し、そのフィルタＦＰによる重みを周波数スペクトル（レベル）Ｘ（ｋ）に乗じた結果の二乗和を、下記（１０）式に従って、周波数インデックスｋで積算することで、パワーｐｗを算出しても良い。

上記実施形態では、音声入力装置１０がカラオケ演奏処理を実行して対象楽曲を演奏している期間に入力された音声に基づいて音声波形データＳＶを生成していたが、本発明における音声波形データＳＶは、これに限るものではない。

すなわち、本発明では、音声入力装置１０において、カラオケ装置などにて周知のアフレコ機能を用いて、音声波形データＳＶを生成しても良い。つまり、アフレコ機能を有した音声入力装置（カラオケ装置）であれば、発声すべき台詞に関するデータとして、台詞を構成する文字（以下、台詞構成文字と称す）を表す台詞テロップデータ（即ち、歌詞テロップデータと同様のデータ）と、台詞構成文字を表示部１３に表示するタイミングを規定した台詞出力データ（即ち、歌詞出力データと同様のデータ）とを備えている。よって、アフレコ機能を用いて音声波形データＳＶを取得する場合、音声入力装置１０は、台詞テロップデータに基づく台詞を表示部１３に表示し、当該台詞が表示部１３に表示されている期間に音声入力部１４を介して入力された音声波形を音声波形データＳＶとして、ＭＩＤＩ格納サーバ２５に格納しても良い。

この場合、情報処理装置３０では、アフレコ機能を用いて生成した音声波形データＳＶを音声パラメータ登録処理の処理対象としても良い。
また、上記実施形態では、音声入力装置１０として、カラオケ装置を想定したが、音声入力装置１０として想定する装置は、カラオケ装置に限るものではなく、例えば、周知の携帯端末（携帯電話や携帯情報端末）や、周知の情報処理装置（いわゆるパーソナルコンピュータ）を想定しても良い。

また、上記実施形態の音声合成システムにおいては、ＭＩＤＩ格納サーバ２５が設けられていたが、本発明においては、ＭＩＤＩ格納サーバ２５は設けられていなくとも良い。この場合、音楽データＭＤや音声波形データＳＶは、音声入力装置１０の記憶部１７に格納されても良いし、データ格納サーバ５０に格納されても良いし、さらには、情報処理装置３０の記憶部３４に格納されても良い。

同様に、上記実施形態の音声合成システムにおいては、データ格納サーバ５０が設けられていたが、本発明においては、データ格納サーバ５０は設けられていなくとも良い。この場合、音声パラメータＰＭや表情テーブルＴＤは、情報処理装置３０の記憶部３４に格納されても良いし、音声入力装置１０の記憶部１７に格納されても良いし、さらには、ＭＩＤＩ格納サーバ２５に格納されても良い。
［実施形態と特許請求の範囲との対応関係］
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。

上記実施形態の音声パラメータ登録処理におけるＳ１２０が、特許請求の範囲の記載における内容情報取得手段及びタイミング情報取得手段に相当し、Ｓ１１０が、特許請求の範囲の記載における楽譜データ取得手段に相当し、Ｓ１３０が、特許請求の範囲の記載における音声データ取得手段に相当する。さらに、上記実施形態の発声区間推定処理におけるＳ２３０が、特許請求の範囲の記載におけるパワー推移導出手段に相当し、Ｓ２４０が、特許請求の範囲の記載における発声区間特定手段に相当し、Ｓ２５０，Ｓ２６０が、特許請求の範囲の記載における音符歌詞対応付手段に相当し、Ｓ２７０〜Ｓ２９０が、特許請求の範囲の記載における音符歌声統合手段に相当する。

また、上記実施形態の発声区間推定処理におけるＳ２１０が、特許請求の範囲の記載における音高推移導出手段に相当し、Ｓ２８０が、特許請求の範囲の記載における音高特定手段に相当する。なお、上記実施形態の音声パラメータ登録処理におけるＳ１６０が、特許請求の範囲の記載におけるパラメータ導出手段に相当する。

１…音声合成システム１０…音声入力装置１１…通信部１２…入力受付部１３…表示部１４…音声入力部１５…音声出力部１６…音源モジュール１７…記憶部２０…制御部２１…ＲＯＭ２２…ＲＡＭ２３…ＣＰＵ２５…ＭＩＤＩ格納サーバ３０…情報処理装置３１…通信部３２…入力受付部３３…表示部３４…記憶部４０…制御部４１…ＲＯＭ４２…ＲＡＭ４３…ＣＰＵ５０…データ格納サーバ６０…音声出力端末

Claims

一つの楽曲である対象楽曲において発声すべき内容の文字列を表す発声内容情報を取得する内容情報取得手段と、
前記内容情報取得手段で取得した発声内容情報である特定内容情報によって表される文字の発声開始タイミングを規定する発声タイミング情報を取得するタイミング情報取得手段と、
少なくとも前記対象楽曲における歌唱旋律の楽譜を表し、当該歌唱旋律を構成する個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽曲楽譜データを取得する楽譜データ取得手段と、
前記特定内容情報によって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手段と、
前記音声データ取得手段で取得した音声データに基づいて、当該音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出したパワーの時間推移を表す音声パワー推移を導出するパワー推移導出手段と、
前記パワー推移導出手段で導出した音声パワー推移が時間軸に沿って変化する時刻を、発声開始時刻及び発声終了時刻として特定し、前記発声開始時刻、前記発声終了時刻の順に連続する当該発声開始時刻と当該発声終了時刻とのペアによって規定される発声区間それぞれを特定する発声区間特定手段と、
前記内容情報取得手段で取得した特定内容情報、前記タイミング情報取得手段で取得した発声タイミング情報、及び前記楽譜データ取得手段で取得した楽曲楽譜データに基づいて、前記特定内容情報によって表される文字列の音節ごとに、当該音節に対応する文字の前記発声開始タイミングとの時間差分が最小となる前記演奏開始タイミングを有した前記出力音を特定すると共に、当該出力音と当該音節の内容とを対応付けた音符音節組それぞれを生成する音符歌詞対応付手段と、
前記発声区間特定手段にて特定された発声区間ごとに、当該発声区間を規定する発声開始時刻との時間差分が最小となる前記演奏開始タイミングを有し、かつ前記音符歌詞対応付手段で生成された音符音節組を特定し、少なくとも、当該発声区間と当該音符音節組とを対応付けた音節データを生成する音符歌声統合手段と
を備え、
前記発声区間特定手段は、
前記音声パワー推移の時間進行において、前記パワーが予め規定された規定閾値以上となるタイミングそれぞれを前記発声開始時刻とし、前記パワーが前記規定閾値以下となるタイミングそれぞれを前記発声終了時刻として、前記発声区間それぞれを特定する
ことを特徴とする発声区間特定装置。
一つの楽曲である対象楽曲において発声すべき内容の文字列を表す発声内容情報を取得する内容情報取得手段と、
前記内容情報取得手段で取得した発声内容情報である特定内容情報によって表される文字の発声開始タイミングを規定する発声タイミング情報を取得するタイミング情報取得手段と、
少なくとも前記対象楽曲における歌唱旋律の楽譜を表し、当該歌唱旋律を構成する個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽曲楽譜データを取得する楽譜データ取得手段と、
前記特定内容情報によって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手段と、
前記音声データ取得手段で取得した音声データに基づいて、当該音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出したパワーの時間推移を表す音声パワー推移を導出するパワー推移導出手段と、
前記パワー推移導出手段で導出した音声パワー推移が時間軸に沿って変化する時刻を、発声開始時刻及び発声終了時刻として特定し、前記発声開始時刻、前記発声終了時刻の順に連続する当該発声開始時刻と当該発声終了時刻とのペアによって規定される発声区間それぞれを特定する発声区間特定手段と、
前記内容情報取得手段で取得した特定内容情報、前記タイミング情報取得手段で取得した発声タイミング情報、及び前記楽譜データ取得手段で取得した楽曲楽譜データに基づいて、前記特定内容情報によって表される文字列の音節ごとに、当該音節に対応する文字の前記発声開始タイミングとの時間差分が最小となる前記演奏開始タイミングを有した前記出力音を特定すると共に、当該出力音と当該音節の内容とを対応付けた音符音節組それぞれを生成する音符歌詞対応付手段と、
前記発声区間特定手段にて特定された発声区間ごとに、当該発声区間を規定する発声開始時刻との時間差分が最小となる前記演奏開始タイミングを有し、かつ前記音符歌詞対応付手段で生成された音符音節組を特定し、少なくとも、当該発声区間と当該音符音節組とを対応付けた音節データを生成する音符歌声統合手段と
を備え、
前記発声区間特定手段は、
前記音声パワー推移を時間微分した結果、極大となるタイミングそれぞれを前記発声開始時刻とし、極小となるタイミングそれぞれを前記発声終了時刻として、前記発声区間それぞれを特定する
ことを特徴とする発声区間特定装置。
少なくとも、前記音声データ取得手段で取得した音声データに基づいて、前記音声波形における音高が時間軸に沿って推移した音高時間推移を導出する音高推移導出手段と、
前記音高推移導出手段で導出された音高時間推移において、前記発声区間特定手段で特定された発声区間それぞれでの音高を発声音高として特定する音高特定手段と
を備え、
前記音符歌声統合手段は、
前記音高特定手段で特定された各発声音高と、当該発声音高に対応する前記発声区間と、当該発声区間に対応する前記音符音節組とを対応付けることで、前記音節データを生成する
ことを特徴とする請求項１または請求項２に記載の発声区間特定装置。
前記音高特定手段は、
前記音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出した周波数スペクトルの自己相関値に、前記楽曲楽譜データによって表される出力音のうち、当該単位時間に対応する出力音の音高に対応する周波数ほど大きな重みとなるように周波数軸に沿って重みが規定された重み関数を乗じた結果が最大となる周波数に対応する音高を、前記発声音高として特定する
ことを特徴とする請求項３に記載の発声区間特定装置。
前記音高特定手段は、
前記音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出した周波数スペクトルの自己相関値が最大となる周波数に対応する音高を、前記発声音高として特定する
ことを特徴とする請求項３に記載の発声区間特定装置。
前記音符歌声統合手段は、
前記パワー推移導出手段で導出された音声パワー推移における各時刻でのパワーと、当該時刻に対応する前記発声区間と、当該発声区間に対応する前記音符音節組とを対応付けることで、前記音節データを生成する
ことを特徴とする請求項１または請求項２のいずれか一項に記載の発声区間特定装置。
一つの楽曲である対象楽曲において発声すべき内容の文字列を表す発声内容情報を取得する内容情報取得手段と、
前記内容情報取得手段で取得した発声内容情報である特定内容情報によって表される文字の発声開始タイミングを規定する発声タイミング情報を取得するタイミング情報取得手段と、
少なくとも前記対象楽曲における歌唱旋律の楽譜を表し、当該歌唱旋律を構成する個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽曲楽譜データを取得する楽譜データ取得手段と、
前記特定内容情報によって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手段と、
前記音声データ取得手段で取得した音声データに基づいて、当該音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出したパワーの時間推移を表す音声パワー推移を導出するパワー推移導出手段と、
前記パワー推移導出手段で導出した音声パワー推移が時間軸に沿って変化する時刻を、発声開始時刻及び発声終了時刻として特定し、前記発声開始時刻、前記発声終了時刻の順に連続する当該発声開始時刻と当該発声終了時刻とのペアによって規定される発声区間それぞれを特定する発声区間特定手段と、
前記内容情報取得手段で取得した特定内容情報、前記タイミング情報取得手段で取得した発声タイミング情報、及び前記楽譜データ取得手段で取得した楽曲楽譜データに基づいて、前記特定内容情報によって表される文字列の音節ごとに、当該音節に対応する文字の前記発声開始タイミングとの時間差分が最小となる前記演奏開始タイミングを有した前記出力音を特定すると共に、当該出力音と当該音節の内容とを対応付けた音符音節組それぞれを生成する音符歌詞対応付手段と、
前記発声区間特定手段にて特定された発声区間ごとに、当該発声区間を規定する発声開始時刻との時間差分が最小となる前記演奏開始タイミングを有し、かつ前記音符歌詞対応付手段で生成された音符音節組を特定し、少なくとも、当該発声区間と当該音符音節組と
を対応付けた音節データを生成する音符歌声統合手段と、
前記音符歌声統合手段で生成された音節データにおける発声区間での前記音声データから、予め規定された少なくとも一つの特徴量である音声パラメータを導出するパラメータ導出手段と
を備え、
前記発声区間特定手段は、
前記音声パワー推移の時間進行において、前記パワーが予め規定された規定閾値以上となるタイミングそれぞれを前記発声開始時刻とし、前記パワーが前記規定閾値以下となるタイミングそれぞれを前記発声終了時刻として、前記発声区間それぞれを特定する
ことを特徴とする音声パラメータ生成装置。
一つの楽曲である対象楽曲において発声すべき内容の文字列を表す発声内容情報を取得する内容情報取得手段と、
前記内容情報取得手段で取得した発声内容情報である特定内容情報によって表される文字の発声開始タイミングを規定する発声タイミング情報を取得するタイミング情報取得手段と、
少なくとも前記対象楽曲における歌唱旋律の楽譜を表し、当該歌唱旋律を構成する個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽曲楽譜データを取得する楽譜データ取得手段と、
前記特定内容情報によって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手段と、
前記音声データ取得手段で取得した音声データに基づいて、当該音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出したパワーの時間推移を表す音声パワー推移を導出するパワー推移導出手段と、
前記パワー推移導出手段で導出した音声パワー推移が時間軸に沿って変化する時刻を、発声開始時刻及び発声終了時刻として特定し、前記発声開始時刻、前記発声終了時刻の順に連続する当該発声開始時刻と当該発声終了時刻とのペアによって規定される発声区間それぞれを特定する発声区間特定手段と、
前記内容情報取得手段で取得した特定内容情報、前記タイミング情報取得手段で取得した発声タイミング情報、及び前記楽譜データ取得手段で取得した楽曲楽譜データに基づいて、前記特定内容情報によって表される文字列の音節ごとに、当該音節に対応する文字の前記発声開始タイミングとの時間差分が最小となる前記演奏開始タイミングを有した前記出力音を特定すると共に、当該出力音と当該音節の内容とを対応付けた音符音節組それぞれを生成する音符歌詞対応付手段と、
前記発声区間特定手段にて特定された発声区間ごとに、当該発声区間を規定する発声開始時刻との時間差分が最小となる前記演奏開始タイミングを有し、かつ前記音符歌詞対応付手段で生成された音符音節組を特定し、少なくとも、当該発声区間と当該音符音節組と
を対応付けた音節データを生成する音符歌声統合手段と、
前記音符歌声統合手段で生成された音節データにおける発声区間での前記音声データから、予め規定された少なくとも一つの特徴量である音声パラメータを導出するパラメータ導出手段と
を備え、
前記発声区間特定手段は、
前記音声パワー推移を時間微分した結果、極大となるタイミングそれぞれを前記発声開始時刻とし、極小となるタイミングそれぞれを前記発声終了時刻として、前記発声区間それぞれを特定する
ことを特徴とする音声パラメータ生成装置。
一つの楽曲である対象楽曲において発声すべき内容の文字列を表す発声内容情報を取得する内容情報取得手順と、
前記内容情報取得手順で取得した発声内容情報である特定内容情報によって表される文字の発声開始タイミングを規定する発声タイミング情報を取得するタイミング情報取得手順と、
少なくとも前記対象楽曲における歌唱旋律の楽譜を表し、当該歌唱旋律を構成する個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽曲楽譜データを取得する楽譜データ取得手順と、
前記特定内容情報によって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手順と、
前記音声データ取得手順で取得した音声データに基づいて、当該音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出したパワーの時間推移を表す音声パワー推移を導出するパワー推移導出手順と、
前記パワー推移導出手順で導出した音声パワー推移が時間軸に沿って変化する時刻を、発声開始時刻及び発声終了時刻として特定し、前記発声開始時刻、前記発声終了時刻の順に連続する当該発声開始時刻と当該発声終了時刻とのペアによって規定される発声区間それぞれを特定する発声区間特定手順と、
前記内容情報取得手順で取得した特定内容情報、前記タイミング情報取得手順で取得した発声タイミング情報、及び前記楽譜データ取得手順で取得した楽曲楽譜データに基づいて、前記特定内容情報によって表される文字列の音節ごとに、当該音節に対応する文字の前記発声開始タイミングとの時間差分が最小となる前記演奏開始タイミングを有した前記出力音を特定すると共に、当該出力音と当該音節の内容とを対応付けた音符音節組それぞれを生成する音符歌詞対応付手順と、
前記発声区間特定手順にて特定された発声区間ごとに、当該発声区間を規定する発声開始時刻との時間差分が最小となる前記演奏開始タイミングを有し、かつ前記音符歌詞対応付手順で生成された音符音節組を特定し、少なくとも、当該発声区間と当該音符音節組とを対応付けた音節データを生成する音符歌声統合手順と
をコンピュータに実行させ、
前記発声区間特定手順では、
前記音声パワー推移の時間進行において、前記パワーが予め規定された規定閾値以上となるタイミングそれぞれを前記発声開始時刻とし、前記パワーが前記規定閾値以下となるタイミングそれぞれを前記発声終了時刻として、前記発声区間それぞれを特定する
ことを特徴とするプログラム。
一つの楽曲である対象楽曲において発声すべき内容の文字列を表す発声内容情報を取得する内容情報取得手順と、
前記内容情報取得手順で取得した発声内容情報である特定内容情報によって表される文字の発声開始タイミングを規定する発声タイミング情報を取得するタイミング情報取得手順と、
少なくとも前記対象楽曲における歌唱旋律の楽譜を表し、当該歌唱旋律を構成する個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽曲楽譜データを取得する楽譜データ取得手順と、
前記特定内容情報によって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手順と、
前記音声データ取得手順で取得した音声データに基づいて、当該音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出したパワーの時間推移を表す音声パワー推移を導出するパワー推移導出手順と、
前記パワー推移導出手順で導出した音声パワー推移が時間軸に沿って変化する時刻を、発声開始時刻及び発声終了時刻として特定し、前記発声開始時刻、前記発声終了時刻の順に連続する当該発声開始時刻と当該発声終了時刻とのペアによって規定される発声区間それぞれを特定する発声区間特定手順と、
前記内容情報取得手順で取得した特定内容情報、前記タイミング情報取得手順で取得した発声タイミング情報、及び前記楽譜データ取得手順で取得した楽曲楽譜データに基づいて、前記特定内容情報によって表される文字列の音節ごとに、当該音節に対応する文字の前記発声開始タイミングとの時間差分が最小となる前記演奏開始タイミングを有した前記出力音を特定すると共に、当該出力音と当該音節の内容とを対応付けた音符音節組それぞれを生成する音符歌詞対応付手順と、
前記発声区間特定手順にて特定された発声区間ごとに、当該発声区間を規定する発声開始時刻との時間差分が最小となる前記演奏開始タイミングを有し、かつ前記音符歌詞対応付手順で生成された音符音節組を特定し、少なくとも、当該発声区間と当該音符音節組とを対応付けた音節データを生成する音符歌声統合手順と
をコンピュータに実行させ、
前記発声区間特定手順では、
前記音声パワー推移を時間微分した結果、極大となるタイミングそれぞれを前記発声開始時刻とし、極小となるタイミングそれぞれを前記発声終了時刻として、前記発声区間それぞれを特定する
ことを特徴とするプログラム。