JP5810947B2 - 発声区間特定装置、音声パラメータ生成装置、及びプログラム - Google Patents

発声区間特定装置、音声パラメータ生成装置、及びプログラム Download PDF

Info

Publication number
JP5810947B2
JP5810947B2 JP2012018609A JP2012018609A JP5810947B2 JP 5810947 B2 JP5810947 B2 JP 5810947B2 JP 2012018609 A JP2012018609 A JP 2012018609A JP 2012018609 A JP2012018609 A JP 2012018609A JP 5810947 B2 JP5810947 B2 JP 5810947B2
Authority
JP
Japan
Prior art keywords
utterance
time
voice
syllable
content information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012018609A
Other languages
English (en)
Other versions
JP2013156544A (ja
Inventor
典昭 阿瀬見
典昭 阿瀬見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2012018609A priority Critical patent/JP5810947B2/ja
Publication of JP2013156544A publication Critical patent/JP2013156544A/ja
Application granted granted Critical
Publication of JP5810947B2 publication Critical patent/JP5810947B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、音声波形における発声区間を特定する発声区間特定装置、プログラム、及びその特定した発声区間での音声データから音声パラメータを生成する音声パラメータ生成装置に関する。
従来、入力された音から音声パラメータを用意する音声パラメータ生成装置を備え、音声パラメータ生成装置によって用意された音声パラメータを合成することで、指定された内容の音声を生成する音声合成装置が知られている(例えば、特許文献1参照)。
この特許文献1に記載された音声合成装置における音声パラメータ生成装置は、入力された音(以下、音声データと称す)を調波成分と非調波成分とに分離する音分離部と、音分離部にて分離した調波成分に基づいて、音声データを、各音素について発声したと推定される区間(以下、発声区間と称す)ごとに切り分ける音素切分部と、音素切分部にて切り分けられた各発声区間での音声データから音声パラメータを生成するパラメータ生成部とを備えている。
そして、特許文献1に記載された音素切分部における音声データを発声区間ごとに切り分ける方法では、当該音声データの波形を表示した上で、その表示された波形を当該音声パラメータ生成装置の使用者が目視で確認しながら、各音素の発声開始時刻と発声終了時刻とをスイッチ操作にて指定することで、各発声区間を特定することがなされている。
特開2004−038071号公報
このような特許文献1に記載された、音声データから各発声区間を切り分ける方法では、各発声区間の始端(発声開始時刻)及び終端(発声終了時刻)を、当該音声パラメータ生成装置の使用者自身が目視で確認しながら指定しなければならず、音声データを発声区間ごとに切り分ける際の精度が低いという問題があった。
さらに、特許文献1に記載された方法では、人手に頼る以上、多量の音声データについて、各音声データを発声区間ごとに切り分けることが困難であるという問題があった。
そこで、本発明は、多量の音声データについて、各音声データを発声区間ごとに切り分け可能とすることを目的とする。
上記目的を達成するためになされた本発明の発声区間特定装置では、内容情報取得手段が、発声内容情報を取得し、タイミング情報取得手段が、発声タイミング情報を取得すると共に、楽譜データ取得手段が、楽曲楽譜データを取得すると共に、音声データ取得手段が、音声データを取得する。なお、本発明において、発声内容情報とは、一つの楽曲である対象楽曲において発声すべき内容の文字列を表す情報であり、発声タイミング情報とは、内容情報取得手段で取得した発声内容情報(以下、特定内容情報)によって表される文字の発声開始タイミングを規定する情報である。さらに、本発明において、楽曲楽譜データとは、少なくとも対象楽曲における歌唱旋律の楽譜を表し、当該歌唱旋律を構成する個々の出力音について、少なくとも音高及び演奏開始タイミングが規定されたデータであり、音声データとは、特定内容情報によって表される文字列について発声された音声波形を表すデータである。
そして、本発明の発声区間特定装置では、パワー推移導出手段が、音声データ取得手段で取得した音声データに基づいて、当該音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出したパワーの時間推移を表す音声パワー推移を導出する。すると、発声区間特定手段が、その音声パワー推移が時間軸に沿って変化する時刻を、発声開始時刻及び発声終了時刻として特定し、発声開始時刻、発声終了時刻の順に連続する当該発声開始時刻と当該発声終了時刻とのペアによって規定される発声区間それぞれを特定する。
さらに、本発明の発声区間特定装置では、音符歌詞対応付手段が、内容情報取得手段で取得した特定内容情報、タイミング情報取得手段で取得した発声タイミング情報、及び楽譜データ取得手段で取得した楽曲楽譜データに基づいて、特定内容情報によって表される文字列の音節ごとに、当該音節に対応する文字の発声開始タイミングとの時間差分が最小となる演奏開始タイミングを有した出力音を特定すると共に、当該出力音と当該音節の内容とを対応付けた音符音節組それぞれを生成する。その後、音符歌声統合手段が、発声区間特定手段にて特定された発声区間ごとに、当該発声区間を規定する発声開始時刻との時間差分が最小となる演奏開始タイミングを有し、かつ音符歌詞対応付手段で生成された音符音節組を特定し、少なくとも、当該発声区間と当該音符音節組とを対応付けた音節データを生成する。
そして、本発明における発声区間特定手段は、音声パワー推移の時間進行において、パワーが予め規定された規定閾値以上となるタイミングそれぞれを発声開始時刻とし、パワーが規定閾値以下となるタイミングそれぞれを発声終了時刻として、発声区間それぞれを特定しても良い。
また、本発明における発声区間特定手段は、音声パワー推移を時間微分した結果、極大となるタイミングそれぞれを発声開始時刻とし、極小となるタイミングそれぞれを発声終了時刻として、発声区間それぞれを特定しても良い。
このような発声区間特定装置によれば、発声された音声波形が時間軸に沿って推移しながら、その音声パワーが変化するタイミングに基づいて、発声開始時刻及び発声終了時刻、ひいては発声区間を自動的に特定することができる。
この結果、本発明の発声区間特定装置によれば、特許文献1に記載された装置とは異なり、発声開始時刻及び発声終了時刻を当該装置の使用者が指定する必要が無く、多量の音声データについて、各音声データを発声区間ごとに切り分けることが可能となる。
しかも、本発明の発声区間特定装置では、特定した発声区間それぞれに当該発声区間に対応する音符音節組を対応付けることで音節データを生成している。
このため、本発明の発声区間特定装置によれば、当該音節データに含まれる発声区間での音声データから音声パラメータを生成する際に、信頼度の高い音節の内容を当該音声パラメータに付加することができ、ひいては、音声合成に必要な音声パラメータに多様な情報を付加することができる。この結果、本発明の発声区間特定装置によれば、音声合成の際に、その音声合成を利用する人物が望む音声を実現しやすくできる。
また、本発明の発声区間特定装置においては、音高推移導出手段が、少なくとも、音声データ取得手段で取得した音声データに基づいて、音声波形における音高が時間軸に沿って推移した音高時間推移を導出し、音高特定手段が、その音高時間推移において、発声区間特定手段で特定された発声区間それぞれでの音高を発声音高として特定しても良い。
この場合、本発明における音符歌声統合手段は、音高特定手段で特定された各発声音高と、当該発声音高に対応する発声区間と、当該発声区間に対応する音符音節組とを対応付けることで、音節データを生成しても良い。
このような発声区間特定装置によれば、各音節データに、発声区間それぞれでの音高を付加することができる。この結果、当該音節データに含まれる発声区間での音声データから音声パラメータを生成する際に、当該発声区間での信頼度の高い音高の情報を音声パラメータに付加することができる。
さらに、本発明における音高特定手段は、音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出した周波数スペクトルの自己相関値に、楽曲楽譜データによって表される出力音のうち、当該単位時間に対応する出力音の音高に対応する周波数ほど大きな重みとなるように周波数軸に沿って重みが規定された重み関数を乗じた結果が最大となる周波数に対応する音高を、発声音高として特定しても良い。
このような発声区間特定装置によれば、発声音高を、対象楽曲において発声すべき音高に近い音高として特定できる。
そして、本発明における音高特定手段は、音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出した周波数スペクトルの自己相関値が最大となる周波数に対応する音高を、発声音高として特定しても良い。
このような発声区間特定装置によれば、実際に発声された音声の音高を発声音高として特定できる。
ところで、本発明における音符歌声統合手段は、音声パワー推移における各時刻でのパワーと、当該時刻に対応する発声区間と、当該発声区間に対応する音符音節組とを対応付けることで、音節データを生成しても良い。
このような発声区間特定装置によれば、各音節データに、発声区間それぞれでのパワーを付加することができる。この結果、当該音節データに含まれる発声区間での音声データから音声パラメータを生成する際に、当該発声区間における信頼度の高い音声のパワー(強さ)に関する情報を音声パラメータに付加することが可能となる。
ころで、本発明の適用対象は、音声パラメータ生成装置であっても良い。ただし、本発明が適用される音声パラメータ生成装置は、請求項1に記載された発声区間特定装置と、パラメータ導出手段とを備えている必要がある。なお、ここで言うパラメータ導出手段とは、発声区間特定装置における音符歌声統合手段で生成された音節データにおける発声区間での音声データから、予め規定された少なくとも一つの特徴量である音声パラメータを導出する手段である。
このような音声パラメータ生成装置によれば、当該音節データに含まれる発声区間での音声データから音声パラメータを生成する際に、信頼度の高い音節の内容を当該音声パラメータに付加することができ、ひいては、音声合成に必要な音声パラメータに多様な情報を付加することができる。この結果、本発明の発声区間特定装置によれば、音声合成の際に、その音声合成を利用する人物が望む音声を実現しやすくすることができる。
なお、ここで言う音声パラメータとしての特徴量は、フォルマント合成による音声合成を実行する際に必要となる特徴量であり、例えば、基本周波数や、メル周波数ケプストラム(MFCC)、パワーなど、及びそれらの各時間差分などを含む。
さらには、本発明は、コンピュータに実行させるプログラムとしてなされていても良い。この場合、本発明が適用されたプログラムは、発声内容情報を取得する内容情報取得手順と、発声タイミング情報を取得するタイミング情報取得手順と、楽曲楽譜データを取得する楽譜データ取得手順と、音声データを取得する音声データ取得手順と、音声パワー推移を導出するパワー推移導出手順と、発声区間それぞれを特定する発声区間特定手順と、音符音節組それぞれを生成する音符歌詞対応付手順と、音節データを生成する音符歌声統合手順とをコンピュータに実行させるプログラムである必要がある。
なお、発声区間特定手順は、音声パワー推移の時間進行において、パワーが予め規定された規定閾値以上となるタイミングそれぞれを発声開始時刻とし、パワーが規定閾値以下となるタイミングそれぞれを発声終了時刻として、発声区間それぞれを特定しても良いし、音声パワー推移を時間微分した結果、極大となるタイミングそれぞれを発声開始時刻とし、極小となるタイミングそれぞれを発声終了時刻として、発声区間それぞれを特定しても良い。
なお、本発明は、コンピュータを発声区間特定装置として機能させるためのプログラムであっても良い。
本発明のプログラムが、このようになされていれば、例えば、DVD−ROM、CD−ROM、ハードディスク等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、請求項1に記載された発声区間特定装置として機能させることができる。
音声合成システムの概略構成を示すブロック図である。 音声パラメータ登録処理の処理手順を示すフローチャートである。 発声区間推定処理の処理手順を示すフローチャートである。 音声データを例示する図である。 音高時間変化の導出方法を例示する図である。 音高時間変化を例示する図である。 パワー時間変化の導出方法を例示する図である。 発声区間の特定方法を例示する図である。 発声区間の特定方法の変形例を示す図である。 音声合成処理の処理手順を示す図である。
以下に本発明の実施形態を図面と共に説明する。
〈音声合成システムについて〉
図1は、本発明が適用された音声合成システムの概略構成を示す図である。
本発明が適用された音声合成システム1は、当該音声合成システム1の利用者が指定した内容の音声が出力されるように、予め登録された音声パラメータに基づいて音声合成した音声(即ち、合成音)を出力するシステムである。
これを実現するために、音声合成システム1は、音声を入力する音声入力装置10と、音声入力装置10を介して入力された音声(以下、音声波形データSVと称す)及びカラオケの用途に用いられる各種データ(以下、音楽データMDと称す)を格納するMIDI格納サーバ25とを備えている。さらに、音声合成システム1は、MIDI格納サーバ25に格納されている音声波形データSV及び音楽データMDに基づいて、音声パラメータを生成する処理を実行する情報処理装置30と、情報処理装置30にて生成された音声パラメータを格納するデータ格納サーバ50とを備えている。その上、音声合成システム1は、データ格納サーバ50に格納されている音声パラメータに基づいて音声合成した合成音を出力する音声出力端末60を備えている。なお、本実施形態における音声合成システム1は、音声出力端末60を複数台備えている。
すなわち、本実施形態の音声合成システム1においては、情報処理装置30が、MIDI格納サーバ25に格納されている音声波形データSV及び音楽データMDに基づいて、少なくとも音声パラメータPMを生成してデータ格納サーバ50に格納する。そして、音声出力端末60は、当該音声出力端末60を介して、利用者が指定した内容の音声が出力されるように、データ格納サーバ50に格納された音声パラメータPMに基づいて音声合成した合成音を出力する。
なお、ここで言う音声パラメータPMとは、詳しくは後述するが、いわゆるフォルマント合成に用いる音声の特徴量であり、例えば、発声音声における各音節での基本周波数、メル周波数ケプストラム(MFCC)、パワー、及びそれらの時間差分を含むものである。
〈MIDI格納サーバについて〉
まず、MIDI格納サーバ25は、記憶内容を読み書き可能に構成された記憶装置を中心に構成された装置であり、通信網を介して、音声入力装置10に接続されている。
このMIDI格納サーバ25には、少なくとも、楽曲ごとに予め用意された音楽データMDが格納されている。この音楽データMDには、楽曲MIDIデータDM(特許請求の範囲における楽曲楽譜データに相当)と、歌詞データ群DLとが含まれ、これら楽曲MIDIデータDMと歌詞データ群DLとは、それぞれ対応する楽曲ごとに対応付けられている。
このうち、楽曲MIDIデータDMは、周知のMIDI(Musical Instrument Digital Interface)規格によって、一つの楽曲の楽譜を表すデータであり、楽曲ごとに予め用意されている。この楽曲MIDIデータDMの各々は、楽曲を区別するデータである識別データと、当該楽曲にて用いられる楽器ごとの楽譜を表す楽譜トラックとを少なくとも有している。
そして、楽譜トラックには、MIDI音源から出力される個々の出力音について、少なくとも、音高(いわゆるノートナンバー)と、音源モジュールが出力音を出力する期間(以下、音符長)とが規定されている。ただし、楽譜トラックの音符長は、当該出力音の出力を開始するまでの当該楽曲の演奏開始からの時間を表す演奏開始タイミング(いわゆるノートオンタイミング)と、当該出力音の出力を終了するまでの当該楽曲の演奏開始からの時間を表す演奏終了タイミング(いわゆるノートオフタイミング)とによって規定されている。
なお、楽譜トラックは、例えば、鍵盤楽器(例えば、ピアノやパイプオルガンなど)、弦楽器(例えば、バイオリンやビオラ、ギター、ベースギター、琴など)、打楽器(例えば、ヴィブラフォンや、ドラム、シンバル、ティンパニー、木琴など)、及び管楽器(例えば、クラリネットやトランペット、フルート、尺八など)などの楽器ごとに用意されている。このうち、本実施形態では、ヴィブラフォンが、当該楽曲において歌唱旋律(メロディライン)を担当する楽器として規定されている。また、以下では、歌唱旋律を担当する楽器に対応する楽譜トラックに規定された出力音を歌唱出力音と称す。
一方、歌詞データ群DLは、周知のカラオケ装置を構成する表示装置に表示される歌詞に関するデータであり、楽曲の歌詞を構成する文字(以下、歌詞構成文字とする)を表す歌詞テロップデータDT(本発明における発声内容情報に相当)と、歌詞構成文字の出力タイミングである歌詞出力タイミングを、楽曲MIDIデータDMの演奏と対応付けるタイミング対応関係が規定された歌詞出力データDO(本発明における発声タイミング情報に相当)とを備えている。
具体的に、本実施形態におけるタイミング対応関係は、楽曲MIDIデータDMの演奏を開始するタイミングに、歌詞テロップデータDTの出力を開始するタイミングが対応付けられた上で、当該楽曲の時間軸に沿った各歌詞構成文字の歌詞出力タイミングが、楽曲MIDIデータDMの演奏を開始からの経過時間によって規定されている。なお、ここで言う経過時間とは、例えば、表示された歌詞構成文字の色替えを実行するタイミングを表す時間であり、色替えの速度によって規定されている。また、ここで言う歌詞構成文字は、歌詞を構成する文字の各々であっても良いし、その文字の各々を時間軸に沿った特定の規則に従って一群とした文節やフレーズであっても良い。
〈音声入力装置の構成について〉
次に、音声入力装置10について説明する。
音声入力装置10は、通信部11と、入力受付部12と、表示部13と、音声入力部14と、音声出力部15と、音源モジュール16と、記憶部17と、制御部20とを備えている。すなわち、本実施形態における音声入力装置10は、いわゆる周知のカラオケ装置として構成されている。
このうち、通信部11は、通信網(例えば、公衆無線通信網やネットワーク回線)を介して、音声入力装置10が外部との間で通信を行う。入力受付部12は、外部からの操作に従って情報や指令の入力を受け付ける入力機器(例えば、キーやスイッチ、リモコンの受付部など)である。
表示部13は、少なくとも、文字コードで示される情報を含む画像を表示する表示装置(例えば、液晶ディスプレイやCRT等)である。また、音声入力部14は、音を電気信号に変換して制御部20に入力する装置(いわゆるマイクロホン)である。音声出力部15は、制御部20からの電気信号を音に変換して出力する装置(いわゆるスピーカ)である。さらに、音源モジュール16は、MIDI(Musical Instrument Digital Interface)規格によって規定されたデータに基づいて、音源からの音を模擬した音(即ち、出力音)を出力する装置(例えば、MIDI音源)である。
記憶部17は、記憶内容を読み書き可能に構成された不揮発性の記憶装置(例えば、ハードディスク装置や、フラッシュメモリ)である。
また、制御部20は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するROM21と、処理プログラムやデータを一時的に格納するRAM22と、ROM21やRAM22に記憶された処理プログラムに従って各処理(各種演算)を実行するCPU23とを少なくとも有した周知のコンピュータを中心に構成されている。
そして、ROM21には、周知のカラオケ演奏処理を制御部が実行する処理プログラムや、カラオケ演奏処理によって一つの楽曲が演奏されている期間中に、音声入力部14を介して入力された音声を音声波形データSVとして、当該対象楽曲を識別する楽曲識別情報と対応付けて、MIDI格納サーバ25に格納する音声格納処理を制御部20が実行する処理プログラムが記憶されている。
つまり、音声入力装置10では、カラオケ演奏処理に従って、入力受付部12を介して指定された一つの楽曲(以下、対象楽曲とする)に対応する音楽データMDをMIDI格納サーバ25から取得して、当該音楽データMD中の楽曲MIDIデータDMに基づいて、対象楽曲を演奏すると共に、当該音楽データMD中の歌詞データ群DLに基づいて対象楽曲の歌詞を表示部13に表示する。
さらに、音声入力装置10では、音声波形データSVを、当該対象楽曲を識別する楽曲識別情報(ここでは、音楽データMDそのもの)及び音声を入力した人物(以下、発声者とする)を識別する発声者識別情報(以下、発声者IDと称す)と対応付けて、MIDI格納サーバ25に格納する。なお、MIDI格納サーバ25に格納される音声波形データSVには、発声者の特徴を表す発声者特徴情報も対応付けられており、この発声者特徴情報には、例えば、発声者の性別、年齢などを含む。
〈情報処理装置の構成について〉
次に、情報処理装置30について説明する。
この情報処理装置30は、通信部31と、入力受付部32と、表示部33と、記憶部34と、制御部40とを備えている。
このうち、通信部31は、通信網(例えば、公衆無線通信網やネットワーク回線)を介して外部との間で通信を行う。入力受付部32は、外部からの操作に従って情報や指令の入力を受け付ける入力機器(例えば、キーボードやポインティングデバイス)である。表示部33は、画像を表示する表示装置(例えば、液晶ディスプレイやCRT等)である。
記憶部34は、記憶内容を読み書き可能に構成された不揮発性の記憶装置(例えば、ハードディスク装置や、フラッシュメモリ)である。また、制御部40は、ROM41、RAM42、CPU43を少なくとも有した周知のコンピュータを中心に構成されている。
そして、情報処理装置30のROM41には、MIDI格納サーバ25に格納されている音声波形データSV及び音楽データMDに基づいて生成した音声パラメータPMを、データ格納サーバ50に格納する音声パラメータ登録処理を制御部40が実行するための処理プログラムが記憶されている。
なお、データ格納サーバ50は、記憶内容を読み書き可能に構成された記憶装置を中心に構成された装置であり、通信網を介して情報処理装置30に接続されている。
〈音声パラメータ登録処理について〉
次に、情報処理装置30が実行する音声パラメータ登録処理について説明する。
図2に示すように、音声パラメータ登録処理は、起動されると、入力受付部32を介して指定された楽曲(即ち、対象楽曲)の楽曲MIDIデータDMを取得する(S110)。続いて、対象楽曲の歌詞データ群DLを取得し(S120)、対象楽曲に対応し、かつ入力受付部32を介して指定された発声者IDに対応する一つの音声波形データSVを取得する(S130)。
さらに、S130で取得した音声波形データSVにおいて、当該音声波形データSVの発声内容に含まれる音節それぞれに対応して発声されたと推定される区間(以下、発声区間と称す)を特定し、各発声区間に各種情報を対応付けた音節データを生成する発声区間推定処理を実行する(S140)。
そして、音節データそれぞれによって表された発声区間での音声波形(以下、音節波形と称す)から音声パラメータPMを導出する(S150)。本実施形態のS150では、基本周波数、メル周波数ケプストラム(MFCC)、パワー、それらの時間差分それぞれを、音声パラメータPMとして導出する。これらの基本周波数、MFCC、パワーの導出方法は、周知であるため、ここでの詳しい説明は省略するが、例えば、基本周波数であれば、音節波形の時間軸に沿った自己相関、音節波形の周波数スペクトルの自己相関、またはケプストラム法などの手法を用いて導出すれば良い。また、MFCCであれば、音節波形に対して時間分析窓を適用して、時間分析窓ごとに周波数解析(例えば、FFT)をした結果について、周波数ごとの大きさを対数化した結果を、さらに、周波数解析することで導出すれば良い。パワーについては、音節波形に対して時間分析窓を適用して振幅の二乗した結果を時間方向に積分することで導出すれば良い。
続いて、S150にて導出した音声パラメータPMを格納する音声パラメータ登録を実行する(S160)。なお、本実施形態のS160にてデータ格納サーバ50に格納される音声パラメータPMは、発声した音節の内容(種類)や、発声者ID、発声者特徴情報と対応付けられている。
その後、本音声パラメータ登録処理を終了する。
〈発声区間推定処理について〉
次に、音声パラメータ登録処理におけるS140にて起動される発声区間推定処理について説明する。
図3に示すように、発声区間推定処理は、起動されると、先のS130にて取得した音声波形データSVに基づいて、音声波形における音高が時間軸に沿って推移した音高時間変化を算出する(S210)。
具体的に、本実施形態のS210では、図4に示すような音声波形データSVから、当該音声波形データSVによって表される音声波形x(n)を一定の時間幅LWを有した時間窓ずらしながら波形素片xw(n)を切り出す(下記(1)式参照)。ただし、xは、サンプリング周波数FSでサンプリングされた離散信号であり、nは、時間を表すインデックスである。また、(1)式中の符号“si”は、時間窓の最初の位置を示すインデックスであり、一定の間隔(例えば、LWの50%など)で変化する。
Figure 0005810947
この切り出した波形素片xw(n)それぞれをDFT(離散フーリエ変換)し、下記(2)式に示すような周波数スペクトルX(k)を導出する。周波数スペクトルX(k)は、図5(A)に示すように、横軸に単位時間に含まれる周波数を、縦軸に各周波数のレベル(振幅)を示したものである。ただし、(2)式中のkは、0から“LW−1”までの値である。
Figure 0005810947
さらに、周波数スペクトルX(k)について、下記(3)式に従って周波数軸に沿った自己相関関数CORX(p)を算出する。自己相関関数CORX(p)は、図5(B)に示すように、横軸に周波数のズレ量を、縦軸に各周波数のズレに応じた相関値を示したものである。ただし、(3)式中の符号pは、周波数インデックスのズレであり、Absは、複素数の絶対値をとる関数である。
Figure 0005810947
続いて、このように算出された自己相関関数CORX(p)に、予め規定された重み関数wf(p)を乗じる。この重み関数wf(p)は、下記(4)式にて表されるものであり、図5(C)に示すように、各時間窓に対応する歌唱出力音の音高(以下、模範音高とする)に対応する周波数ほど大きな重みとなるように周波数軸に沿って重みが規定されている。ただし、(4)式中の符号“σ”は、模範音高に対する音高の分布を示す標準偏差である。
Figure 0005810947
この重み関数wf(p)を自己相関関数CORX(p)に乗じた結果(以下、最終演算結果と称す)、図5(D)に示すように、最終演算結果が最大となる周波数インデックスのズレpを特定し、その特定した周波数インデックスのズレpに基づいて、当該時間窓における音高を導出する。具体的に当該時間窓における音高は、音高=Fs・p/LWにて導出する。
なお、本実施形態のS210では、この一連の処理を、音声波形データSVの全時間に対して時間窓をスライドさせながら実行し、導出された音高を時間軸に沿って配置することで、図6に示すような音高時間変化を算出する。
ただし、本実施形態のS210においては、最終演算結果において、突出するピークが存在しない場合には、歌声が含まれていないものと判定しても良い。この場合、歌声が含まれていないものと判定する条件は、「最終演算結果におけるピークレベル/最終演算結果における平均レベル」が予め規定された閾値以下である場合としても良い。
発声区間推定処理では、続いて、各時間窓について、S210にて求めた音高及びその調波成分(以下、歌声成分と称す)の周波数を抽出し、その抽出した周波数からなる音声波形(以下、歌声波形と称す)を抽出する(S220)。具体的に、本実施形態のS220において、歌声成分の周波数を抽出する手法として、音声波形データSVに対し、図7に示すような櫛形フィルタを用いる周知の手法を用いる。なお、本実施形態のS220では、S210にて、歌声が含まれていないものと判定された時間窓については、音高及び調波成分の周波数の抽出を実施しなくとも良い。
また、S220においては、音声波形データSVに対するFFTの結果から歌声成分の周波数を抽出しても良い。
そして、S220にて抽出した歌声波形におけるパワーの時間推移(以下、音声パワー推移と称す)を導出する(S230)。具体的に、本実施形態のS230では、歌声波形に対し時間軸に沿って連続するように規定された時間窓iごとにパワーを算出し、その算出したパワーを時間軸に沿って配置することで、図8(A)に示すような音声パワー推移を導出する。
このパワーを算出する方法は、歌声成分の周波数の抽出を櫛形フィルタにて実施した場合には、前記時間窓iにおける歌声波形の振幅の二乗値を時間軸方向に累積することで、当該時間窓iにおけるパワーを導出する。一方、歌声成分の周波数の抽出をFFTにて実施した場合には、パワーを算出する方法は、FFTにて抽出された歌声成分の周波数成分について、振幅二乗値を周波数方向の累積値を、当該時間窓iにおけるパワーとして導出する。
ここで、下記(5)式は、歌声成分の周波数成分の各振幅値の二乗値和(すなわち、パワー)pwを算出する式である。ただし、(5)式における符号mは、何番目の高調波であるかを表すインデックスであり、p0は、S210にて求めた音高を表すインデックスである。
Figure 0005810947
続いて、S230にて導出された音声パワー時間推移に基づいて、先のS130にて取得した音声波形データSVにおける各発声区間を特定する(S240)。具体的に、本実施形態のS240では、音声パワー推移が時間軸に沿って変化する時刻から、発声開始時刻vs及び発声終了時刻veを特定し、それら発声開始時刻vs及び発声終了時刻veの順に連続する当該発声開始時刻vsと当該発声終了時刻veとのペアによって規定される区間それぞれを発声区間として特定する。
本実施形態において、発声開始時刻vs及び発声終了時刻veを特定する方法は、図8(B)に示すように、音声パワー推移の時間進行において、パワーpwが予め規定された規定閾値以上となるタイミングそれぞれを発声開始時刻vsとし、パワーpwが規定閾値以下となるタイミングそれぞれを発声終了時刻veとして特定しても良い。
また、発声開始時刻vs及び発声終了時刻veを特定する方法は、下記(6)式に従って、音声パワー推移の時間微分dpw(i)を導出し、図9に示すように、その時間微分dpw(i)が、極大となるタイミングそれぞれを発声開始時刻vsとし、極小となるタイミングそれぞれを発声終了時刻veとして特定しても良い。
Figure 0005810947
発声区間推定処理では、先のS120にて取得した歌詞データ群DLのうちの歌詞テロップデータDTによって表される歌詞に対して周知の形態素解析を実行し、さらに、予め用意された辞書を参照して、形態素解析の結果を読みに変換する(S250)。すなわち、本実施形態のS250では、対象楽曲の歌詞を音節(音素)単位で表すように変換すると共に、各音節の内容を特定する。
そして、S250にて変換された歌詞の音節ごとに、当該音節に対応する出力音と当該音節の内容とを対応付けた音符音節組それぞれを生成する(S260)。本実施形態のS260では、具体的に、先のS110にて取得した楽曲MIDIデータにおける歌唱旋律を構成する出力音の演奏開始タイミングであって、歌詞出力データDOによって表される当該音節の歌詞出力タイミングとの時間差分が最小となる演奏開始タイミングを特定し、その特定した演奏開始タイミングを有した出力音と当該音節の内容とを対応付ける。
続いて、先のS130にて取得した音声波形データSVと、先のS110にて取得した楽曲MIDIデータとの時間ズレを修正すると共に、音声波形データSVにおける各発声区間に、当該発声区間に対応する音符音節組それぞれを対応づけることで、音節データを生成する(S270)。
具体的に、本実施形態のS270では、歌詞出力データDOによって表される歌詞の時間軸に沿った最初の歌詞出力タイミングと音声波形データSVにおける時間軸に沿った最初の発声区間とのズレ、及び歌詞出力データDOによって表される歌詞の時間軸に沿った最後の歌詞出力タイミングと音声波形データSVにおける時間軸に沿った最後の発声区間とのズレの平均値を算出する。そして、発声区間ごとに、算出した平均値を加味した発声開始時刻vsとの時間差分が最小となる演奏開始タイミングを有した音符音節組を特定し、少なくとも、当該発声区間と当該音符音節組とを対応付けた音節データを生成する。
さらに、S210にて算出された音高時間推移において、発声区間それぞれに対応する区間での音高を発声音高として特定し、その特定した各発声音高と、当該発声音高に対応する発声区間を有した音節データと対応付ける(S280)。このS280にて対応付ける発声音高は、MIDI規格におけるノートナンバーでも良いし、音階でも良い。
そして、S230で導出された音声パワー推移における各時刻でのパワーを、当該時刻に対応する発声区間を有した音節データと対応付ける(S290)。このS290にて対応付けるパワーは、MIDI規格におけるベロシティでも良いし、五線譜に記載される強弱記号(例えば、ピアノやフォルテなど)でも良い。
その後、本発声区間推定処理を終了して、音声パラメータ登録処理のS150へと移行する。
〈音声出力端末の構成について〉
次に、音声出力端末について説明する(図1参照)。
この音声出力端末60は、情報受付部61と、表示部62と、音出力部63と、通信部64と、記憶部65と、制御部67とを備えている。本実施形態における音声出力端末60として、例えば、周知の携帯端末(携帯電話や携帯情報端末)や、周知の情報処理装置(いわゆるパーソナルコンピュータ)を想定しても良い。
このうち、情報受付部61は、入力装置(図示せず)を介して入力された情報を受け付ける。表示部62は、制御部67からの指令に基づいて画像を表示する。音出力部63は、音を出力する周知の装置であり、例えば、PCM音源と、スピーカとを備えている。
通信部64は、通信網(例えば、公衆無線通信網やネットワーク回線)を介して音声出力端末60が外部との間で情報通信を行うものである。記憶部65は、記憶内容を読み書き可能に構成された不揮発性の記憶装置(例えば、ハードディスク装置や、フラッシュメモリ)であり、各種処理プログラムや各種データが記憶される。
また、制御部67は、ROM、RAM、CPUを少なくとも有した周知のコンピュータを中心に構成されている。
〈音声合成処理について〉
次に、音声出力端末60の制御部67が実行する音声合成処理について説明する。
この音声合成処理は、音声出力端末60の情報受付部61を介して起動指令が入力されると起動される。
図10に示すように、音声合成処理は、起動されると、まず、情報受付部61を介して入力された情報(以下、入力情報と称す)を取得する(S510)。このS510にて取得する入力情報とは、例えば、合成音として出力する音声の内容(文言)を表す出力文言や、合成音として出力する音の性質を表す出力性質情報を含むものである。なお、ここで言う音の性質(即ち、出力性質情報)とは、発声者の性別、発声者の年齢といった、発声者の声の特徴を含むものである。
続いて、S510にて取得した出力文言を合成音として出力するために必要な音節それぞれに対応し、かつS510にて取得した出力性質情報に最も類似する情報と対応付けられた音声パラメータPMを、データ格納サーバ50から抽出する(S520)。
そして、S510にて取得した出力文言の内容にて合成音が出力されるように、S520にて取得した音声パラメータPMを設定する(S530)。続いて、S530にて設定された音声パラメータPMに基づいて、音声合成する(S540)。このS540における音声合成は、特許文献1の他にもフォルマント合成による周知の音声合成の手法を用いれば良い。
さらに、S540にて音声合成することによって生成された合成音を音出力部63から出力する(S550)。
その後、本音声合成処理を終了する。
[実施形態の効果]
以上説明したように、本実施形態の発声区間推定処理によれば、発声された音声波形が時間軸に沿って推移しながら、その音声パワーが変化するタイミングに基づいて、発声開始時刻及び発声終了時刻、ひいては発声区間を自動的に特定することができる。
より詳細には、本実施形態の発声区間推定処理によれば、音声パワー推移の時間進行において、パワーが予め規定された規定閾値以上となるタイミングそれぞれを発声開始時刻とし、パワーが規定閾値以下となるタイミングそれぞれを発声終了時刻とすることで、発声区間を自動的に特定できる。また、本実施形態の発声区間推定処理によれば、音声パワー推移を時間微分した結果、極大となるタイミングそれぞれを発声開始時刻とし、極小となるタイミングそれぞれを発声終了時刻とすることで、発声区間を自動的に特定できる。
この結果、本実施形態の情報処理装置によれば、特許文献1に記載された装置とは異なり、発声開始時刻及び発声終了時刻を当該装置の使用者が指定する必要が無く、多量の音声波形データについて、各音声波形データを発声区間ごとに切り分けることが可能となる。
しかも、本実施形態の発声区間推定処理では、特定した発声区間それぞれに、当該発声区間に対応する音符音節組を対応付けることで音節データを生成している。さらに、本実施形態の発声区間推定処理では、その音節データそれぞれに、各音節データに含まれる発声区間それぞれでの音高や、パワーを付加している。
この結果、本実施形態の音声パラメータ登録処理において、当該音節データに含まれる発声区間での音声波形データから音声パラメータを生成する際に、当該発声区間での信頼度の高い発声内容や、音高、パワーなどの情報を音声パラメータに付加することができる。
換言すれば、本実施形態の音声パラメータ登録処理によれば、音声合成に必要な音声パラメータに多様な情報を付加することができ、ひいては、音声出力端末にて音声合成処理を実行する際に、その音声合成を利用する人物が望む音声を実現しやすくできる。
なお、本実施形態の発声区間推定処理では、単位時間ごとに算出した周波数スペクトルの自己相関値に重み関数を乗じた結果が最大となる周波数に対応する音高を、発声音高として特定している。このため、本実施形態の発声区間推定処理によれば、発声音高を、対象楽曲において発声すべき音高に近い音高として特定できる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
例えば、上記実施形態では、重み関数wfを、(4)式にて規定したが、重み関数wfは、これに限るものではなく、音声入力装置10の利用者が、対象楽曲の歌唱旋律に対して、音高が1オクターブ高くなるように歌唱する場合や、音高が1オクターブ低くなるように歌唱する場合を考慮して重み関数wfを設定しても良い。
この場合の重み関数wf(p)は、前者であれば、下記(7)式のように規定し、後者であれば、下記(8)式のように規定すれば良い。
Figure 0005810947
また、上記実施形態の発声区間推定処理におけるS230では、歌声成分の周波数成分の各振幅値の二乗値和(すなわち、パワー)pwを(5)式に従って算出していたが、パワーpwの算出方法は、これに限るものではない。例えば、パワーpwの算出は、歌声成分のスペクトル上での拡がりを考慮し、基本波と高調波成分の近傍の成分を考慮し算出しても良い。具体的には、下記(9)式に示すように、フィルタFP(k)を混合ガウス分布にて数式化し、そのフィルタFPによる重みを周波数スペクトル(レベル)X(k)に乗じた結果の二乗和を、下記(10)式に従って、周波数インデックスkで積算することで、パワーpwを算出しても良い。
Figure 0005810947
上記実施形態では、音声入力装置10がカラオケ演奏処理を実行して対象楽曲を演奏している期間に入力された音声に基づいて音声波形データSVを生成していたが、本発明における音声波形データSVは、これに限るものではない。
すなわち、本発明では、音声入力装置10において、カラオケ装置などにて周知のアフレコ機能を用いて、音声波形データSVを生成しても良い。つまり、アフレコ機能を有した音声入力装置(カラオケ装置)であれば、発声すべき台詞に関するデータとして、台詞を構成する文字(以下、台詞構成文字と称す)を表す台詞テロップデータ(即ち、歌詞テロップデータと同様のデータ)と、台詞構成文字を表示部13に表示するタイミングを規定した台詞出力データ(即ち、歌詞出力データと同様のデータ)とを備えている。よって、アフレコ機能を用いて音声波形データSVを取得する場合、音声入力装置10は、台詞テロップデータに基づく台詞を表示部13に表示し、当該台詞が表示部13に表示されている期間に音声入力部14を介して入力された音声波形を音声波形データSVとして、MIDI格納サーバ25に格納しても良い。
この場合、情報処理装置30では、アフレコ機能を用いて生成した音声波形データSVを音声パラメータ登録処理の処理対象としても良い。
また、上記実施形態では、音声入力装置10として、カラオケ装置を想定したが、音声入力装置10として想定する装置は、カラオケ装置に限るものではなく、例えば、周知の携帯端末(携帯電話や携帯情報端末)や、周知の情報処理装置(いわゆるパーソナルコンピュータ)を想定しても良い。
また、上記実施形態の音声合成システムにおいては、MIDI格納サーバ25が設けられていたが、本発明においては、MIDI格納サーバ25は設けられていなくとも良い。この場合、音楽データMDや音声波形データSVは、音声入力装置10の記憶部17に格納されても良いし、データ格納サーバ50に格納されても良いし、さらには、情報処理装置30の記憶部34に格納されても良い。
同様に、上記実施形態の音声合成システムにおいては、データ格納サーバ50が設けられていたが、本発明においては、データ格納サーバ50は設けられていなくとも良い。この場合、音声パラメータPMや表情テーブルTDは、情報処理装置30の記憶部34に格納されても良いし、音声入力装置10の記憶部17に格納されても良いし、さらには、MIDI格納サーバ25に格納されても良い。
[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
上記実施形態の音声パラメータ登録処理におけるS120が、特許請求の範囲の記載における内容情報取得手段及びタイミング情報取得手段に相当し、S110が、特許請求の範囲の記載における楽譜データ取得手段に相当し、S130が、特許請求の範囲の記載における音声データ取得手段に相当する。さらに、上記実施形態の発声区間推定処理におけるS230が、特許請求の範囲の記載におけるパワー推移導出手段に相当し、S240が、特許請求の範囲の記載における発声区間特定手段に相当し、S250,S260が、特許請求の範囲の記載における音符歌詞対応付手段に相当し、S270〜S290が、特許請求の範囲の記載における音符歌声統合手段に相当する。
また、上記実施形態の発声区間推定処理におけるS210が、特許請求の範囲の記載における音高推移導出手段に相当し、S280が、特許請求の範囲の記載における音高特定手段に相当する。なお、上記実施形態の音声パラメータ登録処理におけるS160が、特許請求の範囲の記載におけるパラメータ導出手段に相当する。
1…音声合成システム 10…音声入力装置 11…通信部 12…入力受付部 13…表示部 14…音声入力部 15…音声出力部 16…音源モジュール 17…記憶部 20…制御部 21…ROM 22…RAM 23…CPU 25…MIDI格納サーバ 30…情報処理装置 31…通信部 32…入力受付部 33…表示部 34…記憶部 40…制御部 41…ROM 42…RAM 43…CPU 50…データ格納サーバ 60…音声出力端末

Claims (10)

  1. 一つの楽曲である対象楽曲において発声すべき内容の文字列を表す発声内容情報を取得する内容情報取得手段と、
    前記内容情報取得手段で取得した発声内容情報である特定内容情報によって表される文字の発声開始タイミングを規定する発声タイミング情報を取得するタイミング情報取得手段と、
    少なくとも前記対象楽曲における歌唱旋律の楽譜を表し、当該歌唱旋律を構成する個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽曲楽譜データを取得する楽譜データ取得手段と、
    前記特定内容情報によって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手段と、
    前記音声データ取得手段で取得した音声データに基づいて、当該音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出したパワーの時間推移を表す音声パワー推移を導出するパワー推移導出手段と、
    前記パワー推移導出手段で導出した音声パワー推移が時間軸に沿って変化する時刻を、発声開始時刻及び発声終了時刻として特定し、前記発声開始時刻、前記発声終了時刻の順に連続する当該発声開始時刻と当該発声終了時刻とのペアによって規定される発声区間それぞれを特定する発声区間特定手段と、
    前記内容情報取得手段で取得した特定内容情報、前記タイミング情報取得手段で取得した発声タイミング情報、及び前記楽譜データ取得手段で取得した楽曲楽譜データに基づいて、前記特定内容情報によって表される文字列の音節ごとに、当該音節に対応する文字の前記発声開始タイミングとの時間差分が最小となる前記演奏開始タイミングを有した前記出力音を特定すると共に、当該出力音と当該音節の内容とを対応付けた音符音節組それぞれを生成する音符歌詞対応付手段と、
    前記発声区間特定手段にて特定された発声区間ごとに、当該発声区間を規定する発声開始時刻との時間差分が最小となる前記演奏開始タイミングを有し、かつ前記音符歌詞対応付手段で生成された音符音節組を特定し、少なくとも、当該発声区間と当該音符音節組とを対応付けた音節データを生成する音符歌声統合手段と
    を備え
    前記発声区間特定手段は、
    前記音声パワー推移の時間進行において、前記パワーが予め規定された規定閾値以上となるタイミングそれぞれを前記発声開始時刻とし、前記パワーが前記規定閾値以下となるタイミングそれぞれを前記発声終了時刻として、前記発声区間それぞれを特定する
    ことを特徴とする発声区間特定装置。
  2. 一つの楽曲である対象楽曲において発声すべき内容の文字列を表す発声内容情報を取得する内容情報取得手段と、
    前記内容情報取得手段で取得した発声内容情報である特定内容情報によって表される文字の発声開始タイミングを規定する発声タイミング情報を取得するタイミング情報取得手段と、
    少なくとも前記対象楽曲における歌唱旋律の楽譜を表し、当該歌唱旋律を構成する個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽曲楽譜データを取得する楽譜データ取得手段と、
    前記特定内容情報によって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手段と、
    前記音声データ取得手段で取得した音声データに基づいて、当該音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出したパワーの時間推移を表す音声パワー推移を導出するパワー推移導出手段と、
    前記パワー推移導出手段で導出した音声パワー推移が時間軸に沿って変化する時刻を、発声開始時刻及び発声終了時刻として特定し、前記発声開始時刻、前記発声終了時刻の順に連続する当該発声開始時刻と当該発声終了時刻とのペアによって規定される発声区間それぞれを特定する発声区間特定手段と、
    前記内容情報取得手段で取得した特定内容情報、前記タイミング情報取得手段で取得した発声タイミング情報、及び前記楽譜データ取得手段で取得した楽曲楽譜データに基づいて、前記特定内容情報によって表される文字列の音節ごとに、当該音節に対応する文字の前記発声開始タイミングとの時間差分が最小となる前記演奏開始タイミングを有した前記出力音を特定すると共に、当該出力音と当該音節の内容とを対応付けた音符音節組それぞれを生成する音符歌詞対応付手段と、
    前記発声区間特定手段にて特定された発声区間ごとに、当該発声区間を規定する発声開始時刻との時間差分が最小となる前記演奏開始タイミングを有し、かつ前記音符歌詞対応付手段で生成された音符音節組を特定し、少なくとも、当該発声区間と当該音符音節組とを対応付けた音節データを生成する音符歌声統合手段と
    を備え、
    前記発声区間特定手段は、
    前記音声パワー推移を時間微分した結果、極大となるタイミングそれぞれを前記発声開始時刻とし、極小となるタイミングそれぞれを前記発声終了時刻として、前記発声区間それぞれを特定する
    ことを特徴とする発声区間特定装置。
  3. 少なくとも、前記音声データ取得手段で取得した音声データに基づいて、前記音声波形における音高が時間軸に沿って推移した音高時間推移を導出する音高推移導出手段と、
    前記音高推移導出手段で導出された音高時間推移において、前記発声区間特定手段で特定された発声区間それぞれでの音高を発声音高として特定する音高特定手段と
    を備え、
    前記音符歌声統合手段は、
    前記音高特定手段で特定された各発声音高と、当該発声音高に対応する前記発声区間と、当該発声区間に対応する前記音符音節組とを対応付けることで、前記音節データを生成する
    ことを特徴とする請求項1または請求項2に記載の発声区間特定装置。
  4. 前記音高特定手段は、
    前記音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出した周波数スペクトルの自己相関値に、前記楽曲楽譜データによって表される出力音のうち、当該単位時間に対応する出力音の音高に対応する周波数ほど大きな重みとなるように周波数軸に沿って重みが規定された重み関数を乗じた結果が最大となる周波数に対応する音高を、前記発声音高として特定する
    ことを特徴とする請求項に記載の発声区間特定装置。
  5. 前記音高特定手段は、
    前記音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出した周波数スペクトルの自己相関値が最大となる周波数に対応する音高を、前記発声音高として特定する
    ことを特徴とする請求項に記載の発声区間特定装置。
  6. 前記音符歌声統合手段は、
    前記パワー推移導出手段で導出された音声パワー推移における各時刻でのパワーと、当該時刻に対応する前記発声区間と、当該発声区間に対応する前記音符音節組とを対応付けることで、前記音節データを生成する
    ことを特徴とする請求項1または請求項2のいずれか一項に記載の発声区間特定装置。
  7. 一つの楽曲である対象楽曲において発声すべき内容の文字列を表す発声内容情報を取得する内容情報取得手段と、
    前記内容情報取得手段で取得した発声内容情報である特定内容情報によって表される文字の発声開始タイミングを規定する発声タイミング情報を取得するタイミング情報取得手段と、
    少なくとも前記対象楽曲における歌唱旋律の楽譜を表し、当該歌唱旋律を構成する個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽曲楽譜データを取得する楽譜データ取得手段と、
    前記特定内容情報によって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手段と、
    前記音声データ取得手段で取得した音声データに基づいて、当該音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出したパワーの時間推移を表す音声パワー推移を導出するパワー推移導出手段と、
    前記パワー推移導出手段で導出した音声パワー推移が時間軸に沿って変化する時刻を、発声開始時刻及び発声終了時刻として特定し、前記発声開始時刻、前記発声終了時刻の順に連続する当該発声開始時刻と当該発声終了時刻とのペアによって規定される発声区間それぞれを特定する発声区間特定手段と、
    前記内容情報取得手段で取得した特定内容情報、前記タイミング情報取得手段で取得した発声タイミング情報、及び前記楽譜データ取得手段で取得した楽曲楽譜データに基づいて、前記特定内容情報によって表される文字列の音節ごとに、当該音節に対応する文字の前記発声開始タイミングとの時間差分が最小となる前記演奏開始タイミングを有した前記出力音を特定すると共に、当該出力音と当該音節の内容とを対応付けた音符音節組それぞれを生成する音符歌詞対応付手段と、
    前記発声区間特定手段にて特定された発声区間ごとに、当該発声区間を規定する発声開始時刻との時間差分が最小となる前記演奏開始タイミングを有し、かつ前記音符歌詞対応付手段で生成された音符音節組を特定し、少なくとも、当該発声区間と当該音符音節組と
    を対応付けた音節データを生成する音符歌声統合手段と、
    前記音符歌声統合手段で生成された音節データにおける発声区間での前記音声データから、予め規定された少なくとも一つの特徴量である音声パラメータを導出するパラメータ導出手段と
    を備え、
    前記発声区間特定手段は、
    前記音声パワー推移の時間進行において、前記パワーが予め規定された規定閾値以上となるタイミングそれぞれを前記発声開始時刻とし、前記パワーが前記規定閾値以下となるタイミングそれぞれを前記発声終了時刻として、前記発声区間それぞれを特定する
    ことを特徴とする音声パラメータ生成装置。
  8. 一つの楽曲である対象楽曲において発声すべき内容の文字列を表す発声内容情報を取得する内容情報取得手段と、
    前記内容情報取得手段で取得した発声内容情報である特定内容情報によって表される文字の発声開始タイミングを規定する発声タイミング情報を取得するタイミング情報取得手段と、
    少なくとも前記対象楽曲における歌唱旋律の楽譜を表し、当該歌唱旋律を構成する個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽曲楽譜データを取得する楽譜データ取得手段と、
    前記特定内容情報によって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手段と、
    前記音声データ取得手段で取得した音声データに基づいて、当該音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出したパワーの時間推移を表す音声パワー推移を導出するパワー推移導出手段と、
    前記パワー推移導出手段で導出した音声パワー推移が時間軸に沿って変化する時刻を、発声開始時刻及び発声終了時刻として特定し、前記発声開始時刻、前記発声終了時刻の順に連続する当該発声開始時刻と当該発声終了時刻とのペアによって規定される発声区間それぞれを特定する発声区間特定手段と、
    前記内容情報取得手段で取得した特定内容情報、前記タイミング情報取得手段で取得した発声タイミング情報、及び前記楽譜データ取得手段で取得した楽曲楽譜データに基づいて、前記特定内容情報によって表される文字列の音節ごとに、当該音節に対応する文字の前記発声開始タイミングとの時間差分が最小となる前記演奏開始タイミングを有した前記出力音を特定すると共に、当該出力音と当該音節の内容とを対応付けた音符音節組それぞれを生成する音符歌詞対応付手段と、
    前記発声区間特定手段にて特定された発声区間ごとに、当該発声区間を規定する発声開始時刻との時間差分が最小となる前記演奏開始タイミングを有し、かつ前記音符歌詞対応付手段で生成された音符音節組を特定し、少なくとも、当該発声区間と当該音符音節組と
    を対応付けた音節データを生成する音符歌声統合手段と、
    前記音符歌声統合手段で生成された音節データにおける発声区間での前記音声データから、予め規定された少なくとも一つの特徴量である音声パラメータを導出するパラメータ導出手段と
    を備え、
    前記発声区間特定手段は、
    前記音声パワー推移を時間微分した結果、極大となるタイミングそれぞれを前記発声開始時刻とし、極小となるタイミングそれぞれを前記発声終了時刻として、前記発声区間それぞれを特定する
    ことを特徴とする音声パラメータ生成装置。
  9. 一つの楽曲である対象楽曲において発声すべき内容の文字列を表す発声内容情報を取得する内容情報取得手順と、
    前記内容情報取得手順で取得した発声内容情報である特定内容情報によって表される文字の発声開始タイミングを規定する発声タイミング情報を取得するタイミング情報取得手順と、
    少なくとも前記対象楽曲における歌唱旋律の楽譜を表し、当該歌唱旋律を構成する個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽曲楽譜データを取得する楽譜データ取得手順と、
    前記特定内容情報によって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手順と、
    前記音声データ取得手順で取得した音声データに基づいて、当該音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出したパワーの時間推移を表す音声パワー推移を導出するパワー推移導出手順と、
    前記パワー推移導出手順で導出した音声パワー推移が時間軸に沿って変化する時刻を、発声開始時刻及び発声終了時刻として特定し、前記発声開始時刻、前記発声終了時刻の順に連続する当該発声開始時刻と当該発声終了時刻とのペアによって規定される発声区間それぞれを特定する発声区間特定手順と、
    前記内容情報取得手順で取得した特定内容情報、前記タイミング情報取得手順で取得した発声タイミング情報、及び前記楽譜データ取得手順で取得した楽曲楽譜データに基づいて、前記特定内容情報によって表される文字列の音節ごとに、当該音節に対応する文字の前記発声開始タイミングとの時間差分が最小となる前記演奏開始タイミングを有した前記出力音を特定すると共に、当該出力音と当該音節の内容とを対応付けた音符音節組それぞれを生成する音符歌詞対応付手順と、
    前記発声区間特定手順にて特定された発声区間ごとに、当該発声区間を規定する発声開始時刻との時間差分が最小となる前記演奏開始タイミングを有し、かつ前記音符歌詞対応付手順で生成された音符音節組を特定し、少なくとも、当該発声区間と当該音符音節組とを対応付けた音節データを生成する音符歌声統合手順と
    をコンピュータに実行させ
    前記発声区間特定手順では、
    前記音声パワー推移の時間進行において、前記パワーが予め規定された規定閾値以上となるタイミングそれぞれを前記発声開始時刻とし、前記パワーが前記規定閾値以下となるタイミングそれぞれを前記発声終了時刻として、前記発声区間それぞれを特定する
    ことを特徴とするプログラム。
  10. 一つの楽曲である対象楽曲において発声すべき内容の文字列を表す発声内容情報を取得する内容情報取得手順と、
    前記内容情報取得手順で取得した発声内容情報である特定内容情報によって表される文字の発声開始タイミングを規定する発声タイミング情報を取得するタイミング情報取得手順と、
    少なくとも前記対象楽曲における歌唱旋律の楽譜を表し、当該歌唱旋律を構成する個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽曲楽譜データを取得する楽譜データ取得手順と、
    前記特定内容情報によって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手順と、
    前記音声データ取得手順で取得した音声データに基づいて、当該音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出したパワーの時間推移を表す音声パワー推移を導出するパワー推移導出手順と、
    前記パワー推移導出手順で導出した音声パワー推移が時間軸に沿って変化する時刻を、発声開始時刻及び発声終了時刻として特定し、前記発声開始時刻、前記発声終了時刻の順に連続する当該発声開始時刻と当該発声終了時刻とのペアによって規定される発声区間それぞれを特定する発声区間特定手順と、
    前記内容情報取得手順で取得した特定内容情報、前記タイミング情報取得手順で取得した発声タイミング情報、及び前記楽譜データ取得手順で取得した楽曲楽譜データに基づいて、前記特定内容情報によって表される文字列の音節ごとに、当該音節に対応する文字の前記発声開始タイミングとの時間差分が最小となる前記演奏開始タイミングを有した前記出力音を特定すると共に、当該出力音と当該音節の内容とを対応付けた音符音節組それぞれを生成する音符歌詞対応付手順と、
    前記発声区間特定手順にて特定された発声区間ごとに、当該発声区間を規定する発声開始時刻との時間差分が最小となる前記演奏開始タイミングを有し、かつ前記音符歌詞対応付手順で生成された音符音節組を特定し、少なくとも、当該発声区間と当該音符音節組とを対応付けた音節データを生成する音符歌声統合手順と
    をコンピュータに実行させ、
    前記発声区間特定手順では、
    前記音声パワー推移を時間微分した結果、極大となるタイミングそれぞれを前記発声開始時刻とし、極小となるタイミングそれぞれを前記発声終了時刻として、前記発声区間それぞれを特定する
    ことを特徴とするプログラム。
JP2012018609A 2012-01-31 2012-01-31 発声区間特定装置、音声パラメータ生成装置、及びプログラム Active JP5810947B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012018609A JP5810947B2 (ja) 2012-01-31 2012-01-31 発声区間特定装置、音声パラメータ生成装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012018609A JP5810947B2 (ja) 2012-01-31 2012-01-31 発声区間特定装置、音声パラメータ生成装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2013156544A JP2013156544A (ja) 2013-08-15
JP5810947B2 true JP5810947B2 (ja) 2015-11-11

Family

ID=49051747

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012018609A Active JP5810947B2 (ja) 2012-01-31 2012-01-31 発声区間特定装置、音声パラメータ生成装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP5810947B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6565549B2 (ja) * 2015-09-29 2019-08-28 ヤマハ株式会社 音響解析装置
CN118043881A (zh) * 2021-10-06 2024-05-14 雅马哈株式会社 音控制装置及其控制方法、电子乐器、程序

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0632538B2 (ja) * 1985-09-13 1994-04-27 松下電器産業株式会社 ハウリング検出装置
JPH0289099A (ja) * 1988-09-26 1990-03-29 Sharp Corp 音声認識装置
JPH07261779A (ja) * 1994-03-25 1995-10-13 Toppan Printing Co Ltd 音節認識装置
JP3673385B2 (ja) * 1998-01-08 2005-07-20 株式会社リコー 音楽演奏装置
JP2008020621A (ja) * 2006-07-12 2008-01-31 Yamaha Corp コンテンツオーサリングシステム
JP2008026622A (ja) * 2006-07-21 2008-02-07 Yamaha Corp 評価装置
JP5131904B2 (ja) * 2006-10-24 2013-01-30 国立大学法人京都大学 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法
JP5136128B2 (ja) * 2008-03-12 2013-02-06 ヤマハ株式会社 音声合成装置
US8244546B2 (en) * 2008-05-28 2012-08-14 National Institute Of Advanced Industrial Science And Technology Singing synthesis parameter data estimation system
JP2011065043A (ja) * 2009-09-18 2011-03-31 Brother Industries Ltd 音高推定装置、プログラム

Also Published As

Publication number Publication date
JP2013156544A (ja) 2013-08-15

Similar Documents

Publication Publication Date Title
JP6060867B2 (ja) 情報処理装置,データ生成方法,及びプログラム
JP5598516B2 (ja) カラオケ用音声合成システム,及びパラメータ抽出装置
JP5810947B2 (ja) 発声区間特定装置、音声パラメータ生成装置、及びプログラム
JP5292702B2 (ja) 楽音信号生成装置及びカラオケ装置
JP6098422B2 (ja) 情報処理装置、及びプログラム
JP2017181793A (ja) 音響処理装置、及びプログラム
JP2013210501A (ja) 素片登録装置,音声合成装置,及びプログラム
JP5782972B2 (ja) 情報処理システム,プログラム
JP6252420B2 (ja) 音声合成装置、及び音声合成システム
JP6075314B2 (ja) プログラム,情報処理装置,及び評価方法
TW201027514A (en) Singing synthesis systems and related synthesis methods
JP6075313B2 (ja) プログラム,情報処理装置,及び評価データ生成方法
CN113823270A (zh) 节奏评分的确定方法、介质、装置和计算设备
JP5413380B2 (ja) 楽曲データ修正装置
JP6406182B2 (ja) カラオケ装置、及びカラオケシステム
JP5953743B2 (ja) 音声合成装置及びプログラム
JP6365483B2 (ja) カラオケ装置,カラオケシステム,及びプログラム
JP5983670B2 (ja) プログラム、情報処理装置、及びデータ生成方法
JP6260499B2 (ja) 音声合成システム、及び音声合成装置
JP6011506B2 (ja) 情報処理装置,データ生成方法,及びプログラム
JP6090043B2 (ja) 情報処理装置、及びプログラム
JP5845857B2 (ja) パラメータ抽出装置、音声合成システム
US20210366455A1 (en) Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium
JP5549651B2 (ja) 歌詞出力データ修正装置,及びプログラム
JP5569307B2 (ja) プログラム、及び編集装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140314

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141209

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150818

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150831

R150 Certificate of patent or registration of utility model

Ref document number: 5810947

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150