JP7367641B2

JP7367641B2 - 電子楽器、方法及びプログラム

Info

Publication number: JP7367641B2
Application number: JP2020150336A
Authority: JP
Inventors: 真段城; 文章太田; 厚士中村
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2023-10-24
Anticipated expiration: 2040-09-08
Also published as: JP2022044937A; CN114155822A; JP2023118866A; US20220076658A1

Description

本開示は、電子楽器、方法及びプログラムに関する。

近年、合成音声の利用シーンが拡大している。そうした中、自動演奏だけではなく、ユーザ（演奏者）の押鍵に応じて歌詞を進行させ、歌詞に対応した合成音声を出力できる電子楽器があれば、より柔軟な合成音声の表現が可能となり好ましい。

例えば、特許文献１においては、鍵盤楽器とは別のコントローラを用いて、当該鍵盤楽器の演奏に対応して発音させる歌詞を制御する技術が開示されている。

国際公開第２０１８／１２３４５６号

しかしながら、特許文献１のように専用のコントローラを導入するのは、ユーザ操作の観点からは敷居が高く、手軽に合成音声を用いた歌詞の発音を楽しむことが難しいという課題がある。

そこで本開示は、演奏にかかるフレーズ（例えば、歌詞）進行を適切に制御できる電子楽器、方法及びプログラムを提供することを目的の１つとする。

本開示の一態様に係る電子楽器は、フレーズに含まれる複数の音節が音節ごとに割り当てられる第１音域に含まれる複数の第１演奏操作子と、第２音域に含まれる複数の第２演奏操作子と、を含む複数の演奏操作子であって、互いに異なる音高データがそれぞれ対応付けられている複数の演奏操作子と、プロセッサと、を備え、前記プロセッサは、前記第１演奏操作子への操作に基づいて、音節位置を決定し、前記第２演奏操作子への操作に基づいて、決定された前記音節位置に対応する音節の音節開始フレームを調節係数に基づいて調整した発音を指示する。

本開示の一態様によれば、演奏にかかるフレーズ進行を適切に制御できる。

図１は、一実施形態にかかる電子楽器１０の外観の一例を示す図である。図２は、一実施形態にかかる電子楽器１０の制御システム２００のハードウェア構成の一例を示す図である。図３は、一実施形態にかかる音声学習部３０１の構成例を示す図である。図４は、一実施形態にかかる波形データ出力部２１１の一例を示す図である。図５は、一実施形態にかかる波形データ出力部２１１の別の一例を示す図である。図６は、一実施形態にかかる音節位置制御のための鍵盤の鍵域分割の一例を示す図である。図７Ａ－７Ｃは、制御鍵域に割り当てられる音節の一例を示す図である。図８は、一実施形態に係る歌詞進行制御方法のフローチャートの一例を示す図である。図９は、一実施形態に係る音節位置制御処理のフローチャートの一例を示す図である。図１０は、一実施形態に係る演奏制御処理のフローチャートの一例を示す図である。図１１は、一実施形態に係る音節進行判別処理のフローチャートの一例を示す図である。図１２は、一実施形態に係る音節変更処理のフローチャートの一例を示す図である。図１３Ａ及び１３Ｂは、制御鍵域の鍵の外観の一例を示す図である。図１４は、一実施形態にかかる歌詞進行制御方法を実施するタブレット端末の一例を示す図である。

以下、本開示の実施形態について添付図面を参照して詳細に説明する。以下の説明では、同一の部には同一の符号が付される。同一の部は名称、機能などが同じであるため、詳細な説明は繰り返さない。

（電子楽器）
図１は、一実施形態にかかる電子楽器１０の外観の一例を示す図である。電子楽器１０は、スイッチ（ボタン）パネル１４０ｂ、鍵盤１４０ｋ、ペダル１４０ｐ、ディスプレイ１５０ｄ、スピーカー１５０ｓなどを搭載してもよい。

電子楽器１０は、鍵盤、スイッチなどの操作子を介してユーザからの入力を受け付け、演奏、歌詞進行などを制御するための装置である。電子楽器１０は、ＭＩＤＩ（Musical Instrument Digital Interface）データなどの演奏情報に応じた音を発生する機能を有する装置であってもよい。当該装置は、電子楽器（電子ピアノ、シンセサイザーなど）であってもよいし、センサなどを搭載して上述の操作子の機能を有するように構成されたアナログの楽器であってもよい。

スイッチパネル１４０ｂは、音量の指定、音源、音色などの設定、ソング（伴奏）の選曲（伴奏）、ソング再生開始／停止、ソング再生の設定（テンポなど）などを操作するためのスイッチを含んでもよい。

鍵盤１４０ｋは、演奏操作子としての複数の鍵を有してもよい。ペダル１４０ｐは、当該ペダルを踏んでいる間、押さえた鍵盤の音を伸ばす機能を有するサステインペダルであってもよいし、音色、音量などを加工するエフェクターを操作するためのペダルであってもよい。

なお、本開示において、サステインペダル、ペダル、フットスイッチ、コントローラ（操作子）、スイッチ、ボタン、タッチパネルなどは、互いに読み替えられてもよい。本開示におけるペダルの踏み込みは、コントローラの操作で読み替えられてもよい。

鍵は、演奏操作子、音高操作子、音色操作子、直接操作子、第１の操作子などと呼ばれてもよい。ペダルは、非演奏操作子、非音高操作子、非音色操作子、間接操作子、第２の操作子などと呼ばれてもよい。

ディスプレイ１５０ｄは、歌詞、楽譜、各種設定情報などを表示してもよい。スピーカー１５０ｓは、演奏により生成された音を放音するために用いられてもよい。

なお、電子楽器１０は、ＭＩＤＩメッセージ（イベント）及びOpen Sound Control（ＯＳＣ）メッセージの少なくとも一方を生成したり、変換したりすることができてもよい。

電子楽器１０は、制御装置１０、音節進行制御装置１０などと呼ばれてもよい。

電子楽器１０は、有線及び無線（例えば、Long Term Evolution（ＬＴＥ）、5th generation mobile communication system New Radio（５ＧＮＲ）、Ｗｉ－Ｆｉ（登録商標）など）の少なくとも一方を介して、ネットワーク（インターネットなど）と通信してもよい。

電子楽器１０は、進行の制御対象となる歌詞に関する歌声データ（歌詞テキストデータ、歌詞情報などと呼ばれてもよい）を、予め保持してもよいし、ネットワークを介して送信及び／又は受信してもよい。歌声データは、楽譜記述言語（例えば、ＭｕｓｉｃＸＭＬ）によって記載されたテキストであってもよいし、ＭＩＤＩデータの保存形式（例えば、Standard MIDI File（ＳＭＦ）フォーマット）で表記されてもよいし、通常のテキストファイルで与えられるテキストであってもよい。歌声データは、後述する歌声データ２１５であってもよい。本開示において、歌声、音声、音などは、互いに読み替えられてもよい。

なお、電子楽器１０は、当該電子楽器１０に具備されるマイクなどを介してユーザがリアルタイムに歌う内容を取得し、これに音声認識処理を適用して得られるテキストデータを歌声データとして取得してもよい。

図２は、一実施形態にかかる電子楽器１０の制御システム２００のハードウェア構成の一例を示す図である。

中央処理装置（Central Processing Unit：ＣＰＵ）２０１、ＲＯＭ（リードオンリーメモリ）２０２、ＲＡＭ（ランダムアクセスメモリ）２０３、波形データ出力部２１１、図１のスイッチ（ボタン）パネル１４０ｂ、鍵盤１４０ｋ、ペダル１４０ｐが接続されるキースキャナ２０６、及び図１のディスプレイ１５０ｄの一例としてのＬＣＤ（Liquid Crystal Display）が接続されるＬＣＤコントローラ２０８が、それぞれシステムバス２０９に接続されている。

ＣＰＵ２０１には、演奏を制御するためのタイマ２１０（カウンタと呼ばれてもよい）が接続されてもよい。タイマ２１０は、例えば、電子楽器１０における自動演奏の進行をカウントするために用いられてもよい。ＣＰＵ２０１は、プロセッサと呼ばれてもよく、周辺回路とのインターフェース、制御回路、演算回路、レジスタなどを含んでもよい。

ＣＰＵ２０１は、ＲＡＭ２０３をワークメモリとして使用しながらＲＯＭ２０２に記憶された制御プログラムを実行することにより、図１の電子楽器１０の制御動作を実行する。また、ＲＯＭ２０２は、上記制御プログラム及び各種固定データのほか、歌声データ、伴奏データ、これらを含む曲（ソング）データなどを記憶してもよい。

波形データ出力部２１１は、音源ＬＳＩ（大規模集積回路）２０４、音声合成ＬＳＩ２０５などを含んでもよい。音源ＬＳＩ２０４と音声合成ＬＳＩ２０５は、１つのＬＳＩに統合されてもよい。波形データ出力部２１１の具体的なブロック図については、図３で後述する。なお、波形データ出力部２１１の処理の一部は、ＣＰＵ２０１によって行われてもよいし、波形データ出力部２１１に含まれるＣＰＵによって行われてもよい。

波形データ出力部２１１から出力される歌声波形データ２１７及びソング波形データ２１８は、それぞれＤ／Ａコンバータ２１２及び２１３によってアナログ歌声音声出力信号及びアナログ楽音出力信号に変換される。アナログ楽音出力信号及びアナログ歌声音声出力信号は、ミキサ２１４で混合され、その混合信号がアンプ２１５で増幅された後に、スピーカー１５０ｓ又は出力端子から出力されてもよい。なお、歌声波形データは歌声合成データと呼ばれてもよい。図示しないが、歌声波形データ２１７及びソング波形データ２１８をデジタルで合成した後に、Ｄ／Ａコンバータでアナログに変換して混合信号が得られてもよい。

キースキャナ（スキャナ）２０６は、図１の鍵盤１４０ｋの押鍵／離鍵状態、スイッチパネル１４０ｂのスイッチ操作状態、ペダル１４０ｐのペダル操作状態などを定常的に走査し、ＣＰＵ２０１に割り込みを掛けて状態変化を伝える。

ＬＣＤコントローラ２０８は、ディスプレイ１５０ｄの一例であるＬＣＤの表示状態を制御するＩＣ（集積回路）である。

なお、当該システム構成は一例であり、これに限られない。例えば、各回路が含まれる数は、これに限られない。電子楽器１０は、一部の回路（機構）を含まない構成を有してもよいし、１つの回路の機能が複数の回路により実現される構成を有してもよい。複数の回路の機能が１つの回路により実現される構成を有してもよい。

また、電子楽器１０は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、ＣＰＵ２０１は、これらのハードウェアの少なくとも１つで実装されてもよい。

＜音響モデルの生成＞
図３は、一実施形態にかかる音声学習部３０１の構成の一例を示す図である。音声学習部３０１は、図１の電子楽器１０とは別に外部に存在するサーバコンピュータ３００が実行する一機能として実装されてもよい。なお、音声学習部３０１は、ＣＰＵ２０１、音声合成ＬＳＩ２０５などが実行する一機能として電子楽器１０に内蔵されてもよい。

本開示における音声合成を実現する音声学習部３０１及び波形データ出力部２１１は、それぞれ、例えば、深層学習に基づく統計的音声合成技術に基づいて実装されてもよい。

音声学習部３０１は、学習用テキスト解析部３０３と学習用音響特徴量抽出部３０４とモデル学習部３０５とを含んでもよい。

音声学習部３０１において、学習用歌声音声データ３１２としては、例えば適当なジャンルの複数の歌唱曲を、ある歌手が歌った音声を録音したものが使用される。また、学習用歌声データ３１１としては、各歌唱曲の歌詞テキストが用意される。

学習用テキスト解析部３０３は、歌詞テキストを含む学習用歌声データ３１１を入力してそのデータを解析する。この結果、学習用テキスト解析部３０３は、学習用歌声データ３１１に対応する音素、音高等を表現する離散数値系列である学習用言語特徴量系列３１３を推定して出力する。

学習用音響特徴量抽出部３０４は、上記学習用歌声データ３１１の入力に合わせてその学習用歌声データ３１１に対応する歌詞テキストを或る歌手が歌うことによりマイク等を介して集録された学習用歌声音声データ３１２を入力して分析する。この結果、学習用音響特徴量抽出部３０４は、学習用歌声音声データ３１２に対応する音声の特徴を表す学習用音響特徴量系列３１４を抽出して出力する。

本開示において、学習用音響特徴量系列３１４や、後述する音響特徴量系列３１７に対応する音響特徴量系列は、人間の声道をモデル化した音響特徴量データ（フォルマント情報、スペクトル情報などと呼ばれてもよい）と、人間の声帯をモデル化した声帯音源データ（音源情報と呼ばれてもよい）とを含む。スペクトル情報としては、例えば、メルケプストラム、線スペクトル対（Line Spectral Pairs：ＬＳＰ）等を採用できる。音源情報としては、人間の音声のピッチ周波数を示す基本周波数（Ｆ０）及びパワー値を採用できる。

モデル学習部３０５は、学習用言語特徴量系列３１３から、学習用音響特徴量系列３１４が生成される確率を最大にするような音響モデルを、機械学習により推定する。即ち、テキストである言語特徴量系列と音声である音響特徴量系列との関係が、音響モデルという統計モデルによって表現される。モデル学習部３０５は、機械学習を行った結果算出される音響モデルを表現するモデルパラメータを、学習結果３１５として出力する。したがって、当該音響モデルは、学習済みモデルに該当する。

学習結果３１５（モデルパラメータ）によって表現される音響モデルとして、ＨＭＭ（Hidden Markov Model：隠れマルコフモデル）を用いてもよい。

ある歌唱者があるメロディーにそった歌詞を発声する際、声帯の振動や声道特性の歌声の特徴パラメータがどのような時間変化をしながら発声されるか、ということが、ＨＭＭ音響モデルによって学習されてもよい。より具体的には、ＨＭＭ音響モデルは、学習用の歌声データから求めたスペクトル、基本周波数、およびそれらの時間構造を音素単位でモデル化したものであってもよい。

まず、ＨＭＭ音響モデルが採用される図３の音声学習部３０１の処理について説明する。音声学習部３０１内のモデル学習部３０５は、学習用テキスト解析部３０３が出力する学習用言語特徴量系列３１３と、学習用音響特徴量抽出部３０４が出力する上記学習用音響特徴量系列３１４とを入力することにより、尤度が最大となるＨＭＭ音響モデルの学習を行ってもよい。

歌声音声のスペクトルパラメータは、連続ＨＭＭによってモデル化することができる。一方、対数基本周波数（Ｆ０）は有声区間では連続値をとり、無声区間では値を持たない可変次元の時間系列信号であるため、通常の連続ＨＭＭや離散ＨＭＭで直接モデル化することはできない。そこで、可変次元に対応した多空間上の確率分布に基づくＨＭＭであるＭＳＤ－ＨＭＭ（Multi-Space probability Distribution HMM）を用い、スペクトルパラメータとしてメルケプストラムを多次元ガウス分布、対数基本周波数（Ｆ０）の有声音を１次元空間、無声音を０次元空間のガウス分布として同時にモデル化する。

また、歌声を構成する音素の特徴は、音響的な特徴は同一の音素であっても、様々な要因の影響を受けて変動することが知られている。例えば、基本的な音韻単位である音素のスペクトルや対数基本周波数（Ｆ０）は、歌唱スタイルやテンポ、或いは、前後の歌詞や音高等によって異なる。このような音響特徴量に影響を与える要因のことをコンテキストと呼ぶ。

一実施形態の統計的音声合成処理では、音声の音響的な特徴を精度良くモデル化するために、コンテキストを考慮したＨＭＭ音響モデル（コンテキスト依存モデル）を採用してもよい。具体的には、学習用テキスト解析部３０３は、フレーム毎の音素、音高だけでなく、直前、直後の音素、現在位置、直前、直後のビブラート、アクセントなども考慮した学習用言語特徴量系列３１３を出力してもよい。更に、コンテキストの組合せの効率化のために、決定木に基づくコンテキストクラスタリングが用いられてよい。

例えば、モデル学習部３０５は、学習用テキスト解析部３０３が学習用歌声データ３１１から抽出した状態継続長に関する多数の音素のコンテキストに対応する学習用言語特徴量系列３１３から、状態継続長を決定するための状態継続長決定木を、学習結果３１５として生成してもよい。

また、モデル学習部３０５は、例えば、学習用音響特徴量抽出部３０４が学習用歌声音声データ３１２から抽出したメルケプストラムパラメータに関する多数の音素に対応する学習用音響特徴量系列３１４から、メルケプストラムパラメータを決定するためのメルケプストラムパラメータ決定木を、学習結果３１５として生成してもよい。

また、モデル学習部３０５は例えば、学習用音響特徴量抽出部３０４が学習用歌声音声データ３１２から抽出した対数基本周波数（Ｆ０）に関する多数の音素に対応する学習用音響特徴量系列３１４から、対数基本周波数（Ｆ０）を決定するための対数基本周波数決定木を、学習結果３１５として生成してもよい。なお、対数基本周波数（Ｆ０）の有声区間と無声区間はそれぞれ、可変次元に対応したＭＳＤ－ＨＭＭにより、１次元及び０次元のガウス分布としてモデル化され、対数基本周波数決定木が生成されてもよい。

なお、ＨＭＭに基づく音響モデルの代わりに又はこれとともに、ディープニューラルネットワーク（Deep Neural Network：ＤＮＮ）に基づく音響モデルが採用されてもよい。この場合、モデル学習部３０５は、言語特徴量から音響特徴量へのＤＮＮ内の各ニューロンの非線形変換関数を表すモデルパラメータを、学習結果３１５として生成してもよい。ＤＮＮによれば、決定木では表現することが困難な複雑な非線形変換関数を用いて、言語特徴量系列と音響特徴量系列の関係を表現することが可能である。

また、本開示の音響モデルはこれらに限られるものではなく、例えばＨＭＭとＤＮＮを組み合わせた音響モデル等、統計的音声合成処理を用いた技術であればどのような音声合成方式が採用されてもよい。

学習結果３１５（モデルパラメータ）は、例えば、図３に示されるように、図１の電子楽器１０の工場出荷時に、図２の電子楽器１０の制御システムのＲＯＭ２０２に記憶され、電子楽器１０のパワーオン時に、図２のＲＯＭ２０２から波形データ出力部２１１内の後述する歌声制御部３０７などに、ロードされてもよい。

学習結果３１５は、例えば、図３に示されるように、演奏者が電子楽器１０のスイッチパネル１４０ｂを操作することにより、ネットワークインタフェース２１９を介して、インターネットなどの外部から波形データ出力部２１１内の歌声制御部３０７にダウンロードされてもよい。

＜音響モデルに基づく音声合成＞
図４は、一実施形態にかかる波形データ出力部２１１の一例を示す図である。

波形データ出力部２１１は、処理部（テキスト処理部、前処理部などと呼ばれてもよい）３０６、歌声制御部（音響モデル部と呼ばれてもよい）３０７、音源３０８、歌声合成部（発声モデル部と呼ばれてもよい）３０９などを含む。

波形データ出力部２１１は、図１の鍵盤１４０ｋ（演奏操作子）の押鍵に基づいて図２のキースキャナ２０６を介してＣＰＵ２０１から指示される、歌詞及び音高の情報を含む歌声データ２１５と、歌詞制御データと、を入力することにより、当該歌詞及び音高に対応する歌声波形データ２１７を合成し出力する。言い換えると、波形データ出力部２１１は、歌詞テキストを含む歌声データ２１５に対応する歌声波形データ２１７を、歌声制御部３０７に設定された音響モデルという統計モデルを用いて予測することにより合成する、統計的音声合成処理を実行する。

また、波形データ出力部２１１は、ソングデータの再生時には、対応するソング再生位置に該当するソング波形データ２１８を出力する。ここで、ソングデータは、伴奏のデータ（例えば、１つ以上の音についての、音高、音色、発音タイミングなどのデータ）、伴奏及びメロディーのデータに該当してもよく、バックトラックデータなどと呼ばれてもよい。

処理部３０６は、例えば演奏者の演奏（操作）の結果として、図２のＣＰＵ２０１より指定される歌詞の音素、音高等に関する情報を含む歌声データ２１５を入力し、そのデータを解析する。歌声データ２１５は、例えば、第ｎ番目の音符（第ｎ音符、第ｎタイミングなどと呼ばれてもよい）のデータ（例えば、音高データ、音符長データ）、第ｎ音符に対応する第ｎ歌詞（又は音節）のデータ、第ｎ音節のデータなどの少なくとも１つを含んでもよい。

例えば、処理部３０６は、鍵盤１４０ｋ、ペダル１４０ｐの操作から取得されるノートオン／オフデータ、ペダルオン／オフデータなどに基づいて、後述する歌詞進行制御方法に基づいて歌詞進行の有無を判定し、出力すべき音節（歌詞）に対応する歌声データ２１５を取得してもよい。そして、処理部３０６は、押鍵によって指定された音高データ又は取得した歌声データ２１５の音高データと、取得した歌声データ２１５の文字データと、に対応する音素、品詞、単語等を表現する言語特徴量系列３１６を解析し、歌声制御部３０７に出力してもよい。

歌声データ２１５は、歌詞（の文字）と、音節のタイプ（開始音節、中間音節、終了音節など）と、対応する声高（正解の声高）と、各音節の歌詞（文字列）と、の少なくとも１つを含む情報であってもよい。歌声データ２１５は、第ｎ（ｎ＝１、２、３、４、…）音節に対応する第ｎ音節の歌声データの情報を含んでもよい。

歌声データ２１５は、当該歌詞に対応する伴奏（ソングデータ）を演奏するための情報（特定の音声ファイルフォーマットのデータ、ＭＩＤＩデータなど）を含んでもよい。歌声データがＳＭＦフォーマットで示される場合、歌声データ２１５は、歌声に関するデータが格納されるトラックチャンクと、伴奏に関するデータが格納されるトラックチャンクと、を含んでもよい。歌声データ２１５は、ＲＯＭ２０２からＲＡＭ２０３に読み込まれてもよい。歌声データ２１５は、メモリ（例えば、ＲＯＭ２０２、ＲＡＭ２０３）に演奏前から記憶されている。

歌詞制御データは、図１２について後述するように、音節に対応する歌声再生情報の設定に用いられてもよい。波形データ出力部２１１は、歌声再生情報に基づいて、発音のタイミングを制御できる。例えば、処理部３０６は、歌声再生情報が示す音節開始フレームに基づいて、歌声制御部３０７に出力する言語特徴量系列３１６を調整してもよい（例えば、音節開始フレームより前のフレームは出力しなくてもよい）。

歌声制御部３０７は、処理部３０６から入力される言語特徴量系列３１６と、学習結果３１５として設定された音響モデルと、に基づいて、それに対応する音響特徴量系列３１７を推定し、推定された音響特徴量系列３１７に対応するフォルマント情報３１８を、歌声合成部３０９に対して出力する。

例えば、ＨＭＭ音響モデルが採用される場合、歌声制御部３０７は、言語特徴量系列３１６によって得られるコンテキスト毎に決定木を参照してＨＭＭを連結し、連結した各ＨＭＭから出力確率が最大となる音響特徴量系列３１７（フォルマント情報３１８と声帯音源データ３１９）を予測する。

ＤＮＮ音響モデルが採用される場合、歌声制御部３０７は、フレーム単位で入力される、言語特徴量系列３１６の音素列に対して、上記フレーム単位で音響特徴量系列３１７を出力してもよい。なお、本開示のフレームは、例えば５ｍｓ、１０ｍｓなどであってもよい。

図４では、処理部３０６は、メモリ（ＲＯＭ２０２でもよいし、ＲＡＭ２０３でもよい）から、押鍵された音の音高に対応する楽器音データ（ピッチ情報）を取得し、音源３０８に出力する。

音源３０８は、処理部３０６から入力されるノートオン／オフデータに基づいて、発音すべき（ノートオンの）音に対応する楽器音データ（ピッチ情報）の音源信号（楽器音波形データと呼ばれてもよい）を生成し、歌声合成部３０９に出力する。音源３０８は、発音する音のエンベロープ制御等の制御処理を実行してもよい。

歌声合成部３０９は、歌声制御部３０７から順次入力されるフォルマント情報３１８の系列に基づいて声道をモデル化するデジタルフィルタを形成する。また、歌声合成部３０９は、音源３０８から入力される音源信号を励振源信号として、当該デジタルフィルタを適用して、デジタル信号の歌声波形データ２１７を生成し出力する。この場合、歌声合成部３０９は、合成フィルタ部と呼ばれてもよい。

なお、歌声合成部３０９には、ケプストラム音声合成方式、ＬＳＰ音声合成方式をはじめとした様々な音声合成方式が採用可能であってもよい。

図４の例では、出力される歌声波形データ２１７は、楽器音を音源信号としているため、歌手の歌声に比べて忠実性は若干失われるが、当該楽器音の雰囲気と歌手の歌声の声質との両方が良く残った歌声となり、効果的な歌声波形データ２１７を出力させることができる。

なお、音源３０８は、楽器音波形データの処理とともに、他のチャネルの出力をソング波形データ２１８として出力するように動作してもよい。これにより、伴奏音は通常の楽器音で発音させたり、メロディーラインの楽器音を発音させると同時にそのメロディーの歌声を発声させたりするというような動作も可能である。

図５は、一実施形態にかかる波形データ出力部２１１の別の一例を示す図である。図４と重複する内容については、繰り返し説明しない。

図５の歌声制御部３０７は、上述したように、音響モデルに基づいて、音響特徴量系列３１７を推定する。そして、歌声制御部３０７は、推定された音響特徴量系列３１７に対応するフォルマント情報３１８と、推定された音響特徴量系列３１７に対応する声帯音源データ（ピッチ情報）３１９と、を、歌声合成部３０９に対して出力する。歌声制御部３０７は、音響特徴量系列３１７が生成される確率を最大にするような音響特徴量系列３１７の推定値を推定してもよい。

歌声合成部３０９は、例えば、歌声制御部３０７から入力される声帯音源データ３１９に含まれる基本周波数（Ｆ０）及びパワー値で周期的に繰り返されるパルス列（有声音音素の場合）又は声帯音源データ３１９に含まれるパワー値を有するホワイトノイズ（無声音音素の場合）又はそれらが混合された信号に、フォルマント情報３１８の系列に基づいて声道をモデル化するデジタルフィルタを適用した信号を生成させるためのデータ（例えば、第ｎ音符に対応する第ｎ歌詞の歌声波形データと呼ばれてもよい）を生成し、音源３０８に出力してもよい。

音源３０８は、処理部３０６から入力されるノートオン／オフデータに基づいて、発音すべき（ノートオンの）音に対応する上記第ｎ歌詞の歌声波形データからデジタル信号の歌声波形データ２１７を生成し、出力する。

図５の例では、出力される歌声波形データ２１７は、声帯音源データ３１９に基づいて音源３０８が生成した音を音源信号としているため、歌声制御部３０７によって完全にモデル化された信号であり、歌手の歌声に非常に忠実で自然な歌声の歌声波形データ２１７を出力させることができる。

このように、本開示の音声合成は、既存のボコーダー（人間が喋った言葉をマイクによって入力し、楽器音に置き換えて合成する手法）とは異なり、ユーザ（演奏者）が現実に歌わなくても（言い換えると、電子楽器１０にユーザがリアルタイムに発音する音声信号を入力しなくても）、鍵盤の操作によって合成音声を出力することができる。

以上説明したように、音声合成方式として統計的音声合成処理の技術を採用することにより、従来の素片合成方式に比較して格段に少ないメモリ容量を実現することが可能となる。例えば、素片合成方式の電子楽器では、音声素片データのために数百メガバイトに及ぶ記憶容量を有するメモリが必要であったが、本実施形態では、学習結果３１５のモデルパラメータを記憶させるために、わずか数メガバイトの記憶容量を有するメモリのみで済む。このため、より低価格の電子楽器を実現することが可能となり、高音質の歌声演奏システムをより広いユーザ層に利用してもらうことが可能となる。

さらに、従来の素片データ方式では、素片データの人手による調整が必要なため、歌声演奏のためのデータの作成に膨大な時間（年単位）と労力を必要としていたが、本実施形態によるＨＭＭ音響モデル又はＤＮＮ音響モデルのための学習結果３１５のモデルパラメータの作成では、データの調整がほとんど必要ないため、数分の一の作成時間と労力で済む。これによっても、より低価格の電子楽器を実現することが可能となる。

また、一般ユーザが、クラウドサービスとして利用可能なサーバコンピュータ３００、音声合成ＬＳＩ２０５などに内蔵された学習機能を使って、自分の声、家族の声、或いは有名人の声等を学習させ、それをモデル音声として電子楽器で歌声演奏させることも可能となる。この場合にも、従来よりも格段に自然で高音質な歌声演奏を、より低価格の電子楽器として実現することが可能となる。

（歌詞進行制御方法）
本開示の一実施形態に係る歌詞進行制御方法について、以下で説明する。なお、本開示の歌詞進行制御は、演奏制御、演奏などと互いに読み替えられてもよい。

以下の各フローチャートの動作主体（電子楽器１０）は、ＣＰＵ２０１、波形データ出力部２１１（又はその内部の音源ＬＳＩ２０４、音声合成ＬＳＩ２０５（処理部３０６、歌声制御部３０７、音源３０８、歌声合成部３０９など））のいずれか又はこれらの組み合わせで読み替えられてもよい。例えば、ＣＰＵ２０１が、ＲＯＭ２０２からＲＡＭ２０３にロードされた制御処理プログラムを実行して、各動作が実施されてもよい。

なお、以下に示すフローの開始にあたって、初期化処理が行われてもよい。当該初期化処理は、割り込み処理、歌詞の進行、自動伴奏などの基準時間となるＴｉｃｋＴｉｍｅの導出、テンポ設定、ソングの選曲、ソングの読み込み、楽器音の選択、その他ボタン等に関連する処理などを含んでもよい。

ＣＰＵ２０１は、適宜のタイミングで、キースキャナ２０６からの割込みに基づいて、スイッチパネル１４０ｂ、鍵盤１４０ｋ及びペダル１４０ｐなどの操作を検出し、対応する処理を実施できる。

なお、以下では歌詞の進行を制御する例を示すが進行制御の対象はこれに限られない。本開示に基づいて、例えば、歌詞の代わりに、任意の文字列、文章（例えば、ニュースの台本）などの進行が制御されてもよい。つまり、本開示の歌詞は、文字、文字列などと互いに読み替えられてもよい。

まず、本開示における、歌詞（リリック、フレーズなどと呼ばれてもよい）の音節位置の制御方法の概要について説明する。当該制御方法によれば、鍵盤を用いて素早くかつ直感的に歌詞制御が可能である。なお、本開示において、「音節」は、例えば、「ｇｏ」、「ｆｏｒ」、「ｉｔ」などのように１単語（又は１文字）を示し、「歌詞」又は「フレーズ」は、例えば「Ｇｏｆｏｒｉｔ」のように、複数の音節又は複数の単語（又は複数の文字）からなる言葉（又は文章）を示すものとして説明するが、これらの定義は異なってもよい。

また、本開示において、音節位置は、特定のインデックス（例えば、音節インデックスと呼ぶ）によって表されてもよい。音節インデックスは、歌詞に含まれる音節のうち、先頭から何音節目（又は何文字目）の音節（又は文字）に対応するかを示す変数であってもよい。本開示では、音節位置及び音節インデックスは、互いに読み替えられてもよい。

本開示において、１つの音節インデックスに対応する歌詞は、１音節を構成する１又は複数の文字に該当してもよい。音節は、母音のみ、子音のみ、子音＋母音など、種々の音節を含んでもよい。

図６は、一実施形態にかかる音節位置制御のための鍵盤の鍵域分割の一例を示す図である。本例では、鍵盤１４０ｋが、第１鍵域（第１音域）及び第２鍵域（第２音域）に分割されている。なお、本例では鍵盤１４０ｋの鍵盤数が６１である例を示しているが、本開示の実施形態は、他の鍵盤数であっても同様に適用可能である。

なお、本開示において、鍵域は、鍵盤の領域（又は範囲）、演奏操作子の領域（又は範囲）、音域、音の領域（又は範囲））などと互いに読み替えられてもよい。

第１鍵域は、音節位置制御鍵域、鍵盤コントロール鍵域、単に制御鍵域などと呼ばれてもよく、音節位置を指定するために用いられる。言い換えると、制御鍵域は、演奏する音高、音のベロシティ、長さなどの指定に用いられなくてもよい。

一例としては、制御鍵域は、コード発音用の鍵の鍵域（例えば、Ｃ１－Ｆ２）に該当してもよい。制御鍵域のうち、音節位置の制御に用いられる鍵は、白鍵のみから構成されてもよいし、黒鍵のみから構成されてもよいし、これらの両方から構成されてもよい。例えば、音節位置の制御に白鍵のみを用いる場合、制御鍵域内の黒鍵は、歌詞の制御（例えば、ある曲における次の／前の歌詞への遷移など）に用いられてもよい。

第２鍵域は、鍵盤演奏鍵域、単に演奏鍵域などと呼ばれてもよく、音高、音のベロシティ、長さなどを指定するために用いられる。電子楽器１０は、制御鍵域の操作によって指定される音節位置（又は歌詞）に対応する音を、演奏鍵域の操作によって指定される音高（音程）、ベロシティなどを用いて発音する。

なお、図６では、制御鍵域が左手側のいくつかの鍵から構成され、演奏鍵域が、制御鍵域に該当しない鍵から構成される例を示したが、これに限られない。例えば、各鍵域は、隣接しない（とびとびの）鍵から構成されてもよいし、制御鍵域が右手側の鍵から構成され、演奏鍵域が左手側の鍵から構成されるなどしてもよい。

図７Ａ－７Ｃは、制御鍵域に割り当てられる音節の一例を示す図である。図７Ａは、制御鍵域で音節位置を制御する対象となる歌詞の一例を示す。「まばたきしてはみんなを」という歌詞が示されている。音高及び音の長さは、例であって、実際に出力される音は演奏鍵域で制御され得る。

図７Ｂは、図７Ａの歌詞の各音節を制御鍵域内の白鍵に割り当てた例を示す。本例では、制御鍵域内のＣ１－Ｆ２の計１１個の白鍵のそれぞれに、上記歌詞の１音節ずつがマッピングされている。

電子楽器１０は、制御鍵域内のある白鍵が押鍵されると、音節位置を当該白鍵に対応する位置に設定する（例えば、当該白鍵がＧ１であれば、「し」に設定する）。電子楽器１０は、Ｃ１が押鍵されると、現状の音節位置に関わらず、歌詞を頭出しする（音節位置を「ま」にする）。

電子楽器１０は、制御鍵域内の鍵が押されていない状態で、演奏鍵域内の任意の鍵が押鍵されると、音節位置を１つシフト（次に移動）する（例えば、押鍵前の位置が「ま」であれば、「ば」にシフトする）。なお、音節位置が歌詞の末尾に到達する場合、音節位置は、当該歌詞の先頭の位置（図７Ｂでは「ま」）に変更されてもよいし、当該歌詞の次の歌詞の先頭の位置に変更されてもよい。

電子楽器１０は、制御鍵域内のある白鍵が押鍵されたまま、演奏鍵域内の任意の鍵が複数回押鍵されても、音節位置を当該白鍵に対応する位置のまま維持する（例えば、当該白鍵に対応する位置が「し」であれば、演奏鍵域の押鍵のたびに「し」を発音する）。

電子楽器１０は、制御鍵域内のある白鍵が押鍵されるときに、演奏鍵域内の鍵が既に押鍵されている場合、当該白鍵に対応する音節を、演奏鍵域内の押鍵されている鍵に基づいて発音してもよい。例えば、演奏鍵域内の鍵が押鍵されている場合に、制御鍵域でＣ２→Ｄ１→Ｅ１の順で押鍵されると、電子楽器１０は、当該演奏鍵域内の鍵に対応する音高で、「みばた」と発音してもよい。この動作によれば、制御鍵域に対応する歌詞の音節を任意の順で（アナグラムを自由に作って）発音させることができる。

図７Ｃは、別の歌詞（英語の歌詞）の各音節を制御鍵域内の白鍵に割り当てた例を示す。本例では、制御鍵域内のＣ１－Ｆ２の計１１個の白鍵のそれぞれに、歌詞「holy infant so tender and mild sleep in」の各音節がマッピングされている。このように、任意の言語の音節が割り当てられてもよい。

１つの鍵には、図７Ｂ、７Ｃに示すように、１文字／１音節が割り当てられてもよいし、複数文字／複数音節が割り当てられてもよい。

歌詞及び音節に関するデータは、上述した歌声データ２１５（歌詞データ、音節データなどと呼ばれてもよい）に該当してもよい。例えば、電子楽器１０は、メモリ内に複数の歌詞データを記憶していて、特定のファンクションキー（例えば、ボタン、スイッチなど）の操作がされると１つの歌詞データを選択してもよい。

＜歌詞進行制御＞
図８は、一実施形態に係る歌詞進行制御方法のフローチャートの一例を示す図である。

まず、電子楽器１０は、音節位置制御フラグを初期値として「無効」にセットする（ステップＳ１０１）。

電子楽器１０は、音節の割り当てが必要か否かを判断する（ステップＳ１０２）。電子楽器１０は、例えば、電子楽器１０の特定のファンクションキー（例えば、ボタン、スイッチなど）（例えば、ボタン、スイッチなど）の操作がされる（そして、歌詞がロードされるなど）場合に、音節の割り当てが必要と判断してもよい。

音節の割り当てが必要な場合（ステップＳ１０２－Ｙｅｓ）、電子楽器１０は、制御鍵域（の白鍵）に対して、音節の割り当て処理を行い（ステップＳ１０３）、音節位置制御フラグを「有効」にセットする（ステップＳ１０４）。割り当てられる音節は、上述したように複数の歌詞データから１つ選択されてもよい。音節位置制御フラグが「有効」であることは、鍵盤スプリットが有効であると呼ばれてもよい。

音節の割り当てが必要でない場合（ステップＳ１０２－Ｎｏ）、制御鍵域は設定されず、全ての鍵が音高指定のために用いられる（通常の演奏モード）。音節位置制御フラグが「無効」であることは、鍵盤スプリットが無効であると呼ばれてもよい。

ステップＳ１０４又はステップＳ１０２－Ｎｏの後、電子楽器１０は、任意の鍵盤操作があるかを判断する（ステップＳ１０５）。鍵盤操作がある場合（ステップＳ１０５－Ｙｅｓ）、電子楽器１０は押鍵された／されている鍵、離鍵された／されている鍵などの情報（押鍵／離鍵情報と呼ばれてもよい）を取得する（ステップＳ１０６）。

ステップＳ１０６の後、電子楽器１０は、上述の音節位置制御フラグが有効か否かを確認する（ステップＳ１０７）。音節位置制御フラグが有効な場合（ステップＳ１０７－Ｙｅｓ）、音節位置制御処理を行う（ステップＳ１０８）。そうでない場合（ステップＳ１０７－Ｎｏ）、電子楽器１０は、演奏制御処理を行う（ステップＳ１０９）。音節位置制御処理については図９で、演奏制御処理については図１０で、後述する。

ステップＳ１０８又はステップＳ１０９の後、電子楽器１０は、歌詞の再生が終了したか否かを判断する（ステップＳ１１０）。終了した場合（ステップＳ１１０－Ｙｅｓ）、電子楽器１０は当該フローチャートの処理を終了し、待機状態に戻ってもよい。そうでない場合（ステップＳ１１０－Ｎｏ）、ステップＳ１０２又はステップＳ１０５に戻ってもよい。ここでの「歌詞の再生が終了したか」は、ワンフレーズの歌詞の再生についてであってもよいし、曲全体の歌詞の再生についてであってもよい。

＜音節位置制御＞
図９は、一実施形態に係る音節位置制御処理のフローチャートの一例を示す図である。

電子楽器１０は、制御鍵域での押鍵／離鍵操作があるかを判断する（ステップＳ２０１）。制御鍵域での操作がある場合（ステップＳ２０１－Ｙｅｓ）、当該操作が押鍵操作か否かを判断する（ステップＳ２０２）。

押鍵操作がある場合（ステップＳ２０２－Ｙｅｓ）、電子楽器１０は、当該押鍵操作によって押鍵される鍵（キー）の情報を、音節制御キーとして保存（又は記憶又は設定）する（ステップＳ２０３）。また、電子楽器１０は、離鍵フラグをリセットする（又は設定しない）（ステップＳ２０４）。なお、離鍵フラグは、制御鍵域の任意の鍵が押鍵されている場合にはリセットされ、そうでない場合にはセットされることになる。

一方、離鍵操作がある場合（ステップＳ２０２－Ｎｏ）、電子楽器１０は、当該離鍵操作によって離鍵されたキーの情報が、保存されている音節制御キーと同じか否かを判断する（ステップＳ２０５）。

離鍵されたキーの情報が、保存されている音節制御キーと同じ場合（ステップＳ２０５－Ｙｅｓ）、離鍵フラグをセットする（ステップＳ２０６）。なお、離鍵されたキーの情報が、保存されている音節制御キーと同じ場合であっても、制御鍵域においてまだ押鍵中の鍵がある場合には、電子楽器１０は、当該押鍵中の鍵（キー）の情報を、音節制御キーとして保存してもよいし、この場合離鍵フラグはセットされなくてもよい。

一方、制御鍵域での操作がなかった場合（ステップＳ２０１－Ｎｏ）、電子楽器１０は、演奏制御処理を行う（ステップＳ２０７）。ステップＳ２０７の演奏制御処理は、ステップＳ１０９の演奏制御処理と同じであってもよい。

ステップＳ２０４、ステップＳ２０６、ステップＳ２０５－Ｎｏ、又はステップＳ２０７の後、電子楽器１０は、音節位置制御処理を終了してもよい。

なお、音節制御キーは、音節制御情報と呼ばれてもよく、押鍵／離鍵された鍵のキー番号（キーナンバー）の情報であってもよいし、押鍵／離鍵された鍵の音高（又はノート番号）の情報であってもよい。以下、本開示では、音節制御キーとしてキーナンバーが保持されることを例に説明するが、これに限られない。

なお、例えば、図７Ｂ及び７Ｃの例のＣ１－Ｆ２に対応する鍵は、それぞれ０－１１のキーナンバーに対応してもよい。キーナンバーは、音高を表す文字列（例えば、Ｃ１、Ｆ２）であってもよい。

図９の音節位置制御処理によれば、制御鍵域における押鍵があると、そのキーが保持される。制御鍵域における離鍵があると、保持されたキーは維持したまま、離鍵フラグがセットされる。保持されたキーは、制御鍵域における別のキーが押鍵されると、当該別のキーに置き換わる。なお、制御鍵域の鍵が離鍵されていない状態で新たな鍵が押鍵された場合、保持されたキーは、当該新たな鍵のキーで上書きされてもよい。

＜演奏制御＞
図１０は、一実施形態に係る演奏制御処理のフローチャートの一例を示す図である。

電子楽器１０は、音節進行判別処理を実施する（ステップＳ３０１）。音節進行判別処理は、音節位置を進めるか否かに関する判別結果（返り値）を返す。当該判別結果がＹｅｓ（又はＴｒｕｅ）である場合、現在の音節位置を取得し、当該音節位置を１つ遷移させる（又は、シフトする、進める）（言い換えると、歌詞を進行する）（ステップＳ３０２）。音節進行判別処理の一例については、図１１で後述する。

一方、ステップＳ３０１の音節進行判別処理の判別結果がＮｏ（又はＦａｌｓｅ）である場合、音節位置は変更されない。

ステップＳ３０２の後、電子楽器１０は、音節制御キーがセットされている（有効な値が保存されている）か否かを判断する（ステップＳ３０３）。音節制御キーがセットされている場合（ステップＳ３０３－Ｙｅｓ）、電子楽器１０は、当該音節制御キーが音節位置指定有効キー（単に有効キーと呼ばれてもよい）であるか否かを判断する（ステップＳ３０４）。

ここで、有効キーは、制御鍵域内の全ての鍵のうち、音節が割り当てられた鍵のことを意味してもよい。例えば、現在の歌詞に含まれる音節数が、制御鍵域内の白鍵の数より少ない場合、制御鍵域内の一部の白鍵が有効キーに該当し、残りは有効キーに該当しない。また、この場合、黒鍵も有効キーに該当しない。

これからわかるように、歌詞が変われば、どの鍵が有効キーになるかも変わり得る。なお、１つの鍵が１音節に１対１対応する必要はなく、１つの鍵が複数音節に対応したり、複数の鍵が１つの音節に対応したりしてもよい。

音節制御キーが有効キーである場合（ステップＳ３０４－Ｙｅｓ）、電子楽器１０は、当該音節制御キー（のキーナンバー）に対応する音節位置を取得する（ステップＳ３０５）。

ステップＳ３０５の後、電子楽器１０は、離鍵フラグがセットされているかを判断する（ステップＳ３０６）。離鍵フラグがセットされている場合（ステップＳ３０６－Ｙｅｓ）、電子楽器１０は、音節制御キーをクリアする（無効な値をセットしてもよい）（ステップＳ３０７）。

ステップＳ３０３－Ｎｏ、ステップＳ３０４－Ｎｏ、ステップＳ３０６－Ｎｏ、又はステップＳ３０７の後、電子楽器１０は、音節変更処理を行う（ステップＳ３０８）。音節変更処理の一例については、図１２で後述する。なお、後述のとおり、音節変更処理のなかで音節の演奏（再生）処理が行われてもよい。

なお、音節変更処理の前又は後において、電子楽器１０は、現在の音節位置（ステップＳ３０２又はステップＳ３０５で取得された（又は取得されて１つ進められた）音節位置）を、現在の音節位置として記憶部に記憶してもよい。ステップＳ３０２の音節位置の取得は、記憶された現在の音節位置の取得であってもよい。また、ステップＳ３０２において音節位置を１つ進める代わりに、ステップＳ３０８の音節変更処理の前又は後において、音節位置を１つ進めてもよい。

ステップＳ３０１－Ｎｏ又はステップＳ３０８の後、電子楽器１０は、演奏制御処理を終了してもよい。

＜音節進行判別＞
図１１は、一実施形態に係る音節進行判別処理のフローチャートの一例を示す図である。この処理は、言い換えると、演奏鍵域で単音が押鍵されれば音節を進行し、また、演奏鍵域で和音が押鍵されれば、和音のうちどの高さ（「何番目の高さ」、「どのパート」などで読み替えられてもよい）の音が押鍵によって変化したかに基づいて、音節進行を判定する処理に該当する。

電子楽器１０は、演奏鍵域の現在の押鍵数を取得する（ステップＳ４０１）。

次に、電子楽器１０は、演奏鍵域の現在の押鍵数が２以上か（２音以上の押鍵があるか）を判断する（ステップＳ４０２）。現在の押鍵数が２以上である場合（ステップＳ４０２－Ｙｅｓ）、電子楽器１０は、各押鍵に対応する押鍵時間とキーナンバーを取得する（ステップＳ４０３）。

ステップＳ４０３の後、電子楽器１０は、演奏鍵域において、最新の押鍵時間と前回の押鍵時間との差が和音判別時間内か否かを判断する（ステップＳ４０４）。ステップＳ４０４は、例えば、新たに押鍵された音の押鍵時間と前回（又はｉ回前に（ｉは整数））押鍵された音の押鍵時間との差が、和音判別時間内であるかを判断するステップであると言い換えてもよい。当該過去の押鍵時間は、最新の押鍵時間においても押鍵が継続されている鍵に対応することが好ましい。

ここで、和音判別時間は、当該時間内に発音される複数の音を同時和音と判断し、当該時間外に発音される複数の音を独立した音（例えば、メロディーラインの音）又は分散和音と判断するための時間（期間）である。和音判別時間は、例えばミリ秒単位、マイクロ秒単位で表現されてもよい。

和音判別時間は、ユーザの入力から取得されてもよいし、曲のテンポを基準に導出されてもよい。和音判別時間は、所定の設定された時間、設定時間などと呼ばれてもよい。

最新の押鍵時間と前回の押鍵時間との差が和音判別時間内である場合（ステップＳ４０４－Ｙｅｓ）、電子楽器１０は、押鍵されている音が同時和音である（和音が指定された）と判断する。そして、音節を維持する（歌詞を進行しない）と判断し、音節進行判別処理の返り値をＮｏ（又はＦａｌｓｅ）に設定する（ステップＳ４０５）。

ステップＳ４０４の判定によれば、和音の意図で複数の鍵を押した場合には、音節が鍵の数だけ進行してしまうことが好ましくないことに対応し、歌詞を１つだけ進行させることができる。

一方、和音判別時間内に過去の押鍵時間がない場合（ステップＳ４０４－Ｎｏ）、演奏鍵域の現在の押鍵数が所定数以上で、かつ最新の押鍵音（キー）が、演奏鍵域において押鍵されている全音（キー）のうちの特定の音（キー）に該当するかを判断する（ステップＳ４０６）。なお、電子楽器１０は、ステップＳ４０４－Ｎｏの場合には、和音の指定が解除されたと判断してもよいし、和音が指定されないと判断してもよい。

なお、当該所定数は、例えば２、４、８、などであってもよい。また、特定の音（キー）は、押鍵されている全音（キー）のなかで一番低い音（キー）であってもよいし、ｉ番目（ｉは整数）に高い又は低い音（キー）であってもよい。これらの所定数、特定の音などは、ユーザ操作などによって設定されてもよいし、予め規定されてもよい。

ステップＳ４０６－Ｙｅｓの場合、電子楽器１０は、音節を進める（歌詞を進行する）と判断し、音節進行判別処理の返り値をＹｅｓ（又はＴｒｕｅ）に設定する（ステップＳ４０７）。

ステップＳ４０６－Ｎｏの場合、電子楽器１０は、同時和音でないが、音節を維持する（歌詞を進行しない）と判断し、音節進行判別処理の返り値をＮｏ（又はＦａｌｓｅ）に設定する（ステップＳ４０５）。

また、ステップＳ４０２－Ｎｏの場合、電子楽器１０は、同時和音でないため、音節を進める（歌詞を進行する）と判断し、音節進行判別処理の返り値をＹｅｓ（又はＴｒｕｅ）に設定する（ステップＳ４０７）。

図１１のような音節進行判定処理によれば、例えば、発音の時間差が小さい複数の音（いわゆる同時和音（ハーモニー））ではなく、発音の時間差が大きい複数の音（旋律（メロディー））であれば、音節を進行させるようにすることができる。

＜音節変更＞
図１２は、一実施形態に係る音節変更処理のフローチャートの一例を示す図である。

電子楽器１０は、演奏制御処理において既に取得された音節位置に対応する歌詞制御データを取得する（ステップＳ５０１）。

ここで、歌詞制御データは、歌詞に含まれる音節ごとの発音（歌声合成）に関するパラメータを含むデータであってもよい。ある音節の発音に関するパラメータを含むデータを音節制御データと呼ぶと、歌詞制御データは、１つ以上の音節制御データを含んで構成されてもよい。

例えば、音節制御データは、発音タイミング、音節開始フレーム、母音開始フレーム、母音終了フレーム、音節終了フレーム、歌詞（又は音節）（の文字情報）、などの情報を含んでもよい。なお、フレームは、上述した音素（音素列）の構成単位であってもよいし、その他の時間単位で読み替えられてもよい。以下、歌詞制御データ及び音節制御データを特に区別せず説明する。

発音タイミングは、各フレーム（例えば、音節開始フレーム、母音開始フレームなど）の基準となるタイミング（又はオフセット）を示してもよい。当該発音タイミングは、押鍵からの時間で与えられてもよい。発音タイミングや、各フレームの情報は、フレーム数（フレーム単位）で指定されてもよい。

音節に対応する音は、音節開始フレームから発音が始まり、音節終了フレームで発音が終わってもよい。音節のうち母音に対応する音は、母音開始フレームから発音が始まり、母音終了フレームで発音が終わってもよい。つまり、通常は、母音開始フレームは音節開始フレーム以上の値を有し、母音終了フレームは音節終了フレーム以下の値を有する。

音節開始フレームは、音節のフレームの先頭アドレス情報に該当してもよい。音節終了フレームは、音節のフレームの最終アドレス情報に該当してもよい。

次に、電子楽器１０は、ステップＳ５０１で取得された歌詞制御データの音節開始フレームを調整する必要があるかを判断する（ステップＳ５０２）。例えば、フレーム位置調整フラグが立っている（セットされている）場合、電子楽器１０は、音節開始フレームを調整する必要があると判断してもよい。電子楽器１０は、ファンクションキーの操作に基づいてフレーム位置調整フラグの値を制御してもよいし、歌詞制御データのパラメータに基づいてフレーム位置調整フラグの値を決定してもよい。

音節開始フレームを調整する必要がある場合（ステップＳ５０２－Ｙｅｓ）、電子楽器１０は、調節係数に基づいて音節開始フレームを調整する（ステップＳ５０３）。電子楽器１０は、例えば、音節開始フレームに調節係数を用いた所定の演算（例えば、加算、減算、乗算、除算）を適用した値を、新たな（調整済みの）音節開始フレームとして算出してもよい。

調整係数は、音節のホワイトノイズ部分を低減（又は削除）するために適切なパラメータ（例えば、オフセット量、フレーム数など）であってもよい。調節係数は、音節ごとに異なる（又は独立した）値を有してもよい。調節係数は、歌詞制御データに含まれてもよいし、歌詞制御データに基づいて決定されてもよい。

なお、ステップＳ５０３の音節開始フレームの調整は、制御鍵域の押鍵中に発音される音にのみ適用されてもよいし、制御鍵域が押鍵されていないときに発音される音に適用されてもよい。

ステップＳ５０３の後、電子楽器１０は、調整済みの音節開始フレームの値が、母音開始フレームの値より大きいか否かを判断する（ステップＳ５０４）。調整済みの音節開始フレームの値が、母音開始フレームの値より大きい場合（ステップＳ５０４－Ｙｅｓ）、電子楽器１０は、調整済みの音節開始フレームの値を母音開始フレームの値に変更する（ステップＳ５０５）。

ステップＳ５０４及びＳ５０５によれば、例えば、ホワイトノイズはできるだけ低減しつつ、母音の最初から発音を開始できる。母音の途中から発音が開始すると、発音のアタック感が劣化してしまうが、母音の最初から発音を開始することによって、アタック感の劣化を抑制できる。

ステップＳ５０２－Ｎｏ、ステップＳ５０４－Ｎｏ又はステップＳ５０５の後、電子楽器１０は、音節開始フレーム、母音開始フレーム、母音終了フレーム、音節終了フレームを少なくとも含む情報を、歌声再生情報として設定する（ステップＳ５０６）。ここでの音節開始フレームは、上述のように、歌詞制御データに含まれる音節開始フレームの値であってもよいし、調整係数を用いて調整された音節開始フレームの値であってもよいし、母音開始フレームの値であってもよい。

電子楽器１０は、歌声再生処理を適用して現在の音節位置に対応する音を発音する（ステップＳ５０７）。電子楽器１０は、当該歌声再生処理において、現在の音節位置に対応する音を、ステップＳ５０６の歌声再生情報と、演奏鍵域において押鍵される鍵（から得られる音高など）と、に基づいて発音してもよい。

歌声再生処理では、電子楽器１０は、例えば、歌声制御部３０７より、現在の音節位置に対応する歌声データの音響特徴量データ（フォルマント情報）を取得し、音源３０８に、押鍵に応じた音高の楽器音の発音（楽器音波形データの生成）を指示し、歌声合成部３０９に、音源３０８から出力される楽器音波形データに対し、上記フォルマント情報の付与を指示してもよい。

例えば、処理部３０６が、指定された音高データ（押鍵された鍵に対応する音高データ）及び現在の音節位置に対応する歌声データと、現在の音節位置に対応する歌声再生情報を、歌声制御部３０７に入力する。歌声制御部３０７は、入力に基づいて音響特徴量系列３１７を推定し、対応するフォルマント情報３１８と声帯音源データ（ピッチ情報）３１９と、を、歌声合成部３０９に対して出力する。この音響特徴量系列３１７は、歌声再生情報に基づいて再生開始フレームが調整されてもよい。

歌声合成部３０９は、入力されたフォルマント情報３１８と声帯音源データ（ピッチ情報）３１９とに基づいて、歌声波形データを生成し、音源３０８に出力する。そして、音源３０８は、歌声合成部３０９から取得される歌声波形データに対して発音処理を行う。

なお、電子楽器１０は、ステップＳ３０１の音節進行判別処理の判別結果がＮｏ（又はＦａｌｓｅ）である場合にも、現在の音節位置に対応する音を、既に得られている歌声再生情報と、演奏鍵域において押鍵される鍵と、に基づいて、歌声再生処理を適用して発音してもよい。

＜変形例＞
電子楽器１０において、制御鍵域内の音節が割り当てられる鍵には、割り当てられた音節が視認（又は区別、把握、理解）できるように、文字、図形、模様、パターンの少なくとも１つが表示されてもよいし、鍵（例えば、鍵に内蔵される発光素子（発光ダイオード（Light Emitting Diode（ＬＥＤ）））など）の色、明度及び彩度の少なくとも１つが変化してもよい。

また、電子楽器１０において、現在の音節位置に対応する鍵には、現在の音節位置であることが視認（又は区別、把握、理解）できるように（言い換えると、他の鍵と区別できるように）、他の鍵とは異なる文字、図形、模様、パターンの少なくとも１つが表示されてもよいし、他の鍵とは異なる鍵の色、明度及び彩度の少なくとも１つが表示されてもよい。

図１３Ａ及び１３Ｂは、制御鍵域の鍵の外観の一例を示す図である。本例では、「まばたきしてはみんなを」という歌詞が、制御鍵域内のＣ１－Ｆ２の計１１個の白鍵のそれぞれに視認できるように表示されている。

また、図１３ＡではＣ１の鍵の一部が発光している（図中の”〇”部分）。図１３ＢではＤ１の鍵の一部が発光している（図中の”〇”部分）。図１３Ａ及び図１３Ｂでは、それぞれ現在の音節位置が「ま」、「ば」であることが演奏者に容易に理解される。

なお、図１３Ａ及び１３Ｂのように、音節が割り当てられている鍵が理解できるような表示がされている場合には、制御鍵域の鍵盤数は、固定でなくてもよく、現在の演奏対象の歌詞に応じて可変であってもよい。例えば、歌詞の音節数がｘ（ｘは整数）である場合には、制御鍵域は白鍵がｘ鍵含まれれば足りるためである。この場合、どの歌詞を選んでも演奏鍵域の鍵数が常に少ない（演奏できる音高に自由度が少ない）という事態を抑制できる。

上述の実施形態では、特定のファンクションキー（例えば、ボタン、スイッチなど）の操作に基づいて歌詞データが選択されると想定したが、これに限られない。例えば、電子楽器１０は、制御鍵域内の音節が割り当てられていない鍵（例えば、黒鍵）の操作に基づいて、歌詞データを選択してもよい。例えば、制御鍵域内の最も左の黒鍵が、一曲における現在の歌詞より１つ前の歌詞の選択を示し、制御鍵域内の左から２番目の黒鍵が、一曲における現在の歌詞より１つ後の歌詞の選択を示してもよい。

電子楽器１０は、ディスプレイ１５０ｄに歌詞を表示させる制御を行ってもよい。例えば、現在の歌詞の位置（音節インデックス）付近の歌詞が表示されてもよいし、発音中の音に対応する歌詞、発音した音に対応する歌詞などを、現在の歌詞の位置が識別できるように着色等して表示してもよい。

電子楽器１０は、外部装置（例えば、スマートフォン、タブレット端末）に対して、歌声データ、現在の歌詞の位置に関する情報などの少なくとも１つを送信してもよい。当該外部装置は、受信した歌声データ、現在の歌詞の位置に関する情報などに基づいて、自身の有するディスプレイに歌詞を表示させる制御を行ってもよい。

上述の例では、電子楽器１０がキーボードのような鍵盤楽器である例を示したが、これに限られない。電子楽器１０は、ユーザの操作によって発音のタイミングを指定できる構成を有する機器であればよく、エレクトリックヴァイオリン、エレキギター、ドラム、ラッパなどであってもよい。

このため、本開示の「鍵」は、弦、バルブ、その他の音高指定用の演奏操作子、任意の演奏操作子などで読み替えられてもよい。本開示の「押鍵」は、打鍵、ピッキング、演奏、操作子の操作、ユーザ操作などで読み替えられてもよい。本開示の「離鍵」は、弦の停止、ミュート、演奏停止、操作子の停止（非操作）などで読み替えられてもよい。

また、本開示の操作子（例えば、演奏操作子、鍵）は、タッチパネル、バーチャルキーボードなどに表示される操作子（鍵の画像など）であってもよい。この場合、電子楽器１０は、いわゆる楽器（キーボードなど）に限られず、携帯電話、スマートフォン、タブレット型端末、パソコン（Personal Computer（ＰＣ））、テレビなどで読み替えられてもよい。

図１４は、一実施形態にかかる歌詞進行制御方法を実施するタブレット端末の一例を示す図である。タブレット端末１０ｔは、少なくとも鍵盤１４０ｋをディスプレイに表示する。この鍵盤１４０ｋの一部（本例ではＣ１－Ｆ２の計１１個の白鍵）が制御鍵域に該当し、「まばたきしてはみんなを」という歌詞が、制御鍵域内のＣ１－Ｆ２の計１１個の白鍵のそれぞれに視認できるように表示されている。

また、上述した歌声データ、現在の歌詞の位置に関する情報などを受信した当該外部装置も、図１４に示すような、割り当てられた音節や現在の音節位置を示す鍵盤１４０ｋなどを表示してもよい。

以上説明したように、本開示の電子楽器１０は、新しい演奏体験を提供することができ、ユーザ（演奏者）に演奏をより楽しんでもらうことができる。

例えば、本開示の電子楽器１０は、歌詞の頭出しを容易に行うことができる。視覚的に音節の位置が分かるので、歌詞演奏中にダイレクトに、任意の音節に好適にジャンプすることができる。

また、本開示の電子楽器１０は、歌詞演奏中に特定の音節位置で音節（母音）をキープしたい場合に、鍵盤だけでダイレクトに任意の母音を指定・維持できる。ペダルやボタンを使わなくても、メリスマ演奏が可能である。

また、本開示の電子楽器１０は、鍵盤の操作に応じて音節位置をランダムに変えることができ、音節の組み合わせを変更しながら演奏することができる。このため、本来の歌詞だけではなく、アナグラムのように別の歌詞を作り出すことができる。例えば、ループ演奏やアルペジエータなどの自動演奏と組み合わせると、ユーザの予想を超えた歌詞フレーズを生み出す新しい演奏体験を提供することができる。

なお、電子楽器１０は、互いに異なる音高データがそれぞれ対応付けられている複数の演奏操作子（例えば、鍵）と、プロセッサ（例えば、ＣＰＵ）と、を備えてもよい。前記プロセッサは、前記複数の演奏操作子のうちの、第１音域（制御鍵域）に含まれる演奏操作子への操作（例えば、押鍵／離鍵）に基づいて、フレーズに含まれる音節位置を決定してもよい。また、前記プロセッサは、前記複数の演奏操作子のうちの、第２音域（演奏鍵域）に含まれる演奏操作子への操作に基づいて、決定された前記音節位置に対応する音節の発音を指示してもよい。このような構成によれば、例えば鍵盤だけを用いて、ユーザが発音させたい歌詞の箇所を容易に指定できる。

また、前記プロセッサは、前記第１音域に含まれる演奏操作子が操作される場合、操作される前記第１音域に含まれる演奏操作子に対応するキーナンバーに基づいて、前記音節位置を決定してもよい。このような構成によれば、第１音域の押鍵によって、直感的に任意の音節に変更できる。

また、前記プロセッサは、前記第１音域に含まれる演奏操作子が操作される場合であって、操作される前記第１音域に含まれる演奏操作子が、音節が割り当てられた有効キーである場合には、操作される前記第１音域に含まれる演奏操作子に対応するキーナンバーに基づいて、前記音節位置を決定してもよい。このような構成によれば、第１音域のうち音節が割り当てられた鍵の操作によって、直感的に任意の音節に変更できる。音節が割り当てられない鍵については、音節変更とは別の用途に利用できる。

また、前記プロセッサは、前記第１音域に含まれる演奏操作子が操作されていない場合、前記第２音域に含まれる演奏操作子の操作に基づいて、前記音節位置を１つ遷移させてもよい。このような構成によれば、基本的には第２音域の操作のみで音節を進め、必要な場合のみ第１音域を操作して音節のジャンプをする、というユーザフレンドリーな動作が可能である。

また、前記プロセッサは、前記音節位置に対応する音節の音節開始フレームを調節係数に基づいて調整した発音を指示してもよい。このような構成によれば、音節のホワイトノイズ部分を好適に低減（又は削除）できる。

また、前記プロセッサは、前記調節係数に基づいて調整した音節開始フレームの値が、前記音節の母音開始フレームの値より大きくなる場合、調整した音節開始フレームの値を、前記母音の開始フレームの値と同じにしてもよい。このような構成によれば、ホワイトノイズはできるだけ低減しつつ、アタック感の劣化を抑制できる。

また、前記プロセッサは、前記複数の演奏操作子のうちの、第１音域に含まれる演奏操作子への操作が継続されている場合には、前記複数の演奏操作子のうちの、第２音域に含まれる演奏操作子がどのように操作されても、発音させる音節が進行しないように制御し、前記第１音域に含まれるいずれの演奏操作子への操作がされていない場合には、前記第２音域に含まれる演奏操作子への操作ごとに、発音させる音節が進行するように制御してもよい。また、前記プロセッサは、前記第２音域に含まれる演奏操作子への操作に基づいて指定される音高で、前記音節位置に対応する音節の発音を指示してもよい。このような構成によれば、音節の維持が容易にできる。

また、前記プロセッサは、前記第１音域に含まれる演奏操作子への操作が継続されている場合には、前記第２音域に含まれる演奏操作子がどのように操作されても、操作が継続されている前記第１音域に含まれる演奏操作子に対応する音節の位置から進行しないように制御してもよい。このような構成によれば、基本的には第２音域の操作のみで音節を進め、必要な場合のみ第１音域を操作して音節のジャンプをする、というユーザフレンドリーな動作が可能である。

また、前記第１音域に含まれる各演奏操作子に、フレーズに含まれる各音節がそれぞれ割り当てられていてもよい。このような構成によれば、現在の音節位置をユーザが容易に把握できる。

また、前記プロセッサは、特定のファンクションキーがユーザ操作される場合には、前記第１音域に含まれる演奏操作子を前記音節の位置の決定のために利用し、そうでない場合には、前記第１音域に含まれる演奏操作子を、発音する音の音高指定（通常モード、通常の演奏動作）のために利用してもよい。このような構成によれば、鍵盤スプリットを用いた歌詞進行制御の可否を適切に制御できる。

また、前記プロセッサは、前記第１音域に含まれる演奏操作子に、割り当てられた音節をユーザが理解するための表示を適用してもよい。このような構成によれば、歌詞を構成する音節に対応する鍵をユーザが容易に把握できるため、次のユーザ操作を適切に促すことができる。

また、前記プロセッサは、前記第１音域に含まれる演奏操作子に割り当てられた音節をユーザが理解するための表示を、外部装置に表示させるための情報を、前記外部装置に送信する制御を行ってもよい。このような構成によれば、ユーザが外部装置を視認することで、歌詞を構成する音節に対応する鍵をユーザが容易に把握できるため、次のユーザ操作を適切に促すことができる。

なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及び／又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的に結合した１つの装置により実現されてもよいし、物理的に分離した２つ以上の装置を有線又は無線によって接続し、これら複数の装置により実現されてもよい。

なお、本開示において説明した用語及び／又は本開示の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。

本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。また、本開示においてパラメータなどに使用する名称は、いかなる点においても限定的なものではない。

本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

情報、信号などは、複数のネットワークノードを介して入出力されてもよい。入出力された情報、信号などは、特定の場所（例えば、メモリ）に保存されてもよいし、テーブルを用いて管理してもよい。入出力される情報、信号などは、上書き、更新又は追記をされ得る。出力された情報、信号などは、削除されてもよい。入力された情報、信号などは、他の装置へ送信されてもよい。

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術（同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ：Digital Subscriber Line）など）及び無線技術（赤外線、マイクロ波など）の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。

本開示において説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、本開示において説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。

本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

本開示において使用する「第１の」、「第２の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第１及び第２の要素の参照は、２つの要素のみが採用され得ること又は何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

本開示において、「含む（include）」、「含んでいる（including）」及びこれらの変形が使用されている場合、これらの用語は、用語「備える（comprising）」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は（or）」は、排他的論理和ではないことが意図される。

本開示の「Ａ／Ｂ」は、「Ａ及びＢの少なくとも一方」を意味してもよい。

本開示において、例えば、英語でのa, an及びtheのように、翻訳によって冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。

以上、本開示に係る発明について詳細に説明したが、当業者にとっては、本開示に係る発明が本開示中に説明した実施形態に限定されないということは明らかである。本開示に係る発明は、特許請求の範囲の記載に基づいて定まる発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とし、本開示に係る発明に対して何ら制限的な意味をもたらさない。

Claims

フレーズに含まれる複数の音節が音節ごとに割り当てられる第１音域に含まれる複数の第１演奏操作子と、第２音域に含まれる複数の第２演奏操作子と、を含む複数の演奏操作子であって、互いに異なる音高データがそれぞれ対応付けられている複数の演奏操作子と、
プロセッサと、を備え、前記プロセッサは、
前記第１演奏操作子への操作に基づいて、音節位置を決定し、
前記第２演奏操作子への操作に基づいて、決定された前記音節位置に対応する音節の音節開始フレームを調節係数に基づいて調整した発音を指示する、
電子楽器。
前記プロセッサは、
前記第１演奏操作子が操作される場合、操作される前記第１演奏操作子に対応するキーナンバーに基づいて、前記音節位置を決定する、
請求項１に記載の電子楽器。
前記プロセッサは、
前記第１演奏操作子が操作される場合であって、操作される前記第１演奏操作子が、音節が割り当てられた有効キーである場合には、操作される前記第１演奏操作子に対応するキーナンバーに基づいて、前記音節位置を決定する、
請求項２に記載の電子楽器。
前記プロセッサは、
前記第１演奏操作子が操作されていない場合、前記第２演奏操作子の操作に基づいて、
前記音節位置を１つ遷移させる、
請求項１から請求項３のいずれかに記載の電子楽器。
電子楽器のコンピュータに、
フレーズに含まれる複数の音節が音節ごとに割り当てられる第１音域に含まれる複数の第１演奏操作子と、第２音域に含まれる複数の第２演奏操作子と、を含む複数の演奏操作子のうちの、前記第１演奏操作子への操作に基づいて、音節位置を決定させ、
前記第２演奏操作子への操作に基づいて、決定された前記音節位置に対応する音節の音節開始フレームを調節係数に基づいて調整した発音を指示させる、
方法。
電子楽器のコンピュータに、
フレーズに含まれる複数の音節が音節ごとに割り当てられる第１音域に含まれる複数の第１演奏操作子と、第２音域に含まれる複数の第２演奏操作子と、を含む複数の演奏操作子のうちの、前記第１演奏操作子への操作に基づいて、音節位置を決定させ、
前記第２演奏操作子への操作に基づいて、決定された前記音節位置に対応する音節の音節開始フレームを調節係数に基づいて調整した発音を指示させる、
プログラム。