CN110390923A

CN110390923A - 电子乐器、电子乐器的控制方法以及存储介质

Info

Publication number: CN110390923A
Application number: CN201910302710.2A
Authority: CN
Inventors: 段城真; 太田文章; 濑户口克; 中村厚士
Original assignee: Western Europe Desk
Current assignee: Western Europe Desk
Priority date: 2018-04-16
Filing date: 2019-04-16
Publication date: 2019-10-29
Anticipated expiration: 2039-04-16
Also published as: US20190318715A1; CN110390923B; US10789922B2; JP6587008B1; JP2019184936A

Abstract

无论用户如何指定演奏操作器，歌词都将良好地发展。电子乐器包括：具有多个操作件的演奏输入单元，操作件由用户演奏以指定不同音高的音符；存储包括声乐部分的数据的音乐作品数据的存储器，声乐部分至少包括要在第一定时被播放的具有第一音高的第一音符以及相关联的第一歌词部分；以及至少一个处理器执行：如果用户经由演奏输入单元在第一定时指定音高，则数字合成播放的第一歌声，播放的第一歌声包括第一歌词部分并且具有由用户根据存储在存储器中的第一音符的数据来指定的音高，而不论由用户指定的音高是否与第一音高相一致，并且使数字合成的播放的第一歌声在第一定时可听地输出。

Description

电子乐器、电子乐器的控制方法以及存储介质

技术领域

本发明涉及一种根据键盘等的操作件的操作来再现歌声的电子乐器、电子乐器的控制方法以及存储介质。

背景技术

以往，公知有根据键盘等的操作件的操作来再现歌声(声乐)的电子乐器的技术(例如专利文献1)。该现有技术包括：键盘操作件，用于指示音程；存储机构，存储有歌词数据；指示机构，用于指示从该存储机构中应读出歌词数据；读出机构，用于在该指示机构指示时从所述存储机构依次读出歌词数据；以及声源，用于以与该读出机构读出的歌词数据相对应的音色产生由键盘操作件指示的音程的歌声。

专利文献1：日本发明专利公开公报特开平6-332449号

发明内容

但是，在上述现有技术中，在例如与由电子乐器输出的伴奏数据的进行相一致地输出与歌词相应的歌声的情况下，无论用户指定哪个键，每当指定键时都依次输出与歌词相应的歌声，这样的话，根据用户指定键的方法不同，输出的歌声和伴奏数据的进行不吻合。例如，在1小节中包含发声定时分别不同的4分音符的情况下，在用户在1小节的区间中指定了4个以上音高的情况下，歌词比伴奏数据的进行先进行，在用户在1小节的区间中指定的音高为3个以下的情况下，歌词比伴奏数据的进行延迟。

这样，如果每当用户通过键盘等指定音高时歌词就依次前进，则例如歌词相对伴奏会过度前进，或者相反会过度滞后。

即使在不输出伴奏数据的情况下，即，即使在只输出歌声的情况下，在歌词的进行方面也存在同样的问题。因此，本发明旨在提供一种方案，该方案基本上消除了由于现有技术的限制和缺点而导致的一个或多个问题。

本发明的附加或单独的特征和优点将在下面的描述中阐述，并且部分地将从描述中显而易见，或者可以通过本发明的实践来学习。本发明的目的和其他优点将通过说明书及其所要求保护的技术方案以及附图中特别指出的结构来实现和获得。

为了实现这些和其他优点并且根据本发明的目的，本发明提供：

一种电子乐器，包括：

具有多个操作件的演奏输入单元，所述操作件由用户演奏以指定不同音高的音符；

存储包括声乐部分的数据的音乐作品数据的存储器，所述声乐部分至少包括要在第一定时被播放的具有第一音高的第一音符以及相关联的第一歌词部分；以及

至少一个处理器，

其中，所述至少一个处理器执行以下操作：

如果所述用户经由所述演奏输入单元在所述第一定时指定音高，

则数字合成播放的第一歌声，所述播放的第一歌声包括所述第一歌词部分并且具有由所述用户根据存储在所述存储器中的所述第一音符的数据来指定的音高，而不论由所述用户指定的所述音高是否与所述第一音高相一致，并且

使数字合成的所述播放的第一歌声在所述第一定时可听地输出；

以及

如果所述用户在所述第一定时没有操作所述演奏输入单元的所述多个操作件中的任何操作件，

则根据存储在所述存储器中的所述第一音符的数据来数字合成默认第一歌声，所述默认第一歌声包括所述第一歌词部分并且具有所述第一音高，并且

使数字合成的所述默认第一歌声在所述第一定时可听地输出。

另一方面，提供一种由所述电子乐器中的至少一个处理器执行的方法，所述方法包括由所述至少一个处理器执行的所述特征。

另一方面，提供一种非暂时性计算机可读存储介质，其上存储有可由所述电子乐器中的至少一个处理器执行的程序，所述程序使所述至少一个处理器执行所述特征。

根据本发明，可以提供一种令人满意地控制歌词进行的电子乐器。

应当理解，前面的一般性描述和下面的详细描述都是示例性和说明性的，并且旨在提供对要求保护的本发明的进一步说明。

附图说明

图1是表示本发明的电子键盘乐器的一实施方式的外观例的图。

图2是表示电子键盘乐器的控制***的本实施方式的硬件结构例的框图。

图3是表示语音合成LSI的结构例的框图。

图4是语音合成LSI的动作说明图。

图5A、5B、5C是歌词控制技术的说明图。

图6是表示本实施方式的数据结构例的图。

图7是表示本实施方式中的电子乐器的控制处理例的主流程图。

图8A、8B、8C分别是表示初始化处理、节拍改变处理以及歌曲开始处理的详细例的流程图。

图9是表示开关处理的详细例的流程图。

图10是表示自动演奏中断处理的详细例的流程图。

图11是表示歌曲再现处理的第一实施方式的详细例的流程图。

图12是表示歌曲再现处理的第二实施方式的详细例的流程图。

图13是表示MusicXML形式的歌词控制数据的结构例的图。

图14是表示MusicXML形式的歌词控制数据的乐谱显例的图。

具体实施方式

以下，参照附图对用于实施本发明的方式进行详细说明。

图1是示出本实施方式的电子键盘乐器100的外观例的图。电子键盘乐器100包括：键盘101，其由包括作为演奏操作件的第一操作件和第二操作件的多个键构成，用作具有要由用户操作的多个操作元件的输入单元；第一开关面板102，其用于指定音量、歌曲再现的节拍设定、歌曲再现开始、伴奏再现等的各种设定；第二开关面板103，其用于选择歌曲、伴奏的选曲、音色等；以及LCD(液晶显示器)104，其用于显示歌曲再现时的歌词、乐谱、各种设置信息等。另外，电子键盘乐器100在背面部、侧面部或背面部等具备扬声器，该扬声器再现通过演奏而生成的乐音，但没有特别图示。

图2是表示图1的电子键盘乐器100的控制***200的一个实施方式的硬件结构例的图。在图2中，控制***200的CPU(中央运算处理装置)201、ROM(只读存储器)202、RAM(随机存取存储器)203、声源LSI(大规模集成电路)204、语音合成LSI205、连接图1的键盘101、第一开关面板102和第二开关面板103的键扫描器206、以及连接图1的LCD104的LCD控制器208分别与***总线209连接。此外，CPU201连接到用于控制自动演奏序列的计时器210。进而，从声源LSI204输出的乐音输出数据218由D/A变换器211变换为模拟乐音输出信号，从语音合成LSI205输出的某歌手的歌声推论数据217由D/A变换器212变换为模拟歌声语音输出信号。模拟乐音输出信号和模拟歌声语音输出信号在混合器213中被混合，该混合信号在放大器214中被放大后，从未特别图示的扬声器或输出端子输出。

CPU201通过将RAM203作为工作存储器使用并执行存储在ROM202中的控制程序，来执行图1的电子键盘乐器100的控制动作。另外，ROM202除了存储上述控制程序和各种固定数据以外，还存储包括歌词数据和伴奏数据的乐曲数据。

CPU201包括在本实施例中使用的计时器210，并且例如对电子键盘乐器100中的自动演奏的进行予以计数。

声源LSI204根据来自CPU201的发声控制指示，例如从未特别图示的波形ROM读出乐音波形数据，并输出到D/A转换器211。声源LSI204具有同时产生最大256声音数的能力。

当从CPU201作为乐曲数据215提供歌词的文本数据、音高、音长和与开始帧有关的信息时，语音合成LSI205合成与其对应的歌声的声音数据，输出给D/A变换器212。

键扫描器206定常地扫描图1的键盘101的按键/离键状态、第一开关面板102以及第二开关面板103的开关操作状态，对CPU201施加中断来传递状态变化。

LCD控制器208是控制LCD104的显示状态的IC(集成电路)。

图3是表示图2的语音合成LSI205的结构例的框图。通过后述的歌曲再现处理输入由图2的CPU201指示的乐曲数据215，该语音合成LSI205根据例如下述文献中记载的"基于深层学习的统计的语音合成"的技术，合成并输出某歌手的歌声推论数据217。

(文献)

桥本佳，高木信二“基于深层学习的统计语音合成”日本声学学会志73卷1号(2017)，第五5-62页

语音合成LSI205包括语音学习部301和语音合成部302。语音学习单元301包括学习用文本分析部303、学习用声学特征量提取部304和模型学习部305。

学习用文本分析部303输入包含歌词文本、音高和音长的乐谱数据311，并分析其乐谱数据311。即，乐谱数据311包括学习用歌词数据和学习用音高数据。结果，学习用文本分析部303估计并输出学习用语言特征量序列313，其是表示与乐谱数据311相对应的音素、词类、单词、音高等的离散数值序列。

学习用声学特征量提取部304接收并分析通过由某歌手演唱上述歌词文本而经由麦克风等记录的歌声数据312。其结果，学习用声学特征量提取部304提取并输出表示与某歌手的歌声数据312对应的声音的特征的学习用声学特征量序列314。

模型学习部305基于下面的表达式(1)，通过机器学习来估计根据学习用语言特征量序列313(将其设为l)和声学模型(将其设为λ)生成学习用声学特征量序列314(将其设为o)的概率(将其设为P(o|l，λ))为最大时的声学模型(将其设为)。即，作为文本的语言特征量序列和作为语音的声学特征量序列之间的关系由所谓声学模型的统计模型来表现。

【数学式1】

模型学习部305将用于表现通过表达式(1)进行机械学习的结果计算出的声学模型的模型参数作为学习结果315输出，对语音合成部302内的声学模型部306设定。

语音合成部302包括文本分析部307、声学模型部306和发声模型部308。语音合成部302执行统计式语音合成处理，该统计式语音合成处理是通过使用在声学模型部306中设定的声学模型这样的统计模型，预测与包含歌词文本的乐曲数据215对应的某歌手的歌声推论数据217，从而进行合成的处理。

文本分析部307输入包含由图2的CPU201指定的歌词的文本数据、音高、音长和与开始帧有关的信息的乐曲数据215，作为与自动演奏相配合的用户的演奏结果，并分析该数据。结果，文本分析部307分析并输出用于表现与乐曲数据215对应的音素、词类、单词等的语言特征量序列316。

通过输入语言特征量序列316，声学模型部306估计并输出与其对应的声学特征量序列317。即，声学模型部分306基于下面的表达式(2)，来估计根据从文本分析部307输入的语言特征量序列316(再次将其设为l)和通过模型学习部305中的机器学习被设定为学习结果315的声学模型生成声学特征量序列317(再次将其设为o)的概率(将其设为)为最大时的声学特征量序列317的估计值(将其设为)。

【数学式2】

发声模型部308通过输入声学特征量序列317，生成与包含由CPU201指定的歌词文本的乐曲数据215对应的某歌手的歌声推论数据217。某歌手的歌声推论数据217从图2的D/A变换器212经由混频器213和放大器214输出，特别是从未图示的扬声器放音。

由学习用声学特征量序列314、声学特征量序列317表示的声学特征量包括将人的声道建模后的频谱信息、和将人的声带建模后的声源信息。作为频谱参数，可以采用Mel倒谱(Mel-cepstrum)、线频谱对(Line Spectral Pairs：LSP)等。作为声源信息，可以采用表示人的声音的音调(pitch)频率的基本频率(F0)。发声模型部308包括声源生成部309和合成滤波部310。声源生成部309通过依次输入从声学模型部306输入的声源信息319的序列，生成声源信号，该声源信号是例如以声源信息319中包含的基本频率(F0)周期性地反复、由声源信息319中包含的具有功率值的脉冲串(有声音音素的情况)、或声源信息319中包含的具有功率值的白噪声(无声音音素的情况)构成的声源信号。合成滤波单元310基于从声学模型部306顺序输入的频谱信息318的序列，形成用于对声道进行建模的数字滤波器，将从声源生成单元309输入的声源信号作为激励源信号，生成并输出数字信号的某歌手的歌声推论数据217。

在本实施方式中，为了根据语言特征量序列316来预测声学特征量序列317，通过深度神经网络(Deep Neural Network：DNN)来实现声学模型部306。与此对应，语音学习部301内的模型学习部305，学习表示从语言特征量到声学特征量的DNN内的各神经元的非线性变换函数的模型参数，把该模型参数作为学习结果315，输出给语音合成部302内的声学模型部306的DNN。

通常，以例如5.1毫秒(msec)宽的帧为单位来计算声学特征量，以音素为单位来计算语言特征量。因此，声学特征量和语言特征量在时间单位上不同。作为DNN的声学模型部306是表示作为输入的语言特征量序列316和作为输出的声学特征量序列317之间的一一对应关系的模型，因此，不能使用时间单位不同的输入/输出数据对来训练DNN。因此，在本实施方式中，预先设定帧单位的声学特征量序列和音素单位的语言特征量序列的对应关系，生成帧单位的声学特征量和语言特征量的对。

图4是表示上述对应关系的语音合成LSI205的动作说明图。例如，在得到了作为与起唱的歌词字符串“Ki”“Ra”“Ki”(图4的(a))对应的语言特征量序列的歌声音素串“/k/”“/i/”“/r/”“/a/”“/k/”“/i/”(图4的(b))时，这些语言特征量序列以1对多的关系(图4的(b)和(c)的关系)与以帧为单位的声学特征量序列(图4的(c))建立对应。另外，语言特征量作为向声学模型部306中的DNN的输入而使用，所以需要作为数值数据来表现。因此，作为语言特征量序列，准备有针对“前一个音素是“/a/”么？”、“当前单词所包含的音素的数量是？”等的与上下文有关的问题的二值数据(0或1)、或者连接以连续值的回答而得到的数值数据。

图3的语音学习部301内的模型学习部305，如图4的虚线箭头组401所示，以帧为单位，将与图4的(b)对应的学习用语言特征量序列313的音素串和与图4的(c)对应的学习用声学特征量序列314的对，依次赋予声学模型部306的DNN，进行学习。此外，如图4的灰色的圆圈组所示，声学模型部306内的DNN包括由输入层、一个以上的中间层以及输出层构成的神经元组。

另一方面，在语音合成时，以上述帧为单位，将与图4的(b)对应的语言特征量序列316的音素串输入到声学模型部306的DNN。结果，如图4中的粗实线箭头组402所示，声学模型部306的DNN以上述帧为单位输出声学特征量序列317。因此，在发声模型部308中，也以上述的帧为单位，将声学特征量序列317中包含的声源信息319以及频谱信息318分别提供给声源生成部309以及合成滤波部310，执行语音合成。

结果，如图4中的粗实线箭头组403所示，发声模型部308针对每一帧各输出例如225个样本的某歌手的歌声推论数据217。由于帧具有5.1msec的时间宽度，因此1个样本是“5.1msec÷225≈0.0227msec”，因此，某歌手的歌声推论数据217的取样频率是1/0.0227≈44kHz(千赫兹)。

DNN的学***方误差最小化基准来进行。

【数学式3】

在此，o_t和l_t分别是第t帧t中的声学特征量和语言特征量，是声学模型部306的DNN的模型参数，g_λ(·)是由DNN表示的非线性变换函数。DNN的模型参数可以通过误差反向传播法高效率地估计。考虑到与由上述表达式(1)表示的统计式语音合成中的模型学习部305的处理之间的对应关系，DNN的学习可以由下面的表达式(4)表示。

【数学式4】

这里，下述表达式(5)成立。

【数学式5】

如上述表达式(4)和表达式(5)那样，声学特征量与语言特征量的关系可以通过以DNN的输出为平均向量的正态分布表示。在使用了DNN的统计式语音合成处理中，通常，对语言特征量l_t使用非依赖性协方差矩阵，即，在所有帧中使用相同协方差矩阵并且，当设协方差矩阵为单位矩阵时，则表达式(4)表示等同于表达式(3)的学习处理。

如图4所说明的那样，声学模型部306的DNN针对每个帧独立地估计声学特征量序列317。因此，所获得的声学特征量序列317包括降低合成语音质量的不连续部分。因此，在本实施例中，例如，通过使用利用动态特征量的参数生成算法，可以提高合成语音的质量。

以下，对具有图1、图2及图3的构成例的本实施方式的动作进行详细说明。图5A～图5C是歌词控制技术的说明图。图5A是示出根据自动演奏而进行的歌词文本和旋律之间的关系的图。例如，在上述歌起的情况下，乐曲数据中包含：“Ki/Twin(第一字符或第一歌词部分)”“Ra/kle(第二字符或第二歌词部分)”“Ki/twin(第三字符/歌词部分)”“Ra/kle(第四字符/歌词部分)”的歌词的各字符(歌词数据)、输出歌词的各字符的t1、t2、t3、t4的各定时信息、歌词的各字符的旋律音高“E4(第一音高)”“E4(第二音高)”“B4(第三音高)”“B4(第四音高)”等的各音高数据。在t4之后的t5、t6、t7的各定时，对应有“Hi/lit(第五字符)”“Ka/tle(第六字符)”“Ru/star(第七字符)”的歌词的各字符。

例如，图5B中的t1、t2、t3、t4的时刻对应于图5A的用户通过操作键盘应该指定的规定音高的发声定时t1、t2、t3、t4。这里，假设用户在与原本(例如，正确的)发声定时相对应的定时t1和t2处，在图1的键盘101上两次正确地按压了具有与歌曲数据中包含的第一音高E4相同的音高E4的键。在此情况下，图2的CPU201将下述乐曲数据215输出给图2的语音合成LSI205，该乐曲数据215包括在定时t1的歌词“Ki/Twin(第一字符)”和定时t2的“Ra/kle(第二字符)”、表示在各个定时t1、t2均由用户指定的音高E4的信息、以及例如分别表示四分音符长的时间长度的信息。其结果，语音合成LSI205分别在定时t1及t2，以第一音高(＝被指定的音高)E4和第二音高(＝被指定的音高)E4，分别输出与歌词“Ki/Twin(第一字符)”(在定时t1)及“Ra/kle(第二字符)”(在定时t2)对应的各自四分音符长的某歌手的歌声推论数据217。与定时t1、t2对应的判定“○”标记表示根据乐曲数据中包含的音高数据以及歌词数据而正确地进行发声(例如，机器模拟电子发声)。

此外，设用户在对应于原本(例如，正确的)的发声定时的定时t4按下了图1的键盘101中的具有与原本(例如，正确的)的第四音高B4不同的音高G4的键。在该情况下，CPU201在定时t4指定歌词“Ra/kle(第四字符)”，指定与在定时t4演奏的键相对应的音高G4，将例如指定了八分音符长度的时间长度的乐曲数据215输出给图2的语音合成LSI205。其结果，语音合成LSI205在定时t4，以演奏(按键)的音高G4输出与歌词“Ra/kle(第四字符)”对应的八分音符长度的某歌手的歌声推论数据217。

根据本实施方式，即使在用户在与原本的发声定时对应的定时进行了演奏(按键)的操作的情况下，通过将由用户的操作指定的音高反映在某歌手的歌声推论数据217中，也可以在所发出的歌声中更好地反映用户的意图。

接下来，如果在原本的发声时刻，用户没有与该定时配合地按下图1所示的键盘101上的任何键而没有指定音高，则执行下面的控制。图2的CPU201进行控制，使得以包含在乐曲数据中的音高数据所表示的音高输出与对应于该定时的字符(歌词数据)相应的歌声。其结果，图2或图3的语音合成LSI205与上述定时配合，以包含在乐曲数据中的音高数据所表示的音高，输出与对应于该定时的字符对应的某歌手的歌声推论数据217。

例如，在图5B中，设用户在与原本发声定时相对应的定时t3没有演奏(按压)图1的键盘101上的键。此时，即，在表示与乐曲数据中包含的数据所表示的第一定时对应的定时的第一定时之前的规定时间内，未受理表示音符开启的***作的操作件的操作信息时，图2的CPU201将如下乐曲数据215输出到图2的语音合成LSI205中，该乐曲数据215指定以乐曲数据中包含的音高数据所表示的第三音高B4输出与对应于定时t3的歌词数据"Ki/twin(第三字符)"对应的歌声。其结果，图2或图3的语音合成LSI205与上述定时t3一致，以对应的第三音高B4输出与对应于定时t3的歌词数据“Ki/twin(第三字符)”对应的某歌手的歌声推论数据217。

图5C中的定时t3示出了在假设没有执行根据本实施方式的上述控制动作的情况下，当用户在对应于原本的发声定时的定时t3处没有在图1的键盘101上按键时的控制动作。在不进行本实施方式的上述控制动作时，在图5C的定时t3，不进行原本应该发声的歌词字符串“Ki/twin(第三字符)”的发声。

如上所述，在用户没有在原本的发声定时进行演奏操作的情况下，在没有执行本实施方式的控制动作的情况下，不进行应该发声的歌词字符串的发声，感觉不自然。例如，在配合自动伴奏来演奏旋律的情况下，基于自动伴奏的输出比与歌词相应的歌声的输出提前。与此相对，在本实施方式中，在用户没有在原本的发声定时进行演奏操作的情况下，能够以与包含在乐曲数据中的歌词数据(字符)对应的音高，输出包含在乐曲数据中的与对应于该定时的歌词数据(字符)对应的歌声。因此，在本实施方式中，能够进行自然的歌词进行。

接着，如果在原本的发声定时的任何一个定时都没有到来的定时，用户对图1的键盘101的任意键(操作键)进行按键操作，则图2的CPU201指示将在语音合成LSI205中输出的某歌手的歌声推论数据217所对应的歌声的音高变更为由演奏操作指定的音高。其结果，图2或图3的语音合成LSI205在上述原本的发声定时的任何一个定时都没有到来的定时，将正在发声的某歌手的歌声推论数据217的音高变更为由CPU201指定的音高。

例如，在图5B中，设用户在原本的发声定时t1、t2、t3和t4中的任何一个都没有到来的定时t1'、t3'和t4'处分别按下图1的键盘101上的音高G4、A4和E4的键。在这种情况下，CPU201将如下的乐曲数据215输出到图2的语音合成LSI205，在该乐曲数据215指示将语音合成LSI205中分别已经输出的歌词字符串“Ki/Twin(第一字符)”、“Ki/twin(第三字符)”以及“Ra/kle(第四字符)”的某歌手的歌声推论数据217的各音高E4、B4以及G4分别变更为由演奏操作指定的各音高G4、A4以及E4并使继续发声的乐曲数据。其结果，图2或图3的语音合成LSI205在定时t1'、t3'及t4'，将发声中的歌词字符串“Ki/Twin(第一字符)”中包含的“i/in(1字符’)”、“Ki/twin(第三字符)”中包含的“i/in(第三字符’)”、“Ra/kle(第四字符)”中包含的“a/le(第四字符’)”的某歌手的歌声推论数据217的各音高分别变更为由CPU201指定的各音高G4、A4及E4并继续发声。

即，变更已经输出的歌声的音高。

图5C中的定时t1'、t3'和t4'是用于描述在假定不执行根据本实施方式的上述控制动作的情况下，当用户在除了原本的发声定时之外的定时t1'、t3'和t4'演奏(按压)了图1的键盘101的键时的控制动作的图。如果没有执行根据本实施方式的上述控制动作，则在图5C的定时t1'、t3'和t4'处，分别输出对应于不是原本的发声定时的下一歌词的歌声，歌词进行。

如上所述，如果用户在除了原本的发声定时之外的定时进行演奏操作，则在不执行根据本实施方式的控制动作的情况下，歌词的进行会向前进展，感觉不自然。相反，在本实施方式中，在该定时发声的某歌手的歌声推论数据217的音高被改变为由用户演奏的音高并且继续。在该情况下，例如可以听到与在图5B的原本的各歌曲再现定时t1、t3以及t4进行了发声的“Ki/Twin(第一字符)”、“Ki/twin(第三字符)”以及“Ra/kle(第四字符)”对应的某歌手的歌声推论数据217不会中断，其音高在各按键定时t1'、t3'、以及t4'处连续地变化为由新的按键指定的音高。因此，在本实施方式中，能够进行自然的歌词进行。

另外，当用户在原本的发声定时以外的定时进行了演奏操作时，也可以进行控制，使得将基于在该定时发声的某歌手的歌声推论数据217的发声在该定时以用户指定的音高重新演奏。在该情况下，例如，可以听到，接续于与在图5B的原本的各歌曲再现定时t1、t3以及t4进行了发声的“Ki/Twin(第一字符)”、“Ki/twin(第三字符)”以及“Ra/kle(第四字符)”对应的某歌手的歌声推论数据217，以在按键定时t1'、t3'以及t4'通过新的按键而指定的各个音高，与“Ki/Twin(第一字符)”、“Ki/twin(第三字符)”以及“Ra/kle(第四字符)”对应的某歌手的歌声推论数据217另外进行发声。或者，也可以控制为在发声定时以外的定时不进行某歌手的歌声推论数据217的发声。

而且，当用户在原本的发声定时以外的定时进行了演奏操作时，也可以进行控制，使得某歌手的歌声推论数据217不是在紧挨在该定时之前的定时发声，而是某歌手的歌声推论数据217可以在紧接在该定时之后在会先行发声的定时以由用户指定的音高发声。在这种情况下，例如，也可以先于在图5A的原本的各个歌曲再现定时t2、t4以及t5的到达，即，先于与“Ra/kle(第二字符)”、“Ra/kle(第四字符)”以及“Hi/lit(第五字符)”对应的某歌手的歌声推论数据217应该进行发声的定时，以在按键定时t1'、t3'以及t4'通过新的按键而指定的各个音高，使与“Ra/kle(第二字符)”、“Ra/kle(第四字符)”以及“Hi/lit(第五字符)”对应的某歌手的歌声推论数据217发声。

另外，当用户在原本的发声定时以外的定时进行演奏操作，此时指定的音高与在下一个定时应该指定的音高不一致时，也可以(根据改变了的音高)反复进行与已经输出的某歌手的歌声推论数据217对应的发声(变更音高)并输出。在这种情况下，例如，接续在与在图5B的原本的歌曲再现定时t1进行了发声的歌词数据“Ki/Twin(第一字符)”对应的某歌手的歌声推论数据217之后，通过在按键定时t1'中的新的按键，听到与“Ki/Twin(第一字符)”对应的某歌手的歌声推论数据217另外进行发声。或者，也可以控制为在发声定时以外的定时不进行某歌手的歌声推论数据217的发声。

图6是表示在本实施方式中从图2的ROM202读入RAM203的乐曲数据的数据构成例的图。该数据结构例依据MIDI(Musical Instrument Digital Interface，MIDI)用文件格式之一的标准MIDI文件的格式。该乐曲数据由被称为块(chunk)的数据块构成。具体地说，乐曲数据由位于文件开头的首部块(header chunk)、接在其后的存储歌词部分用的歌词数据的音轨块(track chunk)1、存储伴奏部分用的演奏数据的音轨块2构成。

首部块由ChunkID、ChunkSize、FormatType、NumberOfTrack及TimeDivision这五个值构成。ChunkID是与表示是首部块的“MThd”这样的半角4字符对应的4字节的ASCII码“4D 54 68 64”(数字是16进制数)。ChunkSize是在首部块中表示除了ChunkID和ChunkSize以外的FormatType、NumberOfTrack及TimeDivision的部分的数据长的4字节数据，数据长固定是6字节：“00 00 00 06”(数字是16进制数)。在本实施方式中，FormatType是2字节数据“00 01”(数字是十六进制数)，其意味着使用多个音轨的格式1。在本实施方式中，NumberOfTrack是2字节数据“00 02”(数字是十六进制)，其表示使用对应于歌词部分和伴奏部分的两音轨。TimeDivision是表示时间基值的数据，该时间基值表示每四分音符的分辨率，在本实施方式的情况下，是用十进制表示480的2字节的数据“01E0”(数字是十六进制数)。

音轨块1、2分别包括ChunkID、ChunkSize和演奏数据组(0≤i≤L：音轨块1/歌词部分，0≤i≤M：音轨块2/伴奏部分)，演奏数据组包括DeltaTime_1[i]和Event_1[i](在音轨块1/歌词部分的情况下)或DeltaTime_2[i]和Event_2[i](在音轨块2/伴奏部分的情况下)。ChunkID是对应于“MTrk”这样的半角4字符的4字节ASCII码“4D 54 72 6B”(数字是十六进制)，“MTrk”表示是音轨块。ChunkSize是表示各音轨块中除了ChunkID和ChunkSize以外的部分的数据长的4字节数据。

DeltaTime_1[i]是表示从紧挨其前面的Event_1[i-1]的执行时刻起的等待时间(相对时间)的1～4字节的可变长数据。同样地，DeltaTime_2[i]是表示从紧挨其前面的Event_2[i-1]的执行时刻起的等待时间(相对时间)的1～4字节的可变长数据。Event_1[i]是在音轨块1/歌词部分中指示歌词的发声定时和音高的元事件。Event_2[i]是在音轨块2/伴奏部分中指示音符开或音符关的MIDI事件，或者是指示节拍的元事件。针对音轨块1/歌词部分，在各演奏数据组DeltaTime_1[i]和Event_1[i]中，通过在从紧挨其前面的Event_1[i-1]的执行时刻起等待DeltaTime_1[i]之后，执行Event_1[i]，从而实现歌词的发声进行。另一方面，针对音轨块2/伴奏部分，在各演奏数据组DeltaTime_2[i]和Event_2[i]中，通过在从紧挨其前面的Event_2[i-1]的执行时刻起等待DeltaTime_2[i]之后，执行Event_2[i]，从而实现自动伴奏的进行。

图7是表示本实施方式中的电子乐器的控制处理例的主流程图。该控制处理例如是图2中的CPU201执行从ROM202加载到RAM203的控制处理程序的动作。

首先，CPU201执行初始化处理(步骤S701)，然后反复执行步骤S702至S708的一序列处理。

在该反复处理中，CPU201首先执行开关处理(步骤S702)。这里，CPU201基于来自图2的键扫描器206的中断，执行与图1的第一开关面板102或者第二开关面板103的开关操作对应的处理。

接着，CPU201执行键盘处理，即，根据来自图2的键扫描器206的中断，判定是否操作了图1的键盘101的某个键，并进行处理(步骤S703)。在这里，CPU201对应于用户的某个键的按压或释放的操作，对图2的声源LSI204，输出指示发声开始或发声停止的发声控制数据216。

接着，CPU201执行歌曲再现处理(步骤S705)。在该处理中，CPU201根据用户的演奏执行图5A～图5C中说明的控制处理，生成乐曲数据215，输出到语音合成LSI205中。

接着，CPU201执行声源处理(步骤S706)。在声源处理中，CPU201执行声源LSI204中的发声中的乐音的包络控制等控制处理。

接着，CPU201执行语音合成处理(步骤S707)。在语音合成处理中，CPU201控制语音合成LSI205的语音合成的执行。

最后，CPU201判定用户是否通过按压电源关闭开关(未示出)而关闭电源(步骤S708)。如果步骤S708的判定为NO，则CPU201返回到步骤S702的处理。如果步骤S708的判定为YES，则CPU201结束图7的流程图所示的控制处理，切断电子键盘乐器100的电源。

图8A～图8C分别是示出图7的步骤S701中的初始化处理、图7的步骤S702中的开关处理中的稍后描述的图9的步骤S902中的节拍改变处理以及图9的步骤S906中的歌曲开始处理的详细例的流程图。

首先，在表示图7的步骤S701的初始化处理的详细例的图8A中，CPU201执行TickTime的初始化处理。在本实施例中，歌词的进行和自动伴奏以时间TickTime为单位进行。图6的乐曲数据的首部块内的指定为TimeDivision值的时间基值表示4分音符的分辨率，如果该值例如是480，则4分音符具有480TickTime的时间长度。图6的歌曲数据的音轨块中的等待时间DeltaTime_1[i]值和DeltaTime_2[i]值也以时间TickTime为单位计数。这里，1TickTime实际上为多少秒，根据对乐曲数据指定的节拍而不同。当前，如果节拍值为Tempo[拍子/分]，上述时间基值为TimeDivision，则TickTime的秒数由下式算出。

TickTime[秒]＝60/Tempo/TimeDivision (6)

因此，在图8A的流程图所例示的初始化处理中，CPU201首先通过与上述式(6)对应的运算处理，计算出TickTime[秒](步骤S801)。在初始状态下，将预定值(例如60[拍子/秒])存储在图2的ROM202中作为节拍值Tempo。或者，上次结束时的节拍值可被存储在非易失性存储器中。

接着，CPU201对图2的计时器210设定在步骤S801中计算出的TickTime[秒]的计时器中断(步骤S802)。结果，每当在计时器210中经过上述TickTime[秒]时，对CPU201产生用于歌词进行和自动伴奏的中断(以下，记为“自动演奏中断”)。因此，在CPU201根据该自动演奏中断而执行的自动演奏中断处理(后述的图10)中，执行使歌词进行和自动伴奏按照每1TickTime进行的控制处理。

随后，CPU201执行其它初始化处理，例如图2中的RAM203的初始化等(步骤S803)。然后，CPU201结束图8A的流程图所例示的图7的步骤S701的初始化处理。

关于图8B和图8C的流程图，将在后面叙述。图9是表示图7的步骤S702的开关处理的详细例的流程图。

CPU201首先判定歌词进行和自动伴奏的节拍是否已通过图1的第一开关板102内的节拍变更开关而变更(步骤S901)。如果该判定为YES，则CPU201执行节拍变更处理(步骤S902)。该处理的详细情况使用图8B在后面叙述。如果步骤S901中的判定为NO，则CPU201跳过步骤S902中的处理。

接着，CPU201判定在图1的第二开关面板103上是否选择了某个歌曲(步骤S903)。如果该判定为YES，则CPU201执行歌曲读入处理(步骤S904)。该处理是将具有图6中说明的数据结构的乐曲数据从图2的ROM202读入到RAM203的处理。此后，对读入RAM203的乐曲数据执行对图6所示的数据结构内的音轨块1或2的数据存取。如果步骤S903中的判定为NO，则CPU201跳过步骤S904中的处理。

然后，CPU201判定是否操作了图1所示的第一开关面板102上的歌曲开始开关(步骤S905)。如果该判定为YES，则CPU201执行歌曲开始处理(步骤S906)。该处理的详细情况使用图8C在后面叙述。如果步骤S905中的判定为NO，则CPU201跳过步骤S906中的处理。

最后，CPU201判定在图1的第一开关面板102或者第二开关面板103中其他开关是否***作，执行与各开关操作对应的处理(步骤S907)。然后，CPU201结束图9的流程图所例示的图7的步骤S702的开关处理。

图8B是示出图9的步骤S902中的节拍改变处理的详细例的流程图。如上所述，当节拍值改变时，TickTime[秒]也改变。在图8B的流程图中，CPU201执行与该TickTime[秒]的改变有关的控制处理。

首先，CPU201以与在图7的步骤S701的初始化处理中执行的图8A的步骤S801的情况相同的方式，通过与上述表达式(6)相对应的计算处理来计算TickTime[秒](步骤S811)。此外，已改变的节拍值Tempo是通过图1的第一开关面板102内的节拍变更开关变更后的值，被存储在RAM203等中。

接着，CPU201以与在图7的步骤S701的初始化处理中执行的图8A的步骤S802的情况相同的方式，针对图2的计时器210设置在步骤S811中计算出的TickTime[秒]的计时器中断(步骤S812)。然后，CPU201结束图8B的流程图所例示的图9的步骤S902中的节拍改变处理。

图8C是示出图9的步骤S906中的歌曲开始处理的详细例的流程图。

首先，CPU201将RAM203中的变量DeltaT_1(音轨块1)和DeltaT_2(音轨块2)的值都初始化为0，变量DeltaT_1(音轨块1)和DeltaT_2(音轨块2)是在自动演奏的进行中，以TickTime为单位对从紧邻的前一个事件的发生时间起的相对时间进行计数。接着，CPU201将用于指定图6所示的乐曲数据的音轨块1内的演奏数据组DeltaTime_1[i]和Event_1[i][1≤i≤L-1]的各个i的RAM203上的变量AutoIndex_1、和用于指定同一音轨块2内的演奏数据组DeltaTime_2[i]和Event_2[i](1≤i≤M-1)的各个i的RAM203上的变量AutoIndex_2的各值都初始设定为0(以上，步骤S821)。因此，在图6的例子中，作为初始状态，首先分别参照音轨块1内的开头的演奏数据组DeltaTime_1[0]和Event_1[0]以及音轨块2内的开头的演奏数据组DeltaTime_2[0]和Event_2[0]。

接着，CPU201将指示当前歌曲位置的RAM203上的变量SongIndex的值初始设定为0(步骤S822)。

进而，CPU201将表示是否进行歌词以及伴奏的进行(＝1)或不进行(＝0)的RAM203上的变量SongStart的值初始设定为1(进行)(步骤S823)。

然后，CPU201判定用户是否通过图1的第一开关面板102进行了与歌词的再现配合地进行伴奏的再现的设定(步骤S824)。

如果步骤S824的判定是YES，则CPU201将RAM203上的变量Bansou的值设定为1(有伴奏)(步骤S825)。相反，如果步骤S824的判定为NO，则CPU201将变量Bansou的值设定为0(无伴奏)(步骤S826)。在步骤S825或S826的处理之后，CPU201结束图8C的流程图所示的图9的步骤S906的歌曲开始处理。

图10是示出基于在图2的定时器210中每TickTime[秒]发生的中断(参见图8A的步骤S802或图8B的步骤S812)而执行的自动演奏中断处理的详细例的流程图。对图6所示的乐曲数据的音轨块1和2的演奏数据组执行以下处理。

首先，CPU201执行与音轨块1相对应的一序列处理(步骤S1001至S1006)。首先，CPU201判定SongStart的值是否为1，即，是否指示了歌词和伴奏的进行(步骤S1001)。

如果CPU201判定为还没有指示歌词和伴奏的进行(在步骤S1001中的判定为NO)，则CPU201不进行歌词和伴奏的进行，并且直接结束图10的流程图中所示的自动演奏中断处理。

如果CPU201判定为指示了歌词和伴奏的进行(步骤S1001中的判定结果为YES)，则CPU201判定表示相对于有关音轨块1的前一次事件的发生时刻的相对时刻的DeltaT_1值是否与AutoIndex_1值所表示的自此将要执行的演奏数据组的等待时间DeltaTime_1[AutoIndex_1]相一致(步骤S1002)。

如果步骤S1002的判定为NO，则CPU201关于音轨块1将表示相对于前一次事件的发生时刻的相对时刻的DeltaT_1值加1递增，并且将时刻行进对应于本次中断的1TickTime单位(步骤S1003)。之后，CPU201进入后述的步骤S1007。

当步骤S1002中的判定为YES时，CPU201关于音轨块1执行由AutoIndex_1值表示的演奏数据组的事件Event_1[AutoIndex_1](步骤S1004)。该事件是包括歌词数据的歌曲事件。

接着，CPU201将表示音轨块1中下一个应该执行的歌曲事件的位置的AutoIndex_1值保存在RAM203中的变量SongIndex中(步骤S1004)。

此外，CPU201将用于参考音轨块1中的演奏数据组的AutoIndex_1值加1递增(步骤S1005)。

CPU201将关于音轨块1表示相对于当前参照的歌曲事件的发生时刻的相对时刻的DeltaT_1值复位为0(步骤S1006)。然后，CPU201使处理进入步骤S1007。

CPU201执行与音轨块2对应的一序列处理(步骤S1007至S1013)。首先，CPU201判定表示从关于音轨块2的前一次事件的发生时刻起的相对时刻的DeltaT_2值是否与AutoIndex_2值表示的自此将要执行的演奏数据组的等待时间DeltaTime_2[AutoIndex_2]一致(步骤S1007)。

如果步骤S1007的判定为NO，则CPU201关于音轨块2将DeltaT_2值加1递增，该值TickTime_2表示相对于上一次事件的发生时刻的相对时刻，并且将时刻行进对应于当前中断的1TickTime单位(步骤S1008)。然后，CPU201结束图10的流程图所示的自动演奏中断处理。

如果步骤S1007的判定是YES，则CPU201判定指示伴奏再现的RAM203上的变量Bansou的值是否是1(有伴奏)(步骤S1009)(参照图8C的步骤S824至S826)。

如果在步骤S1009中判定为YES，则CPU201执行与由AutoIndex_2值指示的有关音轨块2的伴奏相关的事件Event_2[AutoIndex_2](步骤S1010)。如果在这里执行的事件Event_2[AutoIndex_2]例如是音符开启事件，则根据由该音符开启事件指定的键号和速度(velocity)，对图2的声源LSI204发行伴奏用的乐音的发声命令。另一方面，如果事件Event_2[AutoIndex_2]是例如音符关闭事件，则根据由音符关闭事件指定的键号和速度，向图2中的声源LSI204发出用于在发声过程中伴奏的乐音的静音命令。

另一方面，如果步骤S1009的判定是NO，则CPU201跳过步骤S1010，由此不执行与本次的伴奏有关的事件Event_2[AutoIndex_2]，而是为了与歌词同步地进行，进入下一步骤S1011的处理，仅执行使事件进行的控制处理。

在步骤S1010之后或步骤S1009的判定为NO的情况下，CPU201将用于参照音轨块2上的伴奏数据用的演奏数据组的AutoIndex_2值加1递增(步骤S1011)。

CPU201将关于音轨块2表示相对于本次执行的事件的发生时刻的相对时刻的DeltaT_2值复位为0(步骤S1012)。

CPU201确定在AutoIndex_2值所表示的下一个执行的音轨块2上的演奏数据组的等待时间DeltaTime_2[AutoIndex_2]是否为0，即，判定是否是与本次事件同时执行的事件[步骤S1013]。

如果步骤S1013的判定为NO，则CPU201结束图10的流程图所示的本次的自动演奏中断处理。

如果在步骤S1013中的判定是YES，则CPU201返回到步骤S1009，并反复进行关于事件Event_2[AutoIndex_2]的控制处理，事件Event_2[AutoIndex_2]是在由AutoIndex_2值表示的音轨块2上接下来执行的演奏数据组的事件。CPU201反复执行步骤S1009至S1013的处理，反复次数等于本次同时执行的次数。以上的处理顺序在例如和音等那样多个音符开启事件在同时定时发声那样的情况下执行。

图11是示出图7的步骤S705中的歌曲再现处理的第一实施方式的详细例的流程图。该处理执行图5A～图5C所示的根据本实施方式的控制处理。

首先，CPU201在图10的自动演奏中断处理的步骤S1004中，判定是否对RAM203上的变量SongIndex设置值而不是Null值(步骤S1101)。该SongIndex值表示当前的定时是否为歌声的再现定时。

当步骤S1101中的判定是YES时，即，当前时间点是歌曲再现的定时(图5A～图5C的例中的t1、t2、t3、t4等)，CPU201判定是否检测到通过图7的步骤S703的键盘处理用户在图1中的键盘101上进行了新的按键(步骤S1102)。

如果步骤S1102中的判定是YES，则CPU201将用户通过按键指定的指定音高作为发声音高设置为未示出的寄存器或RAM203中的变量(步骤S1103)。

然后，CPU201从RAM203上的变量SongIndex所指示的RAM203上的歌曲数据的音轨块1上的歌曲事件Event_1[SongIndex]读取歌词字符串。CPU201生成用于以设置了基于在步骤S1103中设定的按键的指定音高的发声音高，使与读出的歌词字符串对应的某歌手的歌声推论数据217进行发声的乐曲数据215，并对语音合成LSI205指示发声处理(步骤S1105)。

以上的步骤S1103和S1105的处理对应于关于图5B的歌曲再现定时t1、t2或t4的所述控制处理。

另一方面，在通过步骤S1101的判定而判定为当前时间点已经成为歌曲再现的定时(图5A～图5C的例中的t1、t2、t3、t4等)，并且在步骤S1102的判定为NO，在当前时间点判定为未检测到新按键的情况下，CPU201从RAM203上的变量SongIndex所表示的RAM203上的乐曲数据的音轨块1上的歌曲事件Event_1[SongIndex]读取音高的数据，将该音高作为发声音高设置为未示出的存储器或RAM203中的变量(步骤S1104)。

然后，CPU201通过执行上述步骤S1105的处理，生成用于以在步骤S1104中设定的发声音高使与从歌曲事件Event_1[SongIndex]中读出的歌词字符串对应的某歌手的歌声推论数据217发声的乐曲数据215，并对语音合成LSI205指示发声处理(步骤S1105)。

上述步骤S1104和S1105的处理对应于上述关于图5B的歌曲再现定时t3的所述控制处理。

在步骤S1105的处理之后，CPU201将进行了RAM203上的变量SongIndex所表示的进行了再现的歌曲位置存储到RAM203上的变量SongIndex_pre中(步骤S1106)。

此外，CPU201将变量SongIndex的值清除为Null值，将以后的定时设为非歌曲再现的定时的状态(步骤S1107)。然后，CPU201结束图11的流程图所示的图7的步骤S705的歌曲再现处理。

在上述步骤S1101的判定为NO、即当前时间点不是歌曲再现的定时时，CPU201通过图7的步骤S703的键盘处理判定用户在图1的键盘101上是否进行新按键(步骤S1108)。

如果步骤S1108的判定为NO，则CPU201直接结束图11的流程图所示的图7的步骤S705的歌曲再现处理。

如果步骤S1108的判定是YES，则CPU201生成指示将当前语音合成LSI205发声处理中的、与RAM203上的变量SongIndex_pre表示的RAM203上的乐曲数据的音轨块1上的歌曲事件Event_1[SongIndex_pre]的歌词字符串对应的某歌手的歌声推论数据217的音高变更为基于在步骤S1108检测出的用户的按键的指定音高的乐曲数据215，并输出到语音合成LSI205(步骤S1109)。此时，在乐曲数据215中，将已经发声处理中的歌词的音素中的后半部分的音素，例如如果是歌词字符串“Ki”，则将构成其的音素串“/k/”“/i/”中的后半部分的“/i/”开始的帧(参照图4的(b)及(c))设置在向指定音高变更的开始位置。

通过上述步骤S1109的处理，在从紧挨着当前按键定时之前的原本的定时、例如图5B的t1、t3和t4分别已经发声的某歌手的歌声推论数据217的发声的音高被改变成用户所演奏的指定音高，并且可以在例如图5B的当前的按键定时t1'、t3'和t4'继续发出各自的发声。

在步骤S1109的处理之后，CPU201结束图11的流程图所示的图7的步骤S705的歌曲再现处理。

图12是示出图7的步骤S705中的歌曲再现处理的第二实施方式的详细示例的流程图。该处理执行图5A～图5C所说明的根据本实施方式的另一控制处理。在图12中，与图11的第一实施方式的情况相同的步骤编号的步骤表示执行与第一实施方式的情况相同的处理。图12的第二实施方式的控制处理与图11的第一实施方式的控制处理不同的部分是在第一实施方式的说明中所述的步骤S1101的判定为NO、即当前时间点不是歌曲再现的定时的情况，步骤S1108的判定为YES时、即检测到用户的新的按键时的步骤S1201和S1202的控制处理。

在图12中，如果在步骤S1108中的判定为YES，则CPU201首先将通过用户按键指定的指定音高作为发声音高设置为未图示的寄存器或RAM203中的变量(步骤S1201)。

然后，CPU201从RAM203上的变量SongIndex所表示的RAM203上的乐曲数据的音轨块1上的歌曲事件Event_1[SongIndex]中读取歌词字符串。CPU201生成用于使与所读出的歌词字符串对应的某歌手的歌声推论数据217以设置了基于在步骤S1103中设定的按键的指定音高的发音音高重新发声的乐曲数据215，对语音合成LSI205指示发声处理(步骤S1202)。

在步骤S1202的处理之后，CPU201结束图12的流程图所示的图7的步骤S705的歌曲再现处理。

通过上述第二实施方式的控制处理，如上所述，具有如下效果，即，能够听到，例如接续于与在图5B的原本的歌曲再现定时t1、t3以及t4分别进行了发声的“Ki/Twin(第一字符)”、“Ki/twin(第三字符)”以及“Ra/kle(第四字符)”对应的某歌手的歌声推论数据217，在各按键定时t1'、t3'、及t4'中与通过新的按键指定的各个指定音高“Ki/Twin(第一字符)”、“Ki/twin(第三字符)”及“Ra/kle(第四字符)”分别对应的某歌手的歌声推论数据217被另外发声。

图13是表示以Music XML形式实施作为图6的数据结构而例示的乐曲数据时的乐曲数据的结构例的图。通过这种数据结构，可以保持歌词字符串(字符)和旋律(音符)的乐谱数据。CPU201通过例如图7的步骤S704的显示处理来解析这样的乐曲数据，由此，例如在图1的键盘101上，能够具有使与对应于当前歌曲再现中的歌词字符串的旋律对应的键发光，引导用户对与歌词字符串对应的键按键的功能。同时，例如，在图1的LCD104上可以显示图14所示的显示例的当前歌曲再现中的歌词字符串和与其对应的乐谱。即，为了使用户在与乐曲数据所包含的第一定时对应的定时对多个操作件中的与第一音高对应的第一操作件进行操作，从第一定时之前的定时起使上述第一操作件所包含的光源发光，上述第一操作件以外的各操作件所分别包含的各光源不发光。

在本说明书中使用的“与第一定时对应的定时”是受理对第一操作件的用户操作的定时，意味着第一定时前的具有一定时间长度的期间。

另外，在本说明书中使用的包含“第一字符”、“第二字符”的各字符表示与1音符建立了对应的字符，可以是1个字符及多个字符中的任一种。

当步骤S1202的判定变为YES后，即，在当前时间点变为歌曲再现的定时(图5的例子中的t1、t2、t3、t4等)后，CPU201将由用户通过按键指定的指定音高作为发声音高设置为未特别图示的寄存器或RAM203上的变量(步骤S1203)。

然后，CPU201从RAM203上的变量SongIndex所示的RAM203上的歌曲数据的音轨块1上的歌曲事件Event_1[SongIndex]中读取歌词字符串。CPU201生成用于以设置了基于在步骤S1104中设定的按键的指定音高的发声高，对与所读出的歌词字符串对应的某歌手的歌声推论数据217进行发声的乐曲数据215，并对语音合成LSI205指示发声处理(步骤S1204)。

然后，CPU201从RAM203上的变量SongIndex表示的RAM203上的音乐数据的音轨块1上的歌曲事件Event_1[SongIndex]中读取音高，并判定用户通过按键指定的指定音高是否与从音乐数据读取的音高一致(步骤S1205)。

在以上说明的实施方式中，为了根据语言特征量序列316预测声学特征量序列317，而通过DNN(深度神经网络)安装声学模型部306。此外，声学模型部306可以由HMM(Hidden Markov Model：隐马尔可夫模型)安装以用于上述预测。在这种情况下，为了高精度地对语音的声学特征进行模型化，语音学习部301中的模型学习部305学习考虑了上下文的模型。为了详细地对声学特征量进行模型化，不仅考虑紧接之前、紧接之后的音素，还考虑重音、词类、句子长度等因素。然而，由于上下文组合的数量很大，因此很难对所有上下文组合准备能够高精度地学习上下文依赖模型的语音数据。为了解决该问题，模型学习部305可以使用基于决策树的上下文聚类技术。在基于决策树的上下文聚类中，使用“之前的音素是/a/？”等与上下文有关的问题对依赖于上下文的模型进行分类，将类似的上下文的模型参数作为学习结果315设定在声学模型部306中。由于根据决策树的结构而改变要考虑的上下文，因此通过选择适当的决策树结构，可以推定出依赖于上下文的模型，该模型具有高精度和高通用性能。图3的语音合成部302中的声学模型部306根据由文本解析部307从乐曲数据215提取的语言特征量序列316，连接依赖于上下文的HMM，并且预测具有最大输出概率的声学特征量序列317。

以上说明的实施方式是针对电子键盘乐器实施本发明的，但本发明也能够应用于电子弦乐器等其他电子乐器。

此外，本发明不限于上述实施方式，在实施阶段，在不脱离其主旨的范围内能够进行各种变形。另外，上述实施方式中执行的功能也可以尽可能地适当组合来实施。上述实施方式中包含各种阶段，通过公开的多个构成要件的适当组合，能够提取各种发明。例如，即使从实施方式所示的全部构成要件中删除几个构成要件，只要能够得到效果，就能够将删除了该构成要件的结构作为发明提取出来。

附图标记的说明

100 电子键盘乐器

101 键盘

102 第一开关面板

103 第二开关面板

104 LCD

200 控制***

201 CPU

202 ROM

203 RAM

204 声源LSI

205 语音合成LSI

206 键扫描器

208 LCD控制器

209 ***总线

210 计时器

211、212 D/A转换器

213 混频器

214 放大器

301 语音学习部

302 语音合成部

303 学习用文本解析部

304 学习用声学特征量抽取

305 模型学习部

306 声学模型部

307 文本解析部

308 发声模型部

309 声源生成部

310 合成滤波器部

311 乐谱数据(包括学习用歌词数据和学习用音高数据)

312 某歌手的歌声数据

313 学习用词语特征量序列

314 学习用声学特征量序列

315 学习结果

316 语言特征量系列

317 声学特征量序列

318 频谱信息

319 声源信息

Claims

1.一种电子乐器，包括：

至少一个处理器，

其中，所述至少一个处理器执行以下操作：

使数字合成的所述播放的第一歌声在所述第一定时可听地输出；以及

2.根据权利要求1所述的电子乐器，其中，所述第一歌词部分具有一个以上的字符。

3.根据权利要求1或2所述的电子乐器，

其中，所述声乐部分还包括在所述第一定时之后的第二定时要被连续播放的具有第二音高的第二音符和相关联的第二歌词部分，并且

其中，如果在所述播放的第一歌声或所述默认第一歌声正被输出时所述用户经由所述演奏输入单元在所述第一定时之后且所述第二定时之前的第三定时指定第三音高，则所述至少一个处理器使正被输出的所述播放的第一歌声或所述默认第一歌声的音高改变为第三音高，并使音高改变的所述播放的第一歌声或所述默认第一歌声在所述第三定时可听地输出。

4.根据权利要求1～3中任一项所述的电子乐器，

其中，所述多个操作件中的每个操作件都设有光源以照亮对应的操作件，并且

其中，所述至少一个处理器使在所述多个操作件中的指定所述第一音高的操作件由对应的光源照亮，并且使剩余的操作件在与所述第一定时相对应的定时不由相应的光源照亮，以便向所述用户指示所述用户应该在所述第一定时操作指定所述第一音高的所述操作件。

5.根据权利要求1～4中任一项所述的电子乐器，

其中，所述存储器存储使用机器学习处理获得的经训练的声学模型，所述机器学习处理采用包括训练歌词数据和训练音高数据的乐谱数据、以及与所述乐谱数据相对应的歌手的歌声数据，所述经训练的声学模型被输入任意的歌词数据和任意的音高数据，并且输出指示所述歌手的歌声的声学特征的数据，以及

其中，在歌声合成中，所述至少一个处理器基于由所述经训练的声学模型输出的如下数据来数字合成所述歌手的歌声，该数据是所述经训练的声学模型根据输入到该经训练的声学模型的任意歌词数据和任意音高数据而输出的指示所述歌手的所述歌声的声学特征的数据。

6.根据权利要求5所述的电子乐器，其中，所述经训练的声学模型包括进行了使用深度神经网络或隐马尔可夫模型中的至少一项的所述机器学习处理的模型。

7.一种由电子乐器中的至少一个处理器执行的方法，除了所述至少一个处理器之外所述电子乐器还包括：具有多个操作件的演奏输入单元，所述操作件由用户演奏以指定不同音高的音符；以及存储包括声乐部分的数据的音乐作品数据的存储器，所述声乐部分至少包括要在第一定时被播放的具有第一音高的第一音符以及相关联的第一歌词部分，所述方法包括通过所述至少一个处理器执行以下操作：

8.一种非暂时性计算机可读存储介质，其上存储有可由电子乐器中的至少一个处理器执行的程序，除了所述至少一个处理器之外所述电子乐器还包括：具有多个操作件的演奏输入单元，所述操作件由用户演奏以指定不同音高的音符；以及存储包括声乐部分的数据的音乐作品数据的存储器，所述声乐部分至少包括要在第一定时被播放的具有第一音高的第一音符以及相关联的第一歌词部分，所述程序使所述至少一个处理器执行以下操作：