CN116034421A

CN116034421A - 乐曲构造解析装置及乐曲构造解析方法

Info

Publication number: CN116034421A
Application number: CN202180056193.0A
Authority: CN
Inventors: 须见康平
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2020-08-17
Filing date: 2021-07-21
Publication date: 2023-04-28
Also published as: JP2022033579A; WO2022038958A1; US20230186877A1

Abstract

由取得部取得乐曲的音响信号。由第1及第2提取部分别从所取得的乐曲的音响信号提取表示音色的变化的第1特征量及表示和弦的变化的第2特征量。由第1边界似然度输出部利用第1学习模型，根据第1特征量而输出表示乐曲的构成边界的似然度的第1边界似然度。由第2边界似然度输出部利用第2学习模型，根据第2特征量而输出表示乐曲的构成边界的似然度的第2边界似然度。由确定部通过对第1边界似然度和第2边界似然度进行赋权重合成而确定乐曲的构成边界。由分割部将乐曲的音响信号通过确定出的构成边界而分割为多个乐段。

Description

乐曲构造解析装置及乐曲构造解析方法

技术领域

本发明涉及用于对乐曲的构造进行解析的乐曲构造解析装置及乐曲构造解析方法。

背景技术

为了使乐曲的确定部分的播放或演奏容易，有时进行序曲(intro)、A段(verse)、B段(bridge)、副歌(chorus)或结尾(outro)等乐曲的概略构造的解析。例如，在专利文献1记载有如下方法，即，利用对多个音源和各音源的分类信息之间的关系进行学习的神经网络，决定音源的高光区间。

在专利文献1所述的方法中，音源通过神经网络处理部而分割为多个区间，按各区间提取按区间区分特征值。另外，在神经网络处理部中，通过利用对按区间区分特征值的权重值和进行计算的注意力模型(Attention model)，能获得表示各区间对音源的分类信息推测贡献的程度的权重值信息。针对音源的各区间，通过权重值信息而决定重要区间，基于所决定的重要区间而决定高光区间。

专利文献1：日本特表2020－516004号公报

专利文献2：日本特开2020－112683号公报

发明内容

为了精密地对乐曲的节拍(Beat)或和弦(Chord)进行解析，谋求更容易地对乐曲的概略构造进行解析。

本发明的目的在于，提供一种容易进行乐曲的构造的解析的乐曲构造解析装置及乐曲构造解析方法。

本发明的一个方案涉及的乐曲构造解析装置具有：取得部，其取得乐曲的音响信号；第1提取部，其从所取得的乐曲的音响信号提取表示音色的变化的第1特征量；第2提取部，其从所取得的乐曲的音响信号提取表示和弦的变化的第2特征量；第1边界似然度输出部，其利用第1学习模型，根据第1特征量而输出表示乐曲的构成边界的似然度的第1边界似然度；第2边界似然度输出部，其利用第2学习模型，根据第2特征量而输出表示乐曲的构成边界的似然度的第2边界似然度；确定部，其通过对第1边界似然度和第2边界似然度进行赋权重合成而确定乐曲的构成边界；以及分割部，其将乐曲的音响信号通过确定出的构成边界而分割为多个乐段。

本发明的另一方案涉及的乐曲构造解析装置具有：取得部，其取得乐曲的音响信号；分割部，其将所取得的乐曲的音响信号分割为多个乐段；分类部，其基于相似度将分割出的多个乐段分类为群集；以及推定部，其基于乐段的分类结果，从分割出的多个乐段对与乐曲的确定的构成类别的部分相符的乐段进行推定。

本发明的另一方案涉及的乐曲构造解析装置具有：取得部，其取得被分割为多个乐段的乐曲的音响信号；分类部，其基于相似度将分割出的多个乐段分类为群集；以及推定部，其基于属于分类出的群集的乐段的数理，从多个乐段对与乐曲的副歌相符的乐段进行推定。

本发明的另一方案涉及的乐曲构造解析装置具有：取得部，其取得被分割为多个乐段的乐曲的音响信号；计算部，其基于所取得的乐曲的音响信号的乐段的开头和弦或末端和弦相对于音调的主和弦的相似度和在乐段包含歌唱部的似然度中的至少一者，对各乐段的评分进行计算；以及推定部，其基于计算出的评分，从多个乐段对与乐曲的确定的构成类别的部分相符的乐段进行推定。

发明的效果

根据本发明，能够容易地进行乐曲的构造的解析。

附图说明

图1是表示包含本发明的一个实施方式涉及的乐曲构造解析装置的乐曲构造解析***的构成的框图。

图2是表示乐曲构造解析装置的构成的框图。

图3是表示第1及第2学习模型的一个例子的框图。

图4是表示通过分割结果输出部得到的显示部的显示例的图。

图5是用于说明基于最大值搜索法进行的相似度的判定的图。

图6是表示通过分类结果输出部得到的显示部的显示例的图。

图7是表示第3学习模型的一个例子的框图。

图8是表示基于图2的乐曲构造解析装置进行的乐曲构造解析处理的一个例子的流程图。

图9是表示基于图2的乐曲构造解析装置进行的乐曲构造解析处理的一个例子的流程图。

图10是表示实施例1及对比例1、2的评价结果的图。

图11是表示实施例2及对比例3、4的评价结果的图。

图12是表示实施例3及对比例5、6的评价结果的图。

图13是表示实施例4～7的评价结果的图。

具体实施方式

以下，利用附图对本发明的实施方式涉及的乐曲构造解析装置详细地进行说明。

(1)乐曲构造解析***

图1是表示包含本发明的一个实施方式涉及的乐曲构造解析装置的乐曲构造解析***的构成的框图。如图1所示，乐曲构造解析***1具有RAM(随机存取存储器)2、ROM(只读存储器)3、CPU(中央运算处理装置)4、存储装置5、操作部6及显示部7。RAM 2、ROM 3、CPU 4、存储装置5、操作部6及显示部7与总线8连接。

RAM 2例如由易失性存储器构成，作为CPU 4的工作区域而利用，并且临时存储各种数据。ROM 3例如由非易失性存储器构成，对用于执行乐曲构造解析处理的乐曲构造解析程序进行存储。CPU 4通过在RAM 2上执行ROM 3所存储的乐曲构造解析程序而进行乐曲构造解析处理。对于乐曲构造解析处理的详细情况，在后面记述。

存储装置5包含硬盘、光盘、磁盘或存储卡等存储介质，对1个或多个乐曲数据MD进行存储。乐曲数据MD包含乐曲的音响信号(音频信号)。存储装置5可以取代ROM 3而存储乐曲构造解析程序。另外，存储装置5对通过机器学习而预先创建的第1学习模型M1、第2学习模型M2及第3学习模型M3进行存储。

乐曲构造解析程序可以以储存于计算机可读取的记录介质的形态提供，安装于ROM 3或存储装置5。另外，在乐曲构造解析***1与通信网连接的情况下，也可以将从与通信网连接的服务器传送来的乐曲构造解析程序安装于ROM 3或存储装置5。通过RAM 2、ROM3及CPU 4而构成乐曲构造解析装置100。

操作部6包含鼠标等定点设备或键盘，为了进行规定的选择或指定而由利用者进行操作。显示部7例如包含液晶显示器，对乐曲构造解析处理的结果进行显示。操作部6及显示部7可以由触摸面板显示屏构成。

图2是表示乐曲构造解析装置100的构成的框图。如图2所示，乐曲构造解析装置100包含乐段(section)分割部10、乐段分类部20及构成类别推定部30。乐段分割部10、乐段分类部20及构成类别推定部30的功能通过由图1的CPU 4执行乐曲构造解析程序而实现。乐段分割部10、乐段分类部20及构成类别推定部30的一部分或全部可以通过电子电路等硬件实现。

乐段分割部10确定乐曲的音响信号的构成边界，通过确定出的构成边界将音响信号分割为多个乐段。乐段分类部20基于相似度将由乐段分割部10分割出的多个乐段分类为群集(cluster)。以下，把将乐段分类为群集称为群集化(clustering)。构成类别推定部30从由乐段分类部20群集化后的乐段对与乐曲的确定的构成类别的部分相符的乐段进行推定。以下，对乐段分割部10、乐段分类部20及构成类别推定部30的详细情况进行说明。

(2)乐段分割部

如图2所示，乐段分割部10包含取得部11、第1提取部12、第2提取部13、第1边界似然度输出部14、第2边界似然度输出部15、确定部16、接受部17、分割部18及分割结果输出部19。取得部11取得存储装置5所存储的乐曲数据MD之中的由利用者选择出的乐曲数据MD。利用者能够通过对操作部6进行操作而选择所希望的乐曲数据MD。

第1提取部12从由取得部11取得的乐曲数据MD的音响信号，提取表示音色的变化的第1特征量。第1特征量例如是梅尔频率对数频谱(MSLS：Mel-Scale Log-Spectrum)。通过对每个节拍的音响信号进行傅里叶变换而得到复频谱。对向复频谱的绝对值应用梅尔标度滤波器组(mel-scale Filter Bank)而得到的滤波器组能量的对数进行计算，由此提取MSLS。在本例中，MSLS是80维向量。

第2提取部13从由取得部11取得的乐曲数据MD的音响信号，提取表示和弦的变化的第2特征量。第2特征量例如是色度向量(Chroma vector)。在高频区域中，通过对在跨多个八度音的范围将与每个节拍的音响信号所包含的平均律的各12半音对应的频率成分的强度相加而得到的12的值、和音响信号的强度的值进行排列，提取色度向量的一部分。另外，在低频区域中进行同样的处理而提取色度向量的剩余部分。因此，在本例中，色度向量是26维向量。

第1边界似然度输出部14将由第1提取部12提取出的第1特征量输入至存储装置5所存储的第1学习模型M1，由此将表示乐曲的构成边界的似然度的第1边界似然度针对每个节拍而输出。第2边界似然度输出部15将由第2提取部13提取出的第2特征量输入至存储装置5所存储的第2学习模型M2，由此将表示乐曲的似然度的第2边界似然度针对每个节拍而输出。

确定部16对针对每个节拍而由第1及第2边界似然度输出部14、15分别输出的第1及第2边界似然度进行赋权重合成，由此确定乐曲的构成边界。在本例中，将赋权重合成后的值为规定的阈值以上的节拍确定为是乐曲的构成边界。加权系数可以是预先规定的恒定值，也可以是可变值。

接受部17从操作部6接受加权系数的指定。利用者能够通过对操作部6进行操作而指定加权系数。在加权系数是预先规定的恒定值的情况下，乐段分割部10可以不包含接受部17。在由接受部17接受到加权系数的情况下，确定部16基于接受到的加权系数，对第1边界似然度和第2边界似然度进行赋权重合成。

分割部18将乐曲的音响信号通过由确定部16确定出的构成边界而分割为多个乐段。另外，分割部18将分割为多个乐段的音响信号赋予给乐段分类部20。分割结果输出部19使基于分割部18得到的乐段的分割结果以可视觉确认的方式显示于显示部7。在乐段的分割结果可以不显示于显示部7的情况下，乐段分割部10可以不包含分割结果输出部19。

图3是表示第1及第2学习模型M1、M2的一个例子的框图。如图3所示，在本例中，在第1学习模型M1中，CNN(Convolutional Neural Network)层M11、线性层M12、双向型GRU(Gated Recurrent Unit)层M13及线性层M14从输入朝向输出按顺序排列。在第2学习模型M2中，线性层M21、双向型GRU层M22及线性层M23从输入朝向输出按顺序排列。

预先准备大量标注有表示乐曲的构成边界的标签的学习用的乐曲数据作为学习数据。在各学习数据中，在与成为构成边界的节拍对应的部分标注有标签“1”，在与未成为构成边界的节拍对应的部分标注有标签“0”。利用从大量的学习数据提取出的第1特征量进行深度学习，由此创建用于输出第1边界似然度的第1学习模型M1。同样地，利用从大量的学习数据提取出的第2特征量进行深度学习，由此创建用于输出第2边界似然度的第2学习模型M2。

图4是表示通过分割结果输出部19得到的显示部7的显示例的图。如图4所示，作为乐曲构造解析处理的过程的结果，通过分割部18得到的乐段的分割结果由分割结果输出部19显示于显示部7。在图4的显示例中，乐曲数据MD通过在时间轴方向(本例中左右方向)延伸的带状的指标而示出。另外，在乐曲数据MD的指标的上方，示出解析对象的音响信号的波形。此外，音响信号的波形可以显示于指标的下方，也可以以与指标叠加的方式进行显示。或者，音响信号的波形也可以以能够提示与指标的关联性的其他方式进行显示。乐曲数据MD通过由确定部16确定出的构成边界而分割为多个乐段s1～s12。各乐段s1～s12通过标注有固有颜色的矩形的指标而示出。利用者能够通过对显示部7进行视觉确认而容易地识别乐曲的构成边界。

(3)乐段分类部

如图2所示，乐段分类部20包含取得部21、判定部22、分类部23及分类结果输出部24。取得部21从乐段分割部10取得被分割为多个乐段的乐曲的音响信号。判定部22对由取得部21取得的音响信号的被分割的多个乐段的相似度进行判定。

在本例中，对多个乐段的第1特征量的欧几里得距离(Euclidean distance)进行比较，并且对多个乐段的第2特征量的余弦相似度进行比较。另外，在对乐曲数据MD标注有表示和弦的和弦标签的情况下，对多个乐段的和弦标签的编辑距离(莱文斯坦距离Levenstein distance)进行比较。和弦标签可以通过和弦解析而标注于乐曲数据MD。基于它们的比较的综合结果，对多个乐段的相似度进行判定。

分类部23基于由判定部22判定出的相似度，将多个乐段群集化。另外，分类部23将群集化后的音响信号赋予给构成类别推定部30。分类结果输出部24使通过分类部23得到的群集化的结果以可视觉确认的方式显示于显示部7。在群集化的结果可以不显示于显示部7的情况下，乐段分类部20可以不包含分类结果输出部24。

上述的多个乐段的比较、即欧几里得距离、余弦相似度及编辑距离的比较是利用最大值搜索法进行的。图5是用于说明通过最大值搜索法进行的相似度的判定明的图。在图5的例子中，对乐段s1和乐段s2之间的相似度进行判定。这里，乐段s2比乐段s1长。在这种情况下，一边将乐段s1从乐段s2的开头朝向末端移动一边依次评价乐段s1和乐段s2中的具有与乐段s1相同的尺寸的各部分之间的相似度。

在图5的例子中，乐段s1和乐段s2的A部之间的相似度最大。在这种情况下，判定为乐段s1和乐段s2的A部之间的相似度就是乐段s1和乐段s2之间的相似度。根据该判定方法，即使在通过乐段分割部10进行的乐曲的构成边界的确定存在错误的情况下，也能够缓和其影响。另外，在被比较的2个乐段的长度之差为规定值以上的情况下，可以导入降低相似度的惩罚。由此，能够更适当地将相似的乐段群集化。

如上所述，在本实施方式中，利用最大值搜索法进行多个乐段的比较，但实施方式不限定于此。例如，可以利用动态时间伸缩(DTW：Dynamic Time Warping)法等动态计划法进行多个乐段的比较。

图6是表示通过分类结果输出部24得到的显示部7的显示例的图。如图6所示，作为乐曲构造解析处理的过程的结果通过分类部23得到的群集化的结果由分类结果输出部24显示于显示部7。在图6的显示例中，由“A0”或“B0”等字母和编号构成的固有的标识符标注于各乐段s1～s12。如“B0”及“B1”等那样，属于同一群集的乐段的标识符的字母是相同的。

利用者能够通过对标识符的字母进行视觉确认而容易地识别属于同一群集的乐段。另外，利用者能够通过对字母之后的编号进行视觉确认而容易地识别属于同一群集的乐段的数量的大小。

(4)构成类别推定部

如图2所示，构成类别推定部30包含取得部31、计算部32、推定部33及推定结果输出部34。取得部31从乐段分类部20取得群集化后的音响信号。计算部32基于由取得部31取得的音响信号，针对各群集而计算表示确定的构成类别的部分的似然度的评分S。

推定部33基于由计算部32计算出的评分S，从多个乐段对与确定的构成类别的部分相符的乐段进行推定。在本例中，确定的构成类别是最初的副歌(以下，称为开头副歌。)。推定结果输出部34使基于推定部33得到的乐段的推定结果以可视觉确认的方式显示于显示部7。在乐段的推定结果可以不显示于显示部7的情况下，构成类别推定部30可以不包含推定结果输出部34。

在本例中，针对各群集，计算作为确定的构成类别而表示副歌的似然度的评分S。这里，可以想到在流行乐曲的副歌具有以下的特征。大多存在高潮(climax)，音响信号的功率(Power)较大。另外，副歌大多反复发生，在乐曲中多次出现。并且，开头和弦或末端和弦大多是音调的主和弦。另外，在歌唱曲中，大多包含歌声(歌唱部Vocal)。考虑到这些特征，表示副歌的似然度的评分S由下述式(1)表示。

[数式1]

S＝W_p·S_p+W_c·S_c+W_v·S_v+P_d (1)

在式(1)中，S_p是表示音响信号的功率的大小的评分，例如作为针对每个节拍而累计并且被归一化的第1特征量的中央值而取得。S_c是表示开头和弦或末端和弦相对于音调的主和弦(Tonic chord)的相似度的评分，例如由下述式(2)表示。

[数式2]

在式(2)中，α是基于属于同一群集的乐段的数量即相似的乐段的反复数而规定的系数。乐段的数量越大则系数α的值越大。S_c1、S_c2分别是表示开头和弦及末端和弦相对于音调的主和弦的相似度的评分。此外，min(S_c1，S_c2)是指评分S_c1、S_c2之中较小者的评分。

各评分S_c1、S_c2基于TPS(Tonal Pitch Space)的基本空间(Basic space)进行计算。各评分S_c1、S_c2的值是0～8.5，相似度越大则该值越小。因此，在开头和弦或末端和弦与音调的主和弦一致的情况下，评分S_c1或评分S_c2的值变为0。音调如专利文献2所公开的那样，可以利用通过对音响信号的规定的特征量的时间序列和音调之间的关系进行学习而创建出的学习模型进行检测。

在式(1)中，S_v是在乐曲中包含歌唱部的似然度(以下，称为歌唱部似然度。)的针对每个节拍的平均值。歌唱部似然度例如通过将第1特征量输入至存储装置5所存储的第3学习模型M3而取得。W_p、W_c、W_v分别是针对评分S_p、S_c、S_v的加权系数。P_d是在乐段极端短的情况下为了降低评分的惩罚。惩罚P_d的值在乐段的长度小于规定值的情况下为负，在乐段的长度为规定值以上的情况下为0。

图7是表示第3学习模型M3的一个例子的框图。如图7所示，在本例中，在第3学习模型M3中，CNN层M31、线性层M32、双向型GRU层M33及线性层M34从输入朝向输出而依次排列。

将标注有表示歌唱部的有无的标签的学习用的乐曲数据作为学习数据而预选大量准备。在各学习数据中，在与包含歌唱部的节拍对应的部分标注有标签“1”，在与不包含歌唱部的节拍对应的部分标注有标签“0”。利用从大量的学习数据提取出的第1特征量进行深度学习，由此创建用于输出每个节拍的歌唱部似然度的第3学习模型M3。

推定部33基于上述评分S而选择与副歌相符的群集。另外，推定部33基于歌唱部似然度，将属于所选择的群集的乐段之中的包含歌唱部的开头的乐段推定为是与开头副歌相符的乐段。

(5)乐曲构造解析处理

图8及图9是表示通过图2的乐曲构造解析装置100进行的乐曲构造解析处理的一个例子的流程图。图8及图9的乐曲构造解析处理通过由图1的CPU 4执行ROM 3或存储装置5所存储的乐曲构造解析程序而进行。

首先，取得部11基于利用者进行的对操作部6的操作，对是否已选择乐曲数据MD进行判定(步骤S1)。在未选择乐曲数据MD的情况下，取得部11直至选择乐曲数据MD为止等待。在选择了乐曲数据MD的情况下，取得部11从存储装置5取得所选择的乐曲数据MD(步骤S2)。

第1提取部12从在步骤S2中取得的乐曲数据MD的音响信号提取第1特征量(步骤S3)。第2提取部13从在步骤S2中取得的乐曲数据MD的音响信号提取第2特征量(步骤S4)。步骤S3和步骤S4可以先执行任意者，也可以同时执行。

第1边界似然度输出部14基于在步骤S3中提取的第1特征量和存储装置5所存储的第1学习模型M1，将第1边界似然度针对每个节拍而输出(步骤S5)。第2边界似然度输出部15基于在步骤S4中提取的第2特征量和存储装置5所存储的第2学习模型M2，将第2边界似然度针对每个节拍而输出(步骤S6)。步骤S5和步骤S6可以先执行任意者，也可以同时执行。

接受部17基于利用者进行的对操作部6的操作，对是否已接受到加权系数的指定进行判定(步骤S7)。在已接受到加权系数的指定的情况下，确定部16基于针对每个节拍在步骤S5、S6中分别输出的第1及第2边界似然度、和所指定的加权系数，确定乐曲的构成边界(步骤S8)。在未接受到加权系数的指定的情况下，确定部16基于针对每个节拍在步骤S5、S6中分别输出的第1及第2边界似然度、和预先设定的加权系数，确定乐曲的构成边界(步骤S9)。

分割部18将乐曲的音响信号通过在步骤S8或步骤S9中确定出的构成边界而分割为多个乐段(步骤S10)。分割结果输出部19使步骤S10的乐段的分割结果显示于显示部7(步骤S11)。步骤S11可以省略。

判定部22对在步骤S10中分割出的多个乐段的相似度进行判定(步骤S12)。分类部23基于在步骤S12中判定出的相似度，将在步骤S10中分割出的多个乐段群集化(步骤S13)。分类结果输出部24使步骤S13的群集化的结果显示于显示部7(步骤S14)。步骤S14可以省略。

计算部32基于在步骤S13中将多个乐段分类为群集的音响信号，针对各群集而计算表示确定的构成类别的似然度的评分S(步骤S15)。推定部33基于在步骤S15中计算出的评分S，从多个乐段对与确定的构成类别的部分相符的乐段进行推定(步骤S16)。推定结果输出部34使步骤S16的乐段的推定结果显示于显示部7(步骤S17)，使乐曲构造解析处理结束。步骤S17可以省略。

(6)实施方式的效果

如以上说明的那样，本实施方式涉及的乐曲构造解析装置100具有：取得部11，其取得乐曲的音响信号；第1提取部12，其从所取得的乐曲的音响信号提取表示音色的变化的第1特征量；第2提取部13，其从所取得的乐曲的音响信号提取表示和弦的变化的第2特征量；第1边界似然度输出部14，其利用第1学习模型M1，根据第1特征量而输出第1边界似然度，该第1边界似然度表示乐曲的构成边界的似然度；第2边界似然度输出部15，其利用第2学习模型M2，根据第2特征量而输出第2边界似然度，该第2边界似然度表示乐曲的构成边界的似然度；确定部16，其通过对第1边界似然度和第2边界似然度进行赋权重合成而确定乐曲的构成边界；以及分割部18，其将乐曲的音响信号通过确定出的构成边界而分割为多个乐段。由此，能够容易地进行乐曲的构造的解析。

乐曲构造解析装置100可以还具有推定部33，该推定部33从分割出的多个乐段对与乐曲的副歌相符的乐段进行推定。在这种情况下，利用者能够容易地识别与乐曲的副歌相符的乐段。

乐曲构造解析装置100可以还具有接受加权系数的指定的接受部17，确定部16基于接受到的加权系数，对第1边界似然度和第2边界似然度进行赋权重合成。在这种情况下，能够根据乐曲而适当地变更加权系数。

另外，乐曲构造解析装置100可以具有基于相似度将分割出的多个乐段分类为群集的分类部23，推定部33基于乐段的分类结果，从分割出的多个乐段对与乐曲的确定的构成类别的部分相符的乐段进行推定。在这种情况下，利用者能够容易地识别与乐曲的确定的构成类别的部分相符的乐段。

乐曲构造解析装置100可以还具有将乐段的分类结果以可视觉确认的方式输出的分类结果输出部24。在这种情况下，利用者能够更容易地识别乐段的分类结果。

另外，乐曲构造解析装置100可以具有基于相似度将分割出的多个乐段分类为群集的分类部23，推定部33基于属于分类出的群集的乐段的数量，从多个乐段对与乐曲的副歌相符的乐段进行推定。在这种情况下，能够更容易地确定与乐曲的副歌相符的乐段。

或者，乐曲构造解析装置100可以具有计算部32，该计算部32基于所取得的乐曲的音响信号的乐段的开头和弦或末端和弦相对于音调的主和弦的相似度、和在乐段包含歌唱部的似然度中的至少一者，对各乐段的评分进行计算，推定部33基于计算出的评分，从多个乐段对与乐曲的确定的构成类别的部分相符的乐段进行推定。在这种情况下，能够更容易地确定与乐曲的确定的构成类别的部分相符的乐段。

(7)其他实施方式

(a)在上述实施方式中，乐曲的构成边界是通过第1边界似然度和第2边界似然度的赋权重合成而确定的，但实施方式不限定于此。乐曲的构成边界可以通过其他方法确定。

(b)在上述实施方式中，乐曲构造解析装置100包含乐段分割部10，但实施方式不限定于此。只要取得部21能够取得分割为多个乐段的乐曲的音响信号，乐曲构造解析装置100也可以不包含乐段分割部10。

(c)在上述实施方式中，推定部33利用属于群集的乐段的数量、开头和弦或末端和弦相对于音调的主和弦的相似度、及歌唱部似然度的全部，对与乐曲的副歌相符的乐段进行推定，但实施方式不限定于此。推定部33也可以利用属于群集的乐段的数量、开头和弦或末端和弦相对于音调的主和弦的相似度、及歌唱部似然度中的一部分，对与乐曲的副歌相符的乐段进行推定。在推定部33不利用属于群集的乐段的数量而对与乐曲的副歌相符的乐段进行推定的情况下，乐曲构造解析装置100可以不包含乐段分类部20。

(d)在上述实施方式中，推定部33从多个乐段对与乐曲的副歌相符的乐段进行推定，但实施方式不限定于此。推定部33也可以从多个乐段对与乐曲的序曲、A段、B段或结尾等其他构成类别的部分相符的乐段进行推定。

(8)关于构成边界的确定的实施例

在以下的实施例1～3及对比例1～6中，利用大量的学习数据而创建了第1及第2学习模型M1、M2。另外，准备了被赋予表示乐曲的构成边界的标签的评价用的乐曲数据作为评价数据。此外，学习数据包含通过软件而语音化的带标签的MIDI(Musical InstrumentDigital Interface)数据12593曲、及实际乐曲和带标签的MIDI数据的组3938曲。另外，对一部分的学习数据进行了虚增处理。

在实施例1中，将带标签的MIDI数据和实际乐曲的组409曲作为评价数据，利用第1及第2学习模型M1、M2而确定音响信号的构成边界。这里，第1边界似然度的加权系数设为0.4，第2边界似然度的加权系数设为0.6。另外，基于评价数据的标签，评价了已确定出的构成边界的重现率(Recall)、适合率(Precision)及F值(F-measure)。在对比例1、2中，分别仅利用第1及第2学习模型M1、M2进行了与实施例1相同的构成边界的确定及评价。图10是表示实施例1及对比例1、2的评价结果的图。

在实施例2中，作为评价数据利用了研究用音乐数据库的乐曲数据100曲，除了这一点以外，进行了与实施例1相同的构成边界的确定及评价。在对比例3、4中分别仅利用第1及第2学习模型M1、M2，进行了与实施例2相同的构成边界的确定及评价。图11是表示实施例2及对比例3、4的评价结果的图。

在实施例3中，作为评价数据而利用研究用音乐数据库的其他流派的乐曲数据76曲，除了这一点以外，进行了与实施例2相同的构成边界的确定及评价。在对比例5、6中，分别仅利用第1及第2学习模型M1、M2，进行了与实施例3相同的构成边界的确定及评价。图12是表示实施例3及对比例5、6的评价结果的图。

根据图10～图12所示的实施例1～3及对比例1～6的比较结果确认到，通过进行第1及第2边界似然度的赋权重合成，与仅利用第1或第2边界似然度的情况相比，能够综合地以高精度确定音响信号的构成边界。另一方面，通过乐曲的流派而确认到构成边界的确定的精度下降。可以想到，在这样的情况下，也能够根据乐曲的流派而适当选择第1边界似然度和第2边界似然度的加权系数，由此防止构成边界的确定的精度下降。

(9)针对构成类别的推定的实施例

在以下的实施例4～7中，将标注有表示乐曲的构成边界的标签及表示歌唱部的有无的标签的MIDI数据3938曲用作学习数据而创建了第3学习模型M3。另外，准备了标注有与学习数据相同的标签的评价用的乐曲数据作为评价数据。

在实施例4中，将带标签的MIDI数据和实际乐曲的组200曲作为了评价数据。在未群集化的情况下，分别评价了与开头副歌相符的乐段的推定结果相对于没有利用歌唱部似然度时及利用了歌唱部似然度时的评价数据的正解率。另外，在被群集化的情况下，分别评价了与开头副歌相符的乐段的推定结果相对于未利用歌唱部似然度时及利用了歌唱部似然度时的评价数据的正解率。

在实施例5中，不限定于开头副歌、推定了与任意的副歌相符的乐段，除了这一点以外，进行了与实施例4相同的评价。在实施例6中，作为评价数据而利用了研究用音乐数据库的乐曲数据100曲，除了这一点以外，进行了与实施例4相同的评价。在实施例7中，不限定于开头副歌、推定了与任意的副歌相符的乐段，除了这一点以外，进行了与实施例6相同的评价。此外，歌唱部似然度在利用第3学习模型M3而取得并推定出的乐段的7成以上的部分为副歌的情况下被认定为是正解。

图13是表示实施例4～7的评价结果的图。根据图13所示的实施例4～7的比较结果确认到，通过利用歌唱部似然度，与副歌相符的乐段的推定结果的正解率提高。另外，确认到，通过进行群集化，与副歌相符的乐段的推定结果的正解率大幅地提高。

Claims

1.一种乐曲构造解析装置，其具有：

取得部，其取得乐曲的音响信号；

第1提取部，其从所取得的乐曲的音响信号提取表示音色的变化的第1特征量；

第2提取部，其从所取得的乐曲的音响信号提取表示和弦的变化的第2特征量；

第1边界似然度输出部，其利用第1学习模型，根据所述第1特征量而输出表示乐曲的构成边界的似然度的第1边界似然度；

第2边界似然度输出部，其利用第2学习模型，根据所述第2特征量而输出表示乐曲的构成边界的似然度的第2边界似然度；

确定部，其通过对所述第1边界似然度和所述第2边界似然度进行赋权重合成而确定乐曲的构成边界；以及

分割部，其将乐曲的音响信号通过确定出的构成边界而分割为多个乐段。

2.根据权利要求1所述的乐曲构造解析装置，其中，

还具有推定部，该推定部从分割出的所述多个乐段对与乐曲的副歌相符的乐段进行推定。

3.根据权利要求1或2所述的乐曲构造解析装置，其中，

还具有接受部，该接受部接受加权系数的指定，

所述确定部基于接受到的所述加权系数，对所述第1边界似然度和所述第2边界似然度进行赋权重合成。

4.一种乐曲构造解析装置，其具有：

取得部，其取得乐曲的音响信号；

分割部，其将所取得的乐曲的音响信号分割为多个乐段；

分类部，其基于相似度将分割出的所述多个乐段分类为群集；以及

推定部，其基于乐段的分类结果，从分割出的所述多个乐段对与乐曲的确定的构成类别的部分相符的乐段进行推定。

5.根据权利要求4所述的乐曲构造解析装置，其中，

还具有分类结果输出部，该分类结果输出部将乐段的分类结果以可视觉确认的方式输出。

6.一种乐曲构造解析装置，其具有

取得部，其取得被分割为多个乐段的乐曲的音响信号；

推定部，其基于属于分类出的群集的乐段的数量，从所述多个乐段对与乐曲的副歌相符的乐段进行推定。

7.一种乐曲构造解析装置，其具有：

取得部，其取得被分割为多个乐段的乐曲的音响信号；

计算部，其基于所取得的乐曲的音响信号的乐段的开头和弦或末端和弦相对于音调的主和弦的相似度和在乐段包含歌唱部的似然度中的至少一者，对各乐段的评分进行计算；以及

推定部，其基于计算出的评分，从所述多个乐段对与乐曲的确定的构成类别的部分相符的乐段进行推定。

8.一种乐曲构造解析方法，其是通过计算机执行的，

取得乐曲的音响信号，

从所取得的乐曲的音响信号提取表示音色的变化的第1特征量，

从所取得的乐曲的音响信号提取表示和弦的变化的第2特征量，

利用第1学习模型，根据所述第1特征量而输出表示乐曲的构成边界的似然度的第1边界似然度，

利用第2学习模型，根据所述第2特征量而输出表示乐曲的构成边界的似然度的第2边界似然度，

通过对所述第1边界似然度和所述第2边界似然度进行赋权重合成而确定乐曲的构成边界，

将乐曲的音响信号通过确定出的构成边界而分割为多个乐段。

9.根据权利要求8所述的乐曲构造解析方法，其中，

还从分割出的所述多个乐段对与乐曲的副歌相符的乐段进行推定。

10.根据权利要求8或9所述的乐曲构造解析方法，其中，

还接受加权系数的指定，

所述乐曲的构成边界的确定是通过基于接受到的所述加权系数对所述第1边界似然度和所述第2边界似然度进行赋权重合成而进行的。

11.一种乐曲构造解析方法，其是通过计算机执行的，

取得乐曲的音响信号，

将所取得的乐曲的音响信号分割为多个乐段，

基于相似度将分割出的所述多个乐段分类为群集，

基于乐段的分类结果，从分割出所述多个乐段对与乐曲的确定的构成类别的部分相符的乐段进行推定。

12.根据权利要求11所述的乐曲构造解析方法，其中，

还将乐段的分类结果以可视觉确认的方式输出。

13.一种乐曲构造解析方法，其是通过计算机执行的，

取得被分割为多个乐段的乐曲的音响信号，

基于相似度将分割出的所述多个乐段分类为群集，

基于属于分类出的群集的乐段的数量，从所述多个乐段对与乐曲的副歌相符的乐段进行推定。

14.一种乐曲构造解析方法，其是通过计算机执行的，

取得被分割为多个乐段的乐曲的音响信号，

基于所取得的乐曲的音响信号的乐段的开头和弦或末端和弦相对于音调的主和弦的相似度和在乐段包含歌唱部的似然度中的至少一者，对各乐段的评分进行计算，

基于计算出的评分，从所述多个乐段对与乐曲的确定的构成类别的部分相符的乐段进行推定。