CN104050972A

CN104050972A - 声音信号分析设备以及声音信号分析方法和程序

Info

Publication number: CN104050972A
Application number: CN201410092701.2A
Authority: CN
Inventors: 前泽阳
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-03-14
Filing date: 2014-03-13
Publication date: 2014-09-17
Anticipated expiration: 2034-03-13
Also published as: JP2014178394A; US9171532B2; CN104050972B; EP2779155B1; EP2779155A1; JP6123995B2; US20140260912A1

Abstract

本发明公开了声音信号分析设备、方法和程序，其中，声音信号输入装置用于输入表示乐曲的声音信号；特征值计算装置用于计算第一特征值和第二特征值，其分别表示与乐曲的各部分的一个部分中的节拍的存在和拍速相关的特征；估计装置用于通过从多个概率模型中选择其观测似然度的序列满足一定标准的一个概率模型来同时估计乐曲中的节拍位置和拍速变化，所述多个概率模型被描述为根据与乐曲的各部分中的一个部分中的节拍的存在相关的物理量和与乐曲的各部分的一个部分中的拍速相关的物理量的结合来分类的各状态q的序列，所述一个概率模型的观测似然度的序列中的每个均表示乐曲中相应一个部分中的第一特征值和第二特征值的同时观测概率。

Description

声音信号分析设备以及声音信号分析方法和程序

技术领域

本发明涉及用于接收表示乐曲的声音信号以及检测乐曲的节拍位置（节拍定时）和拍速的声音信号分析设备、声音信号分析方法和声音信号分析程序。

背景技术

传统上，存在接收表示乐曲的声音信号并检测乐曲的节拍位置和拍速的声音信号分析设备，例如，如日本未审查专利公开No.2009-265493所述。

发明内容

上述日本未审查专利公开的传统声音信号分析设备首先根据声音信号强度（振幅）的变化来计算作为候选节拍位置的节拍指标序列。然后，根据节拍指标序列的计算结果，声音信号分析设备检测乐曲的拍速。因此，在所检测的节拍指标序列的精度较低的情况下，所检测的拍速的精度也会减小。

为了解决上述问题，完成了本发明，本发明的目的是提供一种可以以高精度来检测乐曲中的节拍位置和拍速变化的声音信号分析设备。另外，对于本发明的各个构成要素的描述，为了方便本发明的理解，稍后描述的实施例的相应组件的参考字母均提供在括号内。然而，要应理解的是，本发明的构成要素不受实施例的参考字母所表示的相应组件的限制。

为了实现上述目的，本发明的特征是提供一种声音信号分析设备，其包括：声音信号输入装置（S12），其用于输入表示乐曲的声音信号；特征值计算装置（S165，S167），其用于计算第一特征值（XO）和第二特征值（XB），所述第一特征值表示与所述乐曲的各部分当中的一个部分中的节拍的存在相关的特征，所述第二特征值表示与所述乐曲的各部分当中的一个部分中的拍速相关特征；以及估计装置（S17，S18），其用于通过从多个概率模型中选择其观测似然度（L）的序列满足一定标准的一个概率模型来同时估计所述乐曲中的节拍位置和拍速变化，所述多个概率模型被描述为根据与所述乐曲的各部分当中的一个部分中的节拍的存在相关的物理量（n）和与所述乐曲的各部分当中的一个部分中的拍速相关的物理量（b）的结合来分类的各状态（_qb,n）的序列，所述一个概率模型的所述观测似然度的序列中的每个均表示所述乐曲中的相应一个部分中的所述第一特征值和所述第二特征值的同时观测概率。

在该情况下，所述估计装置可以通过从所述多个概率模型中选择最可能的观测似然度的序列的概率模型来同时估计所述乐曲中的节拍位置和拍速变化。

在该情况下，所述估计装置可以具有第一概率输出装置（S172），其用于输出通过将所述第一特征值指定为根据与节拍的存在相关的物理量而定义的概率分布函数的概率变量来计算得到的概率，以作为所述第一特征值的观测概率。

在该情况下，所述第一概率输出装置可以输出通过将所述第一特征值指定为根据与节拍的存在相关的物理量来定义的正态分布、伽马分布和泊松分布中的任何一个（包括但不限于其中的任何一个）的概率变量而计算出的概率，作为所述第一特征值的观测的概率。

在该情况下，所述估计装置可以具有第二概率输出装置，其用于将所述第二特征的拟合优度输出至根据与拍速相关的物理量而提供的多个模板来作为所述第二特征值的观测概率。

在该情况下，所述估计装置可以具有第二概率输出装置，其用于输出通过将所述第二特征值指定为根据与拍速相关的物理量而定义的概率分布函数的概率变量来计算得到的概率，作为所述第二特征值的观测概率。

在该情况下，所述第二概率输出装置可以输出通过将所述第二特征值指定为根据与拍速相关的物理量来定义的多项分布、狄利克雷分布、多维正态分布、以及多维泊松分布中的任何一个（包括但不限于其中的任何一个）的概率变量而计算出的概率，作为所述第二特征值的观测概率。

另外，在该情况下，所述乐曲的各部分分别对应于通过以一定的时间间隔来划分所输入的声音信号而形成的各帧；并且所述特征值计算装置可以具有：第一特征值计算装置（S165），其用于针对每个帧来计算振幅谱（A），将每一个均具有不同频带（w_k）的多个窗函数（BPF）应用至所述振幅谱，以生成每个频带的振幅谱（M），并且将基于针对各帧之间的每个频带提供的振幅谱的变化而计算出的值输出作为所述第一特征值；以及第二特征值计算装置（S167），其具有滤波器（FBB），所述滤波器响应于每个与帧对应的值的输入来输出值，具有用于将所输出的值保持一定时间段的保持装置（d_b），并且将所输入的值和保持了一定时间段的值以一定的比率结合并输出所结合的值，所述第二特征值计算装置输出这样的数据序列来作为所述第二特征值的序列：将对通过将所述第一特征值的序列输入至所述滤波器而得到的数据序列的时间序列进行颠倒而得到的数据序列输入到滤波器来得到所述数据序列。

以上构造的声音信号分析设备可以选择满足通过使用表示与节拍的存在相关的特征的第一特征值和表示与拍速相关的特征的第二特征值而计算出的观测似然度序列的某个标准的概率模型（诸如最可能的概率模型或最大后验概率模型之类的概率模型），以同时（一道地）估计乐曲中的节拍位置和拍速变化。因此，与上述现有技术不同的是，本发明的声音信号分析设备将不会呈现以下问题：节拍位置或拍速之一的低精度估计导致另一个的低精度估计。因此，与现有技术相比，所述声音信号分析设备可以提高乐曲中节拍位置和拍速变化的估计精度。

另外，本发明的另一个特征是，所述声音信号分析设备还包括：校正信息输入装置（11，S23），其用于输入表示所述乐曲中的节拍位置和拍速的变化中的一个或两者的校正内容的校正信息；观测似然度校正装置（S23），其用于根据所输入的校正信息来校正所述观测似然度；以及再估计装置（S23，S18），其用于通过使用所述估计装置从所述多个概率模型中选择其校正后的观测似然度的序列满足一定标准的概率模型，从而同时地再估计所述乐曲中的节拍位置和拍速变化。

因此，根据用户输入的校正信息，该声音信号分析设备对观测似然度进行校正，并且根据校正的观测似然度来重新估计乐曲中的节拍位置和拍速变化。因此，该声音信号分析设备重新计算（重新选择）位于校正的帧之前和之后的一个或多个帧的状态。由此，该声音信号分析设备可以得到这样的估计结果：该估计结果带来了从校正帧到位于校正帧之前和之后的一个或多个帧的节拍间隔（即，拍速）的较为平滑的变化。

另外，本发明不仅可以实施为声音信号分析设备的发明，还可以实施为声音信号分析方法的发明以及适用于所述设备的计算机程序。

附图说明

图1是表示根据本发明的实施例的声音信号分析设备的整体构造的框图；

图2是概率模型的概念示图；

图3是声音信号分析程序的流程图；

图4是特征值计算程序的流程图；

图5是表示要分析的声音信号的波形的曲线图；

图6是表示通过对一帧进行短时傅里叶变换得到的声谱的示图；

图7是表示带通滤波器的特性的示图；

图8是表示各频带的时变振幅的曲线图；

图9是表示时变的起振（onset）特征值的曲线图；

图10是梳状滤波器的框图；

图11是表示BPM特征值的计算结果的图；

图12是对数观测似然度计算程序的流程图；

图13是表示起振特征值的观测似然度的计算结果的图表；

图14是表示各模板的构造的图表；

图15是表示BPM特征值的观测似然度的计算结果的图表；

图16是节拍/拍速同时估计程序的流程图；

图17是表示对数观测似然度的计算结果的图表；

图18是表示当从最上一帧起观测各起振特征值和各BPM特征值时作为各个帧的状态的极大似然度序列而被选择的各状态的似然度计算结果的图表；

图19是表示转变之前各状态的计算结果的图表；

图20是示意性地表示节拍/拍速信息列表的示意图；

图21是表示拍速的变化的示例的图；

图22是表示拍速的变化的不同示例的图；以及

图23是表示节拍位置的图。

具体实施方式

现在将描述根据本发明的实施例的声音信号分析设备10。如下所述，声音信号分析设备10接收表示乐曲的声音信号，并且检测乐曲的节拍位置和拍速的变化。如图1所示，声音信号分析设备10具有输入操作元件11、计算机部分12、显示单元13、存储装置14、外部接口电路15和声音***16，这些组件均通过总线BS彼此连接。

输入操作元件11由能够进行开/关操作的开关（例如，用于输入数值的数字小键盘）、能够进行旋转操作的音量或旋转编码器、能够进行滑动操作的音量或线性编码器、鼠标、触摸面板等构成。演奏者的手操纵这些操作元件来选择要分析的乐曲、开始或停止声音信号的分析、再现或停止乐曲（从稍后描述的声音***16输出或停止声音信号）、或者设置与声音信号的分析相关的各种参数。响应于演奏者对输入操作元件11的操纵，表示该操纵的操作信息通过总线BS提供至稍后描述的计算机部分12。

计算机部分12由均连接至总线BS的CPU12a、ROM12b和RAM12c构成。CPU12a从ROM12b中读出稍后将详细描述的声音信号分析程序及其子程序，并且执行该程序和子程序。在ROM12b中，不仅存储了声音信号分析程序及其子程序，还存储了初始设置参数以及诸如用于生成显示数据的图形数据和文本数据之类的各种数据，该显示数据表示要显示在显示单元13上的图像。在RAM12c中，临时存储了执行声音信号分析程序所需的数据。

显示单元13由液晶显示器（LCD）构成。计算机部分12生成表示要通过使用图形数据、文本数据等来显示的内容的显示数据，并且将生成的显示数据提供给显示单元13。显示单元13基于从计算机部分12提供的显示数据来显示图像。例如，在选择要分析的乐曲时，在显示单元13上显示乐曲的标题的列表。例如，在完成分析时，显示表示节拍位置和拍速变化的节拍/拍速信息列表及其图形（见图20至图23）。

存储装置14由诸如HDD、FDD、CD-ROM、MO和DVD之类的高容量的非易失性存储介质及其驱动单元构成。在存储装置14中，存储了分别表示多个乐曲的多个乐曲数据集。每个乐曲数据集由通过在某些采样周期（例如，1/44100s）下对乐曲进行采样得到的多个采样值构成，同时这些采样值依次记录在存储装置14的连续地址内。每个乐曲数据集还包括表示乐曲标题的标题信息和表示乐曲数据集的数量的数据大小信息。乐曲数据集可以预先存储在存储装置14中，或者可以通过稍后将描述的外部接口电路15来从外部设备取回。存储在存储装置14中的乐曲数据由CPU12a读取，以分析该乐曲中的节拍位置和拍速的变化。

外部接口电路15具有能够使声音信号分析设备10与诸如电子音乐设备和个人计算机之类的外部设备连接的连接端子。声音信号分析设备10还可以通过外部接口电路15连接至诸如LAN（局域网）和因特网之类的通信网络。

声音***16具有：D/A转换器，其用于将乐曲数据转换为模拟乐音信号；放大器，其用于放大经转换的模拟乐音信号；以及一对左右扬声器，其用于将放大的模拟乐音信号转换为音响信号并输出该音响信号。响应于用户使用输入操作元件11给出的用于再现要分析的乐曲的指令，CPU12a把将要分析的乐曲数据提供给声音***16。因此，用户可以听其想要分析的乐曲。

接下来，将说明如上所述配置的声音信号分析设备10的操作。首先，将简略地说明声音信号分析设备10的操作。将要分析的乐曲分为多个帧t_i{i=0,1，…，最后}。进一步，针对每个帧t_i，计算表示与节拍的存在相关的特征的起振特征值XO以及表示与拍速相关的特征的BPM特征值XB。从被描述为根据帧t_i中节拍周期b的值（与拍速的倒数成比例的值）和与下一节拍之间的帧数的值n的结合来分类的状态q_b,n的序列这样的概率模型（隐马尔科夫模型）中，选择如下概率模型：其具有表示作为观测值的起振特征值XO和BPM特征值XB的同时观测的概率的最可能的观测似然度的序列（参见图2）。由此，检测要分析的乐曲的节拍位置和拍速变化。节拍周期b由帧的数量表示。因此，节拍周期b的值是满足“1≤b≤b_max”的整数，在节拍周期b的值为“β”的状态下，帧的数量n的值是满足“0≤n＜β”的整数。

接下来将具体说明声音信号分析设备10的操作。当用户打开声音信号分析设备10的电源开关（未示出）时，CPU12a从ROM12b中读出图3的声音信号分析程序，并且执行该程序。

在步骤S10处CPU12a开始声音信号分析处理。在步骤S11处，CPU12a读取存储在存储装置14中的乐曲数据集中包含的标题信息，并在显示单元13上显示乐曲的标题列表。用户利用输入操作元件11，从显示单元13上显示的各乐曲中选择用户想要分析的乐曲数据集。声音信号分析处理可以被构造为使得：当用户在步骤S11中选择了要分析的乐曲数据集时，再现由该乐曲数据集表示的乐曲的一部分或整体，使得用户可以确认该乐曲数据的内容。

在步骤S12处，CPU12a进行声音信号分析的初始设置。具体地，CPU12a在RAM12c中保留适合于所选乐曲数据集的数据大小信息的存储区域，并且将所选乐曲数据集读入至保留的存储区域。此外，CPU12a在RAM12c中保留用于临时存储表示分析结果的节拍/拍速信息列表、起振特征值XO、BPM特征值XB等的区域。

程序分析的结果将会存储在存储装置14中，稍后将详细对其进行描述（步骤S21）。如果所选的乐曲已被该程序分析，则分析结果存储在存储装置14中。因此，在步骤S13处，CPU12a搜索关于所选乐曲的分析的现有数据（在下文中，简称为现有数据）。如果存在现有数据，则CPU12a在步骤S14处确定为“是”，以在步骤S15处将现有数据读入RAM12c，从而前进到稍后将描述的步骤S19。如果不存在现有数据，则CPU12a在步骤S14处确定为“否”，以前进到步骤S16。

在步骤S16处，CPU12a从ROM12b中读出图4表示的特征值计算程序，并且执行该程序。特征值计算程序是声音信号分析程序的子程序。

在步骤S161处，CPU12a开始特征值计算处理。在步骤S162处，CPU12a以图5所示的一定的时间间隔来划分所选的乐曲，从而将所选的乐曲分为多个帧t_i{i=0,1，…，最后}。各个帧具有相同的长度。为了方便理解，在本实施例中假设每个帧具有125ms。如上所述，由于每个乐曲的采样周期为1/44100s，因此每个帧由大约5000个采样值构成。如下所述，进一步，针对每个帧计算起振特征值XO和BPM（每分钟的拍数）特征值XB。

在步骤S163处，CPU12a针对每个帧执行短时傅里叶变换，以计算出每个频点f_j{j=1,2，…}的振幅A(f_j,t_i)，如图6所示。在步骤S164处，CPU12a通过针对各频点f_j设定的滤波器组FBO_j来分别对振幅A(f₁,t_i)，A(f₂,t_i)，…进行滤波，从而分别计算出某些频带w_k{k=1,2，…}的振幅M(w_k,t_i)。频点f_j的滤波器组FBO_j由多个带通滤波器BPF(w_k,f_j)构成，每个带通滤波器BPF(w_k,f_j)均具有不同通带中心频率，如图7所示。构成滤波器组FBO_j的带通滤波器BPF(w_k,f_j)的中心频率在对数频率刻度上均匀地间隔开，同时各带通滤波器BPF(w_k,f_j)在对数频率刻度上具有相同的通带宽度。每个BPF(w_k,f_j)被构造为使得增益从通带的中心频率向着通带的下限频率侧和上限频率侧逐渐递减。如图4的步骤S164所示，CPU12a针对每个频点f_j利用带通滤波器BPF(w_k,f_j)的增益乘以振幅A(f_j,t_i)。然后，CPU12a合并针对各个频点f_j计算的全部结果。合并的结果被称为振幅M(w_k,t_i)。如上计算出的振幅M的示例序列如图8所示。

在步骤S165处，CPU12a基于时变的振幅M计算帧t_i的起振特征值XO(t_i)。具体地，如图4的步骤S165所示，CPU12a针对每个频带w_k计算出振幅M从帧t_i-1到帧t_i的增量R(w_k,t_i)。然而，在帧t_i-1的振幅M(w_k,t_i-1)与帧t_i的振幅M(w_k,t_i)相同的情况下或者在帧t_i的振幅M(w_k,t_i)小于帧t_i-1的振幅M(w_k,t_i-1)的情况下，假设增量R(w_k,t_i)为“0”。然后，CPU12a合并针对各个频带w₁，w₂，…计算的增量R(w_k,t_i)。该合并的结果被称为起振特征值XO(t_i)。图9中例示了以上计算的起振特征值XO的序列。通常，在乐曲中，节拍位置具有较大的音量。因此，起振特征值XO(t_i)越大，帧t_i具有节拍的概率越高。

通过使用起振特征值XO(t₀)，XO(t₁)，…,CPU12a然后针对每个帧t_i计算BPM特征值XB。帧t_i的BPM特征值XB(t_i)由在每个节拍周期b中计算出的一组BPM特征值XB_b=1,2，…(t_i)表示（见图11）。在步骤S166处，CPU12a将起振特征值XO(t₀)，XO(t₁)，…按此顺序输入至滤波器组FBB以对起振特征值XO进行滤波。滤波器组FBB由设为分别与各节拍位置b对应的多个梳状滤波器D_b构成。当帧t_i的起振特征值XO(t_i)被输入至梳状滤波器D_b=β时，梳状滤波器D_b=β将输入的起振特征值XO(t_i)与作为比帧t_i超前“β”的帧t_i-β的起振特征值XO(t_i-β)的输出的数据XD_b=β(t_i-β)以一定的比例进行合并，并且将合并的结果输出为帧t_i的XD_b=β(t_i)（见图10）。换而言之，梳状滤波器D_b=β具有用作保持装置的延迟电路d_b=β，该保持装置用于将数据XD_b=β保持与帧β的数量相等的时间段。如上所述，通过将起振特征值XO的序列XO(t){=XO(t₀)，XO(t₁)，…}输入至滤波器组FBB，可以计算出数据XD_b的序列XD_b(t){=XD_b(t₀)，XD_b(t₁)，…}。

在步骤S167处，CPU12a通过将数据XD_b的序列XD_b(t)在时间序列上颠倒得到的数据序列输入至滤波器组FBB，从而得到BPM特征值的序列XB_b(t){=XB_b(t₀)，XB_b(t₁)，…}。因此，可以使起振特征值XO(t₀)，XO(t₁)，…的相位与BPM特征值XB_b(t₀)，XB_b(t₁)，…的相位之间的相位偏移为“0”。图11中例示了如上计算出的BPM特征值XB_b(t_i)。如上所述，BPM特征值XB_b(t_i)是通过将起振特征值XO(t_i)与延迟了与节拍周期b的值相同的时间段（即，帧的数量b）的BPM特征值XB_b(t_i-b)以一定的比例进行合并得到的。因此，在起振特征值XO(t₀)，XO(t₁)，…具有时间间隔等于节拍周期b的值的峰值的情况下，BPM特征值XB_b(t_i)的值增加。由于乐曲的拍速由每分钟的节拍数表示，因此节拍周期b与每分钟的节拍数的倒数成比例。在图11的示例中，例如，在各BPM特征值XB_b中，节拍周期b的值为“4”的BPM特征值XB_b（BPM特征值XB_b=4)最大。因此，在该示例中，很有可能每四个帧存在一个节拍。由于该实施例被设计为将每个帧的长度限定为125ms，因此在该情况下各节拍之间的间隔为0.5s。换而言之，拍速为120BPM（=60s/0.5s）。

在步骤S168处，CPU12a终止特征值计算处理而前进到声音信号分析处理（主程序）的步骤S17。

在步骤S17处，CPU12a从ROM12b中读出图12中示出的对数观测似然度计算程序，并且执行该程序。该对数观测似然度计算程序是声音信号分析处理的子程序。

在步骤S171处，CPU12a开始对数观测似然度计算处理。然后，如下所述，计算起振特征值XO(t_i)的似然度P(XO(t_i)∣Z_b,n(t_i))和BPM特征值XB(t_i)的似然度P(XB(t_i)∣Z_b,n(t_i))。上述Z_b=β,n=η(t_i)表示仅发生状态_qb=β,n=η，其中在帧t_i中节拍周期b的值为“β”，与下一个节拍之间的帧的数量n的值为“η”。具体地，在帧t_i中，状态_qb=β,n=η和状态_{qb≠β,n≠η}不能够同时发生。因此似然度P(XO(t_i)∣Z_b=β,n=η(t_i))表示在帧t_i中节拍周期b的值为“β”并且与下一个节拍之间的帧的数量n的值为“η”的条件下起振特征值XO(t_i)的观测的概率。此外，P(XB(t_i)∣Z_b=β,n=η(t_i))表示在帧t_i中节拍周期b的值为“β”并且到下一个节拍之间的帧的数量n的值为“η”的条件下BPM特征值XB(t_i)的观测的概率。

在步骤S172处，CPU12a计算似然度P(XO(t_i)∣Z_b,n(t_i))。假设如果到下一节拍之间的帧的数量n的值为“0”，则起振特征值XO按均值为“3”方差为“1”的第一正态分布来分布。换而言之，通过将起振特征值XO(t_i)指定为第一正态分布的随机变量而得到的值为似然度P(XO(t_i)∣Z_b,n=0(t_i))。另外，假设如果节拍周期b的值为“β”并且与下一个节拍之间的帧的数量n的值为“β/2”，则起振特征值XO按均值为“1”方差为“1”的第二正态分布来分布。换而言之，通过将起振特征值XO(t_i)指定为第二正态分布的随机变量而得到的值为似然度P(XO(t_i)∣Z_b=β,n=β/2(t_i))。另外，假设如果到下一个节拍之间的帧的数量n的值既不是“0”也不是“β/2”，则起振特征值XO按均值为“0”方差为“1”的第三正态分布来分布。换而言之，通过将起振特征值XO(t_i)指定为第三正态分布的随机变量而得到的值为似然度P(XO(t_i)∣Z_b,n≠0,β/2(t_i))。

图13表示具有起振特征值XO的序列{10,2,0.5,5,1,0,3,4,2}的似然度P(XO(t_i)∣Z_b=6,n(t_i))的对数计算的示例结果。如图13所示，帧t_i具有的起振特征值XO越大，则与似然度P(XO(t_i)∣Z_b,n≠0(t_i))相比似然度P(XO(t_i)∣Z_b,n=₀(t_i))越大。如上所述，设置概率模型（第一至第三正态分布及其参数（均值和方差）），使得帧t_i具有的起振特征值XO越大，帧的数量n的值为“0”的节拍存在的概率越高。第一至第三正态分布的参数值不限制于上述实施例。可以基于重复试验或者通过机器学习来确定这些参数值。在该示例中，使用正态分布作为用以计算起振特征值XO的似然度P的概率分布函数。然而，可以使用不同的函数（例如，伽马分布或泊松分布）作为概率分布函数。

在步骤S173处，CPU12a计算似然度P(XB(t_i)∣Z_b,n(t_i))。似然度P(XB(t_i)∣Z_b=γ,n(t_i))等同于BPM特征值XB(t_i)相对于图14中表示的模板TP_γ{γ=1,2,…}的拟合优度。具体地，似然度P(XB(t_i)∣Z_b= _γ,n(t_i))等同于BPM特征值XB(t_i)与模板TP_γ{γ=1,2,…}之间的内积（见图12的步骤S173的表达式）。在该表达式中，“κ_b”是定义BPM特征值XB相对于起振特征值XO的权重的因子。换言之，κ_b越大，结果在稍后描述的节拍/拍速同时估计处理中得到的BPM特征值XB越大。另外，在该表达式中，“Z(κ_b)”是取决于κ_b的归一化因子。如图14所示，模板TP_γ由要与形成BPM特征值XB(t_i)的BPM特征值XB_b(t_i)相乘的因子δ_γ,b构成。设计模板TP_γ使得δ_γ,γ全局最大，同时因子δ_γ,2 _γ、因子δ_γ,3γ、…、因子δ_{γ,（“γ”的整数倍）}中的每一个局部最大。具体地，例如，模板TP_γ=2被设计为拟合其中每隔两帧存在一个节拍的乐曲。在本示例中，模板TP用于计算BPM特征值XB的似然度P。然而，可以使用概率分布函数（例如，多项分布、狄利克雷分布、多维正态分布、以及多维泊松分布）来取代模板TP。

图15例示了在BPM特征值XB(t_i)为图11所示的值的情况下通过使用图14所示的模板TP_γ{γ=1,2,…}计算似然度P(XB(t_i)∣Z_b,n(t_i))得到的对数计算的结果。在该示例中，由于似然度P(XB(t_i)∣Z_b=4,n(t_i))最大，因此BPM特征值XB(t_i)最好地拟合模板TP₄。

在步骤S174处，CPU12a合并似然度P(XO(t_i)∣Z_b,n(t_i))的对数和似然度P(XB(t_i)∣Z_b,n(t_i))的对数，并且将合并的结果定义为对数观测似然度L_b,n(t_i)。可以通过将合并似然度P(XO(t_i)∣Z_b,n(t_i))和似然度P(XB(t_i)∣Z_b,n(t_i))得到的结果的对数定义为对数观测似然度L_b,n(t_i)来类似地得到相似的结果。在步骤S175处，CPU12a终止对数观测似然度计算处理，以前进到声音信号分析处理（主程序）的步骤S18。

在步骤S18处，CPU12a从ROM12b中读出图16表示的节拍/拍速同时估计程序，并且执行该程序。节拍/拍速同时估计程序是声音信号分析程序的子程序。节拍/拍速同时估计程序是用于通过使用维特比（Viterbi）算法来计算极大似然度的序列Q的程序。在下文中，将简略的说明该程序。首先，CPU12a将在选择似然度序列就好像当从帧t₀至帧t_i观测起振特征值XO和BPM特征值XB时帧t_i的状态q_b,n最大的情况下的状态q_b,n的似然度存储作为似然度C_b,n(t_i)。另外，CPU12a还分别将恰在向状态q_b,n转变之前的帧的状态（紧挨在转变之前的状态）存储作为状态I_b,n(t_i)。具体地，如果转变后的状态是状态q_b=βe,n=ηe，同时转变前的状态是状态q_b=βs,n=ηs，则状态I_b=βe,n=ηe(t_i)是状态q_b=βs,n=ηs。CPU12a计算似然度C和状态I直到CPU12a达到帧t_最后，并且使用计算结果来选择极大似然度序列Q。

在稍后将描述的具体示例中，为简洁起见，将要分析的乐曲的节拍周期b的值为“3”、“4”或“5”。作为具体示例，具体地将说明如图17所示的计算对数观测似然度L_b,n(t_i)的情况的节拍/拍速同时估计处理的程序。在该示例中，假设其中拍速周期b的值为“3”、“4”和“5”以外的任何值的状态的观测似然度足够小，使得图17至图19中省略了其中拍速周期b的值为“3”、“4”和“5”以外的任何值的情况的观测似然度。另外，在该示例中，按如下方式来设置从其中节拍周期b的值为“βs”且帧的数量n的值为“ηs”的状态向其中节拍周期b的值为“βe”且帧的数量n的值为“ηe”的状态的对数转变概率T的值：如果“ηe=0”、“βe=βs”且“ηe=βe-1”，则对数转变概率T的值为“-0.2”。如果“ηs=0”、“βe=βs+1”且“ηe=βe-1”，则对数转变概率T的值为“-0.6”。如果“ηs=0”、“βe=βs-1”且“ηe=βe-1”，则对数转变概率T的值为“-0.6”。如果“ηs＞0”、“βe=βs”并且“ηe=ηs-1”，则对数转变概率T的值为“0”。除上述情况以外的情况的对数转变概率T的值为“-∞”。具体地，在从其中帧的数量n的值为“0”的状态（ηs=0）向下一状态转变时，节拍周期b的值增加或减小“1”。另外，在该转变时，帧的数量n的值被设置为比转变后节拍周期值b小“1”的值。在从其中帧的数量n的值不是“0”的状态（ηs≠0）转变至下一状态时，将不改变节拍周期b的值，但是帧的数量n的值减“1”。

在下文中，将具体描述节拍/拍速同时估计处理。在步骤S181处，CPU12a开始节拍/拍速同时估计处理。在步骤S182处，用户通过使用输入操作元件11来输入与图18所示的各个状态q_b,n对应的似然度C的初始条件CS_b,n。初始条件CS_b,n可以存储在ROM12b中使得CPU12a可以从ROM12b中读出初始条件CS_b,n。

在步骤S183处，CPU12a计算似然度C_b,n(t_i)和状态I_b,n(t_i)。可以通过将初始条件CS_b=βe,n=ηe与对数观测似然度L_b=βe,n=ηe(t₀)结合来得到其中节拍周期b的值为“βe”并且帧的数量n的值为“ηe”的状态q_b=βe,n=ηe中的似然度C_b=βe,n=ηe(t₀)。

此外，在从状态q_b=βs,n=ηs向状态q_b=βe,n=ηe转变时，可以按如下方式来计算似然度C_b=βe,n=ηe(t_i){i＞0}。如果状态q_b=βs,n=ηs的帧的数量n不为“0”（即，ηs≠0），则通过合并似然度C_{b=βe,n=ηe+1}(t_i-1)、对数观测似然度L_b=βe,n=ηe(t_i)和对数转变概率T来得到似然度C_b=βe,n=ηe(t_i)。然而，在该实施例中，由于转变之前的状态的帧的数量n不是“0”的情况下的对数转变概率T为“0”，因此实质上通过合并C_{b=βe,n=ηe+1}(t_i-1)和对数观测似然度L_b=βe,n=ηe(t_i)来得到似然度C_b=βe,n=ηe(t_i)（C_b=βe,n=ηe(t_i)=C_{b=βe,n=ηe+1}(t_i-1)+L_b=βe,n=ηe(t_i)）。另外，在该情况下，状态I_b=βe,n=ηe(t_i)是状态q_{b=βe,n=ηe+1}。例如，在如图18所示来计算似然度C的示例中，似然度C_4,1(t₂)的值为“2”，同时对数观测似然度L_4,0(t₃)的值为“1”。因此，似然度C_4,0(t₃)为“3”。另外，如图19所示，状态I_4,0(t₃)为状态q_4,1。

此外，按如下方式来计算状态q_b=βs,n=ηs的帧的数量n为“0”的情况（ηs=0）的似然度C_b=βe,n=ηe(t_i)。在该情况下，随着状态转变，节拍周期b的值可以增加或减少。因此，分别将对数概率T与似然度C_βe-1,0(t_i-1)、似然度C_βe,0(t_i-1)和似然度C_βe+1,0(t_i-1)合并。然后，进一步将合并的结果的最大值与对数观测似然度L_b=βe,n=ηe(t_i)合并，从而将合并的结果定义为似然度C_b=βe,n=ηe(t_i)。此外，状态I_b=βe,n=ηe(t_i)是选自状态q_βe-1,0、状态q_βe,0、和状态q_βe+1,0的状态q。具体地，将对数转变概率T分别加至状态q_βe-1,0、状态q_βe,0、和状态q_βe+1,0的似然度C_βe-1,0(t_i-1)、似然度C_βe,0(t_i-1)和似然度C_βe+1,0(t_i-1)，以选择具有最大求和值的状态，从而将选择的状态定义为状态I_b=βe,n=ηe(t_i)。更加严格地，需要将C_b,n(t_i)归一化。然而，即使不进行归一化，节拍位置和拍速变化的估计结果数学上仍是相同的。

例如，按如下方式来计算似然度C_4,3(t₄)。由于在转变之前的状态为状态q_3,0的情况下，似然度C_3,0(t₃)的值为“0.4”同时对数转变概率T为“-0.6”，因此通过合并似然度C_3,0(t₃)和对数转变概率T得到的值为“-0.2”。另外，由于在转变前的状态为状态q_4,0的情况下，转变前的似然度C_4,0(t₃)的值为“3”同时对数转变概率T为“-0.2”，因此通过合并似然度C_4,0(t₃)和对数转变概率T得到的值为“2.8”。此外，由于在转变前的状态为状态q_5,0的情况下，转变前的似然度C_5,0(t₃)的值为“1”同时对数转变概率T为“-0.6”，因此通过合并似然度C_5,0(t₃)和对数转变概率T得到的值为“0.4”。因此，通过合并似然度C_4,0(t₃)和对数转变概率T得到的值最大。此外，对数观测似然度L_4,3(t₄)的值为“0”。因此，似然度C_4,3(t₄)的值为“2.8”（=2.8+0）。因此，似然度C_4,3(t₄)的值为“2.8”（=2.8+0），使得状态I_4,3(t₄)为状态Q_4,0。

当针对所有帧t_i完成了对所有状态q_b，n的似然度C_b,n(t_i)和状态I_b,n(t_i)的计算时，CPU12a前进到步骤S184，以按如下方式来确定极大似然度状态的序列Q（={q_max(t₀),q_max(t₁),…,q_max(t_最后)}）。首先，CPU12a将帧t_最后内的具有极大似然度C_b,n(t_最后)的状态q_b，n定义为状态q_max(t_最后)。状态q_max(t_最后)的节拍周期b的值由“βm”表示，同时帧的数量n的值由“ηm”表示。具体地，状态I_βm,ηm(t_最后)是紧挨在帧t_最 _后之前的帧t_最后-1的状态q_max(t_最后-1)。按类似于状态q_max(t_最后-1)的方式来确定帧t_最后-2、帧t_最后-3、…的状态q_max(t_最后-2)、状态q_max(t_最后-3)、…。具体地，其中帧t_i+1的状态q_max(t_i+1)的节拍周期b的值由“βm”表示、同时帧的数量n的值由“ηm”表示的状态I_βm,ηm(t_i+1)是紧挨在帧t_i+1之前的帧t_i的状态q_max(t_i)。如上所述，CPU12a依次确定从帧t_最后-1至帧t₀的状态q_max，以确定极大似然状态的序列Q。

例如，在图18和图19示出的示例中，在帧t_最后=9中，状态q_4,2的似然度C_4,2(t_最后=9)最大。因此，状态q_max(t_最后=9)为状态q_4,2。根据图19，由于状态I_4,2(t₉)为状态q_4,3，因此状态q_max(t₈)为状态q_4,3。另外，由于状态I_4,3(t₈)为状态q_4,0，因此状态q_max(t₇)为状态q_4,0。同样按类似于状态q_max(t₈)和状态q_max(t₇)的方式来确定状态_qmax(t₆)至状态q_max(t₀)。如上所述，确定了如图18中的箭头所示的极大似然状态的序列Q。在该示例中，在任何帧t_i中节拍周期b的值被估计为“4”。另外，在序列Q中，估计出节拍存在于与其中帧的数量n的值为“0”的状态q_max(t₁)、q_max(t₅)和q_max(t₈)对应的帧t₁、t₅和t₈中。

在步骤S185处，CPU12a终止节拍/拍速同时估计处理以前进到声音信号分析处理（主程序）的步骤S19。

在步骤S19处，CPU12a针对每个帧t_i计算“BPM率”、“基于观测的概率”、“节拍率”、“节拍存在的概率”、以及“节拍不存在的概率”（见图20所示的表示）。“BPM率”表示帧t_i中的拍速值是与节拍周期b对应的值的概率。“BPM率”是通过使似然度C_b,n(t_i)归一化并且使帧的数量n边缘化来得到的。具体地，在节拍周期b的值为“β”的情况下的“BPM率”是其中节拍周期b的值为“β”的各状态的似然度C之和与帧t_i中所有状态的似然度C之和的比率。“基于观测的概率”表示基于其中在帧t_i中存在节拍的观测值（即，起振特征值XO）所计算的概率。具体地，“基于观测的概率”为起振特征值XO(t_i）与某个基准值XO_base的比率。“节拍率”为似然度P(XO(t_i)∣Z_b,0(t_i))与通过结合帧的数量n的所有值的起振特征值XO(t_i)的似然度P(XO(t_i)∣Z_b,n(t_i))二得到的值的比率。“节拍存在的概率”和“节拍不存在的概率”是通过使节拍周期b的似然度C_b,n(t_i)边缘化得到的。具体地，“节拍存在的概率”为其中帧的数量n的值为“0”的各状态的似然度C之和与帧t_i中所有状态的似然度C之和的比率。“节拍不存在概率”为其中帧的数量n的值不为“0”的各状态的似然度C之和与帧t_i中所有状态的似然度C之和的比率。

通过使用“BPM率”、“基于观测的概率”、“节拍率”、“节拍存在的概率”、以及“节拍不存在的概率”，CPU12a在显示单元13上显示如图20所示的节拍/拍速信息列表。在列表的“估计的拍速值（BPM）”栏，显示与具有在以上计算的“BPM率”所包含的概率中的最高概率的节拍周期b对应的拍速值（BPM）。在包含在以上确定的状态q_max(t_i)内并且其帧的数量n的值为“0”的帧的“节拍的存在”栏上，显示“○”。在其它帧的“节拍的存在”栏上，显示“×”。而且，通过使用估计的拍速值（BPM），CPU12a在显示单元13上显示如图21所示的表示拍速变化的图。图21所示的示例将拍速的变化表示为柱状图。在参照图18和图19说明的示例中，由于拍速值为恒定的，因此表示各个帧的拍速的柱状具有一致的高度，如图21所示。然而，拍速频繁变化的乐曲具有取决于拍速值的不同高度的柱状，如图22所示。因此，用户可以从视觉上识别出拍速的变化。而且，通过使用以上计算的“节拍存在的概率”，CPU12a在显示单元13上显示如图23所示的表示节拍位置的图。

而且，在通过在声音信号分析处理的步骤S13处搜索现有数据而找到了现有数据的情况下，在步骤S19处CPU12a通过使用在步骤S15处读入至RAM12c的与先前分析结果有关的各种数据，在显示单元13显示节拍/拍速信息列表、表示拍速变化的图、以及表示节拍位置的图。

在步骤S20处，CPU12a在显示单元13上显示询问用户是否想要终止声音信号分析处理的消息，并且等待用户的指示。用户通过使用输入操作元件11，要么指示终止声音信号分析处理，要么指示执行稍后描述的节奏/拍速信息校正处理。例如，用户用鼠标点击图标。如果用户已指示终止声音信号分析处理，则CPU12a确定为“是”，以前进到步骤S21，将有关似然度C、状态I、和节拍/拍速信息列表的分析结果的各种数据存储在存储装置14中，使得各种数据与乐曲的标题相关联，进而前进到步骤S22，终止声音信号分析处理。

如果在步骤S20处用户已指示继续声音信号分析处理，则CPU12a确定为“否”，以前进到步骤S23，执行拍速信息校正处理。首先，CPU12a进行等待直到用户完成校正信息的输入。用户通过使用操作元件11，输入“BPM率”、“节拍存在的概率”等的校正值。例如，用户用鼠标选择其想要校正的帧，并且用数字小键盘输入校正值。然后，为了明确地表示值的校正，位于校正项的右边的“F”的显示模式（例如，颜色）改变。用户可以校正多个项的各个值。一旦完成校正值的输入，用户通过使用输入操作元件11通知完成了校正信息的输入。例如，用户通过使用鼠标来点击表示校正完成的图标。CPU12a根据校正值来更新似然度P(XO(t_i)∣Z_b,n(t_i))和似然度P(XB(t_i)∣Z_b,n(t_i))中的任一个或两者。例如，在用户已进行校正使得帧t_i中的“节拍存在的概率”增加同时针对校正值的帧的数量n为“ηe”的情况下，CPU12a将似然度P(XB(t_i)∣Z_b,n≠ηe(t_i))设置为足够小的值。因此，在帧t_i处，帧的数量n的值为“ηe”的概率相对最高。而且，例如，在用户已校正帧t_i的“BPM率”使得节拍周期b的值为“βe”的概率增加的情况下，CPU12a将其中节拍周期b的值不为“βe”的状态的似然度P(XB(t_i)∣Z_b≠βe,n(t_i))设置为足够小的值。因此，在帧t_i处，节拍周期b的值为“βe”的概率相对最高。然后，CPU12a终止节拍/拍速信息校正处理，以前进到步骤S18，通过用校正的对数观测似然度L来再次执行节奏/拍速同时估计处理。

以上配置的声音信号分析设备10可以选择通过使用与节拍位置相关的起振特征值XO和与拍速相关的BPM特征值XB所计算出的对数观测似然度L的最可能的序列的概率模型，以同时（一道地）估计乐曲中的节拍位置和拍速的变化。因此，与上述现有技术不同的是，声音信号分析设备10将不会呈现以下问题：节拍位置或拍速之一的低精度估计导致另一个的低精度估计。因此，与现有技术相比，声音信号分析设备10可以提高乐曲中节拍位置和拍速变化的估计精度。

另外，在本实施例中，设置各状态之间的转变概率（对数转变概率）使得仅容许从其中帧的数量n的值为“0”的状态向节拍周期b的值相同的状态或者其中节拍周期b的值相差“1”的状态的转变。因此，声音信号分析设备10可以防止引起帧与帧之间拍速突变的错误估计。结果，声音信号分析设备10可以得到带来作为乐曲的较为自然的节拍位置和拍速变化的估计结果。对于其中拍速突变的乐曲，声音信号分析设备10可以设置各状态之间的转变概率（对数转变概率），使得还容许从其中到下一节拍之间的帧的数量n的值为“0”的状态到节拍周期b的值极大地不同的状态的转变。

由于声音信号分析设备10使用维特比（Viterbi）算法用于节拍/拍速同时估计处理，因此与使用了不同算法（例如，“采样法”、“前向-后向算法”等）的情况相比，声音信号分析设备10可以减少计算量。

另外，根据用户的输入校正信息，声音信号分析设备10校正对数观测似然度L，并且根据校正的对数观测似然度L来重新估计乐曲中的节拍位置和拍速的变化。因此，声音信号分析设备10重新计算（重新选择）位于校正的帧之前和之后的一个或多个帧的极大似然度的状态q_max。因此，声音信号分析设备10可以得到这样的估计结果：该估计结果带来了从校正帧到位于校正帧之前和之后的一个或多个帧的节拍间隔和拍速的平滑变化。

例如，如上估计的关于乐曲中的节拍位置和拍速变化的信息用于搜索乐曲数据以及搜索表示伴奏的伴奏数据。此外，该信息还用于针对分析的乐曲自动生成伴奏部分以及自动添加和声。

而且，本发明不限制于上述实施例，并且可以在不偏离本发明目的的情况下对其进行多样修改。

例如，上述实施例选择了最可能的观测似然度序列的概率模型，其表示作为观测值的起振特征值XO和BPM特征值XB的同时观测的概率。然而，概率模型的选择标准不限制于那些实施例。例如，可以选择最大后验分布的概率模型。

另外，为了简洁起见，设计上述实施例使得每个帧的长度为125ms。然而，每个帧可以具有更短的长度（例如，5ms）。减小的帧长度可以有助于改善与节拍位置和拍速的估计相关的分辨率。例如，增强的分辨率能够使拍速估计按1BPM增加。而且，尽管上述实施例被设计为具有相同长度的帧，但各帧可以具有不同的长度。同样在这样的情况下，可以按类似于本实施例的方式来计算起振特征值XO。在该情况下，对于BPM特征值XB的计算，优选的是根据帧长度来改变梳状滤波器的延迟量。而且，对于似然度C的计算，计算出各个帧长度的最大公约数（即，构成帧的样本数量的最大公约数）。然后，优选的是，如果帧t_i的长度（=τ）由L(τ)×F表示，则将从状态q_b,n(n≠0)到状态q_b,n-L(τ)的转变的概率限定为100%。

另外，在上述实施例中，对整个乐曲进行分析。然而，可以仅对乐曲的一部分（例如，几小节）进行分析。在该情况下，实施例可以修改为容许用户选择一部分的输入乐曲数据来限定为要分析的部分。此外，可以仅对乐曲的单个部分（例如，节奏部分）进行分析。

另外，对于拍速估计，上述实施例可以修改为使得用户可以指定估计时给出高优先级的拍速范围。具体地，在声音信号分析处理的步骤S12处，声音信号分析设备10可以显示诸如“急板”和“中板”之类的表示拍速的项，使得用户可以选择估计时给出高优先级的拍速范围。例如，在用户选择“急板”的情况下，声音信号分析设备10会将BPM=160至190的范围以外拍速的对数观测似然度L设置为足够小的值。由此，可以优先估计BPM=160至190的范围的拍速。因此，在用户已知受到分析的乐曲的合适拍速的情况下，声音信号分析设备10可以增加拍速估计的精度。

在节拍/拍速信息校正处理（步骤S23）中，通过使用输入操作元件11提示用户输入校正。然而，取代输入操作元件11或除输入操作元件11以外，声音信号分析设备10可以容许用户通过使用经由外部接口电路15连接的电子键盘乐器、电子打击乐器等的操作元件来输入校正。例如，响应于用户对电子键盘乐器的按键的按压，CPU12a根据用户的按键-按压的时序来计算拍速，从而将计算的拍速用作“BPM率”的校正值。

另外，在实施例中，用户可以以用户期望的次来输入节拍位置和拍速的校正值。然而，实施例可以修改为在“节拍存在的概率”的平均值达到基准值（例如，80%）的情况下禁止用户输入节拍位置和拍速的校正值。

另外，对于节拍/拍速信息校正处理（步骤S23），除了将用户的指定帧的节奏/拍速信息校正为具有用户的输入值，还可以修改实施例使得根据用户的输入值来自动校正用户的指定帧的相邻帧的节拍/拍速信息。例如，在一些连续帧具有相同的估计拍速值并且其中一个帧的值被用户校正的情况下，声音信号分析设备10可以自动校正各帧的各个拍速值以具有用户的校正值。

另外，在上述实施例中，在步骤S23处，响应于用户通过使用输入操作元件11给出的完成输入校正值的指示，再次执行节拍位置和拍速的同时估计。然而，可以修改实施例使得在用户输入至少一个校正值后，没有进行任何其它值的额外校正的情况下，当某一时间段（例如，10秒）过去时再次执行节拍位置和拍速的估计。

另外，节拍/拍速信息列表的显示模式（图20）不限制于本实施例的显示模式。例如，尽管在本实施例中“BPM率”、“节拍率”等由概率（%）表示，但“BPM率”、“节拍率”等还可以由符号、字符串等来表示。另外，在实施例中，在包含在确定的状态q_max(t_i)内并且其帧的数量n为“0”的帧t_i的“节拍的存在”栏上显示“○”，而在其它帧的“节拍的存在”栏上显示“×”。然而，取代该实施例的显示模式，可以修改实施例使得在“节拍位置存在的概率”为基准值（例如，80%）或更大时在“节拍的存在”栏上显示“○”，而在“节拍位置存在的概率”小于基准值时在“节拍的存在”栏上显示“×”。另外，在该修改中，可以提供多个基准值。例如，可以提供第一基准值（=80%）和第二基准值（=60%）使得可以在“节拍位置存在的概率”为第一基准值或更大时在“节拍的存在”栏上显示“○”，可以在“节拍位置存在的概率”为第二基准值或更大并且小于第一基准值时在“节拍的存在”栏上显示“△”，以及在“节拍位置存在的概率”小于第二基准值时在“节拍的存在”栏上显示“×”。另外，可以修改实施例使得在估计拍速值的栏上显示诸如“急板”和“中板”之类的表示拍速的术语。

Claims

1.一种声音信号分析设备，包括：

声音信号输入装置，其用于输入表示乐曲的声音信号；

特征值计算装置，其用于计算第一特征值和第二特征值，所述第一特征值表示与所述乐曲的各部分当中的一个部分中的节拍的存在相关的特征，所述第二特征值表示与所述乐曲的各部分当中的一个部分中的拍速相关的特征；以及

估计装置，其用于通过从多个概率模型中选择其观测似然度的序列满足一定的标准的一个概率模型来同时估计所述乐曲中的节拍位置和拍速变化，所述多个概率模型被描述为根据与所述乐曲的各部分当中的一个部分中的节拍的存在相关的物理量和与所述乐曲的各部分当中的一个部分中的拍速相关的物理量的结合来分类的各状态的序列，所述一个概率模型的所述观测似然度的序列中的每一个观测似然度表示所述乐曲中的相应一个部分中的所述第一特征值和所述第二特征值的同时观测概率。

2.根据权利要求1所述的声音信号分析设备，其中

所述估计装置通过从所述多个概率模型中选择最可能的观测似然度的序列的概率模型来同时估计所述乐曲中的节拍位置和拍速变化。

3.根据权利要求1所述的声音信号分析设备，其中

所述估计装置具有第一概率输出装置，其用于输出这样的概率来作为所述第一特征值的观测概率：所述概率是通过将所述第一特征值指定为根据与节拍的存在相关的物理量而定义的概率分布函数的概率变量来计算得到的。

4.根据权利要求3所述的声音信号分析设备，其中

所述第一概率输出装置输出通过将所述第一特征值指定为根据与节拍的存在相关的物理量来定义的正态分布、伽马分布和泊松分布中的任何一个的概率变量而计算出的概率，来作为所述第一特征值的观测概率。

5.根据权利要求1所述的声音信号分析设备，其中

所述估计装置具有第二概率输出装置，其用于将所述第二特征的拟合优度输出至根据与拍速相关的物理量而提供的多个模板来作为所述第二特征值的观测概率。

6.根据权利要求1所述的声音信号分析设备，其中

所述估计装置具有第二概率输出装置，其用于输出这样的概率来作为所述第二特征值的观测概率：所述概率是通过将所述第二特征值指定为根据与拍速相关的物理量而定义的概率分布函数的概率变量而计算得到的。

7.根据权利要求6所述的声音信号分析设备，其中

所述第二概率输出装置输出通过将所述第二特征值指定为根据与拍速相关的物理量来定义的多项分布、狄利克雷分布、多维正态分布、以及多维泊松分布中的任何一个的概率变量而计算出的概率，作为所述第二特征值的观测概率。

8.根据权利要求1所述的声音信号分析设备，其中

所述乐曲的各部分分别对应于通过以一定的时间间隔来划分所输入的声音信号而形成的各帧；并且

所述特征值计算装置具有：

第一特征值计算装置，其用于针对每个帧来计算振幅谱，将各自具有不同频带的多个窗函数应用至所述振幅谱，以生成每个频带的振幅谱，并且将基于针对各帧之间的每个频带提供的振幅谱的变化而计算出的值输出作为所述第一特征值；以及

第二特征值计算装置，其具有滤波器，所述滤波器响应于每一个与帧对应的值的输入来输出值，所述滤波器具有用于将所输出的值保持一定时间段的保持装置，并且所述滤波器将所输入的值和保持了一定时间段的值以一定的比率结合并输出所结合的值，所述第二特征值计算装置将这样的数据序列输出作为所述第二特征值的序列的数据序列：所述数据序列是通过将对通过将所述第一特征值的序列输入至所述滤波器而得到的数据序列的时间序列进行颠倒来获得的数据序列输入至所述滤波器而得到的。

9.根据权利要求1所述的声音信号分析设备，还包括：

校正信息输入装置，其用于输入表示所述乐曲中的节拍位置和拍速变化中的一个或两者的校正内容的校正信息；

观测似然度校正装置，其用于根据所输入的校正信息来校正所述观测似然度；以及

再估计装置，其用于通过使用所述估计装置从所述多个概率模型中选择其校正后的观测似然度的序列满足所述一定标准的概率模型，来同时地再估计所述乐曲中的节拍位置和拍速变化。

10.一种声音信号分析方法，包括步骤：

声音信号输入步骤，用于输入表示乐曲的声音信号；

特征值计算步骤，用于计算第一特征值和第二特征值，所述第一特征值表示与所述乐曲的各部分当中的一个部分中的节拍的存在相关的特征，所述第二特征值表示与乐曲的各部分当中的一个部分中的拍速相关的特征；以及

估计步骤，用于通过从多个概率模型中选择其观测似然度的序列满足一定的标准的一个概率模型来同时估计所述乐曲中的节拍位置和拍速变化，所述多个概率模型被描述为根据与所述乐曲的各部分当中的一个部分中的节拍的存在相关的物理量和与所述乐曲的各部分当中的一个部分中的拍速相关的物理量的结合来分类的各状态的序列，所述一个概率模型的所述观测似然度的序列中的每一个观测似然度均表示所述乐曲中的相应一个部分中的所述第一特征值和所述第二特征值的同时观测概率。