CN104050972A - 声音信号分析设备以及声音信号分析方法和程序 - Google Patents
声音信号分析设备以及声音信号分析方法和程序 Download PDFInfo
- Publication number
- CN104050972A CN104050972A CN201410092701.2A CN201410092701A CN104050972A CN 104050972 A CN104050972 A CN 104050972A CN 201410092701 A CN201410092701 A CN 201410092701A CN 104050972 A CN104050972 A CN 104050972A
- Authority
- CN
- China
- Prior art keywords
- probability
- beat
- melody
- voice signal
- eigenvalue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title abstract description 14
- 230000005236 sound signal Effects 0.000 title abstract 6
- 238000004364 calculation method Methods 0.000 claims abstract description 28
- 230000008859 change Effects 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims description 19
- 238000005315 distribution function Methods 0.000 claims description 7
- 230000001915 proofreading effect Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 230000010355 oscillation Effects 0.000 description 41
- 238000012545 processing Methods 0.000 description 20
- 230000007704 transition Effects 0.000 description 20
- 238000012937 correction Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 230000005055 memory storage Effects 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000013480 data collection Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000009466 transformation Effects 0.000 description 9
- 238000007476 Maximum Likelihood Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000033764 rhythmic process Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N ferric oxide Chemical compound O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 238000005755 formation reaction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/40—Rhythm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H7/00—Instruments in which the tones are synthesised from a data store, e.g. computer organs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/051—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/061—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/076—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/375—Tempo or beat alterations; Music timing control
- G10H2210/385—Speed change, i.e. variations from preestablished tempo, tempo change, e.g. faster or slower, accelerando or ritardando, without change in pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/021—Indicator, i.e. non-screen output user interfacing, e.g. visual or tactile instrument status or guidance information using lights, LEDs, seven segments displays
- G10H2220/081—Beat indicator, e.g. marks or flashing LEDs to indicate tempo or beat positions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/005—Algorithms for electrophonic musical instruments or musical processing, e.g. for automatic composition or resource allocation
- G10H2250/015—Markov chains, e.g. hidden Markov models [HMM], for musical processing, e.g. musical analysis or musical composition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明公开了声音信号分析设备、方法和程序,其中,声音信号输入装置用于输入表示乐曲的声音信号;特征值计算装置用于计算第一特征值和第二特征值,其分别表示与乐曲的各部分的一个部分中的节拍的存在和拍速相关的特征;估计装置用于通过从多个概率模型中选择其观测似然度的序列满足一定标准的一个概率模型来同时估计乐曲中的节拍位置和拍速变化,所述多个概率模型被描述为根据与乐曲的各部分中的一个部分中的节拍的存在相关的物理量和与乐曲的各部分的一个部分中的拍速相关的物理量的结合来分类的各状态q的序列,所述一个概率模型的观测似然度的序列中的每个均表示乐曲中相应一个部分中的第一特征值和第二特征值的同时观测概率。
Description
技术领域
本发明涉及用于接收表示乐曲的声音信号以及检测乐曲的节拍位置(节拍定时)和拍速的声音信号分析设备、声音信号分析方法和声音信号分析程序。
背景技术
传统上,存在接收表示乐曲的声音信号并检测乐曲的节拍位置和拍速的声音信号分析设备,例如,如日本未审查专利公开No.2009-265493所述。
发明内容
上述日本未审查专利公开的传统声音信号分析设备首先根据声音信号强度(振幅)的变化来计算作为候选节拍位置的节拍指标序列。然后,根据节拍指标序列的计算结果,声音信号分析设备检测乐曲的拍速。因此,在所检测的节拍指标序列的精度较低的情况下,所检测的拍速的精度也会减小。
为了解决上述问题,完成了本发明,本发明的目的是提供一种可以以高精度来检测乐曲中的节拍位置和拍速变化的声音信号分析设备。另外,对于本发明的各个构成要素的描述,为了方便本发明的理解,稍后描述的实施例的相应组件的参考字母均提供在括号内。然而,要应理解的是,本发明的构成要素不受实施例的参考字母所表示的相应组件的限制。
为了实现上述目的,本发明的特征是提供一种声音信号分析设备,其包括:声音信号输入装置(S12),其用于输入表示乐曲的声音信号;特征值计算装置(S165,S167),其用于计算第一特征值(XO)和第二特征值(XB),所述第一特征值表示与所述乐曲的各部分当中的一个部分中的节拍的存在相关的特征,所述第二特征值表示与所述乐曲的各部分当中的一个部分中的拍速相关特征;以及估计装置(S17,S18),其用于通过从多个概率模型中选择其观测似然度(L)的序列满足一定标准的一个概率模型来同时估计所述乐曲中的节拍位置和拍速变化,所述多个概率模型被描述为根据与所述乐曲的各部分当中的一个部分中的节拍的存在相关的物理量(n)和与所述乐曲的各部分当中的一个部分中的拍速相关的物理量(b)的结合来分类的各状态(qb,n)的序列,所述一个概率模型的所述观测似然度的序列中的每个均表示所述乐曲中的相应一个部分中的所述第一特征值和所述第二特征值的同时观测概率。
在该情况下,所述估计装置可以通过从所述多个概率模型中选择最可能的观测似然度的序列的概率模型来同时估计所述乐曲中的节拍位置和拍速变化。
在该情况下,所述估计装置可以具有第一概率输出装置(S172),其用于输出通过将所述第一特征值指定为根据与节拍的存在相关的物理量而定义的概率分布函数的概率变量来计算得到的概率,以作为所述第一特征值的观测概率。
在该情况下,所述第一概率输出装置可以输出通过将所述第一特征值指定为根据与节拍的存在相关的物理量来定义的正态分布、伽马分布和泊松分布中的任何一个(包括但不限于其中的任何一个)的概率变量而计算出的概率,作为所述第一特征值的观测的概率。
在该情况下,所述估计装置可以具有第二概率输出装置,其用于将所述第二特征的拟合优度输出至根据与拍速相关的物理量而提供的多个模板来作为所述第二特征值的观测概率。
在该情况下,所述估计装置可以具有第二概率输出装置,其用于输出通过将所述第二特征值指定为根据与拍速相关的物理量而定义的概率分布函数的概率变量来计算得到的概率,作为所述第二特征值的观测概率。
在该情况下,所述第二概率输出装置可以输出通过将所述第二特征值指定为根据与拍速相关的物理量来定义的多项分布、狄利克雷分布、多维正态分布、以及多维泊松分布中的任何一个(包括但不限于其中的任何一个)的概率变量而计算出的概率,作为所述第二特征值的观测概率。
另外,在该情况下,所述乐曲的各部分分别对应于通过以一定的时间间隔来划分所输入的声音信号而形成的各帧;并且所述特征值计算装置可以具有:第一特征值计算装置(S165),其用于针对每个帧来计算振幅谱(A),将每一个均具有不同频带(wk)的多个窗函数(BPF)应用至所述振幅谱,以生成每个频带的振幅谱(M),并且将基于针对各帧之间的每个频带提供的振幅谱的变化而计算出的值输出作为所述第一特征值;以及第二特征值计算装置(S167),其具有滤波器(FBB),所述滤波器响应于每个与帧对应的值的输入来输出值,具有用于将所输出的值保持一定时间段的保持装置(db),并且将所输入的值和保持了一定时间段的值以一定的比率结合并输出所结合的值,所述第二特征值计算装置输出这样的数据序列来作为所述第二特征值的序列:将对通过将所述第一特征值的序列输入至所述滤波器而得到的数据序列的时间序列进行颠倒而得到的数据序列输入到滤波器来得到所述数据序列。
以上构造的声音信号分析设备可以选择满足通过使用表示与节拍的存在相关的特征的第一特征值和表示与拍速相关的特征的第二特征值而计算出的观测似然度序列的某个标准的概率模型(诸如最可能的概率模型或最大后验概率模型之类的概率模型),以同时(一道地)估计乐曲中的节拍位置和拍速变化。因此,与上述现有技术不同的是,本发明的声音信号分析设备将不会呈现以下问题:节拍位置或拍速之一的低精度估计导致另一个的低精度估计。因此,与现有技术相比,所述声音信号分析设备可以提高乐曲中节拍位置和拍速变化的估计精度。
另外,本发明的另一个特征是,所述声音信号分析设备还包括:校正信息输入装置(11,S23),其用于输入表示所述乐曲中的节拍位置和拍速的变化中的一个或两者的校正内容的校正信息;观测似然度校正装置(S23),其用于根据所输入的校正信息来校正所述观测似然度;以及再估计装置(S23,S18),其用于通过使用所述估计装置从所述多个概率模型中选择其校正后的观测似然度的序列满足一定标准的概率模型,从而同时地再估计所述乐曲中的节拍位置和拍速变化。
因此,根据用户输入的校正信息,该声音信号分析设备对观测似然度进行校正,并且根据校正的观测似然度来重新估计乐曲中的节拍位置和拍速变化。因此,该声音信号分析设备重新计算(重新选择)位于校正的帧之前和之后的一个或多个帧的状态。由此,该声音信号分析设备可以得到这样的估计结果:该估计结果带来了从校正帧到位于校正帧之前和之后的一个或多个帧的节拍间隔(即,拍速)的较为平滑的变化。
另外,本发明不仅可以实施为声音信号分析设备的发明,还可以实施为声音信号分析方法的发明以及适用于所述设备的计算机程序。
附图说明
图1是表示根据本发明的实施例的声音信号分析设备的整体构造的框图;
图2是概率模型的概念示图;
图3是声音信号分析程序的流程图;
图4是特征值计算程序的流程图;
图5是表示要分析的声音信号的波形的曲线图;
图6是表示通过对一帧进行短时傅里叶变换得到的声谱的示图;
图7是表示带通滤波器的特性的示图;
图8是表示各频带的时变振幅的曲线图;
图9是表示时变的起振(onset)特征值的曲线图;
图10是梳状滤波器的框图;
图11是表示BPM特征值的计算结果的图;
图12是对数观测似然度计算程序的流程图;
图13是表示起振特征值的观测似然度的计算结果的图表;
图14是表示各模板的构造的图表;
图15是表示BPM特征值的观测似然度的计算结果的图表;
图16是节拍/拍速同时估计程序的流程图;
图17是表示对数观测似然度的计算结果的图表;
图18是表示当从最上一帧起观测各起振特征值和各BPM特征值时作为各个帧的状态的极大似然度序列而被选择的各状态的似然度计算结果的图表;
图19是表示转变之前各状态的计算结果的图表;
图20是示意性地表示节拍/拍速信息列表的示意图;
图21是表示拍速的变化的示例的图;
图22是表示拍速的变化的不同示例的图;以及
图23是表示节拍位置的图。
具体实施方式
现在将描述根据本发明的实施例的声音信号分析设备10。如下所述,声音信号分析设备10接收表示乐曲的声音信号,并且检测乐曲的节拍位置和拍速的变化。如图1所示,声音信号分析设备10具有输入操作元件11、计算机部分12、显示单元13、存储装置14、外部接口电路15和声音***16,这些组件均通过总线BS彼此连接。
输入操作元件11由能够进行开/关操作的开关(例如,用于输入数值的数字小键盘)、能够进行旋转操作的音量或旋转编码器、能够进行滑动操作的音量或线性编码器、鼠标、触摸面板等构成。演奏者的手操纵这些操作元件来选择要分析的乐曲、开始或停止声音信号的分析、再现或停止乐曲(从稍后描述的声音***16输出或停止声音信号)、或者设置与声音信号的分析相关的各种参数。响应于演奏者对输入操作元件11的操纵,表示该操纵的操作信息通过总线BS提供至稍后描述的计算机部分12。
计算机部分12由均连接至总线BS的CPU12a、ROM12b和RAM12c构成。CPU12a从ROM12b中读出稍后将详细描述的声音信号分析程序及其子程序,并且执行该程序和子程序。在ROM12b中,不仅存储了声音信号分析程序及其子程序,还存储了初始设置参数以及诸如用于生成显示数据的图形数据和文本数据之类的各种数据,该显示数据表示要显示在显示单元13上的图像。在RAM12c中,临时存储了执行声音信号分析程序所需的数据。
显示单元13由液晶显示器(LCD)构成。计算机部分12生成表示要通过使用图形数据、文本数据等来显示的内容的显示数据,并且将生成的显示数据提供给显示单元13。显示单元13基于从计算机部分12提供的显示数据来显示图像。例如,在选择要分析的乐曲时,在显示单元13上显示乐曲的标题的列表。例如,在完成分析时,显示表示节拍位置和拍速变化的节拍/拍速信息列表及其图形(见图20至图23)。
存储装置14由诸如HDD、FDD、CD-ROM、MO和DVD之类的高容量的非易失性存储介质及其驱动单元构成。在存储装置14中,存储了分别表示多个乐曲的多个乐曲数据集。每个乐曲数据集由通过在某些采样周期(例如,1/44100s)下对乐曲进行采样得到的多个采样值构成,同时这些采样值依次记录在存储装置14的连续地址内。每个乐曲数据集还包括表示乐曲标题的标题信息和表示乐曲数据集的数量的数据大小信息。乐曲数据集可以预先存储在存储装置14中,或者可以通过稍后将描述的外部接口电路15来从外部设备取回。存储在存储装置14中的乐曲数据由CPU12a读取,以分析该乐曲中的节拍位置和拍速的变化。
外部接口电路15具有能够使声音信号分析设备10与诸如电子音乐设备和个人计算机之类的外部设备连接的连接端子。声音信号分析设备10还可以通过外部接口电路15连接至诸如LAN(局域网)和因特网之类的通信网络。
声音***16具有:D/A转换器,其用于将乐曲数据转换为模拟乐音信号;放大器,其用于放大经转换的模拟乐音信号;以及一对左右扬声器,其用于将放大的模拟乐音信号转换为音响信号并输出该音响信号。响应于用户使用输入操作元件11给出的用于再现要分析的乐曲的指令,CPU12a把将要分析的乐曲数据提供给声音***16。因此,用户可以听其想要分析的乐曲。
接下来,将说明如上所述配置的声音信号分析设备10的操作。首先,将简略地说明声音信号分析设备10的操作。将要分析的乐曲分为多个帧ti{i=0,1,…,最后}。进一步,针对每个帧ti,计算表示与节拍的存在相关的特征的起振特征值XO以及表示与拍速相关的特征的BPM特征值XB。从被描述为根据帧ti中节拍周期b的值(与拍速的倒数成比例的值)和与下一节拍之间的帧数的值n的结合来分类的状态qb,n的序列这样的概率模型(隐马尔科夫模型)中,选择如下概率模型:其具有表示作为观测值的起振特征值XO和BPM特征值XB的同时观测的概率的最可能的观测似然度的序列(参见图2)。由此,检测要分析的乐曲的节拍位置和拍速变化。节拍周期b由帧的数量表示。因此,节拍周期b的值是满足“1≤b≤bmax”的整数,在节拍周期b的值为“β”的状态下,帧的数量n的值是满足“0≤n<β”的整数。
接下来将具体说明声音信号分析设备10的操作。当用户打开声音信号分析设备10的电源开关(未示出)时,CPU12a从ROM12b中读出图3的声音信号分析程序,并且执行该程序。
在步骤S10处CPU12a开始声音信号分析处理。在步骤S11处,CPU12a读取存储在存储装置14中的乐曲数据集中包含的标题信息,并在显示单元13上显示乐曲的标题列表。用户利用输入操作元件11,从显示单元13上显示的各乐曲中选择用户想要分析的乐曲数据集。声音信号分析处理可以被构造为使得:当用户在步骤S11中选择了要分析的乐曲数据集时,再现由该乐曲数据集表示的乐曲的一部分或整体,使得用户可以确认该乐曲数据的内容。
在步骤S12处,CPU12a进行声音信号分析的初始设置。具体地,CPU12a在RAM12c中保留适合于所选乐曲数据集的数据大小信息的存储区域,并且将所选乐曲数据集读入至保留的存储区域。此外,CPU12a在RAM12c中保留用于临时存储表示分析结果的节拍/拍速信息列表、起振特征值XO、BPM特征值XB等的区域。
程序分析的结果将会存储在存储装置14中,稍后将详细对其进行描述(步骤S21)。如果所选的乐曲已被该程序分析,则分析结果存储在存储装置14中。因此,在步骤S13处,CPU12a搜索关于所选乐曲的分析的现有数据(在下文中,简称为现有数据)。如果存在现有数据,则CPU12a在步骤S14处确定为“是”,以在步骤S15处将现有数据读入RAM12c,从而前进到稍后将描述的步骤S19。如果不存在现有数据,则CPU12a在步骤S14处确定为“否”,以前进到步骤S16。
在步骤S16处,CPU12a从ROM12b中读出图4表示的特征值计算程序,并且执行该程序。特征值计算程序是声音信号分析程序的子程序。
在步骤S161处,CPU12a开始特征值计算处理。在步骤S162处,CPU12a以图5所示的一定的时间间隔来划分所选的乐曲,从而将所选的乐曲分为多个帧ti{i=0,1,…,最后}。各个帧具有相同的长度。为了方便理解,在本实施例中假设每个帧具有125ms。如上所述,由于每个乐曲的采样周期为1/44100s,因此每个帧由大约5000个采样值构成。如下所述,进一步,针对每个帧计算起振特征值XO和BPM(每分钟的拍数)特征值XB。
在步骤S163处,CPU12a针对每个帧执行短时傅里叶变换,以计算出每个频点fj{j=1,2,…}的振幅A(fj,ti),如图6所示。在步骤S164处,CPU12a通过针对各频点fj设定的滤波器组FBOj来分别对振幅A(f1,ti),A(f2,ti),…进行滤波,从而分别计算出某些频带wk{k=1,2,…}的振幅M(wk,ti)。频点fj的滤波器组FBOj由多个带通滤波器BPF(wk,fj)构成,每个带通滤波器BPF(wk,fj)均具有不同通带中心频率,如图7所示。构成滤波器组FBOj的带通滤波器BPF(wk,fj)的中心频率在对数频率刻度上均匀地间隔开,同时各带通滤波器BPF(wk,fj)在对数频率刻度上具有相同的通带宽度。每个BPF(wk,fj)被构造为使得增益从通带的中心频率向着通带的下限频率侧和上限频率侧逐渐递减。如图4的步骤S164所示,CPU12a针对每个频点fj利用带通滤波器BPF(wk,fj)的增益乘以振幅A(fj,ti)。然后,CPU12a合并针对各个频点fj计算的全部结果。合并的结果被称为振幅M(wk,ti)。如上计算出的振幅M的示例序列如图8所示。
在步骤S165处,CPU12a基于时变的振幅M计算帧ti的起振特征值XO(ti)。具体地,如图4的步骤S165所示,CPU12a针对每个频带wk计算出振幅M从帧ti-1到帧ti的增量R(wk,ti)。然而,在帧ti-1的振幅M(wk,ti-1)与帧ti的振幅M(wk,ti)相同的情况下或者在帧ti的振幅M(wk,ti)小于帧ti-1的振幅M(wk,ti-1)的情况下,假设增量R(wk,ti)为“0”。然后,CPU12a合并针对各个频带w1,w2,…计算的增量R(wk,ti)。该合并的结果被称为起振特征值XO(ti)。图9中例示了以上计算的起振特征值XO的序列。通常,在乐曲中,节拍位置具有较大的音量。因此,起振特征值XO(ti)越大,帧ti具有节拍的概率越高。
通过使用起振特征值XO(t0),XO(t1),…,CPU12a然后针对每个帧ti计算BPM特征值XB。帧ti的BPM特征值XB(ti)由在每个节拍周期b中计算出的一组BPM特征值XBb=1,2,…(ti)表示(见图11)。在步骤S166处,CPU12a将起振特征值XO(t0),XO(t1),…按此顺序输入至滤波器组FBB以对起振特征值XO进行滤波。滤波器组FBB由设为分别与各节拍位置b对应的多个梳状滤波器Db构成。当帧ti的起振特征值XO(ti)被输入至梳状滤波器Db=β时,梳状滤波器Db=β将输入的起振特征值XO(ti)与作为比帧ti超前“β”的帧ti-β的起振特征值XO(ti-β)的输出的数据XDb=β(ti-β)以一定的比例进行合并,并且将合并的结果输出为帧ti的XDb=β(ti)(见图10)。换而言之,梳状滤波器Db=β具有用作保持装置的延迟电路db=β,该保持装置用于将数据XDb=β保持与帧β的数量相等的时间段。如上所述,通过将起振特征值XO的序列XO(t){=XO(t0),XO(t1),…}输入至滤波器组FBB,可以计算出数据XDb的序列XDb(t){=XDb(t0),XDb(t1),…}。
在步骤S167处,CPU12a通过将数据XDb的序列XDb(t)在时间序列上颠倒得到的数据序列输入至滤波器组FBB,从而得到BPM特征值的序列XBb(t){=XBb(t0),XBb(t1),…}。因此,可以使起振特征值XO(t0),XO(t1),…的相位与BPM特征值XBb(t0),XBb(t1),…的相位之间的相位偏移为“0”。图11中例示了如上计算出的BPM特征值XBb(ti)。如上所述,BPM特征值XBb(ti)是通过将起振特征值XO(ti)与延迟了与节拍周期b的值相同的时间段(即,帧的数量b)的BPM特征值XBb(ti-b)以一定的比例进行合并得到的。因此,在起振特征值XO(t0),XO(t1),…具有时间间隔等于节拍周期b的值的峰值的情况下,BPM特征值XBb(ti)的值增加。由于乐曲的拍速由每分钟的节拍数表示,因此节拍周期b与每分钟的节拍数的倒数成比例。在图11的示例中,例如,在各BPM特征值XBb中,节拍周期b的值为“4”的BPM特征值XBb(BPM特征值XBb=4)最大。因此,在该示例中,很有可能每四个帧存在一个节拍。由于该实施例被设计为将每个帧的长度限定为125ms,因此在该情况下各节拍之间的间隔为0.5s。换而言之,拍速为120BPM(=60s/0.5s)。
在步骤S168处,CPU12a终止特征值计算处理而前进到声音信号分析处理(主程序)的步骤S17。
在步骤S17处,CPU12a从ROM12b中读出图12中示出的对数观测似然度计算程序,并且执行该程序。该对数观测似然度计算程序是声音信号分析处理的子程序。
在步骤S171处,CPU12a开始对数观测似然度计算处理。然后,如下所述,计算起振特征值XO(ti)的似然度P(XO(ti)∣Zb,n(ti))和BPM特征值XB(ti)的似然度P(XB(ti)∣Zb,n(ti))。上述Zb=β,n=η(ti)表示仅发生状态qb=β,n=η,其中在帧ti中节拍周期b的值为“β”,与下一个节拍之间的帧的数量n的值为“η”。具体地,在帧ti中,状态qb=β,n=η和状态qb≠β,n≠η不能够同时发生。因此似然度P(XO(ti)∣Zb=β,n=η(ti))表示在帧ti中节拍周期b的值为“β”并且与下一个节拍之间的帧的数量n的值为“η”的条件下起振特征值XO(ti)的观测的概率。此外,P(XB(ti)∣Zb=β,n=η(ti))表示在帧ti中节拍周期b的值为“β”并且到下一个节拍之间的帧的数量n的值为“η”的条件下BPM特征值XB(ti)的观测的概率。
在步骤S172处,CPU12a计算似然度P(XO(ti)∣Zb,n(ti))。假设如果到下一节拍之间的帧的数量n的值为“0”,则起振特征值XO按均值为“3”方差为“1”的第一正态分布来分布。换而言之,通过将起振特征值XO(ti)指定为第一正态分布的随机变量而得到的值为似然度P(XO(ti)∣Zb,n=0(ti))。另外,假设如果节拍周期b的值为“β”并且与下一个节拍之间的帧的数量n的值为“β/2”,则起振特征值XO按均值为“1”方差为“1”的第二正态分布来分布。换而言之,通过将起振特征值XO(ti)指定为第二正态分布的随机变量而得到的值为似然度P(XO(ti)∣Zb=β,n=β/2(ti))。另外,假设如果到下一个节拍之间的帧的数量n的值既不是“0”也不是“β/2”,则起振特征值XO按均值为“0”方差为“1”的第三正态分布来分布。换而言之,通过将起振特征值XO(ti)指定为第三正态分布的随机变量而得到的值为似然度P(XO(ti)∣Zb,n≠0,β/2(ti))。
图13表示具有起振特征值XO的序列{10,2,0.5,5,1,0,3,4,2}的似然度P(XO(ti)∣Zb=6,n(ti))的对数计算的示例结果。如图13所示,帧ti具有的起振特征值XO越大,则与似然度P(XO(ti)∣Zb,n≠0(ti))相比似然度P(XO(ti)∣Zb,n=0(ti))越大。如上所述,设置概率模型(第一至第三正态分布及其参数(均值和方差)),使得帧ti具有的起振特征值XO越大,帧的数量n的值为“0”的节拍存在的概率越高。第一至第三正态分布的参数值不限制于上述实施例。可以基于重复试验或者通过机器学习来确定这些参数值。在该示例中,使用正态分布作为用以计算起振特征值XO的似然度P的概率分布函数。然而,可以使用不同的函数(例如,伽马分布或泊松分布)作为概率分布函数。
在步骤S173处,CPU12a计算似然度P(XB(ti)∣Zb,n(ti))。似然度P(XB(ti)∣Zb=γ,n(ti))等同于BPM特征值XB(ti)相对于图14中表示的模板TPγ{γ=1,2,…}的拟合优度。具体地,似然度P(XB(ti)∣Zb= γ,n(ti))等同于BPM特征值XB(ti)与模板TPγ{γ=1,2,…}之间的内积(见图12的步骤S173的表达式)。在该表达式中,“κb”是定义BPM特征值XB相对于起振特征值XO的权重的因子。换言之,κb越大,结果在稍后描述的节拍/拍速同时估计处理中得到的BPM特征值XB越大。另外,在该表达式中,“Z(κb)”是取决于κb的归一化因子。如图14所示,模板TPγ由要与形成BPM特征值XB(ti)的BPM特征值XBb(ti)相乘的因子δγ,b构成。设计模板TPγ使得δγ,γ全局最大,同时因子δγ,2 γ、因子δγ,3γ、…、因子δγ,(“γ”的整数倍)中的每一个局部最大。具体地,例如,模板TPγ=2被设计为拟合其中每隔两帧存在一个节拍的乐曲。在本示例中,模板TP用于计算BPM特征值XB的似然度P。然而,可以使用概率分布函数(例如,多项分布、狄利克雷分布、多维正态分布、以及多维泊松分布)来取代模板TP。
图15例示了在BPM特征值XB(ti)为图11所示的值的情况下通过使用图14所示的模板TPγ{γ=1,2,…}计算似然度P(XB(ti)∣Zb,n(ti))得到的对数计算的结果。在该示例中,由于似然度P(XB(ti)∣Zb=4,n(ti))最大,因此BPM特征值XB(ti)最好地拟合模板TP4。
在步骤S174处,CPU12a合并似然度P(XO(ti)∣Zb,n(ti))的对数和似然度P(XB(ti)∣Zb,n(ti))的对数,并且将合并的结果定义为对数观测似然度Lb,n(ti)。可以通过将合并似然度P(XO(ti)∣Zb,n(ti))和似然度P(XB(ti)∣Zb,n(ti))得到的结果的对数定义为对数观测似然度Lb,n(ti)来类似地得到相似的结果。在步骤S175处,CPU12a终止对数观测似然度计算处理,以前进到声音信号分析处理(主程序)的步骤S18。
在步骤S18处,CPU12a从ROM12b中读出图16表示的节拍/拍速同时估计程序,并且执行该程序。节拍/拍速同时估计程序是声音信号分析程序的子程序。节拍/拍速同时估计程序是用于通过使用维特比(Viterbi)算法来计算极大似然度的序列Q的程序。在下文中,将简略的说明该程序。首先,CPU12a将在选择似然度序列就好像当从帧t0至帧ti观测起振特征值XO和BPM特征值XB时帧ti的状态qb,n最大的情况下的状态qb,n的似然度存储作为似然度Cb,n(ti)。另外,CPU12a还分别将恰在向状态qb,n转变之前的帧的状态(紧挨在转变之前的状态)存储作为状态Ib,n(ti)。具体地,如果转变后的状态是状态qb=βe,n=ηe,同时转变前的状态是状态qb=βs,n=ηs,则状态Ib=βe,n=ηe(ti)是状态qb=βs,n=ηs。CPU12a计算似然度C和状态I直到CPU12a达到帧t最后,并且使用计算结果来选择极大似然度序列Q。
在稍后将描述的具体示例中,为简洁起见,将要分析的乐曲的节拍周期b的值为“3”、“4”或“5”。作为具体示例,具体地将说明如图17所示的计算对数观测似然度Lb,n(ti)的情况的节拍/拍速同时估计处理的程序。在该示例中,假设其中拍速周期b的值为“3”、“4”和“5”以外的任何值的状态的观测似然度足够小,使得图17至图19中省略了其中拍速周期b的值为“3”、“4”和“5”以外的任何值的情况的观测似然度。另外,在该示例中,按如下方式来设置从其中节拍周期b的值为“βs”且帧的数量n的值为“ηs”的状态向其中节拍周期b的值为“βe”且帧的数量n的值为“ηe”的状态的对数转变概率T的值:如果“ηe=0”、“βe=βs”且“ηe=βe-1”,则对数转变概率T的值为“-0.2”。如果“ηs=0”、“βe=βs+1”且“ηe=βe-1”,则对数转变概率T的值为“-0.6”。如果“ηs=0”、“βe=βs-1”且“ηe=βe-1”,则对数转变概率T的值为“-0.6”。如果“ηs>0”、“βe=βs”并且“ηe=ηs-1”,则对数转变概率T的值为“0”。除上述情况以外的情况的对数转变概率T的值为“-∞”。具体地,在从其中帧的数量n的值为“0”的状态(ηs=0)向下一状态转变时,节拍周期b的值增加或减小“1”。另外,在该转变时,帧的数量n的值被设置为比转变后节拍周期值b小“1”的值。在从其中帧的数量n的值不是“0”的状态(ηs≠0)转变至下一状态时,将不改变节拍周期b的值,但是帧的数量n的值减“1”。
在下文中,将具体描述节拍/拍速同时估计处理。在步骤S181处,CPU12a开始节拍/拍速同时估计处理。在步骤S182处,用户通过使用输入操作元件11来输入与图18所示的各个状态qb,n对应的似然度C的初始条件CSb,n。初始条件CSb,n可以存储在ROM12b中使得CPU12a可以从ROM12b中读出初始条件CSb,n。
在步骤S183处,CPU12a计算似然度Cb,n(ti)和状态Ib,n(ti)。可以通过将初始条件CSb=βe,n=ηe与对数观测似然度Lb=βe,n=ηe(t0)结合来得到其中节拍周期b的值为“βe”并且帧的数量n的值为“ηe”的状态qb=βe,n=ηe中的似然度Cb=βe,n=ηe(t0)。
此外,在从状态qb=βs,n=ηs向状态qb=βe,n=ηe转变时,可以按如下方式来计算似然度Cb=βe,n=ηe(ti){i>0}。如果状态qb=βs,n=ηs的帧的数量n不为“0”(即,ηs≠0),则通过合并似然度Cb=βe,n=ηe+1(ti-1)、对数观测似然度Lb=βe,n=ηe(ti)和对数转变概率T来得到似然度Cb=βe,n=ηe(ti)。然而,在该实施例中,由于转变之前的状态的帧的数量n不是“0”的情况下的对数转变概率T为“0”,因此实质上通过合并Cb=βe,n=ηe+1(ti-1)和对数观测似然度Lb=βe,n=ηe(ti)来得到似然度Cb=βe,n=ηe(ti)(Cb=βe,n=ηe(ti)=Cb=βe,n=ηe+1(ti-1)+Lb=βe,n=ηe(ti))。另外,在该情况下,状态Ib=βe,n=ηe(ti)是状态qb=βe,n=ηe+1。例如,在如图18所示来计算似然度C的示例中,似然度C4,1(t2)的值为“2”,同时对数观测似然度L4,0(t3)的值为“1”。因此,似然度C4,0(t3)为“3”。另外,如图19所示,状态I4,0(t3)为状态q4,1。
此外,按如下方式来计算状态qb=βs,n=ηs的帧的数量n为“0”的情况(ηs=0)的似然度Cb=βe,n=ηe(ti)。在该情况下,随着状态转变,节拍周期b的值可以增加或减少。因此,分别将对数概率T与似然度Cβe-1,0(ti-1)、似然度Cβe,0(ti-1)和似然度Cβe+1,0(ti-1)合并。然后,进一步将合并的结果的最大值与对数观测似然度Lb=βe,n=ηe(ti)合并,从而将合并的结果定义为似然度Cb=βe,n=ηe(ti)。此外,状态Ib=βe,n=ηe(ti)是选自状态qβe-1,0、状态qβe,0、和状态qβe+1,0的状态q。具体地,将对数转变概率T分别加至状态qβe-1,0、状态qβe,0、和状态qβe+1,0的似然度Cβe-1,0(ti-1)、似然度Cβe,0(ti-1)和似然度Cβe+1,0(ti-1),以选择具有最大求和值的状态,从而将选择的状态定义为状态Ib=βe,n=ηe(ti)。更加严格地,需要将Cb,n(ti)归一化。然而,即使不进行归一化,节拍位置和拍速变化的估计结果数学上仍是相同的。
例如,按如下方式来计算似然度C4,3(t4)。由于在转变之前的状态为状态q3,0的情况下,似然度C3,0(t3)的值为“0.4”同时对数转变概率T为“-0.6”,因此通过合并似然度C3,0(t3)和对数转变概率T得到的值为“-0.2”。另外,由于在转变前的状态为状态q4,0的情况下,转变前的似然度C4,0(t3)的值为“3”同时对数转变概率T为“-0.2”,因此通过合并似然度C4,0(t3)和对数转变概率T得到的值为“2.8”。此外,由于在转变前的状态为状态q5,0的情况下,转变前的似然度C5,0(t3)的值为“1”同时对数转变概率T为“-0.6”,因此通过合并似然度C5,0(t3)和对数转变概率T得到的值为“0.4”。因此,通过合并似然度C4,0(t3)和对数转变概率T得到的值最大。此外,对数观测似然度L4,3(t4)的值为“0”。因此,似然度C4,3(t4)的值为“2.8”(=2.8+0)。因此,似然度C4,3(t4)的值为“2.8”(=2.8+0),使得状态I4,3(t4)为状态Q4,0。
当针对所有帧ti完成了对所有状态qb,n的似然度Cb,n(ti)和状态Ib,n(ti)的计算时,CPU12a前进到步骤S184,以按如下方式来确定极大似然度状态的序列Q(={qmax(t0),qmax(t1),…,qmax(t最后)})。首先,CPU12a将帧t最后内的具有极大似然度Cb,n(t最后)的状态qb,n定义为状态qmax(t最后)。状态qmax(t最后)的节拍周期b的值由“βm”表示,同时帧的数量n的值由“ηm”表示。具体地,状态Iβm,ηm(t最后)是紧挨在帧t最 后之前的帧t最后-1的状态qmax(t最后-1)。按类似于状态qmax(t最后-1)的方式来确定帧t最后-2、帧t最后-3、…的状态qmax(t最后-2)、状态qmax(t最后-3)、…。具体地,其中帧ti+1的状态qmax(ti+1)的节拍周期b的值由“βm”表示、同时帧的数量n的值由“ηm”表示的状态Iβm,ηm(ti+1)是紧挨在帧ti+1之前的帧ti的状态qmax(ti)。如上所述,CPU12a依次确定从帧t最后-1至帧t0的状态qmax,以确定极大似然状态的序列Q。
例如,在图18和图19示出的示例中,在帧t最后=9中,状态q4,2的似然度C4,2(t最后=9)最大。因此,状态qmax(t最后=9)为状态q4,2。根据图19,由于状态I4,2(t9)为状态q4,3,因此状态qmax(t8)为状态q4,3。另外,由于状态I4,3(t8)为状态q4,0,因此状态qmax(t7)为状态q4,0。同样按类似于状态qmax(t8)和状态qmax(t7)的方式来确定状态qmax(t6)至状态qmax(t0)。如上所述,确定了如图18中的箭头所示的极大似然状态的序列Q。在该示例中,在任何帧ti中节拍周期b的值被估计为“4”。另外,在序列Q中,估计出节拍存在于与其中帧的数量n的值为“0”的状态qmax(t1)、qmax(t5)和qmax(t8)对应的帧t1、t5和t8中。
在步骤S185处,CPU12a终止节拍/拍速同时估计处理以前进到声音信号分析处理(主程序)的步骤S19。
在步骤S19处,CPU12a针对每个帧ti计算“BPM率”、“基于观测的概率”、“节拍率”、“节拍存在的概率”、以及“节拍不存在的概率”(见图20所示的表示)。“BPM率”表示帧ti中的拍速值是与节拍周期b对应的值的概率。“BPM率”是通过使似然度Cb,n(ti)归一化并且使帧的数量n边缘化来得到的。具体地,在节拍周期b的值为“β”的情况下的“BPM率”是其中节拍周期b的值为“β”的各状态的似然度C之和与帧ti中所有状态的似然度C之和的比率。“基于观测的概率”表示基于其中在帧ti中存在节拍的观测值(即,起振特征值XO)所计算的概率。具体地,“基于观测的概率”为起振特征值XO(ti)与某个基准值XObase的比率。“节拍率”为似然度P(XO(ti)∣Zb,0(ti))与通过结合帧的数量n的所有值的起振特征值XO(ti)的似然度P(XO(ti)∣Zb,n(ti))二得到的值的比率。“节拍存在的概率”和“节拍不存在的概率”是通过使节拍周期b的似然度Cb,n(ti)边缘化得到的。具体地,“节拍存在的概率”为其中帧的数量n的值为“0”的各状态的似然度C之和与帧ti中所有状态的似然度C之和的比率。“节拍不存在概率”为其中帧的数量n的值不为“0”的各状态的似然度C之和与帧ti中所有状态的似然度C之和的比率。
通过使用“BPM率”、“基于观测的概率”、“节拍率”、“节拍存在的概率”、以及“节拍不存在的概率”,CPU12a在显示单元13上显示如图20所示的节拍/拍速信息列表。在列表的“估计的拍速值(BPM)”栏,显示与具有在以上计算的“BPM率”所包含的概率中的最高概率的节拍周期b对应的拍速值(BPM)。在包含在以上确定的状态qmax(ti)内并且其帧的数量n的值为“0”的帧的“节拍的存在”栏上,显示“○”。在其它帧的“节拍的存在”栏上,显示“×”。而且,通过使用估计的拍速值(BPM),CPU12a在显示单元13上显示如图21所示的表示拍速变化的图。图21所示的示例将拍速的变化表示为柱状图。在参照图18和图19说明的示例中,由于拍速值为恒定的,因此表示各个帧的拍速的柱状具有一致的高度,如图21所示。然而,拍速频繁变化的乐曲具有取决于拍速值的不同高度的柱状,如图22所示。因此,用户可以从视觉上识别出拍速的变化。而且,通过使用以上计算的“节拍存在的概率”,CPU12a在显示单元13上显示如图23所示的表示节拍位置的图。
而且,在通过在声音信号分析处理的步骤S13处搜索现有数据而找到了现有数据的情况下,在步骤S19处CPU12a通过使用在步骤S15处读入至RAM12c的与先前分析结果有关的各种数据,在显示单元13显示节拍/拍速信息列表、表示拍速变化的图、以及表示节拍位置的图。
在步骤S20处,CPU12a在显示单元13上显示询问用户是否想要终止声音信号分析处理的消息,并且等待用户的指示。用户通过使用输入操作元件11,要么指示终止声音信号分析处理,要么指示执行稍后描述的节奏/拍速信息校正处理。例如,用户用鼠标点击图标。如果用户已指示终止声音信号分析处理,则CPU12a确定为“是”,以前进到步骤S21,将有关似然度C、状态I、和节拍/拍速信息列表的分析结果的各种数据存储在存储装置14中,使得各种数据与乐曲的标题相关联,进而前进到步骤S22,终止声音信号分析处理。
如果在步骤S20处用户已指示继续声音信号分析处理,则CPU12a确定为“否”,以前进到步骤S23,执行拍速信息校正处理。首先,CPU12a进行等待直到用户完成校正信息的输入。用户通过使用操作元件11,输入“BPM率”、“节拍存在的概率”等的校正值。例如,用户用鼠标选择其想要校正的帧,并且用数字小键盘输入校正值。然后,为了明确地表示值的校正,位于校正项的右边的“F”的显示模式(例如,颜色)改变。用户可以校正多个项的各个值。一旦完成校正值的输入,用户通过使用输入操作元件11通知完成了校正信息的输入。例如,用户通过使用鼠标来点击表示校正完成的图标。CPU12a根据校正值来更新似然度P(XO(ti)∣Zb,n(ti))和似然度P(XB(ti)∣Zb,n(ti))中的任一个或两者。例如,在用户已进行校正使得帧ti中的“节拍存在的概率”增加同时针对校正值的帧的数量n为“ηe”的情况下,CPU12a将似然度P(XB(ti)∣Zb,n≠ηe(ti))设置为足够小的值。因此,在帧ti处,帧的数量n的值为“ηe”的概率相对最高。而且,例如,在用户已校正帧ti的“BPM率”使得节拍周期b的值为“βe”的概率增加的情况下,CPU12a将其中节拍周期b的值不为“βe”的状态的似然度P(XB(ti)∣Zb≠βe,n(ti))设置为足够小的值。因此,在帧ti处,节拍周期b的值为“βe”的概率相对最高。然后,CPU12a终止节拍/拍速信息校正处理,以前进到步骤S18,通过用校正的对数观测似然度L来再次执行节奏/拍速同时估计处理。
以上配置的声音信号分析设备10可以选择通过使用与节拍位置相关的起振特征值XO和与拍速相关的BPM特征值XB所计算出的对数观测似然度L的最可能的序列的概率模型,以同时(一道地)估计乐曲中的节拍位置和拍速的变化。因此,与上述现有技术不同的是,声音信号分析设备10将不会呈现以下问题:节拍位置或拍速之一的低精度估计导致另一个的低精度估计。因此,与现有技术相比,声音信号分析设备10可以提高乐曲中节拍位置和拍速变化的估计精度。
另外,在本实施例中,设置各状态之间的转变概率(对数转变概率)使得仅容许从其中帧的数量n的值为“0”的状态向节拍周期b的值相同的状态或者其中节拍周期b的值相差“1”的状态的转变。因此,声音信号分析设备10可以防止引起帧与帧之间拍速突变的错误估计。结果,声音信号分析设备10可以得到带来作为乐曲的较为自然的节拍位置和拍速变化的估计结果。对于其中拍速突变的乐曲,声音信号分析设备10可以设置各状态之间的转变概率(对数转变概率),使得还容许从其中到下一节拍之间的帧的数量n的值为“0”的状态到节拍周期b的值极大地不同的状态的转变。
由于声音信号分析设备10使用维特比(Viterbi)算法用于节拍/拍速同时估计处理,因此与使用了不同算法(例如,“采样法”、“前向-后向算法”等)的情况相比,声音信号分析设备10可以减少计算量。
另外,根据用户的输入校正信息,声音信号分析设备10校正对数观测似然度L,并且根据校正的对数观测似然度L来重新估计乐曲中的节拍位置和拍速的变化。因此,声音信号分析设备10重新计算(重新选择)位于校正的帧之前和之后的一个或多个帧的极大似然度的状态qmax。因此,声音信号分析设备10可以得到这样的估计结果:该估计结果带来了从校正帧到位于校正帧之前和之后的一个或多个帧的节拍间隔和拍速的平滑变化。
例如,如上估计的关于乐曲中的节拍位置和拍速变化的信息用于搜索乐曲数据以及搜索表示伴奏的伴奏数据。此外,该信息还用于针对分析的乐曲自动生成伴奏部分以及自动添加和声。
而且,本发明不限制于上述实施例,并且可以在不偏离本发明目的的情况下对其进行多样修改。
例如,上述实施例选择了最可能的观测似然度序列的概率模型,其表示作为观测值的起振特征值XO和BPM特征值XB的同时观测的概率。然而,概率模型的选择标准不限制于那些实施例。例如,可以选择最大后验分布的概率模型。
另外,为了简洁起见,设计上述实施例使得每个帧的长度为125ms。然而,每个帧可以具有更短的长度(例如,5ms)。减小的帧长度可以有助于改善与节拍位置和拍速的估计相关的分辨率。例如,增强的分辨率能够使拍速估计按1BPM增加。而且,尽管上述实施例被设计为具有相同长度的帧,但各帧可以具有不同的长度。同样在这样的情况下,可以按类似于本实施例的方式来计算起振特征值XO。在该情况下,对于BPM特征值XB的计算,优选的是根据帧长度来改变梳状滤波器的延迟量。而且,对于似然度C的计算,计算出各个帧长度的最大公约数(即,构成帧的样本数量的最大公约数)。然后,优选的是,如果帧ti的长度(=τ)由L(τ)×F表示,则将从状态qb,n(n≠0)到状态qb,n-L(τ)的转变的概率限定为100%。
另外,在上述实施例中,对整个乐曲进行分析。然而,可以仅对乐曲的一部分(例如,几小节)进行分析。在该情况下,实施例可以修改为容许用户选择一部分的输入乐曲数据来限定为要分析的部分。此外,可以仅对乐曲的单个部分(例如,节奏部分)进行分析。
另外,对于拍速估计,上述实施例可以修改为使得用户可以指定估计时给出高优先级的拍速范围。具体地,在声音信号分析处理的步骤S12处,声音信号分析设备10可以显示诸如“急板”和“中板”之类的表示拍速的项,使得用户可以选择估计时给出高优先级的拍速范围。例如,在用户选择“急板”的情况下,声音信号分析设备10会将BPM=160至190的范围以外拍速的对数观测似然度L设置为足够小的值。由此,可以优先估计BPM=160至190的范围的拍速。因此,在用户已知受到分析的乐曲的合适拍速的情况下,声音信号分析设备10可以增加拍速估计的精度。
在节拍/拍速信息校正处理(步骤S23)中,通过使用输入操作元件11提示用户输入校正。然而,取代输入操作元件11或除输入操作元件11以外,声音信号分析设备10可以容许用户通过使用经由外部接口电路15连接的电子键盘乐器、电子打击乐器等的操作元件来输入校正。例如,响应于用户对电子键盘乐器的按键的按压,CPU12a根据用户的按键-按压的时序来计算拍速,从而将计算的拍速用作“BPM率”的校正值。
另外,在实施例中,用户可以以用户期望的次来输入节拍位置和拍速的校正值。然而,实施例可以修改为在“节拍存在的概率”的平均值达到基准值(例如,80%)的情况下禁止用户输入节拍位置和拍速的校正值。
另外,对于节拍/拍速信息校正处理(步骤S23),除了将用户的指定帧的节奏/拍速信息校正为具有用户的输入值,还可以修改实施例使得根据用户的输入值来自动校正用户的指定帧的相邻帧的节拍/拍速信息。例如,在一些连续帧具有相同的估计拍速值并且其中一个帧的值被用户校正的情况下,声音信号分析设备10可以自动校正各帧的各个拍速值以具有用户的校正值。
另外,在上述实施例中,在步骤S23处,响应于用户通过使用输入操作元件11给出的完成输入校正值的指示,再次执行节拍位置和拍速的同时估计。然而,可以修改实施例使得在用户输入至少一个校正值后,没有进行任何其它值的额外校正的情况下,当某一时间段(例如,10秒)过去时再次执行节拍位置和拍速的估计。
另外,节拍/拍速信息列表的显示模式(图20)不限制于本实施例的显示模式。例如,尽管在本实施例中“BPM率”、“节拍率”等由概率(%)表示,但“BPM率”、“节拍率”等还可以由符号、字符串等来表示。另外,在实施例中,在包含在确定的状态qmax(ti)内并且其帧的数量n为“0”的帧ti的“节拍的存在”栏上显示“○”,而在其它帧的“节拍的存在”栏上显示“×”。然而,取代该实施例的显示模式,可以修改实施例使得在“节拍位置存在的概率”为基准值(例如,80%)或更大时在“节拍的存在”栏上显示“○”,而在“节拍位置存在的概率”小于基准值时在“节拍的存在”栏上显示“×”。另外,在该修改中,可以提供多个基准值。例如,可以提供第一基准值(=80%)和第二基准值(=60%)使得可以在“节拍位置存在的概率”为第一基准值或更大时在“节拍的存在”栏上显示“○”,可以在“节拍位置存在的概率”为第二基准值或更大并且小于第一基准值时在“节拍的存在”栏上显示“△”,以及在“节拍位置存在的概率”小于第二基准值时在“节拍的存在”栏上显示“×”。另外,可以修改实施例使得在估计拍速值的栏上显示诸如“急板”和“中板”之类的表示拍速的术语。
Claims (10)
1.一种声音信号分析设备,包括:
声音信号输入装置,其用于输入表示乐曲的声音信号;
特征值计算装置,其用于计算第一特征值和第二特征值,所述第一特征值表示与所述乐曲的各部分当中的一个部分中的节拍的存在相关的特征,所述第二特征值表示与所述乐曲的各部分当中的一个部分中的拍速相关的特征;以及
估计装置,其用于通过从多个概率模型中选择其观测似然度的序列满足一定的标准的一个概率模型来同时估计所述乐曲中的节拍位置和拍速变化,所述多个概率模型被描述为根据与所述乐曲的各部分当中的一个部分中的节拍的存在相关的物理量和与所述乐曲的各部分当中的一个部分中的拍速相关的物理量的结合来分类的各状态的序列,所述一个概率模型的所述观测似然度的序列中的每一个观测似然度表示所述乐曲中的相应一个部分中的所述第一特征值和所述第二特征值的同时观测概率。
2.根据权利要求1所述的声音信号分析设备,其中
所述估计装置通过从所述多个概率模型中选择最可能的观测似然度的序列的概率模型来同时估计所述乐曲中的节拍位置和拍速变化。
3.根据权利要求1所述的声音信号分析设备,其中
所述估计装置具有第一概率输出装置,其用于输出这样的概率来作为所述第一特征值的观测概率:所述概率是通过将所述第一特征值指定为根据与节拍的存在相关的物理量而定义的概率分布函数的概率变量来计算得到的。
4.根据权利要求3所述的声音信号分析设备,其中
所述第一概率输出装置输出通过将所述第一特征值指定为根据与节拍的存在相关的物理量来定义的正态分布、伽马分布和泊松分布中的任何一个的概率变量而计算出的概率,来作为所述第一特征值的观测概率。
5.根据权利要求1所述的声音信号分析设备,其中
所述估计装置具有第二概率输出装置,其用于将所述第二特征的拟合优度输出至根据与拍速相关的物理量而提供的多个模板来作为所述第二特征值的观测概率。
6.根据权利要求1所述的声音信号分析设备,其中
所述估计装置具有第二概率输出装置,其用于输出这样的概率来作为所述第二特征值的观测概率:所述概率是通过将所述第二特征值指定为根据与拍速相关的物理量而定义的概率分布函数的概率变量而计算得到的。
7.根据权利要求6所述的声音信号分析设备,其中
所述第二概率输出装置输出通过将所述第二特征值指定为根据与拍速相关的物理量来定义的多项分布、狄利克雷分布、多维正态分布、以及多维泊松分布中的任何一个的概率变量而计算出的概率,作为所述第二特征值的观测概率。
8.根据权利要求1所述的声音信号分析设备,其中
所述乐曲的各部分分别对应于通过以一定的时间间隔来划分所输入的声音信号而形成的各帧;并且
所述特征值计算装置具有:
第一特征值计算装置,其用于针对每个帧来计算振幅谱,将各自具有不同频带的多个窗函数应用至所述振幅谱,以生成每个频带的振幅谱,并且将基于针对各帧之间的每个频带提供的振幅谱的变化而计算出的值输出作为所述第一特征值;以及
第二特征值计算装置,其具有滤波器,所述滤波器响应于每一个与帧对应的值的输入来输出值,所述滤波器具有用于将所输出的值保持一定时间段的保持装置,并且所述滤波器将所输入的值和保持了一定时间段的值以一定的比率结合并输出所结合的值,所述第二特征值计算装置将这样的数据序列输出作为所述第二特征值的序列的数据序列:所述数据序列是通过将对通过将所述第一特征值的序列输入至所述滤波器而得到的数据序列的时间序列进行颠倒来获得的数据序列输入至所述滤波器而得到的。
9.根据权利要求1所述的声音信号分析设备,还包括:
校正信息输入装置,其用于输入表示所述乐曲中的节拍位置和拍速变化中的一个或两者的校正内容的校正信息;
观测似然度校正装置,其用于根据所输入的校正信息来校正所述观测似然度;以及
再估计装置,其用于通过使用所述估计装置从所述多个概率模型中选择其校正后的观测似然度的序列满足所述一定标准的概率模型,来同时地再估计所述乐曲中的节拍位置和拍速变化。
10.一种声音信号分析方法,包括步骤:
声音信号输入步骤,用于输入表示乐曲的声音信号;
特征值计算步骤,用于计算第一特征值和第二特征值,所述第一特征值表示与所述乐曲的各部分当中的一个部分中的节拍的存在相关的特征,所述第二特征值表示与乐曲的各部分当中的一个部分中的拍速相关的特征;以及
估计步骤,用于通过从多个概率模型中选择其观测似然度的序列满足一定的标准的一个概率模型来同时估计所述乐曲中的节拍位置和拍速变化,所述多个概率模型被描述为根据与所述乐曲的各部分当中的一个部分中的节拍的存在相关的物理量和与所述乐曲的各部分当中的一个部分中的拍速相关的物理量的结合来分类的各状态的序列,所述一个概率模型的所述观测似然度的序列中的每一个观测似然度均表示所述乐曲中的相应一个部分中的所述第一特征值和所述第二特征值的同时观测概率。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013051158A JP6123995B2 (ja) | 2013-03-14 | 2013-03-14 | 音響信号分析装置及び音響信号分析プログラム |
JP2013-051158 | 2013-03-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104050972A true CN104050972A (zh) | 2014-09-17 |
CN104050972B CN104050972B (zh) | 2019-07-30 |
Family
ID=50190342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410092701.2A Active CN104050972B (zh) | 2013-03-14 | 2014-03-13 | 声音信号分析设备以及声音信号分析方法和程序 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9171532B2 (zh) |
EP (1) | EP2779155B1 (zh) |
JP (1) | JP6123995B2 (zh) |
CN (1) | CN104050972B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107045867A (zh) * | 2017-03-22 | 2017-08-15 | 科大讯飞股份有限公司 | 自动作曲方法、装置和终端设备 |
CN107210029A (zh) * | 2014-12-11 | 2017-09-26 | 优博肖德工程公司 | 用于处理一连串信号以进行复调音符辨识的方法和装置 |
CN109192200A (zh) * | 2018-05-25 | 2019-01-11 | 华侨大学 | 一种语音识别方法 |
CN109478399A (zh) * | 2016-07-22 | 2019-03-15 | 雅马哈株式会社 | 演奏分析方法、自动演奏方法及自动演奏*** |
CN112601934A (zh) * | 2018-09-03 | 2021-04-02 | 三菱电机株式会社 | 信号显示控制装置以及信号显示控制程序 |
US11366627B2 (en) * | 2017-12-18 | 2022-06-21 | Mitsubishi Electric Corporation | Display control device, display system, display device, and display method |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6179140B2 (ja) | 2013-03-14 | 2017-08-16 | ヤマハ株式会社 | 音響信号分析装置及び音響信号分析プログラム |
JP6123995B2 (ja) * | 2013-03-14 | 2017-05-10 | ヤマハ株式会社 | 音響信号分析装置及び音響信号分析プログラム |
JP6481319B2 (ja) * | 2014-10-01 | 2019-03-13 | ヤマハ株式会社 | 楽譜表示装置および楽譜表示方法 |
JP6759545B2 (ja) * | 2015-09-15 | 2020-09-23 | ヤマハ株式会社 | 評価装置およびプログラム |
JP6690181B2 (ja) * | 2015-10-22 | 2020-04-28 | ヤマハ株式会社 | 楽音評価装置及び評価基準生成装置 |
US10224014B2 (en) * | 2016-12-29 | 2019-03-05 | Brandon Nedelman | Audio effect utilizing series of waveform reversals |
JP6747236B2 (ja) * | 2016-10-24 | 2020-08-26 | ヤマハ株式会社 | 音響解析方法および音響解析装置 |
JP6729515B2 (ja) | 2017-07-19 | 2020-07-22 | ヤマハ株式会社 | 楽曲解析方法、楽曲解析装置およびプログラム |
US10770092B1 (en) | 2017-09-22 | 2020-09-08 | Amazon Technologies, Inc. | Viseme data generation |
JP7064509B2 (ja) * | 2017-12-29 | 2022-05-10 | AlphaTheta株式会社 | 音響機器および音響機器用プログラム |
CN113223487B (zh) * | 2020-02-05 | 2023-10-17 | 字节跳动有限公司 | 一种信息识别方法及装置、电子设备和存储介质 |
WO2022181477A1 (ja) * | 2021-02-25 | 2022-09-01 | ヤマハ株式会社 | 音響解析方法、音響解析システムおよびプログラム |
CN113590872B (zh) * | 2021-07-28 | 2023-11-28 | 广州艾美网络科技有限公司 | 跳舞谱面生成的方法、装置以及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100017034A1 (en) * | 2008-07-16 | 2010-01-21 | Honda Motor Co., Ltd. | Beat tracking apparatus, beat tracking method, recording medium, beat tracking program, and robot |
CN101740010A (zh) * | 2008-11-21 | 2010-06-16 | 索尼株式会社 | 信息处理设备、声音分析方法和程序 |
CN101916564A (zh) * | 2008-12-05 | 2010-12-15 | 索尼株式会社 | 信息处理装置、旋律线提取方法、低音线提取方法及程序 |
CN102074233A (zh) * | 2009-11-20 | 2011-05-25 | 鸿富锦精密工业(深圳)有限公司 | 乐曲辨识***及方法 |
CN102347022A (zh) * | 2010-08-02 | 2012-02-08 | 索尼公司 | 音乐速度检测装置、音乐速度检测方法和程序 |
Family Cites Families (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5585585A (en) | 1993-05-21 | 1996-12-17 | Coda Music Technology, Inc. | Automated accompaniment apparatus and method |
US5521323A (en) | 1993-05-21 | 1996-05-28 | Coda Music Technologies, Inc. | Real-time performance score matching |
US5808219A (en) * | 1995-11-02 | 1998-09-15 | Yamaha Corporation | Motion discrimination method and device using a hidden markov model |
EP1490767B1 (en) * | 2001-04-05 | 2014-06-11 | Audible Magic Corporation | Copyright detection and protection system and method |
US8487176B1 (en) * | 2001-11-06 | 2013-07-16 | James W. Wieder | Music and sound that varies from one playback to another playback |
JP4201679B2 (ja) | 2003-10-16 | 2008-12-24 | ローランド株式会社 | 波形発生装置 |
US7518053B1 (en) | 2005-09-01 | 2009-04-14 | Texas Instruments Incorporated | Beat matching for portable audio |
US7668610B1 (en) * | 2005-11-30 | 2010-02-23 | Google Inc. | Deconstructing electronic media stream into human recognizable portions |
JP4654896B2 (ja) | 2005-12-06 | 2011-03-23 | ソニー株式会社 | オーディオ信号の再生装置および再生方法 |
JP3968111B2 (ja) | 2005-12-28 | 2007-08-29 | 株式会社コナミデジタルエンタテインメント | ゲームシステム、ゲーム機及びゲームプログラム |
JP4415946B2 (ja) | 2006-01-12 | 2010-02-17 | ソニー株式会社 | コンテンツ再生装置および再生方法 |
DE602007001281D1 (de) | 2006-01-20 | 2009-07-30 | Yamaha Corp | Vorrichtung zur Steuerung der Wiedergabe von Musik und Vorrichtung zur Wiedergabe von Musik |
JP5351373B2 (ja) | 2006-03-10 | 2013-11-27 | 任天堂株式会社 | 演奏装置および演奏制御プログラム |
JP4487958B2 (ja) | 2006-03-16 | 2010-06-23 | ソニー株式会社 | メタデータ付与方法及び装置 |
JP4660739B2 (ja) * | 2006-09-01 | 2011-03-30 | 独立行政法人産業技術総合研究所 | 音分析装置およびプログラム |
US8005666B2 (en) * | 2006-10-24 | 2011-08-23 | National Institute Of Advanced Industrial Science And Technology | Automatic system for temporal alignment of music audio signal with lyrics |
JP4322283B2 (ja) * | 2007-02-26 | 2009-08-26 | 独立行政法人産業技術総合研究所 | 演奏判定装置およびプログラム |
JP4311466B2 (ja) | 2007-03-28 | 2009-08-12 | ヤマハ株式会社 | 演奏装置およびその制御方法を実現するプログラム |
US20090071315A1 (en) * | 2007-05-04 | 2009-03-19 | Fortuna Joseph A | Music analysis and generation method |
JP5088030B2 (ja) * | 2007-07-26 | 2012-12-05 | ヤマハ株式会社 | 演奏音の類似度を評価する方法、装置およびプログラム |
JP4953478B2 (ja) * | 2007-07-31 | 2012-06-13 | 独立行政法人産業技術総合研究所 | 楽曲推薦システム、楽曲推薦方法及び楽曲推薦用コンピュータプログラム |
JP4882918B2 (ja) * | 2007-08-21 | 2012-02-22 | ソニー株式会社 | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
JP4640407B2 (ja) * | 2007-12-07 | 2011-03-02 | ソニー株式会社 | 信号処理装置、信号処理方法及びプログラム |
JP5092876B2 (ja) | 2008-04-28 | 2012-12-05 | ヤマハ株式会社 | 音響処理装置およびプログラム |
US8481839B2 (en) | 2008-08-26 | 2013-07-09 | Optek Music Systems, Inc. | System and methods for synchronizing audio and/or visual playback with a fingering display for musical instrument |
JP5463655B2 (ja) * | 2008-11-21 | 2014-04-09 | ソニー株式会社 | 情報処理装置、音声解析方法、及びプログラム |
JP5282548B2 (ja) * | 2008-12-05 | 2013-09-04 | ソニー株式会社 | 情報処理装置、音素材の切り出し方法、及びプログラム |
JP5206378B2 (ja) * | 2008-12-05 | 2013-06-12 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US9310959B2 (en) * | 2009-06-01 | 2016-04-12 | Zya, Inc. | System and method for enhancing audio |
JP5605066B2 (ja) * | 2010-08-06 | 2014-10-15 | ヤマハ株式会社 | 音合成用データ生成装置およびプログラム |
JP6019858B2 (ja) * | 2011-07-27 | 2016-11-02 | ヤマハ株式会社 | 楽曲解析装置および楽曲解析方法 |
CN102956230B (zh) * | 2011-08-19 | 2017-03-01 | 杜比实验室特许公司 | 对音频信号进行歌曲检测的方法和设备 |
US8886345B1 (en) | 2011-09-23 | 2014-11-11 | Google Inc. | Mobile device audio playback |
US8873813B2 (en) * | 2012-09-17 | 2014-10-28 | Z Advanced Computing, Inc. | Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities |
US9015084B2 (en) * | 2011-10-20 | 2015-04-21 | Gil Thieberger | Estimating affective response to a token instance of interest |
JP5935503B2 (ja) * | 2012-05-18 | 2016-06-15 | ヤマハ株式会社 | 楽曲解析装置および楽曲解析方法 |
US20140018947A1 (en) | 2012-07-16 | 2014-01-16 | SongFlutter, Inc. | System and Method for Combining Two or More Songs in a Queue |
KR101367964B1 (ko) * | 2012-10-19 | 2014-03-19 | 숭실대학교산학협력단 | 복합 센서를 이용한 사용자 상황 인식 방법 |
US8829322B2 (en) * | 2012-10-26 | 2014-09-09 | Avid Technology, Inc. | Metrical grid inference for free rhythm musical input |
US9183849B2 (en) * | 2012-12-21 | 2015-11-10 | The Nielsen Company (Us), Llc | Audio matching with semantic audio recognition and report generation |
US9195649B2 (en) * | 2012-12-21 | 2015-11-24 | The Nielsen Company (Us), Llc | Audio processing techniques for semantic audio recognition and report generation |
US9620092B2 (en) * | 2012-12-21 | 2017-04-11 | The Hong Kong University Of Science And Technology | Composition using correlation between melody and lyrics |
US9158760B2 (en) * | 2012-12-21 | 2015-10-13 | The Nielsen Company (Us), Llc | Audio decoding with supplemental semantic audio recognition and report generation |
EP2772904B1 (en) * | 2013-02-27 | 2017-03-29 | Yamaha Corporation | Apparatus and method for detecting music chords and generation of accompaniment. |
JP6179140B2 (ja) * | 2013-03-14 | 2017-08-16 | ヤマハ株式会社 | 音響信号分析装置及び音響信号分析プログラム |
JP6123995B2 (ja) * | 2013-03-14 | 2017-05-10 | ヤマハ株式会社 | 音響信号分析装置及び音響信号分析プログラム |
CN104217729A (zh) * | 2013-05-31 | 2014-12-17 | 杜比实验室特许公司 | 音频处理方法和音频处理装置以及训练方法 |
GB201310861D0 (en) * | 2013-06-18 | 2013-07-31 | Nokia Corp | Audio signal analysis |
US9263018B2 (en) * | 2013-07-13 | 2016-02-16 | Apple Inc. | System and method for modifying musical data |
US9012754B2 (en) * | 2013-07-13 | 2015-04-21 | Apple Inc. | System and method for generating a rhythmic accompaniment for a musical performance |
-
2013
- 2013-03-14 JP JP2013051158A patent/JP6123995B2/ja active Active
-
2014
- 2014-03-05 EP EP14157744.5A patent/EP2779155B1/en active Active
- 2014-03-13 CN CN201410092701.2A patent/CN104050972B/zh active Active
- 2014-03-14 US US14/212,022 patent/US9171532B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100017034A1 (en) * | 2008-07-16 | 2010-01-21 | Honda Motor Co., Ltd. | Beat tracking apparatus, beat tracking method, recording medium, beat tracking program, and robot |
CN101740010A (zh) * | 2008-11-21 | 2010-06-16 | 索尼株式会社 | 信息处理设备、声音分析方法和程序 |
CN101916564A (zh) * | 2008-12-05 | 2010-12-15 | 索尼株式会社 | 信息处理装置、旋律线提取方法、低音线提取方法及程序 |
CN102074233A (zh) * | 2009-11-20 | 2011-05-25 | 鸿富锦精密工业(深圳)有限公司 | 乐曲辨识***及方法 |
CN102347022A (zh) * | 2010-08-02 | 2012-02-08 | 索尼公司 | 音乐速度检测装置、音乐速度检测方法和程序 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107210029A (zh) * | 2014-12-11 | 2017-09-26 | 优博肖德工程公司 | 用于处理一连串信号以进行复调音符辨识的方法和装置 |
CN107210029B (zh) * | 2014-12-11 | 2020-07-17 | 优博肖德Ug公司 | 用于处理一连串信号以进行复调音符辨识的方法和装置 |
CN109478399A (zh) * | 2016-07-22 | 2019-03-15 | 雅马哈株式会社 | 演奏分析方法、自动演奏方法及自动演奏*** |
CN107045867A (zh) * | 2017-03-22 | 2017-08-15 | 科大讯飞股份有限公司 | 自动作曲方法、装置和终端设备 |
CN107045867B (zh) * | 2017-03-22 | 2020-06-02 | 科大讯飞股份有限公司 | 自动作曲方法、装置和终端设备 |
US11366627B2 (en) * | 2017-12-18 | 2022-06-21 | Mitsubishi Electric Corporation | Display control device, display system, display device, and display method |
CN109192200A (zh) * | 2018-05-25 | 2019-01-11 | 华侨大学 | 一种语音识别方法 |
CN109192200B (zh) * | 2018-05-25 | 2023-06-13 | 华侨大学 | 一种语音识别方法 |
CN112601934A (zh) * | 2018-09-03 | 2021-04-02 | 三菱电机株式会社 | 信号显示控制装置以及信号显示控制程序 |
CN112601934B (zh) * | 2018-09-03 | 2023-02-17 | 三菱电机株式会社 | 信号显示控制装置以及计算机可读取的记录介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2014178394A (ja) | 2014-09-25 |
US9171532B2 (en) | 2015-10-27 |
CN104050972B (zh) | 2019-07-30 |
EP2779155B1 (en) | 2017-05-10 |
EP2779155A1 (en) | 2014-09-17 |
JP6123995B2 (ja) | 2017-05-10 |
US20140260912A1 (en) | 2014-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104050972A (zh) | 声音信号分析设备以及声音信号分析方法和程序 | |
EP1615204B1 (en) | Method for classifying music | |
CN104050974A (zh) | 声音信号分析设备以及声音信号分析方法和程序 | |
McKinney et al. | Evaluation of audio beat tracking and music tempo extraction algorithms | |
EP1703491B1 (en) | Method for classifying audio data | |
US8805657B2 (en) | Music searching methods based on human perception | |
JP5228432B2 (ja) | 素片検索装置およびプログラム | |
CN103793446A (zh) | 音乐视频的生成方法和*** | |
EP2528054A2 (en) | Management of a sound material to be stored into a database | |
Hargreaves et al. | Structural segmentation of multitrack audio | |
JP6252147B2 (ja) | 音響信号分析装置及び音響信号分析プログラム | |
JP6151121B2 (ja) | コード進行推定検出装置及びコード進行推定検出プログラム | |
CN106782601A (zh) | 一种多媒体数据处理方法及其装置 | |
JP2015200803A (ja) | 音響信号分析装置及び音響信号分析プログラム | |
JP2002328696A (ja) | 音声認識装置および音声認識装置における処理条件設定方法 | |
CN106663110B (zh) | 音频序列对准的概率评分的导出 | |
JP5045240B2 (ja) | データ分割プログラム、該プログラムを記録した記録媒体、データ分割装置、およびデータ分割方法 | |
CN110070891A (zh) | 一种歌曲识别方法、装置以及存储介质 | |
Mirza et al. | Residual LSTM neural network for time dependent consecutive pitch string recognition from spectrograms: a study on Turkish classical music makams | |
Karthik et al. | Feature Extraction in Music information retrival using Machine Learning Algorithms | |
Yu et al. | Research on piano performance strength evaluation system based on gesture recognition | |
Skalski | What you hear is what you get: Post-genre, feature-based music recommendation system | |
Endrjukaite et al. | Emotion identification system for musical tunes based on characteristics of acoustic signal data | |
JP4246160B2 (ja) | 楽曲検索装置および楽曲検索方法 | |
CN110390004A (zh) | 一种信息处理方法、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |