CN115472143A - 一种调性音乐音符起始点检测与音符解码方法及装置 - Google Patents

一种调性音乐音符起始点检测与音符解码方法及装置 Download PDF

Info

Publication number
CN115472143A
CN115472143A CN202211110245.0A CN202211110245A CN115472143A CN 115472143 A CN115472143 A CN 115472143A CN 202211110245 A CN202211110245 A CN 202211110245A CN 115472143 A CN115472143 A CN 115472143A
Authority
CN
China
Prior art keywords
note
frequency
music
decoding
tonal music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211110245.0A
Other languages
English (en)
Inventor
黄翔东
魏雨言
甘霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202211110245.0A priority Critical patent/CN115472143A/zh
Publication of CN115472143A publication Critical patent/CN115472143A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0016Means for indicating which keys, frets or strings are to be actuated, e.g. using lights or leds
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/051Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开了一种调性音乐音符起始点检测与音符解码方法及装置,方法包括:绘制出η(m)作为端点检测函数曲线,通过检测该曲线的极值点作为各调性音乐音符的起始时刻位置;依次在相邻音符的起始时刻的中间位置
Figure DDA0003843783170000011
搜索出其对应的FFT谱
Figure DDA0003843783170000012
的峰值谱序号kp,并计算出对应的音高频率kpΔf;将音高频率与12平均律音符‑音高表的各个音符的参考频率进行比较,找出频率差值最小的音符作为当前时段的音符解码结果。装置包括:处理器和存储器。

Description

一种调性音乐音符起始点检测与音符解码方法及装置
技术领域
本发明涉及音乐信息检索领域,涉及信号分析处理技术领域,尤其涉及一种调性音乐音符起始点检测与音符解码方法及装置。
背景技术
音乐在生活中无处不在,是人类历史发展长河中非常浓墨重彩的一笔。近年来,随着互联网技术的快速发展,音乐得以更加广泛的传播,以MP3为代表的音频压缩技术开始大规模应用,这使得传统的黑胶唱片、磁带等音乐介质几乎消失,取而代之的是在互联网上传输、下载和聆听的数字音乐。面对海量的数字音乐,如何有效的提取、检索、组织音乐信息受到了学术界和信息界的广泛关注,从而催生了音乐信息检索(Music InformationRetrieval,MIR)课题的产生[1]。相比于无调性音乐,调性音乐中存在着一个作为中心的音,和弦的构成和曲调的进行都围绕着这个中心进行[2]。此种模式的音乐由一系列节拍组成,具有强烈的方向感。在该音乐分析中,最基本的任务之一是音符起始点检测[3][4]
显然,起始点检测是音符解码的前提,同时也是解决其他各种MIR问题的基础性课题。例如,节拍点一般都伴随着音符的起始点,通过音符起始点的信息可以进行节奏分析和节拍跟踪的进一步研究;对于旋律搜索课题,在有音符起始点信息的情况下,可以减少分帧重叠率,提高检索速度;对于基频估计、音高识别的问题,也是以正确检测音符起始点为基础而进行的;此外,起始点检测还可以帮助改进自动音乐转录(Automatic MusicTranscription,AMT)。一般而言,音符起始点检测方法需要解决的核心问题是起始检测函数(Onset Detection Function,ODF)的设计。音频信号可以被转换为起始检测函数,该函数在大多数时间应具有相当低的值(接近零),但在起始时间具有明显的峰值。
随着深度学习的盛行和发展,越来越多的起始点检测研究从学习网络上入手,进行优化和改进相关算法。典型的基于深度学习的起始点检测过程包括:成帧,特征提取,基于ODF生成的网络结构和峰值选取[5-7]。Jan Schlüter等人[8]利用CNN(卷积神经网络)网络从输入特征向量学习ODF,以检测起始点。Erik Marchi等人[9]将音频分别经小波变换和短时傅里叶变换后输入RNN(循环神经网络)网络、LSTM(长短期记忆)网络进行音符起始点检测。Peter Steiner等人[10]引入了回声状态网络(Echo State Networks,ESNs)[11]去学习ODF,并在此基础上提出了新的堆叠ESN算法。
深度学习网络的研究通常会忽略音乐信号本身的特性。由于网络由大量的层组成,因此很难单独确定这些层的作用,从而阻碍了对其他类型音乐起始点检测的普适化。例如:有着极为特殊的形态特征的少数民族音乐,因为目前世界音乐计算领域内,广泛采用的基于西方音乐和声与结构体系的音频形态特征识别与检索方法,并不适用于我国少数民族音乐。
与此同时,在深度学习的算法流程中,特征提取和ODF生成都很复杂。具体来说,特征提取涉及短时傅立叶变换,滤波器组,频谱通量提取,特征向量构造等。比这更复杂的是,要获得最佳的ODF,需要经历样本标记和训练,基于错误传播的权重更新操作,模式测试等一系列学习网络来探索特征向量和起始时间点之间的关系,尽管这些操作可能会产生较高的检测精度,但它们的效率不足,耗费了大量的计算资源。
参考文献
[1]Fingerhut M.Music Information Retrieval,or how to search for(andmaybe find)music and do away with incipits[J].International Association ofMusic Libraries International Association of Sound&Audiovisual ArchivesCongress,2004.
[2]陈小兵.勋伯格元调性音乐观念的构建[J].中国音乐,2006(1):2.
[3]Schreiber H,Weis C,Muller M.Local Key Estimation In ClassicalMusic Recordings:A Cross-Version Study on Schubert's Winterreise[C]//ICASSP2020-2020IEEE International Conference on Acoustics,Speech and SignalProcessing(ICASSP).IEEE,2020.
[4]Dixon,Simon.Evaluation of the Audio Beat Tracking System BeatRoot[J].Journal of New Music Research,2007,36(1):39-50.
[5]Grosche P,MüM,ller.Extracting Predominant Local Pulse InformationFrom Music Recordings[J].IEEE Transactions on Audio,Speech,and LanguageProcessing,2011.
[6]Percival G,Tzanetakis G.Streamlined Tempo Estimation Based onAutocorrelation and Cross-correlation With Pulses[J].IEEE/ACM Transactions onAudio Speech&Language Processing,2014,22(12):1765-1776.
[7]Steiner P,Jalalvand A,Stone S,et al.Feature Engineering andStacked Echo State Networks for Musical Onset Detection[C]//ICPR 2020.2021.
[8]Schlüter J,
Figure BDA0003843783150000021
S.Improved musical onset detection withConvolutional Neural Networks[C]//IEEE International Conference on Acoustics,Speech and Signal Processing.IEEE,2014:6979-6983.
[9]Marchi E,Ferroni G,Eyben F,et al.Audio Onset Detection:A WaveletPacket Based Approach with Recurrent Neural Networks[C]//2014InternationalJoint Conference on Neural Networks(IJCNN).IEEE,2014.
[10]Steiner P,Jalalvand A,Stone S,et al.Feature Engineering andStacked Echo State Networks for Musical Onset Detection[C]//ICPR 2020.2021.
[11]Steiner P,Stone S,Birkholz P.Note Onset Detection using EchoState Networks[C]//Elektronische Sprachsignalverarbeitung(ESSV)2020.2020.
[12]Herremans D,Chew E.MorpheuS:generating structured music withconstrained patterns and tension[J].IEEE Transactions on Affective Computing,2017:1-1.
发明内容
本发明提供了一种调性音乐音符起始点检测与音符解码装置,本发明实现了音符的起始时间检测,实现了音符解码;本发明从音频信号的本身特性出发探讨起始时间点和调性节奏之间的内在联系,以得出ODF曲线,使得精度和准确度提升,同时使模型更加普适化,详见下文描述:
一种调性音乐音符起始点检测与音符解码方法,所述方法包括:
绘制出η(m)作为端点检测函数曲线,通过检测该曲线的极值点作为各调性音乐音符的起始时刻位置;
依次在相邻音符的起始时刻的中间位置
Figure BDA0003843783150000031
搜索出其对应的FFT谱
Figure BDA0003843783150000032
的峰值谱序号kp,并计算出对应的音高频率kpΔf;
将音高频率与12平均律音符-音高表的各个音符的参考频率进行比较,找出频率差值最小的音符作为当前时段的音符解码结果。
其中,所述方法将调性音乐建模为分段谐波模型,扩展到实际的调性音乐中,表示为:
Figure BDA0003843783150000033
其中,{Ak,fkk},k=1,...,K1,和
Figure BDA0003843783150000034
分别表示前一个节拍和后一个节拍的幅度、频率和初始相位。
其中,所述时间周期至少为FFT大小的两倍,NT>2N。
进一步地,所述绘制出η(m)作为端点检测函数曲线具体为:
频率范围对应于FFT的指标范围如下所示:
k∈[kmin,kmax],kmin=fmin/Δf,kmax=fmax/Δf
当观察窗移动到mΔt的位置时,对应于从STFT时频分布中提取的加窗FFT频谱X(m,k),其中峰值表示为:
Figure BDA0003843783150000041
指标定义为:
Figure BDA0003843783150000042
其中“card(·)”表示对
Figure BDA0003843783150000043
进行统计计数的运算符,α是指指定的阈值比率;通过使用此度量标准,可以绘制ODF曲线。
其中,所述将音高频率与12平均律音符-音高表的各个音符的参考频率进行比较,找出频率差值最小的音符作为当前时段的音符解码结果具体为:
假设已经检测到第m个音符的开始时间tm和第(m+1)个音符的开始时间tm+1,将中间时间(tm+tm+1)/2视为实现音乐解码的可靠点,对应于STFT指标为:
Figure BDA0003843783150000044
其中“[·]”代表整数舍入运算符,将加窗的FFT频谱
Figure BDA0003843783150000045
作为一个峰值,并找到峰值频谱指标为:
Figure BDA0003843783150000046
估算出这个主要频谱的旋律频率为:
Figure BDA0003843783150000047
最后,通过查找钢琴音高表找出最接近的频率,从而判断按下了哪个钢琴键。
一种调性音乐音符起始点检测与音符解码装置,所述装置包括:处理器和存储器,处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行任一项所述的方法步骤。
本发明提供的技术方案的有益效果是:
1、本发明实现了音符解码和音符的起始时间检测,为音乐信息检索的研究突破点提供了一个方向,即不再执着于单纯的提高深度学习算法,而将目光转向音乐本身特有的时域、频域和相位等物理特征,并将二者结合起来以取得更多突破;
2、本发明将音符起始点检测作为音乐信息检索的基础研究方向之一,为节奏分析、节拍跟踪、基频估计、音高识别等高级任务打下基础。
附图说明
图1为调性音乐音符起始点检测与音符解码装置的流程图,即音符的起始时间检测和音符解码的示意图;
图2为调分段谐波模型的简单波形示意图;
图3为调分段模型不同片段的频谱泄漏演示图;
图4为起始时间检测结果图;
其中,(a)为STFT时频能量图;(b)为基于频谱泄漏特性的ODF曲线。
图5为音乐“摇篮曲”的和弦与旋律乐谱图;
图6为音符解码结果示意图;
图7为本发明的硬件实施图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
繁杂的技法会改变起始点检测的精度,所以需要了解起始点的本质。基于此观点,本发明实施例试图从本质上探讨起始时间点和调性节奏之间的内在联系,根据信号处理的理论知识设计明确的处理操作。信号处理方法不涉及网络训练和优化产生的复杂操作,从而产生了更高的效率并消耗了更少的计算资源。需要注意的是,就ODF设计而言,信号处理突出频谱通量是关键[3,4,12]。但是,如果某些光谱参数设置不当或观察角度不合适,则很难发现光谱通量的变化规律。
本发明实施例提出了一种基于频谱泄漏特征提取的起始时间检测器,在此基础上还可以对音符进行解码,主要的新颖之处在于三个方面:
(1)本发明实施例提出了一种调性音乐的分段谐波模型;(2)本发明实施例定义了一种很好的度量,用于评估音乐片段不同位置的频谱泄漏程度,从中可以绘制ODF曲线以通过峰值来捕获节拍的开始时间;(3)本发明实施例提出了一种音符解码方法。
以上贡献基于对调性音乐频谱的深刻理解。理论分析和实验结果都将验证该方案的高精度和高效率。
实施例1
本发明实施例基于提出的调性音乐分段谐波模型,从中发现在相邻音符的边界处频谱泄漏效应变得非常严重,从而得到启发成功检测到音符起始点。为了获得对该效果的良好评估,本发明实施例还推导了调性音乐的一系列参数(包括下采样系数,FFT大小,步长等)。在满足这些条件的情况下,定义了一个很好的反映频谱泄漏程度的度量,从中可以绘制出一个直观的音符起始点检测功能曲线,从而通过峰值选择来搜索起始位置。将音符起始点检测结果与标准钢琴音高表相结合,可以通过简单的相似频率匹配将最终的音符一一解码。实验证明,该方案在检测任务和解码任务上均具有较高的精度。
1、本发明实施例的总流程
本发明实施例提出的基于频谱泄漏特征提取的调性音乐音符起始点检测与音符解码装置,具体流程如图1所示:
具体方法步骤如下:
Input:调性音乐样本,检测频率下限fmin=210Hz,fmax=840Hz,谱线阈值比例α=0.1,12平均律音符-音高表。
Step 1:对输入的音频进行下采样,将其采样率降至Fs=6300samples/s;
Step 2:用长度为1024汉宁窗对下采样后的音频序列做滑动FFT分析(对应频率分辨率Δf=fs/N=6.15Hz),滑动步长为1个样点,随着窗口覆盖完整个音频序列,生成短时傅立叶变换(short-time Fourier transform,STFT)时频谱图|X(m,k)|(m为时间索引,k为频率索引);
Step 3:对于每个m时刻,在
Figure BDA0003843783150000061
内搜索出|X(m,k)|的极大值Xmax,并在k∈[kmin,kmax]内统计出其FFT振幅谱大于αXmax的谱线
Figure BDA0003843783150000062
的根数,并算出该谱线数量和全部谱线数量的百分比η(m);
Figure BDA0003843783150000063
Step 4:以时刻m,绘制出η(m)作为端点检测函数曲线(Onset DetectionFunction,ODF),通过检测该曲线的极值点作为各音符的起始时刻位置;
Step 5:依次在相邻音符的起始时刻的中间位置
Figure BDA0003843783150000064
搜索出其对应的FFT谱
Figure BDA0003843783150000065
的峰值谱序号kp,并计算出对应的音高频率kpΔf;
Step 6:将kpΔf与12平均律音符-音高表的各个音符(例如“Do”音符)的参考频率进行比较,找出频率差值最小的音符作为当前时段的音符解码结果。
以上步骤中,截至Step 4完成所有音符起始点检测,截至Step 6完成所有的音符解码。要强调的是,以上操作全部基于调性音乐的频谱泄漏程度,其技术原理详述如下。
2、本发明的技术原理
2.1调性音乐的分段谐波模型
本发明实施例将调性音乐建模为分段谐波模型。具体来说,一个调性音乐由一系列节拍组成,每个节拍在持续时间长度与和声成分上都有所不同。
为了详细说明该分段谐波模型,以时间为3.0938秒的信号x(t)为例进行说明,公式为:
Figure BDA0003843783150000071
在式(2)中,x(t)的前一半时间是频率为f1=7.1Hz的单音,后一半时间是频率为f2=16.3Hz的单音。x(t)的波形如图2所示。
如图2所示,本发明实施例利用采样率fs=64samples/s,从x(t)中提取了3个具有相同时间长度(1秒)的片段,分别是t∈[0.0469s,1.,t∈[1.0469s,2.0313s],t∈[2.0313s,3.0313s]。此外,这三个片段使用64点汉宁窗进行快速傅里叶变换,其幅度谱|X1(k)|,|X2(k)|,|X3(k)|如图3所示。
从图3中可以发现这3个频谱|X1(k)|,|X2(k)|,|X3(k)|表现出不同程度的频谱泄漏。具体来说,对于第一部分和第三部分,它们都仅包含单一的纯音,频谱泄漏程度很小,并且频谱能量主要集中在以峰值(分别为k=6和k=16)为中心的狭窄区域中。但是,对于第二部分,频谱泄漏非常严重,表现为旁瓣在这两个峰值周围的较宽区域内散布,因为该部分不是纯净的,并且混有两个调性。此外,可以发现峰值|X2(k)|的高度小于|X1(k)|,|X3(k)|中的峰值的高度,反映出频谱泄漏会削弱峰值的高度。
上面的示例是对调性音乐的简化描述。本发明实施例认为式(2)中的信号模型可以扩展到实际的调性音乐中,可以表示为(对于覆盖相邻节拍的区域):
Figure BDA0003843783150000072
其中,{Ak,fkk},k=1,...,K1,和
Figure BDA0003843783150000073
分别表示前一个节拍和后一个节拍的幅度、频率和初始相位。
后续将详细介绍,高度的频谱泄漏也暗指从一个音乐音符转到另一个音乐音符。
2.2起始点检测的STFT参数设置条件
与STFT相关的参数包括FFT大小N,窗口类型和步长Δd。此外,如上所述,为了降低计算复杂度,需要对输入的音乐记录进行下采样。对于一首调性音乐的歌曲,单个节拍通常在周期T左右波动,这可以事先大致知道。与此同时,为了实现音符解码,有必要将这些STFT参数与音高表联系起来。
假设原始采样率为Fs(通常为Fs=44.1ksamples/s),下采样因子为D。因此,采样率为:
fs=Fs/D (4)
所以,节拍周期内的采样量为:
NT=Tfs=TFs/D (5)
所以,FFT的频率分辨率Δf等于:
Δf=fs/N=Fs/(DN) (6)
为了确保FFT窗口可以在一个完整的节拍时间周期内,而不会覆盖前一个拍子持续时间和后一个拍子持续时间的任何区域,时间周期应至少为FFT大小的两倍,即以下不等式应成立:
NT>2N (7)
此外,为了在频谱上能够区分出钢琴的音符,音高频率表的最小间隔(即表中列出的O4,O5区域)应超过频率分辨率的两倍。如表1所示,最小间隔等于音符A和bB之差(即233.082Hz-220Hz=13.082Hz),因此以下不等式也应成立:
Δf<13.082/2=6.541 (8)
表1.钢琴音高和对应频率表
Figure BDA0003843783150000081
Figure BDA0003843783150000091
考虑到参数条件(4)-(8),本发明实施例将STFT参数设置为:
下采样因子D=7和FFT大小N=1024。因此,就式(4)而言,采样率降低为fs=Fs/D=44100/7=6300samples/s。将常规节拍周期值T=0.41s代入式(5)会得到一个节拍周期内的样本量NT=Tfs=2583,然后,考虑FFT大小应为2的整数次幂,就可以根据式(7)中的不等式和N=1024确定可行的FFT大小,从中可以将频率分辨率计算为:
Δf=fs/N=6.1523Hz
另外,STFT的步长被指定为Δd=N/16=64,与步长Δt=Δd/fs=0.0102相对应,表示足够高的跟踪精度。此外,可以选择汉宁窗口作为常用的窗口类型。
注意,Δf也满足不等式(8),这证明上述所有与STFT相关的参数都适合于音符起始点检测。
2.3基于频谱泄漏特征提取的ODF构建
本质上,起始时间检测功能的构建在于定义一个评估频谱泄漏程度的指标。具体而言,随着观察时间窗口的移动,当观察时间窗口完全进入拍子时长内而不会与相邻拍子时长的任何部分重叠时,此指标应很小。此后,随着观察窗口继续向前移动,该重叠部分必定会增加,这也导致该度量的增加。但是,随着它逐渐进入下一个拍子,该指标也趋于下降。同时像这样的变化是以周期变化的。
实际上,为了定量地计算该度量,应给出一个频率范围f∈[fmin,fmax],该频率范围对应于FFT的指标范围如下所示:
k∈[kmin,kmax],kmin=fmin/Δf,kmax=fmax/Δf (9)
此外,当观察窗移动到mΔt的位置时,它对应于从STFT时频分布中提取的加窗FFT频谱X(m,k),其中峰值表示为:
Figure BDA0003843783150000092
该指标定义为:
Figure BDA0003843783150000101
其中“card(·)”表示对
Figure BDA0003843783150000102
进行统计计数的运算符,α是指指定的阈值比率(建议为0.1左右的值)。
通过使用此度量标准,可以绘制ODF曲线,在该曲线中可以选择峰值位置作为音符起始时刻,如稍后的实验结果所示。
2.4音符解码
在检测到音符的起始时间点后,还可以通过分析给定频率范围内的频谱分布来对音符进行解码。
以钢琴音乐为例。通常用两只手演奏一首精彩的钢琴曲:左手敲打左侧钢琴琴键以产生和弦(频谱分量分布在相对低频的区域),而右手敲打右侧钢琴琴键以产生旋律(频谱分量分布在相对较高的频率区域)。本质上,和弦是根据旋律设计的。因此,本发明实施例实际上旨在实现频率范围在f∈[fmin,fmax]区间内的旋律的音符解码。
具体来说,如图1所示,假设已经检测到第m个音符的开始时间tm和第(m+1)个音符的开始时间tm+1。由于它们是相邻的音符,因此可以将中间时间(tm+tm+1)/2视为实现音乐解码的可靠点,在此,观察窗口很有可能完全位于第m个拍子持续时间中。此时刻对应于STFT指标为:
Figure BDA0003843783150000103
其中“[·]”代表整数舍入运算符。因此,可以将加窗的FFT频谱
Figure BDA0003843783150000104
作为一个峰值,并找到峰值频谱指标为:
Figure BDA0003843783150000105
从中可以估算出这个主要频谱的旋律频率为:
Figure BDA0003843783150000106
最后,可以通过查找钢琴音高表找出最接近的频率,从而判断按下了哪个钢琴键。此外,在给定参考频率(例如与音符“Do”相对应的频率)的情况下,可以轻松地表示其音符。
实施例2
验证实验
3.1.ODF曲线图
录制一首钢琴曲《摇篮曲》并进行第2.2节中提及的参数设置。按照上面所述起始时间检测过程,本发明实施例获得了图4所示的时频分布。
音符解码
在检测到音符持续时间的起始时间后,本发明实施例进一步进行音乐解码实验(参考频率为369.994Hz,而不是“Do”)。对于这首音乐——“摇篮曲”,其和弦与旋律的乐谱如图5所示。
遵循上述的音符解码过程,所有音符都被检索到。为了便于演示,将音符解码结果显示在STFT时频分布频谱图上,如图6所示。
以上详细给出本发明实施例所提出的基于频谱泄露特征提取的调性音乐起始时间检测和音符解码的设计原理及设计结果,还有对此模型所做的验证实验,从中可知本发明实施例具有以下有益效果:
(1)对于音符起始点检测结果,从图4中图(a)可以看到:
a.在此STFT时频图上明显分布着许多水平条纹(来自各个音符的变化),表现出良好的能量集中效果,实际上归因于第2.2节中所述的参数设置。
b.在相邻音符的边界处也存在清晰的垂直条纹,当观察窗遍历这些过渡区域时,这些垂直条纹是频谱泄漏的侧面反映,在该过渡区域中,观察窗从一个音符进入下一个音符。
c.请注意,在任何音符时间内,在不同频率位置都有一系列水平条,这可以验证第2.1节中提出的针对调性音乐的分段谐波模型的正确性。
从图4中图(b)可以看到:
a.ODF曲线会展示出第2.3节中描述的波动变化,即在音符内完全包含观察窗时,ODF曲线会变小,而当移至相邻音符持续时间之间的过渡区域时,ODF曲线会变得更大。
b.图4(b)中的峰值位置(标有星号)正好出现在图4(a)中垂直条纹(代表相邻拍子持续时间的边界)位于的位置。此结果证明了提出的起始时间检测方法具有较高的定位精度。
(2)对于音符解码结果,结合图5和图6,可以看到:
a.如图6所示,音符解码结果与真实的双五线谱高度吻合。
b.此外,本发明实施例只有少数解码错误。例如,在8s时刻,所需的解码结果应该是音符“5”的高音,但它被解码为音符“5”的低音。这是因为,所收集的声音是左手和弦与右手旋律的混合。对于旋律“5”的高音,相应的和弦也恰好是低音“5”。因此,解码结果完全取决于双手的按压强度差异,反映出该解码结果也是合理的。
实施例3
硬件实施图如图7,将采集到的音频信号x(t)经过A/D(模数转化器)采样得到样本序列x(n),以数字输入的形式进入DSP芯片,经过DSP芯片的内部算法处理,进行音符解码后的信号得以输出。
其中,图7的DSP(Digital Signal Processor,数字信号处理器)为核心器件,内部程序流程如图1所示,包括两个部分:音符起始点检测和音符解码。
音符起始点检测:首先,使用D因子对输入的音频进行下采样。然后,对信号进行STFT,该STFT按照第2.2节介绍的音符起始点检测STFT参数设置条件进行设置。接下来,通过评估频谱泄漏的程度,绘制ODF曲线,并通过峰值提取算法来找到音符起始点。
音符解码:借助上述检索到的音符起始点,从相应的峰值仓中找到能量最大的频率。然后按照音高表将此频率进行音符解码。可以通过重复上述操作,遍历所有时间来检索所有音符。
本发明实施例将所提出的“基于频谱泄漏特征提取的调性音乐音符起始点检测与音符解码装置”这一核心算法植入DSP器件内,基于此完成高精度、低复杂度、高效的音乐信号分析。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种调性音乐音符起始点检测与音符解码方法,其特征在于,所述方法包括:
绘制出η(m)作为端点检测函数曲线,通过检测该曲线的极值点作为各调性音乐音符的起始时刻位置;
依次在相邻音符的起始时刻的中间位置
Figure FDA0003843783140000011
搜索出其对应的FFT谱
Figure FDA0003843783140000012
的峰值谱序号kp,并计算出对应的音高频率kpΔf;
将音高频率与12平均律音符-音高表的各个音符的参考频率进行比较,找出频率差值最小的音符作为当前时段的音符解码结果。
2.根据权利要求1所述的一种调性音乐音符起始点检测与音符解码方法,其特征在于,所述方法将调性音乐建模为分段谐波模型,扩展到实际的调性音乐中,表示为:
Figure FDA0003843783140000013
其中,{Ak,fkk},k=1,...,K1,和
Figure FDA0003843783140000014
分别表示前一个节拍和后一个节拍的幅度、频率和初始相位。
3.根据权利要求2所述的一种调性音乐音符起始点检测与音符解码方法,其特征在于,所述时间周期至少为FFT大小的两倍,NT>2N。
4.根据权利要求1所述的一种调性音乐音符起始点检测与音符解码方法,其特征在于,所述绘制出η(m)作为端点检测函数曲线具体为:
频率范围对应于FFT的指标范围如下所示:
k∈[kmin,kmax],kmin=fmin/Δf,kmax=fmax/Δf
当观察窗移动到mΔt的位置时,对应于从STFT时频分布中提取的加窗FFT频谱X(m,k),其中峰值表示为:
Figure FDA0003843783140000015
指标定义为:
Figure FDA0003843783140000016
其中“card(·)”表示对
Figure FDA0003843783140000017
进行统计计数的运算符,α是指指定的阈值比率;通过使用此度量标准,可以绘制ODF曲线。
5.根据权利要求1所述的一种调性音乐音符起始点检测与音符解码方法,其特征在于,所述将音高频率与12平均律音符-音高表的各个音符的参考频率进行比较,找出频率差值最小的音符作为当前时段的音符解码结果具体为:
假设已经检测到第m个音符的开始时间tm和第(m+1)个音符的开始时间tm+1,将中间时间(tm+tm+1)/2视为实现音乐解码的可靠点,对应于STFT指标为:
Figure FDA0003843783140000021
其中“[·]”代表整数舍入运算符,将加窗的FFT频谱
Figure FDA0003843783140000022
作为一个峰值,并找到峰值频谱指标为:
Figure FDA0003843783140000023
估算出这个主要频谱的旋律频率为:
Figure FDA0003843783140000024
最后,通过查找钢琴音高表找出最接近的频率,从而判断按下了哪个钢琴键。
6.一种调性音乐音符起始点检测与音符解码装置,其特征在于,所述装置包括:处理器和存储器,处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行任一项所述的方法步骤。
CN202211110245.0A 2022-09-13 2022-09-13 一种调性音乐音符起始点检测与音符解码方法及装置 Pending CN115472143A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211110245.0A CN115472143A (zh) 2022-09-13 2022-09-13 一种调性音乐音符起始点检测与音符解码方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211110245.0A CN115472143A (zh) 2022-09-13 2022-09-13 一种调性音乐音符起始点检测与音符解码方法及装置

Publications (1)

Publication Number Publication Date
CN115472143A true CN115472143A (zh) 2022-12-13

Family

ID=84333318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211110245.0A Pending CN115472143A (zh) 2022-09-13 2022-09-13 一种调性音乐音符起始点检测与音符解码方法及装置

Country Status (1)

Country Link
CN (1) CN115472143A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002084641A1 (de) * 2001-04-10 2002-10-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Verfahren zum überführen eines musiksignals in eine noten-basierte beschreibung und zum referenzieren eines musiksignals in einer datenbank
US20060075884A1 (en) * 2004-10-11 2006-04-13 Frank Streitenberger Method and device for extracting a melody underlying an audio signal
CN102129858A (zh) * 2011-03-16 2011-07-20 天津大学 基于Teager能量熵的音符切分方法
CN112259063A (zh) * 2020-09-08 2021-01-22 华南理工大学 一种基于音符瞬态字典和稳态字典的多音高估计方法
CN112420071A (zh) * 2020-11-09 2021-02-26 上海交通大学 一种基于恒q变换的复调电子琴音乐音符识方法
CN112509601A (zh) * 2020-11-18 2021-03-16 中电海康集团有限公司 一种音符起始点检测方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002084641A1 (de) * 2001-04-10 2002-10-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Verfahren zum überführen eines musiksignals in eine noten-basierte beschreibung und zum referenzieren eines musiksignals in einer datenbank
US20060075884A1 (en) * 2004-10-11 2006-04-13 Frank Streitenberger Method and device for extracting a melody underlying an audio signal
CN102129858A (zh) * 2011-03-16 2011-07-20 天津大学 基于Teager能量熵的音符切分方法
CN112259063A (zh) * 2020-09-08 2021-01-22 华南理工大学 一种基于音符瞬态字典和稳态字典的多音高估计方法
CN112420071A (zh) * 2020-11-09 2021-02-26 上海交通大学 一种基于恒q变换的复调电子琴音乐音符识方法
CN112509601A (zh) * 2020-11-18 2021-03-16 中电海康集团有限公司 一种音符起始点检测方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TIAN CHENG ET AL.: ""Improving piano note tracking by HMM smoothing"", 《2015 23RD EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO)》, 28 December 2015 (2015-12-28) *
马新建: ""基于稀疏分解的音符起始点检测"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 05, 15 May 2015 (2015-05-15) *

Similar Documents

Publication Publication Date Title
Paulus et al. Measuring the similarity of Rhythmic Patterns.
Ryynänen et al. Automatic transcription of melody, bass line, and chords in polyphonic music
Gillet et al. Transcription and separation of drum signals from polyphonic music
Klapuri et al. Analysis of the meter of acoustic musical signals
EP1895506B1 (en) Sound analysis apparatus and program
Lee et al. Acoustic chord transcription and key extraction from audio using key-dependent HMMs trained on synthesized audio
Goto A robust predominant-F0 estimation method for real-time detection of melody and bass lines in CD recordings
Benetos et al. Polyphonic music transcription using note onset and offset detection
JP2003330460A (ja) 少なくとも2つのオーディオ・ワークの比較方法、少なくとも2つのオーディオ・ワークの比較方法をコンピュータに実現させるためのプログラム、及び、オーディオ・ワークのビートスペクトルの決定方法
CN110599987A (zh) 基于卷积神经网络的钢琴音符识别算法
Benetos et al. Joint multi-pitch detection using harmonic envelope estimation for polyphonic music transcription
McLeod Fast, accurate pitch detection tools for music analysis
Kumar et al. Musical onset detection on carnatic percussion instruments
Teixeira et al. Ulises: a agent-based system for timbre classification
Pratama et al. Human vocal type classification using MFCC and convolutional neural network
Nagavi et al. An extensive analysis of query by singing/humming system through query proportion
Barbancho et al. Transcription of piano recordings
Gurunath Reddy et al. Predominant melody extraction from vocal polyphonic music signal by time-domain adaptive filtering-based method
Emiya et al. Multipitch estimation of quasi-harmonic sounds in colored noise
CN115472143A (zh) 一种调性音乐音符起始点检测与音符解码方法及装置
Tang et al. Melody Extraction from Polyphonic Audio of Western Opera: A Method based on Detection of the Singer's Formant.
Müller et al. Tempo and Beat Tracking
Yu et al. Research on piano performance strength evaluation system based on gesture recognition
Tian A cross-cultural analysis of music structure
Rao et al. Improving polyphonic melody extraction by dynamic programming based dual f0 tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Gan Lin

Inventor after: Huang Xiangdong

Inventor after: Wei Yuyan

Inventor before: Huang Xiangdong

Inventor before: Wei Yuyan

Inventor before: Gan Lin

CB03 Change of inventor or designer information