CN101271457B - 一种基于旋律的音乐检索方法及装置 - Google Patents
一种基于旋律的音乐检索方法及装置 Download PDFInfo
- Publication number
- CN101271457B CN101271457B CN2007100646076A CN200710064607A CN101271457B CN 101271457 B CN101271457 B CN 101271457B CN 2007100646076 A CN2007100646076 A CN 2007100646076A CN 200710064607 A CN200710064607 A CN 200710064607A CN 101271457 B CN101271457 B CN 101271457B
- Authority
- CN
- China
- Prior art keywords
- music
- melody
- user
- client
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000033764 rhythmic process Effects 0.000 title claims description 34
- 230000005236 sound signal Effects 0.000 claims abstract description 22
- 239000000284 extract Substances 0.000 claims abstract description 7
- 239000012634 fragment Substances 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 7
- 238000005520 cutting process Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000008676 import Effects 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 claims description 2
- 238000003672 processing method Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 7
- 241000196324 Embryophyta Species 0.000 description 4
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 244000287680 Garcinia dulcis Species 0.000 description 1
- 206010038743 Restlessness Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
- Electrophonic Musical Instruments (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种数字音乐检索方法及其装置,以音乐旋律为关键字,能够搜索包含指定旋律的音乐,本发明为用户提供两种输入旋律的方法:弹奏和哼唱。对于哼唱的输入方式,采用了一系列信号处理的方法对哼唱音频信号进行分析,从中提取出旋律信息。对于音乐库,采用了倒排算法编制索引,提高搜索的效率。本发明装置分为服务器端与客户端,服务器端的功能是维护音乐数据库及其索引,并响应客户端的查询请求;客户端的功能是采集用户的旋律输入,并且接收显示服务器的查询结果。本发明用音乐旋律搜索音乐弥补了传统基于文本搜索方式的不足,使用户在不知文本信息的情况下搜索想要的音乐;用户可以使用常见的设备如电脑,手机等,进行音乐搜索。
Description
技术领域
本发明属于计算机技术应用领域,具体的涉及对数字音乐用旋律作为关键字的检索方法,以及使该方法能够顺利运行的计算机硬件及通讯设备装置。
背景技术
随着互联网信息量的几何级数的增长,怎样从海量的信息库中迅速而准确地找到我们需要的信息,成为人们使用互联网的一大瓶颈。基于内容的多媒体检索是一个新兴的研究领域,它给人们提供了全新的搜索方式:用多媒体本身来搜索多媒体信息。多媒体信息有音频、视频、图像、动画等多种形式,其中音频信息占有相当大的比例。而在音频当中,音乐又是最常见的形式。目前的音乐检索,主要根据文本关键字来搜索,例如音乐名,作者,演唱歌星,专辑,流派,歌词等。但是音乐本身与文本关键字有着本质的不同,用户使用关键字进行搜索,前提条件是用户必须对目标音乐有所了解,熟悉与之相关的文本信息。如果用户只是对音乐旋律本身感兴趣,而对歌名,歌词等文本信息一无所知,现有的音乐搜索方法就无能为力了。
发明内容
现有的音乐关键字检索技术,如果不知目标音乐的文本关键字,这种文本关键字搜索方法就无能为力了,为了解决现有技术的问题,本发明的目的是提供一种基于旋律的数字音乐检索方法及装置。
为了实现所述的目的,本发明第一方面,提供基于旋律的音乐检索方法,步骤如下所述:
步骤S1:指定待查音乐中的一段旋律作为搜索的旋律关键字;
步骤S2:将所指定的旋律关键字输入查询客户端设备,经过处理得到数字化旋律信号;
步骤S3:将音乐库中的音乐建立索引,该索引体现音乐的旋律特征,形成索引化的音乐数据库;
步骤S4:由搜索引擎将数字化旋律信号与产生的音乐数据库中的旋律进行比较,从音乐数据库选出一组包含指定关键字音乐旋律的一组音乐;
步骤S5:将选出的音乐按照与旋律关键字的相似程度递减排序。
所述音乐输入方式包括:弹奏输入和哼唱输入。
所述索引,为针对旋律片段的旋律特征而的编制索引。
所述对于哼唱输入方式,采取如下步骤获得数字化的旋律信号:
步骤S21:使用音频采集设备采集用户的哼唱输入;
步骤S22:对用户输入的音频信号进行预滤波处理,包括直流消除、增益标准化、低通滤波处理,得到音频帧序列信号;
步骤S23:对音频帧序列信号进行时域或频域分析,提取基频序列;
步骤S24:对基频序列进行进一步处理,包括线性化、求差,得到数字化的旋律信号。
为了实现所述的目的,本发明第二方面,提供基于旋律的音乐检索装置,包括:
至少一台服务器提供在线音乐旋律检索服务;
和至少一台客户端终端设备发出在线音乐旋律检索请求,并接收服务器查询音乐旋律的结果。
所述客户端,包括:
输入模块,用于输入需要查找的音乐旋律信息,并将其发送至服务器端;搜索结果的显示模块,客户端通过网络或其他传输方式从服务器端获得搜索结果,并呈现给用户。
所述输入模块,包括:
音频采集单元用于采集用户的哼唱音频信号;音符采集单元用于采集用户弹奏的音符旋律信号;音频信号处理单元,将音频采集单元采集的音频信号转化为音乐旋律信号。
所述服务器,包括:
音乐数据源接口单元,用于提供访问各种数据源获取原始音乐数据的接口;数据获取与分析单元,用于收集原始的音乐数据,并对音乐数据进行分析,从中提取出音乐旋律信息;索引编制单元,用于将数据获取与分析单元获取的原始音乐数据按照其旋律特征建立索引;搜索单元,用于接收客户端输入模块的查询请求,并在索引编制单元生成的索引中搜索包含与客户端输入模块提供的旋律关键字相同或相近旋律的音乐,将搜索结果列表按相似程度倒序排序,并反馈回客户端的搜索结果显示模块。
所述音乐数据源接口单元,提供以下的一种或几种数据获取方式的接口:
Web:采取Web网络抓取的方式,自动在互联网上漫游,抓取音乐文件和与该音乐文件相关的信息;文件:对本地或网络文件***中存储的音乐文件进行抓取和分析;数据库:对数据库中记录的音乐文件进行提取和分析。
所述客户端为以下设备中的一种或几种:
个人电脑;智能移动设备包括:手机,个人数字助理,车载智能终端等;电话;具有媒体点播功能的音视频娱乐设备:包括卡拉OK点唱设备。
所述的客户端选择个人电脑设备时,个人电脑客户端从服务器下载安装特定的Web浏览器插件软件,用户访问服务器提供的音乐检索Web网站时,用于为用户提供音频采集输入和音符采集旋律的用户界面,并且采集用户的查询输入,通过互联网发送至服务器。
所述的客户端选择智能移动设备时,客户端安装特定的软件,该软件为用户提供音频采集和音符采集的用户界面,并且采集用户的查询输入,通过无线网络发送至服务器。
所述的客户端选择电话设备时,服务器提供特定的电话声讯台,客户端拨打该声讯台号码,利用电话数字键盘,或使用电话受话器分别作为音符采集和音频采集输入设备,服务器与客户端通过公共交换电话网络进行信息交互。
所述的客户端选择具有媒体点播功能的音视频娱乐设备时,客户端配备数字钢琴键盘设备,或安装虚拟钢琴键盘软件采集用户的钢琴键盘音符输入,利用卡拉OK麦克风采集用户的哼唱输入,服务器为专用本地服务器,搜索的范围为卡拉OK本地的音乐数据库。
所述服务器对于搜索结果选中的音乐列表,按照搜索结果与查询输入旋律的相似性递减排序,并发送回客户端进行显示。
本发明为用户提供了一种新的搜索方式,即:用音乐旋律搜索音乐。它弥补了传统基于文本搜索方式的不足,使用户在不知文本信息的情况下搜索想要的音乐;本发明还将此搜索方式实施于具体的硬件平台,使得用户可以使用常见的设备如电脑,手机等,进行音乐搜索。
附图说明
图1本发明结构示意图
具体实施方式
下面将结合附图对本发明和优点加以详细说明,应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
本发明主要研究基于内容的音乐检索(Content based MusicRetrieval),提供一种用音乐本身来搜索音乐的方式。具体来说,就是以一小段音乐旋律作为搜索的关键字,搜索引擎返回一组包含指定关键旋律的一组音乐。旋律作为关键字,它不同于文本关键字,用户无法直接从键盘输入,而需要提供一种特殊的输入旋律的方法。最符合人们习惯的方法就是哼唱输入,用户只要使用音频采集输入设备,如麦克风,哼唱一段需要查找的旋律。此外,用户还可以通过虚拟的钢琴键盘,进行弹奏输入。
本发明的实施例提供了一个完整的计算机技术应用***平台,它的功能是提供基于旋律的音乐搜索服务,该平台同时实现了音乐原始数据获取,音乐原始数据分析,音乐数据库索引编制,在线查询,音频信号处理,信息反馈等功能。该***平台具备了在普通个人电脑、智能移动设备、电话、卡拉OK点唱设备等终端设备上进行哼唱输入和钢琴键盘弹奏输入音乐旋律的条件,并且具备了在以上这些终端设备上向用户显示或再现搜索结果的条件。
本发明由多个功能模块有机结合而成,每个功能模块完成特定的功能。***完整的结构如图1所示。本发明基于旋律的音乐检索装置,包括至少一台计算机作为服务器2提供在线音乐检索服务,和至少一台客户端1终端设备发出在线音乐检索请求,并接收服务器2的查询结果,服务器2从多种数据源获取并存储了包含大量音乐旋律特征的音乐旋律数据库,并且对数据库建立索引。当收到客户端1的查询请求时,服务器2对用户输入的查询旋律片段与数据库中的旋律进行比较,并过滤掉与查询旋律片段不相关的音乐,将剩下的若干个候选音乐按照与查询旋律片段的相似程度排序,将排序后的音乐列表返回客户端。客户端1为用户提供两种输入界面,接收用户的旋律输入并将其转化为可用于查询的数字化旋律信号。
图1所示的结构图中,左半部虚线框中的部件是在客户端1终端设备中的模块,包括:输入模块11采集用户输入并发送到服务器2,搜索结果显示模块12将服务器2返回的查询结果呈现给用户。
所述输入模块11,包括:音频采集单元111和音符采集单元113,分别用于采集用户的哼唱输入和弹奏输入;音频信号处理单元112,将音频采集单元111采集的音频信号转化为音乐旋律信息。
音频采集单元111采集用户的哼唱输入。它由音频采集设备和一段录音程序软件组成。音频采集设备在个人电脑和卡拉OK点唱终端上通常是麦克风,在手机等通讯终端上通常为受话筒。它由录音软件驱动,将音频波形的模拟信号按录音软件指定的采样频率进行数字采集,将采集的数字脉冲序列存储在客户端1的存储器中。由于人声的基频(一次谐波)通常在2000Hz以内,根据Nyquist采样定理,为保证采集的数字信号不发生频率混叠,采样频率应该大于最高有效频率的2倍。由于本发明需要对人声的谐波进行分析,所以取采样频率为8000Hz或11025Hz。音频采集单元111每次采集的时间长度默认为10秒,可根据情况自行设定。
音频信号处理单元112,它将音频采集单元111采集的音频信号转化为音乐的旋律信息。音频信号处理单元112对音频信号进行以下处理:
步骤1)、音频采集单元111收集的音频信号通常含有直流分量,直流分量造成信号平衡位置电位的偏移,给信号的低频频谱分析造成误差。因此有必要消除信号的直流分量。由于直流信号有时不变特性,令所有采样点电位值减去采样信号全局的平衡点电位值,即可消除直流分量。为消除信号强弱的差别带来的误差,音频信号处理单元112还对信号强度进行了标准化处理,方法是对于一次采样信号的能量最大值,将其设为1,其余所有点以该点为标准成比例地放大或缩小,保证任何一次采样的能量最大值都相等。此外,将采样信号通过低通滤波器处理,能抑制高频噪声,提高信噪比。
步骤2)、对步骤1)处理的信号进行取帧,相邻帧之间有一定的重叠,在语音信号处理中,通常每帧信号长度在200毫秒以内,以使每一帧信号可近似看做平稳信号。对每帧数据进行加窗滤波处理。汉宁窗滤波公式如下:
步骤3)、傅利叶变换(Fourier Transform)是一种将时域信号变换为频域信号的方法,在频域中,信号在不同频率分量上的能量分布可以清晰直观地再现。本步骤中采用快速傅利叶变换(FFT)算法将步骤2)处理后的每帧信号变换到复频域,得到每个频率分量的复向量。每个复向量包括实轴和虚轴两个分量,取其平方之和,得到能量值,即表示了该帧信号在每个频率分量上的强弱。快速傅立叶变换要求输入的采样点数为2N,若步骤2)中每帧采样点数目不足2N,则将不足的点补0。
步骤4)、在步骤3)处理后的每帧频域分布中,若能在人声频段找到能量的峰值,并且显著超过了背景噪声的能量,则满足条件的第一个峰值对应的频率为人声的基频值。将相邻帧的基频值进行比较,如果变化不大,则认为是同一音符,若变化较大,则认为是音符的转换。此外,静音帧也可以作为音符的分界。
步骤5)、在相邻两个音符间,求其频率的对数差,得到旋律音符的差分特征序列。将频率值取对数,就是将随音阶指数增长的频率值线性化,使得音阶差与其频率的对数差成正比。以音符的对数频率差作为旋律的特征,可以消除不同用户哼唱时,不同的基调带来的差异。
经过以上5个步骤,人声哼唱的音频转化成了旋律特征信息,可以作为关键特征发送给服务器端进行搜索。在以上的基频提取步骤中,同样可以采用时域的方法,例如自相关法等。
音符采集单元113是采用钢琴键盘输入的方式提供弹奏输入旋律的界面。音符采集单元113在客户端1终端设备上显示钢琴键盘,用户可以用鼠标或其他触点设备如触摸屏,手写笔等点击相应的琴键输入旋律。音符采集单元113将钢琴的每个键按音高顺序编号,作为每个键的ID。用户所点击的相邻两键的ID之差即为与音频信号处理单元112的输出含义相同的音符差,作为旋律特征发送至服务器2端。钢琴键盘采集的音符信息无需进行信号处理的运算。因此,钢琴键盘输入的旋律具有无误差,速度快等优点。
由于普通的电话设备不具有数据处理能力,因此在电话终端设备中,音频信号处理单元112运行于服务器2端,客户端1电话设备仅仅负责收集用户的输入。在哼唱输入方式中,用户使用电话受话筒作为音频采集单元111,音频信号以通过公共电话交换网络(PSTN)传送至服务器端;在钢琴键盘输入方式中,用户使用电话的数字拨号键盘,以音乐简谱的方式输入旋律,服务器2端收到电话按键信号后,服务器2与客户端1通过公共交换电话网络(PSTN)进行信息交互,将其转化为对应的音乐音符,反馈给用户以便用户修正。
搜索结果的显示模块12,客户端1通过网络或其他传输方式从服务器2端获得搜索所需音乐旋律信息结果。搜索结果以列表的形式呈现,列表中的每一项是一首音乐名(标题),以及作者,歌手等信息。列表中的音乐按相似程度递减排序。
图1的结构图中,右边虚框中的是服务器2,包括:音乐数据源接口单元21、数据获取与分析单元22、索引编制单元23、搜索单元24,它们在后台完成收集数据、分析数据、编制索引,并且在线进行搜索运算。
数据获取与分析单元22,它负责收集原始的音乐数据文件,并对音乐数据文件进行分析,从中提取出音乐旋律信息;本发明直接支持的音乐文件格式是MIDI格式,因此,数据获取与分析单元22主要对MIDI音乐文件进行分析。MIDI文件格式是以数字指令的形式存储音乐的要素,如音高,时长,音色,节奏等。通过对MIDI文件中音乐数字指令序列的解析,可以很方便而且精确地提取出音乐的参数。MIDI音乐文件可以看作一个分层的结构。常见的MIDI文件有两种格式:单轨格式(Type0),和多轨格式(Type1)。在单轨格式中,每个文件包含一个音轨(track),每个音轨中有16个通道(channel),每个通道可以存放一种乐器。在播放时,16个通道同时播放。单轨格式最多有16种乐器同时播放,能满足一般数字音乐的需要。多轨格式音乐文件中,每个文件包含多个音轨(track),每个音轨也包含16个通道,但每个音轨只有一个通道是活动的,其他通道都为空。多个音轨也是同时播放。多轨格式可以同时播放多于16种乐器,因此一些表现力丰富的数字音乐常采用该格式。数据获取与分析单元22将两种文件格式统一,建立分层结构:MIDI—轨道—通道—音符四个层次,上层元素由下层元素的集合组成。每一个非空的通道都包含一段音符序列。数据获取与分析单元22将每一个音乐文件转化为一个具有分层结构的对象,并且还保存了该音乐的指纹信息,标题,作者等相关信息。
任何一个搜索引擎,它的工作就是在一个可以接受的时间内返回一个和该用户查询匹配的信息列表。在这里,有三个概念需要注意:
1)可以接受的时间。这指的是响应时间。对于在Internet上向广大用户提供服务的软件来说,这个时间不能太长,通常也就是在“秒”这个量级。这是衡量搜索引擎可用性的一个基本指标,也是和传统信息检索***的一个差别。更进一步的,这样的响应时间要求不仅要能满足单个用户的查询,而且要能在***设计负载的情况下满足所有的用户。也就是说,***应该在额定的吞吐率的情况下保证秒级响应时间。
2)匹配。以网页为例,指的是网页中以某种形式包含有用户输入的查询关键字的内容,或者出现与查询关键字非常相近的内容。在基于旋律的音乐搜索引擎***中,匹配指的就是音乐的主旋律中包含用户输入的旋律关键字。用户旋律的输入与目标旋律有所偏差,因此,匹配不仅要能精确匹配,而且还需要有一定的容错能力。
3)列表。在搜索引擎返回给用户的搜索结果,通常是一个包含多项结果的列表,在这个列表中的每一个元素,与用户输入的关键字都有一定程度的相似或相关。然而绝大多数用户只关心排在结果列表中第一页的元素,因此,对搜索结果列表中元素的相似相关性排序是必需的。这种排序称为Rank。目前不同的搜索引擎采取了不尽相同的Ranking算法。如Google采用的是PageRank算法,它对结果中页面的重要性进行排序,而百度采用了竞价排名的方法等。
在搜索引擎***中,索引算法的优劣,对以上三个性能指标有至关重要的影响。在目前的基于旋律的音乐搜索引擎中,多数采用的是线性匹配的算法。这种算法就是把用户的输入旋律和音乐文件中的旋律分别看作两个串,进行串的相似度对比。在基于内容的音乐搜索领域中,比较常用的有Suffix Tree,Suffix Array,Linear Alignment等方法。然而,线性搜索有一个共同的缺陷,在搜索过程中,需要对数据库中的每一个元素进行扫描,以确定是否匹配。这在原始数据库的数据量不大的时候是可以接受的,但是随着数据库的数据量的增大,在最理想的情况下,搜索的时间也会呈线性地增长,即搜索的时间复杂度至少为O(n),例如,在Suffix Array算法中,其时间复杂度为O(nlogn)。现在大型搜索引擎的数据量,通常在108至109数量级,如果对如此庞大的数据库进行线性扫描,运算时间是用户无法接受的。因此,大型的搜索引擎,一般都采用倒排索引的算法。
在众多的搜索算法中,倒排索引(Inverted Index)以灵活,高效,具有通用性等特点,迅速获得广泛应用。它是一种基于单词的索引算法,能够根据用户输入的关键字,直接过滤掉数据库中不相关的内容,并且能对相关内容的相关性进行排序,并且有良好的容错性能,可以对近似的内容进行识别。
在多数语言的文本中,词与词之间都有天然的分隔符,如空格,标点符号等。在中文等没有天然分词的语言中,也有比较成熟的分词技术。倒排索引就是根据每个单词在文章中出现在频率不同,将不同文章中出现的同一个词归为一类,以单词作为索引的主键,含有该单词的文章作为元素列表。这样,当一个查询中出现了几个特定的单词,***就会直接去查找这几个特定单词下的文章元素,而与查询无关的文章就会被自动过滤掉。这种自动过滤不需要占用CPU资源,因此效率非常高。这种高效自动过滤不相关信息的机制,就是倒排索引这种独特的数据结构的优势所在。
在音乐搜索引擎***中,搜索的对象是音乐旋律,而不是文本。因此需要对基于文本的倒排索引模型做一些修改,使之适应音乐旋律的索引编制。
音乐旋律是由连续的音符序列构成。在音乐中,虽然也有小节可以将乐曲分成小段,但是在MIDI音乐格式中,并没有明显的小节分隔的标志。此外,休止符与文本中的空格很相似,只是在不同风格的音乐中,休止符的出现很随机,没有一个具有明显特征的规律。因此,小节和休止符这类音乐本身天然的分隔符都不适合划分旋律。
由于音乐旋律本身目前没有找到一种良好的分词机制,因此本发明采用旋律片段切分方法。将一段连续的旋律切分为小段,每小段包含3~4个音符,段与段之间有一定的重叠。本发明将旋律片段作为音乐旋律的分词,运用倒排算法进行索引编制。当有新音乐曲目需要加入索引时,只需要对该曲进行旋律片段的划分,并将该曲分别加入每个旋律片段的元素集合中。
索引编制单元23,用于根据以上方法将音乐旋律信息片段作为音乐旋律的分词进行索引编制,对数据获取与分析单元22提供的音乐数据建立索引。
搜索单元24,用于接收客户端输入模块11的查询请求,并在索引编制单元23生成的索引中搜索与客户端1中音频采集单元111或音符采集单元113查询的音乐旋律信息相同或相近旋律的音乐在线进行搜索运算,用于将搜索结果列表按相似程度倒序排序,并反馈回客户端的搜索结果显示模块12。
上文提到,按相似程度对搜索结果进行排序,是搜索引擎一个重要的功能。搜索单元24根据客户端查询串和音乐库中旋律串中相同音符的个数来计算相似度,相同的音符越多,说明两者越相似。
搜索单元24根据不同的客户端1设备采用不同的交互方式。
对于客户端1为个人电脑设备时,个人电脑客户端从服务器下载安装特定的Web浏览器插件软件,该插件软件集成了音频采集模块111中的录音程序和音符采集模块113的虚拟钢琴键盘程序。用户访问服务器提供的音乐检索Web网站时,用于为用户提供音频采集输入和音符采集旋律的用户界面,并且采集用户的查询输入,通过互联网发送至服务器。
对于客户端1为智能移动设备时,客户端1安装特定的软件,该软件基于用户使用的移动设备操作***平台开发(如Windows Mobile平台,Linux平台,Nokia S60平台,Java平台等),为用户提供音频采集输入和音符采集旋律的用户界面,并且采集用户的查询输入,通过无线网络发送至服务器。
对于客户端1选择电话设备时,服务器2提供特定的电话声讯台,客户端1拨打该声讯台号码,利用电话数字键盘,或使用电话受话器作为音频采集输入设备,服务器2与客户端1通过公共交换电话网络(PSTN)进行信息交互。
对于客户端1选择具有媒体点播功能的音视频娱乐设备,客户端1配备硬件数字钢琴键盘设备,或安装虚拟钢琴键盘软件采集用户的钢琴键盘音符输入,利用卡拉OK麦克风采集用户的哼唱输入,服务器2为专用本地服务器,搜索的范围为卡拉OK本地的音乐库。
对于电脑和移动智能设备,搜索结果以列表形式呈现给用户,用户在不侵犯音乐作品知识产权的情况下,可以进行下载,播放等操作。对于电话的客户端1,服务器2端将以语音提示的方式朗读搜索结果列表,用户可用电话按键选中。对于点唱设备客户端1,用户选中后,可以进行预约,点播等操作。
音乐数据源接口单元21,用于提供多种不同的数据源访问接口,使服务器能够从不同的数据源获取原始音乐数据,并根据具体的用途和需求对音乐数据库进行扩充,例如:
1.采取Web网络抓取的方式,自动在互联网上漫游,抓取音乐文件和与该音乐文件相关的信息;或
2.采取对本地或网络文件***中存储的文件进行抓取和分析;或
3.采取对数据库中的音乐记录进行提取和分析。
本发明不局限于以上三种数据源,而是提供了可二次开发的应用程序接口(API),可对数据源进行进一步的扩充。
上面描述是用于实现本发明的实施例,本领域的技术人员应该理解,在不脱离本发明的范围的任何修改或局部替换,均属于本发明权利要求来限定的范围。
Claims (13)
1.一种基于旋律的音乐检索方法,其特征在于,
步骤S1:指定待查音乐中的一段旋律作为搜索的旋律关键字;
步骤S2:将所指定的旋律关键字输入查询客户端设备,经过处理得到用于查询的数字化旋律信号;
步骤S3:采用旋律片段切分方法,将一段连续的旋律切分为小段,每小段包含3~4个音符,段与段之间有一定的重叠;将音乐旋律片段作为音乐旋律的分词,再运用倒排索引算法进行索引编制,对音乐数据库中的音乐数据建立索引,该索引体现音乐的旋律特征,形成索引化的音乐数据库;
步骤S4:由搜索引擎将数字化旋律信号与产生的音乐数据库中的旋律进行比较,并过滤掉与旋律关键字不相关的音乐,将剩下的若干个候选音乐按照与旋律关键字的相似程度排序;根据数字化旋律信号和音乐数据库中的旋律中相同音符的个数来计算相似度,并根据相似度从音乐数据库选出一组音乐;
步骤S5:将选出的音乐按照与旋律关键字的相似程度递减排序。
2.根据权利要求1所述的音乐检索方法,其特征在于,所述待查音乐的输入方式包括:弹奏输入和哼唱输入。
3.根据权利要求1所述的音乐检索方法,其特征在于,所述索引,为针对旋律片段的旋律特征而编制的索引。
4.根据权利要求2所述的音乐检索方法,其特征在于,对于哼唱输入方式,采取如下步骤获得数字化的旋律信号:
步骤S21:使用音频采集设备采集用户的哼唱输入;
步骤S22:对用户输入的音频信号进行预滤波处理,包括直流消除、增益标准化、低通滤波处理,得到音频帧序列信号;
步骤S23:对音频帧序列信号进行时域或频域分析,提取基频序列;
步骤S24:对基频序列进行进一步处理,包括线性化、求差,得到数字化的旋律信号。
5.一种基于旋律的音乐检索装置,其特征在于,包括:
至少一台服务器(2)提供在线音乐旋律检索服务,对用户输入的旋律关键字与音乐数据库中的旋律进行比较,并过滤掉与旋律关键字不相关的音乐,将剩下的若干个候选音乐按照与旋律关键字的相似程度排序,将排序后的音乐列表返回客户端(1);
所述服务器(2),包括:
音乐数据源接口单元(21),用于提供访问各种数据源获取原始音乐数据的接口;
数据获取与分析单元(22),用于收集原始的音乐数据,并对音乐数据进行分析,从中提取出音乐旋律信息;
索引编制单元(23),采用旋律片段切分方法,将一段连续的旋律切分为小段,每小段包含3~4个音符,段与段之间有一定的重叠;将音乐旋律片段作为音乐旋律的分词,再运用倒排索引算法进行索引编制,用于将数据获取与分析单元22获取的原始音乐数据按照其旋律特征建立索引;
搜索单元(24),用于接收客户端输入模块(11)的查询请求,并在索引编制单元(23)生成的索引中搜索包含与客户端输入模块(11)提供的旋律关键字相同或相近旋律的音乐,将搜索结果列表按相似程度倒序排序,并反馈回客户端(1)的搜索结果显示模块(12);
和至少一台客户端(1)终端设备发出在线音乐旋律检索请求,指定待查音乐中的一段旋律作为搜索的旋律关键字;将所指定的旋律关键字输入查询客户端设备,经过处理得到数字化旋律信号,发送到服务器端,并接收服务器查询音乐旋律的结果。
6.根据权利要求5所述的音乐检索装置,其特征在于,所述客户端(1),包括:
输入模块(11),用于输入需要查找的音乐旋律信息,并将其发送至服务器(2);
搜索结果的显示模块(12),客户端(1)通过网络或其他传输方式从服务器(2)获得搜索结果,搜索结果以列表的形式呈现,列表中的音乐按相似程度递减排序,并呈现给用户。
7.根据权利要求6所述的音乐检索装置,其特征在于,所述输入模块11,包括:
音频采集单元(111)用于采集用户的哼唱音频信号,由录音软件驱动,将音频波形的模拟信号按录音软件指定的采样频率进行数字采集,将采集的数字脉冲序列存储在客户端(1)的存储器中;采样频率为8000Hz或11025Hz对人声的谐波进行分析;
音频信号处理单元(112),将音频采集单元(111)采集的音频信号转化为音乐旋律信号;
音符采集单元(113)用于采集用户弹奏的音符旋律信号,采用钢琴键盘输入的方式提供弹奏输入旋律的界面,在客户端(1)上显示钢琴键盘,用户可以用鼠标或其他触点设备点击相应的琴键输入旋律,音符采集单元(113)将钢琴的每个键按音高顺序编号,作为每个键的ID,用户所点击的相邻两键的ID之差即为与音频信号处理单元(112)的输出含义相同的音符差,作为旋律特征发送至服务器(2)。
8.根据权利要求5所述的音乐检索装置,其特征在于,所述音乐数据源接口单元(21),提供以下的一种或几种数据获取方式的接口:
Web:采取Web网络抓取的方式,自动在互联网上漫游,抓取音乐文件和与该音乐文件相关的信息;
文件:对本地或网络文件***中存储的音乐文件进行抓取和分析;
数据库:对数据库中记录的音乐文件进行提取和分析。
9.根据权利要求7所述的音乐检索装置,其特征在于,所述客户端(1)为以下设备中的一种或几种:
个人电脑、智能移动设备、电话、具有媒体点播功能的音视频娱乐设备。
10.根据权利要求9所述的音乐检索装置,其特征在于,所述的客户端(1)选择个人电脑设备时,个人电脑客户端(1)从服务器(2)下载安装特定的Web浏览器插件软件,用户访问服务器(2)提供的音乐检索Web网站时,用于为用户提供音频采集输入和音符采集旋律的用户界面,并且采集用户的查询输入,通过互联网发送至服务器(2)。
11.根据权利要求9所述的音乐检索装置,其特征在于,所述的客户端(1)选择智能移动设备时,客户端(1)安装特定的软件,该软件为用户提供音频采集和音符采集的用户界面,并且采集用户的查询输入,通过无线网络发送至服务器。
12.根据权利要求9所述的音乐检索装置,其特征在于,所述的客户端(1)选择电话设备时,服务器(2)提供特定的电话声讯台,客户端(1)拨打该声讯台号码,利用电话数字键盘,或使用电话受话器分别作为音符采集和音频采集输入设备,服务器(2)与客户端(1)通过公共交换电话网络进行信息交互。
13.根据权利要求9所述的音乐检索装置,其特征在于,所述的客户端(1)选择具有媒体点播功能的音视频娱乐设备时,客户端(1)配备数字钢琴键盘设备,或安装虚拟钢琴键盘软件采集用户的钢琴键盘音符输入,利用卡拉OK麦克风采集用户的哼唱输入,服务器(2)为专用本地服务器,搜索的范围为卡拉OK本地的音乐数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007100646076A CN101271457B (zh) | 2007-03-21 | 2007-03-21 | 一种基于旋律的音乐检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007100646076A CN101271457B (zh) | 2007-03-21 | 2007-03-21 | 一种基于旋律的音乐检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101271457A CN101271457A (zh) | 2008-09-24 |
CN101271457B true CN101271457B (zh) | 2010-09-29 |
Family
ID=40005434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007100646076A Expired - Fee Related CN101271457B (zh) | 2007-03-21 | 2007-03-21 | 一种基于旋律的音乐检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101271457B (zh) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101552000B (zh) * | 2009-02-25 | 2012-07-04 | 北京派瑞根科技开发有限公司 | 音乐相似性处理方法 |
CN101552001B (zh) * | 2009-02-25 | 2012-07-04 | 北京派瑞根科技开发有限公司 | 一种网络搜索***及信息搜索方法 |
CN101552003B (zh) * | 2009-02-25 | 2012-07-04 | 北京派瑞根科技开发有限公司 | 一种媒体信息处理方法 |
US20110077756A1 (en) * | 2009-09-30 | 2011-03-31 | Sony Ericsson Mobile Communications Ab | Method for identifying and playing back an audio recording |
CN101916250B (zh) * | 2010-04-12 | 2011-10-19 | 电子科技大学 | 一种基于哼唱的音乐检索方法 |
CN102375834B (zh) * | 2010-08-17 | 2016-01-20 | 腾讯科技(深圳)有限公司 | 音频文件检索方法、***和音频文件类型识别方法、*** |
CN102411578A (zh) * | 2010-09-25 | 2012-04-11 | 盛乐信息技术(上海)有限公司 | 一种多媒体播放***和方法 |
CN101980197B (zh) * | 2010-10-29 | 2012-10-31 | 北京邮电大学 | 一种基于长时结构声纹的多层滤波音频检索方法和装置 |
CN102332262B (zh) * | 2011-09-23 | 2012-12-19 | 哈尔滨工业大学深圳研究生院 | 基于音频特征的歌曲智能识别方法 |
CN102522083B (zh) * | 2011-11-29 | 2014-03-05 | 北京百纳威尔科技有限公司 | 一种应用移动终端搜索哼唱歌曲的方法及其移动终端 |
CN102497400A (zh) * | 2011-11-30 | 2012-06-13 | 上海博泰悦臻电子设备制造有限公司 | 车载收音设备的音乐媒体信息获取方法和*** |
CN102420910A (zh) * | 2011-12-16 | 2012-04-18 | 广东步步高电子工业有限公司 | 一种播放音乐同步显示乐谱的移动手持终端及其实现方法 |
CN103812917A (zh) * | 2012-11-15 | 2014-05-21 | 佛山市顺德区顺达电脑厂有限公司 | 信息收集***及其方法 |
CN103970793B (zh) | 2013-02-04 | 2020-03-03 | 腾讯科技(深圳)有限公司 | 信息查询方法、客户端及服务器 |
CN103108229A (zh) * | 2013-02-06 | 2013-05-15 | 上海云联广告有限公司 | 一种通过音频跨屏识别视频内容的方法 |
CN103218454A (zh) * | 2013-05-06 | 2013-07-24 | 百度在线网络技术(北京)有限公司 | 基于音频数据的文件查找方法、装置和*** |
JP2014219607A (ja) * | 2013-05-09 | 2014-11-20 | ソニー株式会社 | 音楽信号処理装置および方法、並びに、プログラム |
CN103258033A (zh) * | 2013-05-15 | 2013-08-21 | 江苏奇异点网络有限公司 | 自动歌曲搜索*** |
CN103559312B (zh) * | 2013-11-19 | 2017-01-18 | 北京航空航天大学 | 一种基于gpu的旋律匹配并行化方法 |
CN104679778B (zh) | 2013-11-29 | 2019-03-26 | 腾讯科技(深圳)有限公司 | 一种搜索结果的生成方法及装置 |
WO2017028115A1 (zh) * | 2015-08-16 | 2017-02-23 | 胡丹丽 | 智能桌面音箱和智能桌面音箱的控制方法 |
CN105069146B (zh) * | 2015-08-20 | 2019-04-02 | 百度在线网络技术(北京)有限公司 | 声音搜索方法和装置 |
CN105244021B (zh) * | 2015-11-04 | 2019-02-12 | 厦门大学 | 哼唱旋律到midi旋律的转换方法 |
CN105895079B (zh) * | 2015-12-14 | 2022-07-29 | 天津智融创新科技发展有限公司 | 语音数据的处理方法和装置 |
CN107146631B (zh) * | 2016-02-29 | 2020-11-10 | 北京搜狗科技发展有限公司 | 音乐识别方法、音符识别模型建立方法、装置及电子设备 |
WO2018018283A1 (zh) * | 2016-07-24 | 2018-02-01 | 张鹏华 | 歌曲信息识别技术的使用情况统计方法和识别*** |
CN106776977A (zh) * | 2016-12-06 | 2017-05-31 | 深圳前海勇艺达机器人有限公司 | 搜索音乐的方法及装置 |
CN108268530B (zh) * | 2016-12-30 | 2022-04-29 | 阿里巴巴集团控股有限公司 | 一种歌词的配乐生成方法和相关装置 |
CN108574771A (zh) * | 2017-03-10 | 2018-09-25 | 峰范(北京)科技有限公司 | 信息收集与处理***及其语音播放装置、处理方法 |
CN107205043A (zh) * | 2017-07-03 | 2017-09-26 | 武汉理工大学 | 一种提琴类网络虚拟乐器 |
CN107436953B (zh) * | 2017-08-15 | 2020-07-10 | 中国联合网络通信集团有限公司 | 一种音乐搜索方法及*** |
CN108665903B (zh) * | 2018-05-11 | 2021-04-30 | 复旦大学 | 一种音频信号相似程度的自动检测方法及其*** |
CN108806392A (zh) * | 2018-07-03 | 2018-11-13 | 东北石油大学 | 一种声乐发音训练装置及*** |
CN109346043B (zh) * | 2018-10-26 | 2023-09-19 | 平安科技(深圳)有限公司 | 一种基于生成对抗网络的音乐生成方法及装置 |
CN110472094B (zh) * | 2019-08-06 | 2023-03-31 | 沈阳大学 | 一种传统音乐录入方法 |
CN110853457B (zh) * | 2019-10-31 | 2021-09-21 | 中科南京人工智能创新研究院 | 可互动的音乐教学指导方法 |
CN111627410B (zh) * | 2020-05-12 | 2022-08-09 | 浙江大学 | 一种midi多轨序列表示方法和应用 |
CN112015942A (zh) * | 2020-08-28 | 2020-12-01 | 上海掌门科技有限公司 | 音频处理方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1703734A (zh) * | 2002-10-11 | 2005-11-30 | 松下电器产业株式会社 | 从声音确定音符的方法和装置 |
-
2007
- 2007-03-21 CN CN2007100646076A patent/CN101271457B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1703734A (zh) * | 2002-10-11 | 2005-11-30 | 松下电器产业株式会社 | 从声音确定音符的方法和装置 |
Non-Patent Citations (4)
Title |
---|
张静,朱悦心.采用人声输入的网络音乐检索***.微电子学与计算机23 5.2006,23(5),173-178. |
张静,朱悦心.采用人声输入的网络音乐检索***.微电子学与计算机23 5.2006,23(5),173-178. * |
金毅,黄敏.基于旋律的音乐检索研究--旋律特征的输入识别*.现代图书情报技术 106.2004,(106),41-45. |
金毅,黄敏.基于旋律的音乐检索研究——旋律特征的输入识别*.现代图书情报技术 106.2004,(106),41-45. * |
Also Published As
Publication number | Publication date |
---|---|
CN101271457A (zh) | 2008-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101271457B (zh) | 一种基于旋律的音乐检索方法及装置 | |
Typke et al. | A survey of music information retrieval systems | |
CN102053998A (zh) | 一种利用声音方式检索歌曲的方法及***装置 | |
Typke | Music retrieval based on melodic similarity | |
Lidy et al. | On the suitability of state-of-the-art music information retrieval methods for analyzing, categorizing and accessing non-western and ethnic music collections | |
Cornelis et al. | Access to ethnic music: Advances and perspectives in content-based music information retrieval | |
US20080190272A1 (en) | Music-Based Search Engine | |
CN101657817A (zh) | 基于音乐的搜索引擎 | |
CN101014953A (zh) | 音频指纹识别***和方法 | |
KR20080054393A (ko) | 음악 분석 | |
EP1894126A1 (en) | A method of analysing audio, music orvideo data | |
Futrelle et al. | Interdisciplinary research issues in music information retrieval: ISMIR 2000–2002 | |
CN100501738C (zh) | 一种针对可播放媒体文件的搜索方法、***及装置 | |
CN111192601A (zh) | 音乐标注方法、装置、电子设备及介质 | |
Gurjar et al. | Comparative Analysis of Music Similarity Measures in Music Information Retrieval Systems. | |
Pachet et al. | The cuidado music browser: an end-to-end electronic music distribution system | |
Kurth et al. | Syncplayer-An Advanced System for Multimodal Music Access. | |
CN116959393A (zh) | 音乐生成模型的训练数据生成方法、装置、设备及介质 | |
KR100702059B1 (ko) | 고객 특성이 피드백 반영되는 질의 풀 기반의 유비쿼터스음악 정보 검색 시스템 및 방법 | |
KR102165940B1 (ko) | Cbmr 기반 음을 이용한 음악 검색 서비스 제공 시스템 및 방법 | |
KR20020053979A (ko) | 내용 기반의 음악 자료 검색 시스템 및 그 방법 | |
JP2009151541A (ja) | 検索システムにおける最適情報の提示方法 | |
Lin | [Retracted] Design of the Violin Performance Evaluation System Based on Mobile Terminal Technology | |
Dovey | Overview of the OMRAS project: Online music retrieval and searching | |
Clausen et al. | A unified approach to content-based and fault tolerant music identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100929 Termination date: 20180321 |
|
CF01 | Termination of patent right due to non-payment of annual fee |