CN101454778B - 利用音调匹配访问音频文件集中的音频文件的方法和装置 - Google Patents

利用音调匹配访问音频文件集中的音频文件的方法和装置 Download PDF

Info

Publication number
CN101454778B
CN101454778B CN2007800190803A CN200780019080A CN101454778B CN 101454778 B CN101454778 B CN 101454778B CN 2007800190803 A CN2007800190803 A CN 2007800190803A CN 200780019080 A CN200780019080 A CN 200780019080A CN 101454778 B CN101454778 B CN 101454778B
Authority
CN
China
Prior art keywords
audio file
input
index
electronic equipment
data entries
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007800190803A
Other languages
English (en)
Other versions
CN101454778A (zh
Inventor
许军
张化云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Creative Technology Ltd
Original Assignee
Creative Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Creative Technology Ltd filed Critical Creative Technology Ltd
Publication of CN101454778A publication Critical patent/CN101454778A/zh
Application granted granted Critical
Publication of CN101454778B publication Critical patent/CN101454778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Telephone Function (AREA)

Abstract

提供了一种用于访问包括存储在电子设备中或者通过电子设备可访问的多于一个音频文件的集合中的至少一个音频文件的方法。该方法包括:生成一个索引,所述索引包括从该集合中多于一个音频文件的每个获取的信息条目的索引,其中,该集合中的每个音频文件被链接到至少一个信息条目;在输入接收模式期间接收输入;利用模数转换器将输入转换为数字信号;利用频谱分析或旋律轮廓分析将数字信号解析为离散部分;以及比较离散部分与索引中的信息条目。优点在于当离散部分与索引中的至少一个信息条目基本一致时,音频文件被访问。离散部分可以是音符、旋律轮廓或波形。至少一个信息条目也可以是音符、旋律轮廓或波形。还公开了一种应用上述方法的装置。

Description

利用音调匹配访问音频文件集中的音频文件的方法和装置
技术领域
本发明涉及用于访问音频文件集(collection of audio files)中的音频文件的方法和装置,并且更具体而言,涉及利用音调匹配对文件的访问。
背景技术
能够购买数字娱乐年代的出现已经在很大程度上增加了消费者对个人数字娱乐设备的使用。这些个人数字娱乐设备通常设有一定大小的存储容量。由于诸如硬盘驱动和闪存之类的存储设备的价格下降,存储容量超过1GB的个人数字娱乐设备的数目增加了。个人数字娱乐设备中的用于音频文件的这种大小的存储容量使得能够存储成千上万份文件。
虽然可以将音频文件根据它们的歌曲标题、演唱者、流派等进行存储和分类,但是存在这样的情况:用户可能忘记了歌曲的标题或演唱者,因而提供对相关音频文件的搜索类似于大海捞针。在很多情况下,用户可能只能够忆起歌曲或者其曲调的一部分。此时,这不能以任何方式来帮助搜索相关的音频文件。当试图访问很大音频文件集中的音频文件而不知道某些诸如歌曲名或演唱者之类的信息的时候,这便成了一个问题。当视觉受损者试图访问音频文件集中的音频文件而他们不能够通过使用视觉来选择音频文件时,这个问题更加严重。
在没有使其参加昂贵的歌唱训练(vocal coach)的情况下,要提高人的歌唱技能也是相当困难的。当前,除了使用其中设有“评分”功能的卡拉OK机以外,很难独立地提高人的歌唱技能。现在,还很少有可用的能够容易且方便地判定人歌唱技能质量的设备。
发明内容
在本发明的一个优选方面中,提供了一种用于访问包括存储在电子设备中或者通过电子设备可访问的多于一个音频文件的集合中的至少一个音频文件的方法。该方法包括:生成一个索引,所述索引包括从该集合中多于一个音频文件的每个获取的信息条目的索引,该集合中的每个音频文件被链接到至少一个信息条目;在输入接收模式期间接收输入;利用模数转换器将输入转换为数字信号;利用频谱分析或旋律轮廓分析将数字信号解析为离散部分;以及比较离散部分与索引中的信息条目。优点在于当离散部分与索引中的至少一个信息条目基本匹配时,音频文件被访问。优选地,离散部分例如是音符、旋律轮廓或波形。至少一个信息条目也可以是音符、旋律轮廓或波形。优选地,旋律轮廓分析基于对每个音频文件的音频输出的一阶旋律轮廓(UDR)、二阶旋律轮廓(udr)以及持续时间轮廓(LSK)进行的分析,其中所述分析生成用于音频文件匹配的“接近(closeness)”评分。
输入优选地可以是独立于扬声器的并且可以是歌唱、哼唱、口哨、MIDI信号以及音符的形式。输入形式优选地可以是手动可选择的或自动可选择的。
优选地,音频文件可以从电子设备本身、功能上连接到该电子设备的设备或者被连接的计算机网络进行访问。优选地,信息条目也可以从音频文件、链接到音频文件的预先记录的歌唱条目以及被连接的计算机网络来接收。优选地,电子设备可以从由以下选项组成的组中选择:车载音频***、桌上型计算机、笔记本计算机、PDA、便携式媒体播放器以及移动电话。
优选地,该方法还包括通过按下预定按钮至少一次来选择用于访问所述音频文件的装置(facility),并且对输入进行滤波。
还提供了一种用于访问包括存储在电子设备中或者通过电子设备可访问的多于一个音频文件的集合中的至少一个音频文件的装置。优选地,该装置包括:用于生成包括从集合中多于一个音频文件的每个获取的信息条目的索引的索引器,其中,集合中的每个音频文件被链接到至少一个信息条目;用于在输入接收模式期间接收输入的输入接收接收器;使用模数转换器将输入转换为数字信号;以及被配置为利用频谱分析或旋律轮廓分析将数字信号解析为离散部分的处理器,该处理器还可以比较离散部分与索引中的信息条目。优点在于当离散部分与索引中的至少一个信息条目基本匹配时,音频文件被访问。该装置可以包括显示屏并且输入可以被滤波。输入接收模式可以通过按下至少一个按钮至少一次来激活。优选地,离散部分是音符、旋律轮廓或波形。优选地,旋律轮廓分析基于对每个音频文件的音频输出的一阶旋律轮廓(UDR)、二阶旋律轮廓(udr)以及持续时间轮廓(LSK)进行的分析,其中所述分析生成用于音频文件匹配的“接近”评分。
优选地,该装置是从由以下选项组成的组中选择的:车载音频***、桌上型计算机、笔记本计算机、PDA、便携式媒体播放器以及移动电话。
优选地,输入是手动地或自动地从由以下选项组成的组中选择的:歌唱、哼唱、口哨、MIDI信号以及音符。优点在于输入可以独立于扬声器。至少一个信息条目可以从音符或波形来选择。优选地,至少一个信息条目可以从音频文件、链接到音频文件的预先记录的歌唱条目以及被连接的计算机网络来接收。音频文件可以从电子设备本身、功能上连接到该电子设备的任何设备或被连接的计算机网络来访问。
还提供了一种使用前述装置来确定歌唱输入的质量水平的方法。
附图说明
为了更全面地理解本发明,并且更容易获得本发明的实际效果,现在,将本发明的优选实施例仅作为非限制性示例来进行描述,并参考所附示例性图来进行描述。
图1示出了本发明优选实施例的方法的流程图。
图2示出了本发明优选实施例的装置的示意图。
图3示出了用于图示出如何得出针对旋律的一阶旋律轮廓(UDR)和二阶旋律轮廓(udr)的示例。
图4示出了用于图示出使用本发明优选实施例如何将音频文件与音频输入进行匹配的序列。
图5示出了用于图示出如何得出针对另一旋律的一阶旋律轮廓(UDR)和二阶旋律轮廓(udr)的示例。
具体实施方式
下面的讨论意图提供对本发明在其中被实现的适当的计算环境的简要的一般描述。虽然不是必要的,但是将在由个人计算机执行的诸如程序模块之类的计算机可执行指令的通用背景中来描述本发明。通常,程序模块包括执行特定任务或实现特定抽象数据类型的例行程序、程序、字符、组件(component)、数据结构。本领域技术人员将会理解,可以利用其它计算机***配置,包括手持设备、多处理器***、基于微处理器或可编程用户电子设备、网络PC、小型计算机、大型计算机等来实现本发明。本发明也可以在其中由通过通信网络链接的远程处理设备来执行任务的分布式计算环境中实现。在分布式计算环境中,程序模块既可以位于本地存储器存储设备中也可以位于远程存储器存储设备中。
参考图1,其中提供了一种方法(18)的流程图,该方法用于访问包括存储在电子设备中或者通过电子设备可访问的多于一个音频文件的集合中的至少一个音频文件。该电子设备例如可以是车载音频***、桌上型计算机、笔记本计算机、PDA、便携式媒体播放器或移动电话等等。该方法可以包括以例如按下电子设备上的预定按钮至少一次的方式来使能电子设备中的输入接收模式(20)。输入接收模式可以被使能或被禁止,因为这样可以防止由于持续使能输入接收模式而持续消耗电子设备中的电源。输入接收模式可以用于输入例如歌唱、哼唱、口哨、MIDI信号或音符(musical note)。可以使用模数转换器将模拟输入转换为数字输入。
使能电子设备中的输入接收模式可以启动索引***(24)。一旦索引***被启动,则该***随后判定集合中的音频文件的构成是否已改变(26)。音频文件的构成可以包括音频文件的数目和音频文件名。索引可以包括从存储在电子设备、在功能上连接到电子设备的任何设备或被连接的计算机网络中的音频文件集中多于一个音频文件的每个所获取的信息条目。可以以有线或无线的方式连接到计算机网络。集合中的每个音频文件可以被链接到索引中的至少一个信息条目。至少一个信息条目可以是使用对应于存储在音频文件中的一部分或全部内容的语义分割而确定的音符或波形。信息条目还可以是像文件元数据一样被链接/附接到音频文件的MIDI组件。信息条目还可以从被链接/附接到音频文件的预先记录的歌唱条目或被连接的计算机网络获取。在被连接的计算机网络上可以有在线数据库,其中,针对每个音频文件的音符或波形的信息条目是可下载的。信息条目可以包括每个音频文件的音频输出的一阶旋律轮廓(melodycontour)(UDR)、二阶旋律轮廓(udr)以及持续时间轮廓(LSK)。
如果发现音频文件的构成不同,则在存储在电子设备、在功能上连接到电子设备的任何设备或被连接的计算机网络中的音频文件集中进行搜索(28)。该步骤是为了判定音频文件是否已经被添加到集合或从集合被移除。搜索之后,从每个音频文件直接获取的信息条目(25)、从被连接的计算机网络下载的针对每个音频文件的信息条目(29),或者链接到每个音频文件的预先记录的歌唱条目(23)可以被组合成为索引(30)。该索引随后被装载以在电子设备中使用(32)。
如果发现音频文件的构成未改变,则随后将最近使用的索引装载以在电子设备中使用(32)。随着对输入接收模式的使能,可能有输入进入设备(34)。该输入可以是歌唱、哼唱、口哨、MIDI信号或音符。在具体实例中,该输入不必是以完整形式存在的歌曲。一首歌曲的一部分足以作为该输入的可行形式。该输入可以被滤波。用户可以手动选择针对输入接收模式的特定输入(22)。也可以存在对输入的自动检测,但是这种模式通常会使用更多的电能。由电子设备进行的输入接收可以独立于扬声器。如果歌唱输入太响亮(以至于发生了输入失真)或太柔和(以至于听不见输入),则输入接收模式可以具有针对歌唱输入的自动音量校正。电子设备还可以通过基于索引中的音频文件条目,提供对最接近走调歌唱输入的音频文件的选择,来克服走调歌唱输入的问题。用户可以设置设备以显示达预定数目的最接近的近似音频文件,例如十个最接近的近似音频文件。
接下来,模拟形式的输入由模数转换器转换为数字信号(36)。该转换器可以是模拟-MIDI转换器。随后,电子设备中的处理器可以将数字信号解析成为离散部分,其中,离散部分可以是音符或者波形。可以使用频谱分析或旋律轮廓分析来进行数字信号处理。随后,处理器可以将离散部分与索引中的条目相比较(40)。离散部分和索引中的条目之间的精确近似或基本近似使得生成了一个以近似程度排序的音频文件列表(42)。该列表可以显示出音频文件数目,这个数目可以由用户预定并且可以被显示在电子设备的显示屏上。近似程度可以基于根据音符或波形的相对接近度。索引可以包括针对每个音频文件的旋律轮廓信息。
参考图3,其中示出了用于图示出怎样得出针对一个曲调(tune)的一阶旋律轮廓(UDR)和二阶旋律轮廓(udr)的示例。在此示例中,曲调是“Do Re Mi Re Do”。每个音符具有预定的被量化的音调(pitch)(MIDI调值(key value)),如下:
Do-60;
Re-62;
Mi-64;
Re-62;以及
Do-60。
一阶导数△可以用下式获得:
△=音调(当前的)-音调(前一个)
一阶导数△的结果在图3的表格中的第三行中示出。随后,一阶旋律轮廓(UDR)根据一阶导数△的值得出,其中:
△>0:U;
△=0:R;以及
△<0:D。
一阶旋律轮廓(UDR)的结果在图3的表格中的第四行示出。接下来,二阶导数△△可以用下式得出:
△△=|△(当前的)|-|△(前一个)|
二阶导数△△的结果在图3的表格中的第五行示出。随后,二阶旋律轮廓(udr)根据二阶导数△△的值得出,其中:
△△>0:u;
△△=0:r;以及
△△<0:d。
二阶旋律轮廓(udr)的结果在图3的表格中的第六行示出。
参考图5,示出了第二曲调“Do So La So Do”的一阶(UDR)和二阶(udr)轮廓。可以看出,第一曲调“Do Re Mi Re Do”的一阶(UDR)轮廓与第二曲调“Do So La So Do”的一阶(UDR)轮廓相同。但是,第一和第二曲调的二阶(udr)轮廓不同。这清晰地说明了二阶(udr)轮廓的使用是如何有助于区分不同曲调的准确度的。
持续时间轮廓(LSK)也是可导出的参数,并且可以以下面的三组进行分类:
DD=持续时间(当前的音符)-持续时间(前一个音符)
L用于DD>0;
S用于DD=0;以及
K用于DD<0。
因此,L是当前音符具有长于前一音符的持续时间的情况。K是当前和前一音符两者具有相同持续时间的情况,以及S是当前音符具有短于前一音符的持续时间的情况。
应当注意,当使用旋律轮廓解析时即使忽略音调转换比例(scale),由于在这种情况下解析了音调轮廓“加速”,因此使用二阶旋律轮廓也可以克服这种忽视音调转换比例的缺点。
输入和被存储的音频文件之间的比较可以基于旋律轮廓分析,其中旋律轮廓分析基于每个被存储的音频文件的音频输出的一阶旋律轮廓(UDR)、二阶旋律轮廓(udr)和持续时间轮廓(LSK)。
D(i,j)表示输入和被存储音频文件的音频输出之间的距离。
D ( i , j ) = min D ( i - 1 , j - 1 ) + SubCost ( i , j ) D ( i - 1 , j ) + DelCost ( i , j ) D ( i , j - 1 ) + InsCost ( i , j ) - - - ( 1 )
Cost(i,j)表示由UDR、udr和LSK误差的组合所引起的总花费。
Cost(i,j)=UDRCost(i,j)+udrCost(i,j)+LSKCost(i,j)(2)
UDRCost(i,j)表示来自UDR的误差的花费。
Figure G2007800190803D00081
应当注意,针对上述误差的值‘2.0’仅仅是代表性的,并且它可以采用任何大于零的数值。
udrCost(i,j)表示来自udr的误差的花费。
Figure G2007800190803D00082
(4)
应当注意,针对上述误差的值‘1.0’仅仅是代表性的,并且它可以采用任何大于零的数值。
LSKCost(i,j)表示来自LSK的误差的花费。
Figure G2007800190803D00083
(5)
应当注意,针对上述误差的值‘2.0’仅仅是代表性的,并且它可以采用任何大于零的数值。
参考图4,其中示出了涉及如何在比较过程(40)中应用上述等式(1)-(5)的示例。被存储音频文件之一的一部分根据一阶旋律轮廓(UDR)、二阶旋律轮廓(udr)和持续时间轮廓(LSK)来表达。被存储音频文件之一的一部分以如下的矩阵形式来表达:
基准旋律: R D U D R D U r u d d d u d K L S S K R L
输入也根据一阶旋律轮廓(UDR)、二阶旋律轮廓(udr)和持续时间轮廓(LSK)来表达。示例性输入用以下矩阵形式来表达:
输入旋律: R D U R R U r u d d r d K K S L R S
应当注意,基准旋律有七个音符而输入旋律有六个音符。输入和基准旋律两者不必具有相等数目的音符。这种情况可以在如下情况中被证实:例如,用户哼唱了所存储音频文件中的歌曲的一部分,用户哼唱了变化了的歌曲(走调),或者比如当输入旋律由模数转换器转换时引入了误差。
参考图4,可以看出,基准旋律矩阵沿着距离表99的水平轴呈现而输入旋律矩阵沿着垂直轴呈现。距离表99的大小取决于基准旋律和输入旋律两者的音符数目。应当注意,在这最初的时刻(juncture)应当忽略距离表中的暗色方块。在后续的描述部分将提供对暗色方块的进一步说明。还应当注意,比较过程(40)可以由一组处理来支持,所述处理对输入和基准旋律进行调准(alignment)以使得正确地将输入旋律与基准旋律的有关部分相比较。可以由处理器/控制器来执行输入和基准旋律之间的调准。使用任何已知的例如枚举距离比较等比较方法来完成调准处理。
参考开始框100,由于根据旋律轮廓“RrK”,基准旋律的第一音符和输入旋律的第一音符是匹配的,因此框100的值为“0”。这意味着当UDR(如按照式子(3))、udr(如按照式子(4))和SLK(如按照式子(5))分别没有误差时,由于UDRCost(i,j)、udrCost(i,j)和LSKCost(i,j)的每个等于0,因此Cost(i,j)等于0(如按照式子(2))。由此,当没有更早的基准音符用于比较时,开始框100的值D为“0”,如按照式子(1)。
距离表的第一行102随后被填充。当由于输入旋律的第一音符与基准旋律的第二音符存在极大的不同,因此分别存在UDR、udr和SLK误差时,Cost(i,j)=5(由于UDRCost(i,j)、udrCost(i,j)和LSKCost(i,j)的每个分别等于“2”、“1”和“2”),因此表的行102中的第二框104具有值“5”。由此,框104的D=5。沿着行102的后续框根据每个应用等式(1)-(5)具有比沿着第一行102的前一框多5的值。
接下来,距离表的第一列106被填充。当由于输入旋律的第二音符与基准旋律的第一音符存在极大的不同,因此分别存在UDR、udr和SLK误差时,Cost(i,j)=5(由于UDRCost(i,j)、udrCost(i,j)和LSKCost(i,j)的每个分别等于“2”、“1”和“2”),因此表的列106中的第二框108具有值“5”。由此,框106的D=5。沿着列106的后续框根据每个应用等式(1)-(5)具有比沿着第一列106的前一框多5的值。
接下来斜对着开始框100的框110被填充。在这种情况下,输入旋律是“DuK”而基准旋律是“DuL”。因此,可以看出,存在LSK误差。LSKCost(i,j)等于“2”,相应地,Cost(i,j)=2,并且D=0+2=2。
距离表中的所有其它条目按照上述方式依序被计算。距离表99的每个框中的值不是随机生成的数字。距离表的每个框中的值是实际累加评分。
在计算了距离表99中的值以后,通过利用评分***,表99中的值帮助判定输入旋律与基准旋律匹配的“接近”程度。“接近”评分是通过具有从开始框100到结束框112的值的最小和的连续路径而获得的。暗色方块表示具有从开始框100到结束框112的值的最小和的连续路径。这种情况下的“接近”评分为14。另一具有低于14的“接近”评分的基准旋律意味着其与输入旋律有更近的匹配,而又一具有高于14的评分的基准旋律意味着其与输入旋律具有更差的匹配。
参考图2,其中提供了用于访问包括存储在装置50中或者通过装置50可访问的多于一个音频文件的集合中的至少一个音频文件的装置50。装置50例如可以是车载音频***、桌上型计算机、笔记本计算机、PDA、便携式媒体播放器或移动电话。除了用作它们主要功能的组件之外,下面部分所描述的组件可以被并入上述不同形式的装置50中。
装置50可以包括数字存储设备58,用于存储组成文件集的音频文件。数字存储设备58可以是硬盘驱动或闪存形式的非易失性存储器。数字存储设备58可以具有至少数兆字节的容量。
另外,装置50还可以包括索引器56,用于生成包括从集合中的多于一个音频文件的每个所获取的信息条目的索引。该索引可以包括从存储在装置50的数字存储设备58、在功能上连接到装置50的任何设备或被连接的计算机网络中的音频文件集中的多于一个音频文件的每个获取的信息条目。集合中的每个音频文件可以被链接到索引中的至少一个信息条目。至少一个信息条目可以是使用对应于存储在音频文件中的一部分或全部内容的语义分割而确定的音符或波形。信息条目还可以是像文件元数据一样被链接/附接到音频文件的MIDI组件。信息条目还可以从被链接/附接到音频文件的预先记录的歌唱条目或被连接的计算机网络获取。在被连接的计算机网络上可以有在线数据库,其中,针对每个音频文件的音符或波形的信息条目是可下载的。信息条目可以包括每个音频文件的音频输出的一阶旋律轮廓(UDR)、二阶旋律轮廓(udr)以及持续时间轮廓(LSK)。
用于在接收模式期间接收输入的输入接收装置64也可以被包括在装置50中。输入接收装置64可以是麦克风。该输入可以是歌唱、哼唱、口哨、MIDI信号或音符。在具体实例中,该输入不必是以完整形式存在的歌曲。一首歌曲的一部分足以作为该输入的可行形式。该输入可以被滤波。可以存在选择器来选择输入类型,或者对输入的检测可以是自动的。可以通过按下设在装置50上的激活按钮63至少一次来激活输入接收模式。歌唱输入进入输入接收装置64可以独立于扬声器。如果歌唱输入太响亮(以至于发生了输入失真)或太柔和(以至于听不见输入),则输入接收模式可以具有针对歌唱输入的自动音量校正。电子设备还可以通过基于索引中的音频文件条目,提供对最接近走调歌唱输入的音频文件的选择,来克服走调歌唱输入的问题。用户可以设置设备以显示达预定数目的最接近的近似音频文件,例如十个最接近的近似音频文件。索引可以包括针对每个音频文件的旋律轮廓信息。
输入接收装置64可以被耦合到将通过输入接收装置64的所有输入转换为数字信号的模数转换器62。转换器62可以是模拟-MIDI转换器。经转换的数字信号随后被输入到处理器60用于将数字信号解析为离散部分,其中,离散部分可以是音符或波形。处理器60可以使用频谱分析或旋律轮廓分析来进行数字信号处理。随后,处理器可以将信号的离散部分与由索引器56生成的索引中的条目相比较。当离散部分与索引中的至少一个信息条目相匹配时,音频文件由此可以被访问。离散部分和索引中的条目之间的精确近似或基本近似使得生成了一个以近似程度排序的音频文件列表。该列表可以显示出音频文件数目,这个数目可以由用户预定。装置50中的显示屏54允许清晰地显示文件列表用于由用户选择。近似程度可以基于根据音符或波形的相对接近度。
视觉受损者可以使用装置50来访问存储在其中的或者使用音调匹配通过装置50可访问的文件。虽然他们不能选择显示在显示屏54上的文件,但是他们可以仅仅使用歌唱输入来方便地访问已经从集合中提取出来的音频文件。
本发明的替换应用使用电子设备的歌唱接收模式判定并提高用户的歌唱能力。例如,如果用户在通过使用歌唱输入到电子设备中以寻找所需要的音频文件而反复失败时,则很大可能是用户的歌唱输入(技能)有缺陷。随后,根据找到所需音频文件的更高发生率,用户因此倾向于连续练***的设备。
已经在前述描述中描述了本发明的优选实施例,但是,相关技术领域的技术人员应当理解,只要不脱离本发明,可以对设计或构造作出许多详细的改变或修改。

Claims (15)

1.一种用于访问包括存储在电子设备中或者通过电子设备可访问的多于一个音频文件的集合中的至少一个音频文件的方法,该方法包括:
生成一个索引,所述索引包括从所述集合中所述多于一个音频文件的每个获取的信息条目,所述集合中的每个音频文件被链接到至少一个信息条目,其中,所述至少一个信息条目包括每个音频文件的音频输出的一阶旋律轮廓、二阶旋律轮廓以及持续时间轮廓;
在输入接收模式期间接收输入;
利用模数转换器将所述输入转换为数字信号;
利用旋律轮廓分析将所述数字信号解析为离散部分,其中,所述旋律轮廓分析基于:
对由所述数字信号的一阶旋律轮廓、二阶旋律轮廓以及持续时间轮廓组成的所述离散部分进行的分析;
将所述离散部分与所述索引中的所述信息条目进行比较;以及
根据进行比较的结果,生成用于音频文件匹配的、基于每个音频文件的音频输出的所述一阶旋律轮廓、所述二阶旋律轮廓以及所述持续时间轮廓的“接近”评分;
其中,使用所述“接近”评分来访问所述至少一个音频文件。
2.如权利要求1所述的方法,其中,所述音频文件可以从下述源访问,所述源是从由以下选项组成的组中选择的:所述电子设备和功能上连接到所述电子设备的任何设备。
3.如权利要求1所述的方法,其中,所述输入以从下述组中选择的方式来进行设置,所述组包括:手动选择和自动选择。
4.如权利要求1所述的方法,其中,所述输入是独立于扬声器的。
5.如权利要求1所述的方法,其中,所述电子设备是从由以下选项组成的组中选择的:车载音频***、桌上型计算机、笔记本计算机、PDA、便携式媒体播放器以及移动电话。
6.如权利要求1所述的方法,还包括通过按下预定按钮至少一次来选择用于访问所述音频文件的装置。
7.如权利要求1所述的方法,还包括对所述输入进行滤波。
8.一种用于访问包括存储在电子设备中或者通过电子设备可访问的多于一个音频文件的集合中的至少一个音频文件的装置,包括:
索引器,该索引器被配置为生成包括从所述集合中所述多于一个音频文件的每个获取的信息条目的索引,所述集合中的每个音频文件被链接到至少一个信息条目,其中,所述至少一个信息条目包括每个音频文件的音频输出的一阶旋律轮廓、二阶旋律轮廓以及持续时间轮廓;
接收器,该接收器被配置为在输入接收模式期间接收输入;
模数转换器,该模数转换器被配置为将所述输入转换为数字信号;以及
处理器,该处理器被配置为利用旋律轮廓分析将所述数字信号解析为离散部分,并且将所述离散部分与所述索引中的所述信息条目进行比较,所述离散部分由所述数字信号的一阶旋律轮廓、二阶旋律轮廓以及持续时间轮廓组成,其中,当所述离散部分与所述索引中的至少一个信息条目基本匹配时,访问所述至少一个音频文件。
9.如权利要求8所述的装置,其中,所述装置是从由以下选项组成的组中选择的:车载音频***、桌上型计算机、笔记本计算机、PDA、便携式媒体播放器以及移动电话。
10.如权利要求8所述的装置,其中,所述输入以从下述组中选择的方式来进行设置,所述组包括:手动选择和自动选择。
11.如权利要求8所述的装置,其中,所述输入是独立于扬声器的。
12.如权利要求8所述的装置,其中,所述输入接收模式是通过按下至少一个按钮至少一次来激活的。
13.如权利要求8所述的装置,还包括显示屏。
14.如权利要求8所述的装置,其中,所述输入被滤波。
15.如权利要求8所述的装置,其中,所述音频文件可以从下述源访问,所述源是从由以下选项组成的组中选择的:所述电子设备和功能上连接到所述电子设备的任何设备。
CN2007800190803A 2006-05-23 2007-05-22 利用音调匹配访问音频文件集中的音频文件的方法和装置 Active CN101454778B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/439,760 2006-05-23
US11/439,760 US20070276668A1 (en) 2006-05-23 2006-05-23 Method and apparatus for accessing an audio file from a collection of audio files using tonal matching
PCT/SG2007/000140 WO2007136349A1 (en) 2006-05-23 2007-05-22 A method and apparatus for accessing an audio file from a collection of audio files using tonal matching

Publications (2)

Publication Number Publication Date
CN101454778A CN101454778A (zh) 2009-06-10
CN101454778B true CN101454778B (zh) 2011-12-07

Family

ID=38723575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800190803A Active CN101454778B (zh) 2006-05-23 2007-05-22 利用音调匹配访问音频文件集中的音频文件的方法和装置

Country Status (4)

Country Link
US (2) US20070276668A1 (zh)
CN (1) CN101454778B (zh)
TW (1) TWI454942B (zh)
WO (1) WO2007136349A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090024388A1 (en) * 2007-06-11 2009-01-22 Pandiscio Jill A Method and apparatus for searching a music database
TWI383693B (zh) * 2008-10-31 2013-01-21 Hon Hai Prec Ind Co Ltd 音頻播放器支援的音頻檔案格式的測試設備及方法
US8584198B2 (en) * 2010-11-12 2013-11-12 Google Inc. Syndication including melody recognition and opt out
US8688631B2 (en) 2011-03-17 2014-04-01 Alexander Savenok System and method for media file synchronization
US8478719B2 (en) 2011-03-17 2013-07-02 Remote Media LLC System and method for media file synchronization
US9158760B2 (en) 2012-12-21 2015-10-13 The Nielsen Company (Us), Llc Audio decoding with supplemental semantic audio recognition and report generation
US9195649B2 (en) 2012-12-21 2015-11-24 The Nielsen Company (Us), Llc Audio processing techniques for semantic audio recognition and report generation
US9183849B2 (en) 2012-12-21 2015-11-10 The Nielsen Company (Us), Llc Audio matching with semantic audio recognition and report generation
KR102161237B1 (ko) * 2013-11-25 2020-09-29 삼성전자주식회사 사운드 출력 방법 및 장치
TWI579716B (zh) * 2015-12-01 2017-04-21 Chunghwa Telecom Co Ltd Two - level phrase search system and method
CN106098058B (zh) * 2016-06-23 2018-09-07 腾讯科技(深圳)有限公司 音调线生成方法和装置
US9922631B2 (en) * 2016-06-24 2018-03-20 Panasonic Automotive Systems Company of America, a division of Panasonic Corporation of North America Car karaoke

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6938209B2 (en) * 2001-01-23 2005-08-30 Matsushita Electric Industrial Co., Ltd. Audio information provision system

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4915001A (en) * 1988-08-01 1990-04-10 Homer Dillard Voice to music converter
WO2005099423A2 (en) * 2004-04-16 2005-10-27 Aman James A Automatic event videoing, tracking and content generation system
US6057502A (en) * 1999-03-30 2000-05-02 Yamaha Corporation Apparatus and method for recognizing musical chords
US20070163425A1 (en) * 2000-03-13 2007-07-19 Tsui Chi-Ying Melody retrieval system
US6735563B1 (en) * 2000-07-13 2004-05-11 Qualcomm, Inc. Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
US6510410B1 (en) * 2000-07-28 2003-01-21 International Business Machines Corporation Method and apparatus for recognizing tone languages using pitch information
US7031980B2 (en) * 2000-11-02 2006-04-18 Hewlett-Packard Development Company, L.P. Music similarity function based on signal analysis
DE10117870B4 (de) * 2001-04-10 2005-06-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Überführen eines Musiksignals in eine Noten-basierte Beschreibung und Verfahren und Vorrichtung zum Referenzieren eines Musiksignals in einer Datenbank
JP4622808B2 (ja) * 2005-10-28 2011-02-02 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、楽曲分類プログラム
EP1785891A1 (en) * 2005-11-09 2007-05-16 Sony Deutschland GmbH Music information retrieval using a 3D search algorithm
US20070195963A1 (en) * 2006-02-21 2007-08-23 Nokia Corporation Measuring ear biometrics for sound optimization
US7705231B2 (en) * 2007-09-07 2010-04-27 Microsoft Corporation Automatic accompaniment for vocal melodies
JP4548424B2 (ja) * 2007-01-09 2010-09-22 ヤマハ株式会社 楽音処理装置およびプログラム
US8750484B2 (en) * 2007-03-19 2014-06-10 Avaya Inc. User-programmable call progress tone detection

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6938209B2 (en) * 2001-01-23 2005-08-30 Matsushita Electric Industrial Co., Ltd. Audio information provision system

Also Published As

Publication number Publication date
US20070276668A1 (en) 2007-11-29
US8892565B2 (en) 2014-11-18
TW200813759A (en) 2008-03-16
CN101454778A (zh) 2009-06-10
US20110238666A1 (en) 2011-09-29
WO2007136349A1 (en) 2007-11-29
TWI454942B (zh) 2014-10-01

Similar Documents

Publication Publication Date Title
CN101454778B (zh) 利用音调匹配访问音频文件集中的音频文件的方法和装置
US9875304B2 (en) Music selection and organization using audio fingerprints
US10242097B2 (en) Music selection and organization using rhythm, texture and pitch
US8060008B2 (en) Mobile station and interface adapted for feature extraction from an input media sample
US20080156177A1 (en) Music search system and music search apparatus
US20090217805A1 (en) Music generating device and operating method thereof
US20060230909A1 (en) Operating method of a music composing device
US10225328B2 (en) Music selection and organization using audio fingerprints
CN105161087A (zh) 一种自动和声方法、装置及终端自动和声操作方法
CN102308295A (zh) 音乐剖析
US20100228791A1 (en) Electronic Device Having Music Database And Method Of Forming Music Database
WO2008101130A2 (en) Music-based search engine
CN104170006A (zh) 演奏评价装置、卡拉ok装置及服务器装置
CN101657817A (zh) 基于音乐的搜索引擎
WO2018121368A1 (zh) 一种歌词的配乐生成方法和相关装置
CN108428441A (zh) 多媒体文件生成方法、电子设备和存储介质
CN108804474B (zh) 歌曲的音频信号处理方法、音频相似度匹配方法及装置
KR20200070732A (ko) 음악 콘텐츠 추천 장치
JP2007256619A (ja) 評価装置、制御方法及びプログラム
CN114974184A (zh) 音频制作方法、装置、终端设备及可读存储介质
JP2019101148A (ja) 通信カラオケシステム
TWI683691B (zh) 音樂遊戲客製化節拍譜面自動生成方法、非暫態電腦可讀取媒體、電腦程式產品及音樂遊戲系統
KR20200070733A (ko) 음악 콘텐츠 추천 장치를 구비하는 음악 콘텐츠 제공 시스템
CN110400559A (zh) 一种音频合成的方法、装置及设备
JP4319054B2 (ja) 利用者の声域を追跡的に分析して演奏キーに反映させる通信カラオケ応用システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant