CN1957367A - 适应于从输入媒体采样中提取特征的移动台和接口 - Google Patents

适应于从输入媒体采样中提取特征的移动台和接口 Download PDF

Info

Publication number
CN1957367A
CN1957367A CNA2005800162838A CN200580016283A CN1957367A CN 1957367 A CN1957367 A CN 1957367A CN A2005800162838 A CNA2005800162838 A CN A2005800162838A CN 200580016283 A CN200580016283 A CN 200580016283A CN 1957367 A CN1957367 A CN 1957367A
Authority
CN
China
Prior art keywords
feature
user
media sample
transfer table
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005800162838A
Other languages
English (en)
Other versions
CN1957367B (zh
Inventor
托尼·科普拉
米克科·马基帕阿
莫里·瓦纳南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/820,308 external-priority patent/US7221902B2/en
Application filed by Nokia Oyj filed Critical Nokia Oyj
Priority claimed from PCT/IB2005/000741 external-priority patent/WO2005093622A1/en
Publication of CN1957367A publication Critical patent/CN1957367A/zh
Application granted granted Critical
Publication of CN1957367B publication Critical patent/CN1957367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/18Information format or content conversion, e.g. adaptation by the network of the transmitted or received information for the purpose of wireless delivery to users or terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1101Session protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/764Media network packet handling at the destination 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres
    • H04M7/0024Services and arrangements where telephone services are combined with data services
    • H04M7/0036Services and arrangements where telephone services are combined with data services where the data service is an information service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/02Terminal devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/64Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations
    • H04M1/65Recording arrangements for recording a message from the calling party
    • H04M1/656Recording arrangements for recording a message from the calling party for recording conversations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72442User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for playing music files
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/10Aspects of automatic or semi-automatic exchanges related to the purpose or context of the telephonic communication
    • H04M2203/105Financial transactions and auctions, e.g. bidding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2207/00Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place
    • H04M2207/18Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place wireless networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Image Analysis (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种移动台具有处理器和比如按钮这样的用户输入机制,该用户输入机制可用于促使处理器从数字媒体采样中提取至少一个特征。比如谱质心这样的特征描述了媒体采样的内容的标识。优选地,促使特征提取的同一用户输入也促使发送器建立链路和将消息发送到网络地址,该消息具有无法从中重建数字媒体采样的多个提取特征。当答复消息标识与媒体采样相匹配的媒体文件时,在同一或者不同按钮处的另一用户输入促使发送授权消息,使得在答复消息中标识的而且具有与多个提取和发送特征准确匹配的特征的媒体文件的拷贝被下载到移动台。

Description

适应于从输入媒体采样中提取特征的移动台和接口
技术领域
本发明涉及适应于对输入媒体采样执行数字处理的无线式无线电话设备的领域。本发明具体地涉及适应于使得能够从比如流行歌曲的分段这样的输入媒体采样中提取特征的这种设备及其用户接口。
背景技术
流行音乐的所有者最近才接受通过比如互联网这样的电子网络来下载它们版权作品的数字拷贝。一个用于效力于此的流行网站是http://www.apple.com.itunes/,其中用户经由个人计算机(PC)等访问音乐服务网站,人工地选择歌曲标题,而且将选定歌曲的数字版本(例如MP3、AAC)下载到他们用来访问网站的PC。然后用户在PC上播放歌曲或者将它们传送到比如iPod或者其它专用数字音乐播放器这样的便携设备。
第二代音乐下载技术最近已经面市,其中用户无需在网页上按照其标题来人工选择歌曲。代之以由服务器或者与网站相关联的其它计算机‘收听’歌曲,而且对歌曲进行数字分析以便从数字音乐的数据库之中识别该特定歌曲。例如,网站http://shazam.com/uk/do/help_faqs_shazam#4将它的操作说明如下。比如在酒馆或者汽车中聆听歌曲的用户在歌曲正在播放的同时在他的/她的移动台(MS)中输入代码。歌曲就通过标准的MS链路发送到掌控网站(hosting website),比如shazam.com,这正如同发送语音输入那样。也就是说,从MS发送到shazam.com站点的消息是由MS的语音编码器转换后的输入模拟音乐采样,就如同会对麦克风的任何输入进行转换那样。掌控网站接收(经转换的)原始音乐输入、对之进行分析,并且将之匹配于它的数据库中的歌曲之一。Shazam.com技术对于在服务器处使用移动台仅作为如下渠道来识别歌曲而且将结果回报给移动台而言表现出局限性,其中该渠道将模拟输入转换成数字并且对转换后的信号进行打包。另外,由于Shazam.com技术表现出直至建立无线链路之后才出于识别的目的而对采样进行处理,所以仅听到歌曲较后部分的用户可能在歌曲结束之前还没有让链路得以建立。
不但经由个人计算机访问大多数音乐下载服务,而且已经引入空中(OTA)移动下载服务。移动设备在小型的屏幕尺寸、有限的电源、有限的数据连接可靠性和速度方面具有局限性,这使得发现音乐和将音乐从音乐服务交付到移动终端极具挑战。通常,音乐服务具有至少500000首歌曲的音乐收集。使用移动设备用户接口则难以对该规模的音乐目录进行探寻,其中顺序的呈现必须使内容配合于屏幕。这造成深入的分级以及难以找到音乐。
人们在比如酒馆或者音乐会大厅或者汽车无线电这样的公共场所听音乐是司空见惯的。按照惯例,某人会对某一首特定音乐产生兴趣,但是不知道歌曲标题。该人士然后询问友人、唱片店销售人员,或者碰巧从无线电广播中听到歌曲名从而得知标识该歌曲的歌手和标题。一些个人可能使用(如上所述)Shazam.com站点通过调用关联服务号和通过他们的移动台播放歌曲作为实况‘广播’来识别歌曲。然后该人士前往唱片店,或者基于由Shazam.com或者类似识别服务所返回的标识从因特网服务购买歌曲。然而,通常有如下步骤:1)聆听音乐采样(刺激);2)识别歌曲;3)找到待购歌曲(基于标识);4)购买歌曲的拷贝;以及5)交付所购拷贝而且将它添加到个人音乐收集。
步骤1)至3)在传统方法中是人工的。基于因特网的音乐购买使得步骤4)和5)自动化。比如Shazam.com这样的服务使得以在步骤1)的电子‘聆听’为基础的步骤2)自动化。然而,据发明人所知用于执行上述步骤的所有现有方法都涉及到希望标识歌曲和购买歌曲拷贝的个人所进行的人工步骤。本发明寻求将更多的上述过程流水化和自动化。
由于创建和存储了较大数量的数字文件,所以已经产生对数字文件的标识方式进行标准化的需要。MPEG-7是由运动图像专家组(MPEG)开发的,用来对用于标识多媒体文件内容的信息表示进行标准化。这与本身就是内容的信息相矛盾,其中该信息对于在数据库中进行归类和搜索而言就不那么可修改。无论MPEG-7是否变成标准化方法,它都描述了用以有效地对多媒体文件进行编索引、搜索和取回的开发工具集。这样的工具在这里以示例性的方式用来在下文中描述本发明如何使得音乐或者其它媒体的标识和购买自动化。
发明内容
本发明提供了一种移动台或者其它便携电子设备以及用户接口,特别地适用于在用户仅有比如可能通过广播无线电听到的比如数字歌曲文件这样的媒体文件的未标识媒体采样时,有助于对该媒体文件进行标识和购买。
在一个方面中,本发明实施于包括处理器和用户输入机制的移动台中。用户输入机制比如是针对与如下文详述的采样标识和文件购买有关的功能而保留的专用按钮,可操作用以促使处理器从数字媒体采样中提取至少一个特征。数字媒体采样可以源自于移动台外部,如同在经由电子邮件接收的或者附加于短消息服务消息的数字媒体采样中那样;或者它可以源于由移动台转换成数字媒体采样的模拟媒体采样,如同在移动台从广播FM无线电通过麦克风接收输入时那样。该特征描述了媒体采样的内容的标识,而且以此方式有别于仅将媒体采样从一个形式转换成另一形式的语音编码器。在其它例子之中,这里描述的特征的例子还包括波形包络、谐音频率、谱质心和静音。优选地,移动台也包括发送器,而移动台适于使得在输入机制处的单个用户输入用于促使处理器提取特征、启动通向网络的无线链路、以及促使发送器通过链路来发送由处理器提取的特征。有利地,移动台优选地包括用来显示媒体采样的文本标识符的显示器接口或者屏幕。这样的显示器是响应于在接收器处通过链路从网络接收答复消息的,其中答复消息是响应于提取特征的发送的,而且答复消息包括与媒体采样相匹配的媒体文件的标识符。这里描述了更多附加的发明方面。
在另一实施例中,本发明是一种便携设备的用户接口。用户接口具有用户输入机制,当在用户输入机制处有单个用户输入时,该用户输入机制能够促使便携电子设备内部的处理器引起两个动作。该单个用户输入促使从数字媒体采样中提取多个特征,以及促使多个提取特征发送到设备外部。数字媒体采样可以像这样输入到设备中,或者该设备可以将输入的模拟媒体采样转换成数字的。用户接口还包括显示器屏幕,用以显示媒体采样所对应的媒体文件的文本标识符,也就是说,可以从该媒体文件中提取的特征准确地匹配于提取和发送的多个特征。然而,这并不意味着移动台实际上从媒体文件中提取特征而且将它们与从数字媒体采样中提取的特征做比较。文本标识符是响应于接收答复消息而显示的,该答复消息本身是对发送特征的答复。优选地,用户输入机制也可以在接收答复消息之后促使授权消息发送到设备外部。授权消息包括在答复消息中接收的媒体文件标识符和对于将媒体文件的拷贝下载到便携电子设备的请求。然而,在对特征提取和发送进行启动的用户输入时,优选地并不同样启动这一授权消息。
通过参照与附图相结合的以下描述,本发明实施例的这些和其它方面及优点将变得清楚明显。然而应当理解,附图仅被设计用于说明的目的而不是对本发明的限制进行限定。
附图说明
图1是本发明可以在其中起到作用的通信***的示意图。
图2A-2B是分别表示了对于在移动台与服务器之间分布的媒体采样进行特征提取的框图。
图3A-3D是对于在图1的通信***中采取的动作进行详述的连续流程图的各部分。图3A表示了在移动台之内的步骤,图3B表示了在服务器之内的步骤,图3C表示了在提供待购媒体文件之下载的服务器之内的步骤,而图3D表示了在移动台中响应于服务器的进一步步骤。
图4A是根据本发明的教授而特别地改造的移动台的示意框图。
图4B是对根据本发明包括专用媒体采样识别按钮的用户接口进行详述的移动台的平面图。
图5是对于在移动台处连续地缓冲输入所具备的优点进行说明的示意时序图。
具体实施方式
本发明针对具有移动电话功能的移动台(或者其它便携电子设备)及其用户接口。该用户接口使得用户能够容易地标识通过任何手段输入到移动台的媒体采样,比如经由麦克风输入的模拟采样,或者经由接收的电子邮件而输入的或者经由与PC的有线连接而上传的数字采样。图1和3A-3D以及有关文字描述了MS优选地操作于其中的***,而且是于2004年3月26日提交的共同未决和共同拥有的美国专利申请第10/810,924号的主题。图2A-2B描述了出于标识主题媒体采样的目的而进行的分布式特征提取。图2A描述了MS部分。图4A-4B和图5更具体地涉及本发明的MS和用户接口。
对于这里所用的术语进行说明将便于对以下具体描述的理解。媒体采样是针对其执行分析的任何大小的音频、可视或者音频/可视信号中的一部分。媒体采样可以是模拟的(如在MS的转换器处或者在与MS相集成的模拟无线电接收器处接收的广播FM无线电信号中接收的人类可辨别的音乐分段),或者它可以是数字的(如在通过有线或者无线链路下载或者上传到MS的文件)。以下描述是在歌曲的时间受限分段的背景中进行的,该时间受限分段例如是通过常规FM无线电一般播放的三分钟歌曲的连续或者连贯十秒分段。该采样的特征或者它的数字版本是数字标记符、描述符或者是可以从对它的数字分析中进行收集或者提取的采样内容的其它标识符。时点是在采样之内以时间为序的时刻。特征常常与时点相关联。例如,采样中的最大幅度仅出现在一个时点;反复的频率模式可以开始于以等间距相间隔的时点;特征性的击发序列可以仅出现在从可以标识的低音序列结束起的固定偏移时间。下面呈现对特征的更具体描述。从采样中提取特征以便量化采样的各种特征。以音乐为例,提取歌曲采样的特征以便搜索歌曲的数据库而且从数以千计或者甚至数以百万计的歌曲之中识别经采样的歌曲的标题(或者版本、音乐家等)。当数据库包括先前已经从整个歌曲中提取的特征时,可以在从当前采样中提取的特征与先前提取的特征之间进行一对一的比较。以这一方式,仅通过整个歌曲中相对少的采样就可以识别歌曲。尽管可以从媒体采样或者该采样的数字版本中提取特征,但是还可以从已经提取的特征中提取附加特征。例如,从媒体采样或者该采样的数字版本中提取的第一特征集将表现出它们本身之间的某种自相关。该自相关通过仅对第一提取特征集的分析就可以确定。
在图1中图示了本发明在其中起到作用的通信***20。比如FM无线电这样的媒体源22提供媒体采样24,比如歌曲的一部分。移动台MS 26或者具有无线通信功能、尤其是无线电话功能的类似这种便携设备接收媒体采样24以供数字化、处理和发送。虽然MS 26可以接收整个歌曲,但是媒体采样或者它的数字化版本是根据本发明由MS26对之进行操作的一部分。MS 26创建至少一些媒体采样24的数字版本,从该数字版本中提取一个或多个特征,而且通过无线链路28将这些特征发送到通信服务30,该通信服务包括与通信服务器30B通信的基站30A。
通信服务30在基站30A接收来自MS 26的呼叫,对它们保持跟踪,而且将来自MS 26的传输重定向到商业歌曲识别服务34。在发送特征的同时,通信服务可以根据所用的通信体制类型来更改从MS 26接收的确切信号(比如进行解码、解压、识别和纠正错误等),也可以不这样做,但是并不改变基本的实质数据。此外,通信服务30编写短的响应消息以供MS 26接收,这一点在下面有详述。
歌曲识别服务34通过通信服务30来接收MS 26的传输。该传输优选地包括在歌曲识别服务34处被进一步加以分析的媒体采样24的特征。替选地,由MS提取的特征与该采样的另一分段一起发送,识别服务34从中提取附加特征。随着MS的处理能力和电池效率的增加,来自MS 26的传输可以包括全面的特征集,其足以使得无需识别服务34进行进一步的特征提取。在任何情况下都不通过MS 26仅对整个媒体采样34的电话现场馈送进行传输。无论怎样,歌曲识别服务34都接收该传输,可以根据从MS 26接收的消息中提取进一步的相关特征,而且将它们与在该消息中接收的由MS提取的特征相结合。
可以与歌曲识别服务34在一起或者不在一起的歌曲签名数据库36提供了(由MS 26和识别服务34二者)从媒体采样34中提取的完全特征集与之做比较的数据库。这一数据库优选地为许多文件中的每个文件存储从基本的媒体文件或者其采样中提取的多个特征。这些存储的特征集可以用来在签名数据库36中的所有其它特征集中唯一地标识从中抽取媒体采样24的基本文件。替选地,签名数据库36可以为每个文件或者歌曲存储若干提取的非唯一特征以及参考采样(其组合唯一地标识该基本文件或者歌曲),或者存储用以从其它歌曲或者文件中唯一地标识一个歌曲或者文件的任何其它手段。
歌曲识别服务34将原来的采样与在歌曲签名数据库36中存储的采样做比较,而且在歌曲签名数据库36中寻求MS 26所发送的特征的仅一个匹配。当MS 26和识别服务34各自提取特征时,歌曲识别服务34执行两个单独的功能:使用所提取的特征来搜索数据库,以及从媒体采样的发送部分中提取进一步特征。优选地,识别服务34并行地执行这两个功能。当歌曲识别服务34初始地仅使用先前由MS 26提取的特征来搜索签名数据库36时,可能识别不出唯一歌曲,但是签名数据库36中的潜在匹配将根据在该初始的搜索中使用的特征数目而减少到显著更小的子集。同时,识别服务34从MS 26所发送的该部分媒体采样24中提取附加特征。提取每个附加特征时,潜在匹配的子集被减少,直至找到仅有的一个唯一匹配为止。在这时,识别服务34终止进一步的特征提取,从而最小了化为将媒体采样24匹配于签名数据库36中的媒体文件而需要的全部处理。
替选地,识别服务34可以代之以先从MS 26所发送的消息中提取附加特征,利用从MS 26接收的特征来编译所提取的特征,而且执行对整个签名数据库36的仅一次搜索以找到唯一匹配。该选择是基于在对用户的响应(用以搜索数据库的时间)与在识别服务处用以从来自许多MS的众多同时消息中提取附加特征的可用处理能力之间的市场驱动平衡。
一旦找到唯一匹配,识别服务34通过通信服务30将采样标识信息(在没有找到匹配时该消息也可以是未经标识的消息)发送到MS26。MS 26在显示器用户接口UI上显示歌曲标题和音乐家以向用户告知歌曲名或者其它媒体文件名。
优选地,将本发明扩展到仅标识歌曲或者媒体文件以外,而是自动地提供如下链接,用户可以通过该链接来购买下载到MS 26处的消费者的该标识的媒体文件的拷贝。替选地,可以改造为将第一拷贝提供给MS 26而将第二拷贝提供给另一设备,比如个人计算机44,其中每个拷贝是针对下载可用的链路28、46的类型而定制的。这一点之所以有利是因为第一拷贝可以是用如下编码解码器压缩后的标识的媒体文件,该编码解码器针对在MS 28处的更有限的存储和声音再现能力(以及带宽考虑)而进行优化,而同一基本媒体文件的第二拷贝可以用第二编码解码器来压缩,该第二编码器针对在通向PC 44的链路46中可用的更大带宽而进行优化。消费者然后可以将第二拷贝上传到专用便携数字音乐设备,比如Rio或者iPod,以求高保真的便携音乐。这种双拷贝下载替选方案的细节是于2004年3月2日提交的共同拥有的美国专利申请第10/792,547号的主题,而且在这里通过参考结合于此。
向用户提供标识媒体文件的拷贝就要求存储有待下载的实际文件或者歌曲的文件或者歌曲存储数据库40的配合。在签名数据库36存储特征和文件/歌曲标识(比如可以在找到匹配之后发送到MS 26的标题/作者)的情况下,文件/歌曲存储数据库40存储与在签名数据库36中匹配的特征对应的实际文件/歌曲。两个数据库36、40可以合而为一,不过它们也可以不这样;来自签名数据库36的标识可以用来从单独的文件/歌曲数据库40中容易地选择唯一文件/歌曲。来自后一数据库40的文件/歌曲是在本发明如上所述扩展到将歌曲的拷贝及其标识提供给MS 26的用户时、优选地在文件压缩之后下载到用户的文件/歌曲。
当要这样下载歌曲时,优选的是,在网络32中耦合到歌曲数据库40的音乐服务38接收来自MS 26的请求,而且利用所请求的文件(歌曲、图像、文本等)以及用于以所述的形式(触笔、模板、脚本等)呈现该文件的元数据来做出响应。音乐服务38从歌曲存储数据库40中查询数据。由于MS 26通过通信服务30耦合到网络32,所以文件穿过它通到MS 26。
也可以包括下载服务42以便管理通过音乐服务38从MS 26启动的所有单独下载交易。下载服务42对于从存储数据库40每次下载文件进行跟踪,以便跟踪计费和遵循版权约束。本发明构想了在MS 26的用户接口UI处由单个输入,比如单次按压按钮或者软键来自动执行的端到端的交易。在这一端到端的实施例中,该单个输入在MS 26中启动了媒体采样的捕获、特征提取和呼叫建立以及启动了从MS 26的所提取的特征和媒体采样的一部分的传输。使用签名数据库36通过提取的特征(一些特征由MS 26提取,一些特征由识别服务34提取)来标识歌曲,而音乐服务38或者识别服务34向MS 26发送如下消息,该消息向MS用户标识该歌曲(例如标题和音乐家)。
该消息也提供对音乐服务38的链接,使得利用在MS 26处优选为又一次的输入,用户就可以请求下载该歌曲到MS 26。音乐服务存储歌曲标识符(该标识符可以是标题/音乐家,也可以不这样,因为其将被用来从歌曲数据库40中数字化地选择歌曲),或者将歌曲标识符传送到下载服务42,然后该下载服务存储歌曲标识符。当MS 26请求下载歌曲时,音乐服务38从歌曲数据库40中选择匹配歌曲,通知下载服务42,该下载服务通过通信服务服务器30B来安排对MS 26用户的计费,而音乐服务38从歌曲数据库40中提供要下载到MS 26的标识的歌曲。用户可以使用在标识消息中提供的链接直接地从MS 26访问音乐服务38,或者可以使用从PC 44的链路以获得歌曲的较高保真版本(不同的压缩编码解码器),因为该版本将经由宽带或者其它PC链路46来下载,其中该PC链路在目前的实践中通常在带宽上不像无线移动电话链路28那样受限制。
图2A和2B广义地描述了在通信***20的分布式部件之间对媒体采样的分析。图2A在框图中图示了在移动台26之内的操作。媒体采样24被数字化201为对MS 26的任何其它输入,而MS 26建立到达比如由歌曲识别服务34操作的服务器这样的服务器的数据连接(例如经由无线链路28和网络32)。MS 26开始预处理202经数字化的音频输入信号201而且从该信号中提取随后将作为数据分组发送到服务器的特征。可选地,MS 26已经持续地缓冲音频输入,使得可以在按压识别键或者用以启动该过程的其它用户输入之前的时间所输入的信号开始预处理202。在多数情况下,用户在按压识别键之前已经收听歌曲一段时间。
用于识别的特征例如可以是谱平坦度、谱质心、节奏和/或旋律。特征对媒体文件或者采样的内容进行表征以便对文件进行分类和标识,而不仅仅是对输入到MS 26中的(模拟)媒体采样24的数字再形成。虽然MS 26比如通过使用语音编码器将输入的媒体采样24数字化,但是仅仅这样却不是特征提取。优选地,特征是非重建的。也就是说,原来的媒体采样是无法仅通过对于从该采样中提取的特征进行重新处理或者用别的方式对该特征进行操作就可以重建的。非重建特征描述并标识该媒体文件的内容,但不能重新创建该内容。并非所有特征都需要是非重建的,但是与在即使不是所有实例中也在多数实例中的重建特征相比,在MS 26处提取非重建的特征可产生较小打包的消息以便通过无线链路发送。
适当的特征已经例如在MPEG-7标准(ISO/IEC 1 5938,尤其是ISO/IEC 15938-4,信息技术-多媒体内容描述接口-第4部分:音频,针对于这里与音频有关的实施例)中进行了描述,通过参考将其结合于此。涉及MPEG-7的文献使用了术语描述符以表示从媒体采样中直接提取的特征,这比如可以根据本发明由MS 26来执行。MPEG-7文献使用了术语描述方案DS或者描述工具来描述从描述符中提取的特征。描述符是对媒体采样数字版本的低级分析,而描述方案是高级分析(例如是从描述符之间的相互关系中而不是直接地从采样中获取的)。MPEG-7目前处于提炼之中,因此下文是对于当前针对该标准而构思的并与本发明相关的某些描述符和描述方案的概括。
描述符是低级特征,即视听内容的基本质量的表示,比如信号幅度的统计模型、信号的基本频率、在信号中出现的源的数目估计、谱倾斜、情绪内容、显式声效模型以及任何数目的具体或者抽象特征。在本发明的优选实施例中,MS 26提取描述符。
描述方案是描述符的结构化组合。这一结构可以用来注释文档以直接地表达文档的结构或者创建形成了对更高级概念的更丰富表达的特征组合。例如,经典的音乐DS可以对Sonata形式的音乐结构进行编码(而且允许有例外)。各种频谱和时间描述符可以组合形成适合于描述音质或者短声效的DS。在本发明的优选实施例中,在网络32上的服务器提取描述方案。
描述符可以被视为限定了媒体采样内容特定特性的一种表示的语法和语义。例如,图像文件的颜色是一种特性。特征可以是描述符或者特性,其中描述符是二者中更为基本的,而特定的特性可能只有通过若干描述符才可以完全地加以描述。与特性‘颜色’相关联的可能描述符包括:色直方图、红-绿-蓝(RGB)矢量或者串。MS 26可以针对特定描述符提取数值,针对给定的数值集提取描述符的示例。例如,RGB=(255,255,255),色串=“红色”。某些描述符与一类媒体文件相关或者对之有效,而与另一类媒体文件无关或者对之无效。例如,用于可视媒体采样的描述符可以包括:在基本结构特性之内的栅格布局和直方图;在色特性之内的色空间、主导色、色直方图和色量化;在纹理特性之内的空间图像密度分布和同质纹理;在形状特性之内的对象界定框、基于区域的形状、基于轮廓的形状和3D形状描述符;以及在运动特性之内的摄像机运动、对象运动轨迹、参数对象运动、运动行为和运动轨迹的多个方面(例如速度、方向、加速度)。与音频采样相关的描述符可以包括:在语音注释特性中的词语以及音素加元数据的晶格;在音质特性中的偶谐音与奇谐音之比以及谐音起音连贯性;以及在旋律特性之内的旋律轮廓和节奏。
目前在MPEG-7中有十七个时间和空间描述符用于描述音频采样:基础、基础谱、信号参数、音质时间、音质谱和谱基。此外,静音描述符已经在标识音频采样的内容中证明其价值。两个基础音频描述符是是用于一般用途的在时间上采样的标量值,适用于所有种类的音频采样。波形描述符描述了通常用于显示目的的音频波形包络(最小和最大)。功率描述符描述了在时间上平滑的瞬时功率,该描述符可用作为对信号或者采样的快速概括而且与功率谱相结合。
四个基础谱音频描述符都共享共同的基础,都从音频信号或者采样的单个时间-频率分析中导出。它们都通过第一描述符来通知,第一描述符即音频谱包络描述符,该描述符是由二的幂次方的除数或者倍频程的倍数间隔开的对数频率谱。该音频谱包络是对音频采样的短期功率谱进行描述的矢量。它可以用来显示声谱图,以便合成数据的原本“听觉化”,或者用作为用于搜索和比较的通用描述符。其它谱音频描述符表示了对数频率功率谱的重心(质心或者形状的中心)、围绕质心扩展的谱、以及许多频率带或者仓中的每个频率带或者仓的谱平坦度。
两个信号参数描述符主要应用于周期信号或者准周期信号。这些描述符描述了音频采样的基本频率(置信量度)及其谐音(用以区分例如乐音音调或者浊音语音、金属性或者钟似声音、如‘f’这样的摩擦音、或者乐器的密集混合)。
两个音质时间描述符描述了声音分段的时间特性,而且尤其有助于对于乐音音质的描述,该乐音音质是与音调和响度无关的具有特性的音品。一个这样的描述符对声音的“起音”(信号从静音升到最大幅度所花费的时间)进行表征,而另一描述符对信号包络或者质心进行表征,表示了信号能量何时聚焦。当衰落的钢琴音符与维系的风琴音符的长度和起音雷同时,后一描述符例如可以在这两个音符之间加以区别。
五个音质谱描述符是在线性频率空间中的谱特性,尤其适用于对乐音音质的感知。一个描述符是线性功率谱中各仓的频率的幂加权平均,而且类似于如上所述的质心描述符,但是又因不同的乐器而对声音的“锐度”有所区别。其余的音质谱描述符对信号或者采样的谐音规则间隔成分进行操作。为此,描述符是在线性频率空间中计算的,而且包括谱质心、谱偏差和谱扩展描述符。
两个谱基础描述符表示了高维度谱空间的低维度投影以便有助于紧致和识别。一个这样的描述符是从规一化功率谱的奇值分解中导出的一连串(潜在地随时间变化和/或在统计上独立的)基础函数。另一描述符(在与第一描述符相组合时)表示了在秩缩减的基础上进行投影之后的谱的低纬度特性。静音分段简单地将“静音”(即没有显著的声音)的语义隶属于音频分段。虽然这极为简单,但它却是非常有效的描述符。它可以用来帮助将音频流进一步分段,或者用作为不对分段进行处理的提示。
描述符可以一起用来查看和紧致地表示声谱图的独立子空间。这些独立的子空间(或者它们的分组)常常强相关于不同声源。因此在使用较少的空间时从声谱图中获得更多的突显和结构。
描述方案DS反映了在描述符之间的或者在若干频率仓或者谱切片之上的同类描述符之间的相互关系。以这一方式,DS以某一程度的一般性换来了描述上的丰富性。一旦在MS 26处从采样或者该采样的分段中提取足量描述符,就无需发送经数字化的音频采样;识别服务34仅需要用以从中提取附加特征的提取特征。这些附加特征在本发明的某些实施例中类似于MPEG7的DS。例如,音频签名DS在统计上概括谱平坦度描述符。这可以针对音频采样的鲁棒自动标识来提供唯一的内容标识符。
音质DS着眼于描述乐器声音的感知特性。音质是使两个声音具有同一音调和响度而听上去不同的感知特性。音质DS用缩减的描述符集来描述这些感知特性,该描述符集能涉及比如声音的“起音”、“亮度”或者“丰富度”这样的概念,涉及特定乐器或者乐曲组(打击乐器)的谐音、连贯、维系音和非维系音等。另一音质DS使用距离度量将音质时间描述符与谱质心描述符做比较。
旋律DS包括对于单音旋律信息的丰富表示以便有助于有效、鲁棒和富于表现力的旋律相似度匹配,而且包括用于极为扼要、有效的旋律轮廓表示的旋律轮廓DS(5阶轮廓表示了相邻音符之间的间隔差,其中间隔被向上、向下量化成或大或小或相同大小的间隔)以及用于更为详细、完整和富于表现力的旋律表示的旋律序列DS(扩展的描述符集和较高精确度的音调间隔编码)。任一个描述符或者二者都可以扩展为包括关于旋律的支持信息。在这些核心描述符周围排列的是应用所希望使用的一连串可选的支持描述符,比如歌词、基调、韵律和起始音符。
一些“识别”DS专门地辅助对基本媒体文件进行搜索和编索引,而且使用低级的谱基础描述符作为它们的根基,由该根基形成了统计模型,比如隐含马尔可夫或者高斯混合模型。所得的概率分类器可以识别广泛的声音分类,比如语音和音乐,或者它们可以被训练用以识别较窄的类别,比如男性、女性、喇叭或者小提琴。其它应用包括风格分类和语音识别。更多DS详述了在音频流之内的口头内容。
与可以提取的特征有关的更多细节可以在2002年6月27目公布的美国专利申请第US2002/0083060 A1号中找到,通过参考将其结合于此。MS 26中预处理202的量在范围上可以从无到特征矢量的完整提取。用于每个特征的整个特征提取过程优选地分成若干阶段,一些阶段与未提取的信号(例如在MS 26处接收的‘现场’音乐采样24)相比而言减少了随后发送的数据量。例如,用于谱特征的第一阶段可以是通过计算瞬时自相关矢量而且在时间段上将它们平均来估计数字化输入信号201的自相关。后继的阶段然后执行傅立叶变换而且对之进行进一步处理。整个特征提取过程在MS 26与服务器34之间划分。MS 26选择它执行的阶段的数目,而且将作为辅助信息执行的阶段的数目M连同预处理的结果(由MS提取的特征)一起进行打包203。优选地,MS 26自适应地选择它提取的特征的数目和/或类型,这可以基于媒体采样的类型(音频、视频、静态图像等)和/或它将用来发送这些提取特征的信道特性。也可以如上所述从MS 26发送MS 26没有从中提取特征的媒体采样24的分段,以供如上所述在识别服务34处的进一步分析。根据典型的无线协议(星座映射、纠错等)对分组进行编码204。在处理能力与传输带宽之间的适当平衡是基于接入网32和MS 26的功能来选择的。经由一个或多个信道通过无线链路28发送经编码的分组。
如图2B中所示,对分组进行接收和解码205。在端到端画外音的互联网协议设置中,无线链路28所特有的解码可以由通信服务器30B完成,而单独分组的开启206可以由歌曲识别服务34完成。歌曲识别服务34的服务器然后提取标识歌曲标识所需的进一步参数207,该参数可以根据从MS 26接收的特征和/或者也从MS 26接收的数字化媒体采样的分段中来提取。在图2A-2B的例子中,提取了总计N>M个特征以实现媒体采样的正标识。许多的M个特征由MS 26提取,而其余的N-M个特征由服务器34提取,其中M优选地表示较低级特征,而N-M代表较高级特征,该较高级特征是从较低级特征中提取的,但是不形成媒体采样的数字化版本。歌曲识别服务服务器34然后在提取的特征与存储于歌曲签名数据库36处的、各自表示基本媒体文件的特征集之间进行比较208。理想地,数据库中的一个且仅一个特征集将匹配于提取特征组,而这样匹配的特征集表示了从中获取过媒体采样的文件。基于提取的特征,通过将媒体采样24的N个提取特征与歌曲签名数据库36提供的基本文件的特征矢量或者矢量集做比较来识别该媒体采样。
图3A-3D以流程图的形式图示了根据本发明的方法的各种步骤或者优选实施例,每个流程图如图所示地联系到另一图。图3A描述在MS 26之内初始地接收和处理媒体采样24的方法。在这一实施例中,将媒体采样解析成两个分段,一个分段存储于MS 26的缓冲器中,而在MS 26处接收时实时地处理另一分段。在MS 26处接收302第一媒体采样分段、将之数字化和存储于缓冲器中。这一存储是连续的,因为没有用户输入通知MS 26它应当根据这里的教导来执行分析或者用别的方式处理该输入。用户按压识别键304,触发MS 26优选同时地执行三个功能:MS 26建立306通向基站30A的无线链路28,它从媒体采样24的缓冲第一分段中提取308较低级特征,而且它接收310媒体采样的第二分段、将之数字化,并且从中提取较低级特征。可以瞬态地存储第二分段。MS 26然后通过在步骤306建立的无线链路28来发送312所提取的特征(以及如上所述如果适用则还发送由MS 26在提取特定特征时执行的步骤数目)。替选地,从第一分段中提取特征,也可能从第二分段中提取特征,而且提取的特征连同第二分段一起发送,该第二分段可以仅仅是数字化媒体采样的谱切片或者一连串谱切片。该方法在图3B中继续314。
图3B详述了在***20的网络32侧处的步骤。服务器34从MS 26接收316在图3A的步骤312发送的消息。通信服务器30B可以对打包消息的无线具体部分进行解码,而且优选地通过网络32仅重发带有实质数据的未开启分组。歌曲识别服务34开启分组,接收已经提取的较低级特征,而且在签名数据库36中搜索318如下文件以求唯一匹配320,该文件承载了与从MS 26接收的那些较低级特征相匹配的特征集。暂时存储该搜索的结果。如果仅使用由MS提取的特征找不到唯一匹配,则将(在方块316初始化的)索引K与最大值做比较,而且如果没有超过最大值,则在方块326从接收的较低级特征中提取一个或更多较高级特征。在方块328,使用由服务器提取的第K个特征来搜索与由MS提取的特征相匹配的来自数据库的(而且在方块318暂时存储的)那些特征,使得在当前的搜索迭代中无需再次搜索整个数据库36。在方块322暂时存储该第K次搜索的结果,在方块330对K进行索引加一,而且如果再次没有找到唯一的匹配320,则针对甚至更多的提取特征继续该循环,直至K超过最大值为止,其中将“没有找到匹配”消息发送334到MS。一旦在方块320找到唯一匹配,就将答复消息336发送到MS 26,该答复消息带有与匹配于提取特征的数据库特征集唯一对应的歌曲或者文件的标题(或者其它标识)。答复消息336也优选地带有直接通向歌曲或者文件存储数据库40处的匹配文件的链接,该存储数据库40可以与签名数据库36在一起,也可以不这样。
在MS 26与歌曲识别服务34之间的通信链路优选地在MS 26首次发送它提取的特征的时间与识别服务34发送它的带有唯一文件标识符的答复消息336的时间之间保持开路。在一个实施例中,MS 26发送具有第一提取特征集的第一消息,而识别服务34搜索它的数据库(提取附加特征或者不这样)。在没有找到唯一匹配的情形下,识别服务34可以向MS 26发送请求消息,该消息可以指定它要求MS 26提取的附加特征的数目和/或类型(MS 26可以从存储于缓冲器中的媒体采样的数字版本中提取附加特征)。例如,假设识别服务34返回来自数据库的四个匹配结果。然后识别服务能确定可以用来对四个匹配结果唯一地进行区别的一个或多个特定特征,该特征可以是较低级特征,比如信号包络或者质心,或者是较高级特征,比如在音质时间质心之间的音质时间距离。在前者中,识别服务34可以针对特定谱切片来具体地要求将在四个匹配结果之间直接地进行区别的质心特征;在后者中,它可以要求遗漏的音质时间质心,使得识别服务然后可以提取将在四个匹配结果之间进行区别的附加特征(例如质心之间的距离)。MS 26发送具有在该第二次提取中提取的第二特征集的另一消息,而识别服务34再次搜索数据库。对数据库的第二次搜索可以使用第二提取特征集,可以使用从第二特征集中提取的第二附加特征集,或者其组合。以这一方式,可以在MS 26与识别服务34之间继续‘对话’,每当数据库搜索未能返回唯一匹配时识别服务34就要求附加特征。优选地,在它们之间的通信链路保持开路;由于没有发送分组,所以在识别服务搜索数据库的时间期间,分组交换网络无需消耗显著的带宽。
优选地,歌曲或者文件标识和对应的音乐服务URI被返回到通信服务30A-B,该通信服务编写对MS 26的答复消息而且将它作为SMS/MMS或者类似消息发送到MS 26。识别服务服务器34也发送消息338到音乐服务器38(其中音乐服务器与识别服务服务器相分离),该消息具有MS 26的唯一标识符以及对匹配文件的链接。
方块342引向图3C,音乐服务器38。音乐服务器38从图3B的方块338接收334消息,而且在下载管理器346处存储346该信息,这是因为MS 26可能无法立即地请求下载匹配文件或者歌曲。一旦优选地在MS 26从识别服务服务器34接收它的答复消息336之后不久音乐服务器38就从MS 26接收请求(见图3D),它将MS 26的唯一标识符匹配350于在下载管理器346中存储的MS ID,而且取回对匹配文件的关联链接。确认支付信息(优选地在该MS 26进行第一购买之后保留存档和匹配到MS ID),而且匹配文件或者歌曲下载352到MS 26。购买***提交354到该MS 26的通信服务器30B,而该过程对于该方法的网络侧而言就此结束356。
图3B的方块340引向在MS 26看来则是继续的图3D。MS 26从(图3B的)方块336接收答复消息和链接,而且将歌曲或者文件标题或者其它标识符连同对它的链接一起显示360。用户可能是在选择用户已经存储可以同时显示的若干链接之后按压362下载键,这就发送了364对于在图3C的方块348处提到的对文件或者歌曲的请求,也构成了对先前透露账户进行借记或者贷记的授权。用户在SM 26处接收336下载的文件或者歌曲,而该方法对于该交易的MS 26侧而言就此结束368。
MS 26的具体部件将参照图4A和4B来详述。用于接收模拟音频输入(先前提到的媒体采样24)的第一转换器或者麦克风48耦合到处理器50。麦克风48将模拟媒体采样24转换成数字版本,处理器50开始从该数字版本中提取存储于计算机可读主储存器54中的特征。用于特征提取的特定算法可以存储于储存器54中作为计算机可读指令,而主储存器54可以不是单个一致的存储介质,而可以是分布于若干不同存储部件之间。媒体采样可以穿过缓冲器储存器52,该储存器在采样被处理之前持续地存储有限数据容量的采样。缓冲器储存器52持续地存储在麦克风48处最近接收的信号,使得当媒体采样要使得特征在用户命令之下被提取时,处理器50可以立即开始从当前在缓冲器储存器52之内的该部分媒体采样中提取特征。以这一方式,可以从在先于用户输入命令的时间输入到MS中的采样的一部分或者分段中提取特征以标识歌曲或者文件或者链接的建立。由于在用户命令要求这么做之前,对于在缓冲器存储器中存储的信号就不进行附加处理,所以消耗了最少的额外功率。
处理器50以及MS 26的所有部件是通过比如可充电电池56或者可更换燃料电池这样的便携电源来供电的。用户接口58包括用以将来自处理器的输出转换成用户可辨认的文本消息和图像的显示器接口58A以及由其用户可以向处理器50输入命令/请求的用户输入机制58B(比如多个按钮、在显示器屏幕48之内的触摸或者压力传感器、或者具有存储于主储存器54中的语音识别软件的麦克风48)。处理器50通过开关64耦合到发送器60和接收器62,使得无法同时出现发送和接收。发送器60和接收器62各自耦合到天线66,该天线可以内置或者外置于包裹处理器50的外壳。处理器也可以在第二转换器或者扬声器68处向用户提供输出。为了接收视频,MS 26可以包括用以向处理器50提供可视媒体采样的摄像机70或者其它图像捕获设备。虽然未示出,但是摄像机70也可以向视频缓冲器存储器(未示出)提供输入,该存储器的工作方式类似于与麦克风48相关联的缓冲器存储器52。
在图4B中详述了根据本发明的MS 26的用户接口的特定方面。具体而言,显示器接口58A提供可由用户识别的输出,而且可以包括对信号强度、链路类型和/或电池电压进行指示的状态图标74。显示器屏幕58A还显示可以由用户选择的而且比如经由加亮、阴影、改变背景等来指示的文本76和符号78。用户输入机制58B可以采用若干不同形式中的一个或多个形式,比如文字数字小键盘80的一个键、导航按钮82、软键84或者优选为保留用于标识未知媒体采样和有关动作的专用按钮86。下面详述可供选择的用户输入机制58B。文字数字小键盘80在本领域中是已知的,而且主要用于将文本和数字输入到MS26中。导航按钮82操作用以将光标或者其它指示符移到显示器屏幕58A上的不同点。软键84是多功能的,而且操作用以执行在显示器屏幕58A上通常紧邻于相关软键84显示的命令。
与图4B的图示相一致,假设所示MS 26已经接收了电子邮件,该电子邮件包括媒体采样的数字拷贝作为附件。在这样的实例中,用以接收媒体采样的装置包括移动电话接收器62。用以接收媒体采样的其它装置包括麦克风48或者摄像机70、数据线缆接受器,MS 26可以通过该接受器链接到PC、服务器或者从其上传媒体采样的类似装置,或者用于光学链路(例如红外线)的接收器、局域网或者用来无线下载媒体采样的专用网(例如蓝牙)。无论怎样,所示电子邮件的文本76请求标识,而媒体文件附件作为符号78显示在显示器接口58A上。一旦用户选择媒体文件,比如通过所选符号78的阴影而在显示器屏幕58A上所指示的媒体文件,在相关用户输入机制处进行进一步输入就促使处理器50开始从媒体采样中提取特征(在本例中接收的媒体采样就是从中提取特征的数字版本)。
图4B图示了三种不同的用户输入机制,用户可以通过该输入机制促使处理器50从媒体采样中提取特征。当专用按钮86用作相关用户输入机制时,按压该专用按钮86就促使处理器50开始提取特征。替选地,可以在用户选择符号78时使得软键84能够起到这样的作用(其中功能标志符86可以显示在显示器屏幕58A上邻近于相关软键84的位置),当用户在经由导航按钮82***部分处的输入来选择符号78之后按压导航按钮82的中心部分时,导航按钮82可以促使处理器提取特征。软键84之所以区别于专用按钮86是因为软键84允许对于媒体采样标识和媒体文件购买以外的功能。虽然未描绘,但是显示器屏幕58A的触摸敏感部分也可以起到用户输入机制的作用。可以将上述任一用户输入机制考虑成如权利要求中所用的按钮。与语音识别计算机程序指令相结合的麦克风48也可以起到相关用户输入机制的作用,该输入机制在有语音命令(例如“识别”)时促使处理器59从媒体采样中提取特征,也优选地选择与要标识的媒体文件对应的符号78。
如上所述,缓冲器储存器52可以运用于MS 26之内。在某些实施例中,促使处理器50提取特征的该同一用户输入还促使缓冲器52开始缓冲,其中经由麦克风48或者摄像机70接收媒体采样。在输入介质可以是转换器或者光电装置(例如数据缆线、无线电子或者光学链路)的实施例中,当在显示器屏幕上选择对应符号78(或者是存储媒体采样的其它表示)时,该输入机制促使处理器从存储于主储存器或者储存器媒体54中的媒体采样中提取特征,而在没有选择符号78时则从转换器处的输入中提取特征。这就避免了用户需要进行多次输入以便将处理器指引到恰当的媒体采样。
优选地,响应于促使处理器提取一个或多个特征的同一用户输入,MS 26也通过无线电话链路28来发送具有一个或多个提取特征的消息。考虑包括网络32和服务器30B、34、38、42以及数据库36、40在内的如上所述的整个***,具有提取特征的该消息被发送到识别服务服务器34的网络地址(例如网页)。响应于从该服务器34接收标识媒体采样的答复消息(例如该答复消息标识了匹配于该媒体采样的媒体文件),显示器屏幕58A自动地显示媒体采样的标识符。这一标识符优选地直接取自于答复消息,而且可以是文本标识符,比如歌曲标题、音乐家/标题组合、轨道编号和CD标题组合、唱片发行日期、风格、音乐家描述等。可以针对与音乐或者听觉相关的媒体文件不匹配的其它标识的媒体采样(比如图像采样)来显示类似的文本标识符。标识符可以替选地或者附加地包括图像,比如唱片封面艺术、音乐家肖像、图标等,其中该图标链接到从媒体文件衍生的铃音。尽管数字媒体采样要经由特征和服务器唯一地匹配于单个媒体文件,但是优选但并非必要的是标识符唯一地标识媒体采样。例如,如果服务器返回各自与从数字媒体采样的每个特征相匹配的仅三个媒体文件,则用于所有这三个媒体文件的标识符可以发送到MS 26,可能使得媒体文件本身的采样剪辑附加到相应标识符,使得用户可以收听剪辑而且选择他/她希望下载的一个媒体文件。替选地,服务器可以仅返回唱片封面艺术的图标而不是匹配于数字媒体采样的单个媒体文件,其中该图标链接到对唱片上的每个音轨进行购买。
一旦在显示器屏幕58A上显示了标识符,在用户输入机制82、84、86、48(后者用于语音识别)处的另一用户输入促使发送器发送如下消息,该消息授权购买作为媒体采样之基本的媒体文件的拷贝,该媒体文件正如先前描述的那样是在答复消息中标识的而且可能是在文件存储数据库40处存储的媒体文件。可以预期答复消息的发送方也将包括对可以购买媒体文件之场所的链接、购买条款和条件、价格以及有助于无线电子购买交易的其它信息。一旦用户已经在先前的交换中同意这种交易的更多一般方面,则发送方可以发送该消息的仅若干部分。用来发送这一授权消息的用户输入机制可以是专用按钮86或者软键84,其中相关按钮86、84的功能在答复消息的接收和/或标识符的显示之时自动地改变。以这一方式,相关按钮86、84激励至少两个功能:提取特征(以及优选地发送它们)和发送对购买标识媒体文件之拷贝的授权。当利用专用按钮86时,优选地将它的功能仅保留用于媒体采样的标识(例如特征提取和发送)和媒体文件的购买。专用按钮之所以优选是因为用户无需进行多次输入以便将软键84或者导航按钮82的当前功能设置为采样标识。这是因为实时听到的任何未标识的媒体采样(例如经由麦克风输入的通过广播无线电而听到的歌曲)就其本性而言是转瞬即逝的。这样的专用按钮86还可以包括用以标识它的有限功能的永久标记90,该标记是在按钮本身上或者是在MS 26的外壳上位于邻近于专用按钮86的位置处。
优选地,授权消息包括媒体文件的标识符(该标识符可以仅仅是在答复消息中接收的在签名数据库36或者储存数据库40中的地址)和对借记或者贷记比如可能作为***或者借记卡之基础的财务账户的授权。实现购买交易所必需的账户细节(例如信用***、到期、计费地址等)可以在授权消息之内或者存储于服务器42处并且通过在授权消息中包含的安全代码来取回。优选地,授权消息授权立即将标识的媒体文件下载到MS 26,不过该授权消息(以及它的起始用户输入)不必立即在接收答复消息之后就启动:答复消息和文本标识符可以由用户存储于主储存器52中,比如存储的电子邮件,并且为媒体文件的稍后购买而加以取回。
图5是对于在MS 26处缓冲输入时获得的优点进行描绘的时序图。在开始502处开始在MS 26处接收媒体采样501。在该开始502处用户开始收听,而且在确定它是他/她想要其拷贝的歌曲或者文件之后,用户在请求时间504例如按压专用识别按钮86。假设对于MS 26而言需要最少的(时间有限的)媒体采样ΔT以执行它的预处理。这并不是处理时间而是为了提取用来标识整个歌曲或者文件的足够特征而必需的歌曲量(例如十秒)。当利用了缓冲器52时,ΔT开始于先于用户请求时间504的时间506,而且将必不可少的最少采样时间扩展到缓冲采样结束时间508。在没有利用缓冲器时,可以捕获媒体采样的最早时间就在请求时间504。必不可少的最少采样时间则必须结束510于迟于缓冲采样结束时间508的时间。取决于MS 26对媒体采样24的缓冲分段进行处理所花费的时间量,两个结束时间508、510之差512可以与媒体采样开始时间506、504之差一般大。由于MS 26优选地从它发送预处理特征和接收答复消息起维持连续的无线链路28,所以该差512仅能通过减少延迟来增强用户的体验。
总而言之,本发明包括一种用户接口和移动台,该用户接口和移动台特别地适合于执行从输入媒体采样中提取特征,无论该输入是模拟的还是数字的。所具有的新颖功能在于媒体采样的标识布置于MS26的单个按钮上,无论是专用键86还是非专用键84、82。按压该按钮促使在MS 26处进行特征提取和发送,而在接收答复消息时自动显示作为(在前者中未标识的)媒体采样之基础的媒体文件的文本标识符。另外,一旦接收标识媒体文件的答复消息而且显示文本标识符,同一或者单独的按钮就可以用来实现媒体文件的购买。
尽管已经图示和描述了当前被认为是请求保护的发明的优选实施例的内容,但是将理解到许多变化和改型可以由本领域技术人员想到。意图在于所附权利要求涵盖落入于请求保护的本发明的精神和范围之内的所有这些变化和改型。

Claims (27)

1.一种移动台,包括:
处理器;以及
用户输入机制,可操作用以促使所述处理器从数字媒体采样中提取至少一个特征,所述特征描述了所述媒体采样的内容的标识。
2.如权利要求1所述移动台,其中所述用户输入机制能够在不同时间启动不同功能,一个这样的功能是促使所述处理器提取所述至少一个特征。
3.如权利要求1所述的移动台,其中所述用户输入机制包括专用按钮,所述专用按钮具有促使所述处理器提取所述至少一个特征的单一功能。
4.如权利要求1所述的移动台,还包括耦合于所述处理器的发送器,其中在所述输入机制处的单个用户输入用于促使所述处理器提取所述至少一个特征、促使所述处理器启动通向网络的无线链路、以及促使所述发送器通过所述启动的无线链路来发送所述至少一个特征。
5.如权利要求4所述的移动台,其中所述单个用户输入促使所述发送器发送包括从所述数字媒体采样中提取的多个特征的消息,其中所述消息带有据之重建所述数字媒体采样的非充分信息。
6.如权利要求4所述的移动台,其中所述链路通向音乐识别服务的网络地址,所述网络地址存储于所述移动台的存储介质中。
7.如权利要求4所述的移动台,还包括通过所述处理器相互耦合的接收器和显示器接口,所述显示器接口用于响应于在所述接收器处通过所述链路从所述网络接收答复消息而显示所述媒体采样的标识符,所述答复消息是响应于所述发送的至少一个提取特征的。
8.如权利要求7所述的移动台,其中所述标识符是文本标识符。
9.如权利要求7所述的移动台,其中所述用户输入机制包括第一用户输入机制,所述移动台还包括由用户可以用来通过所述链路发送授权消息的第二用户输入机制,所述授权消息针对于购买在所述答复消息中引用的媒体文件的拷贝。
10.如权利要求9所述的移动台,其中所述授权消息是对于通过所述链路立即将所述媒体文件的所述拷贝下载到所述移动台的授权,所述授权是响应于所述答复消息而自动编译的。
11.如权利要求9所述的移动台,其中所述第一用户输入机制和所述第二用户输入机制包括分别在不同时间实现第一功能和第二功能的单个输入机制。
12.如权利要求11所述的移动台,其中所述单个输入机制包括在接收所述答复消息之后从所述第一功能变为所述第二功能的按钮。
13.如权利要求11所述的移动台,其中所述单个按钮能够仅实现所述第一功能和所述第二功能。
14.如权利要求1所述的移动台,还包括存储介质和可以用来对存储于所述存储介质中的数字媒体采样进行选择的显示器接口,所述用户输入机制用于促使所述处理器从存储于所述存储介质中的数字媒体采样中提取至少一个特征。
15.如权利要求1所述的移动台,其中所述用以接收媒体采样的装置包括用以接收从中导出所述数字媒体采样的模拟媒体采样的转换器,所述处理器从所述数字媒体采样中提取所述至少一个特征。
16.如权利要求15所述的移动台,还包括设置于所述转换器与所述处理器之间的缓冲器存储器,用以暂时地存储所述数字媒体采样的至少部分,所述用户输入机制用于促使所述处理器从暂时存储于所述缓冲器存储器中的所述至少的部分中提取至少一个特征。
17.如权利要求16所述的移动台,其中所述用户输入机制用于促使所述缓冲器执行所述暂时存储和促使所述处理器在有单个用户输入时执行所述提取。
18.如权利要求1所述的移动台,还包括:
用以接收所述处理器从中提取所述至少一个特征的所述数字媒体采样的装置,以及
用以显示与所述接收的数字媒体采样对应的符号的显示器接口。
19.如权利要求18所述的移动台,还包括:
用以接收模拟媒体采样和将所述模拟媒体采样转换成第二数字媒体采样的转换器,其中所述用户输入机制用于在所述显示符号由所述移动台的用户选择时促使所述处理器从所述接收的数字媒体采样中提取至少一个特征,而在没有显示符号由用户选择时促使所述处理器从所述第二数字媒体采样中提取至少一个特征。
20.一种便携电子设备的用户接口,包括:
用户输入机制,能够在所述用户输入机制处有单个用户输入时促使所述设备内部的处理器从数字媒体采样中提取多个特征以及促使所述多个提取特征发送到所述设备外部;以及
显示器屏幕,用以自动地响应于所述设备接收对发送的所述多个提取特征的答复消息而显示具有与所述多个提取特征准确匹配的特征的媒体文件的文本标识符,
其中所述多个提取特征描述了所述媒体采样的内容的标识。
21.如权利要求20所述的用户接口,其中所述用户输入机制还能够在接收所述答复消息之后促使授权消息发送到所述设备外部,所述授权消息包括:
在所述答复消息中接收的媒体文件标识符;以及
对于将所述媒体文件的拷贝下载到所述设备的请求。
22.如权利要求20所述的用户接口,其中无法从中重建所述数字媒体采样的所述多个提取特征是在消息中发送的。
23.一种移动台,包括:
用于接收媒体采样的输入装置;
从所述媒体采样的数字版本中提取至少一个特征的处理装置,所述特征描述了所述媒体采样的内容的标识;以及
用于促使所述处理装置执行所述提取的用户输入装置。
24.如权利要求23所述的移动台,其中所述处理装置包括计算机处理器。
25.如权利要求23所述的移动台,还包括发送装置,而所述用户输入装置还用于促使所述发送装置自动地在所述处理装置提取所述至少一个特征之后发送包括所述至少一个提取特征的消息。
26.一种机器可读指令的程序,有形地实施于在移动台之内的信息承载介质上,而且可由数字数据处理器执行用来进行针对分析媒体采样的动作,所述动作包括:
响应于用户输入,从媒体采样的数字版本中提取特征以及使得发送器无线地发送所述提取特征。
27.如权利要求26所述的机器可读指令的程序,其中响应于所述同一用户输入来提取所述特征和促使所述发送器无线地进行发送。
CN2005800162838A 2004-03-26 2005-03-22 适应于从输入媒体采样中提取特征的移动台和接口 Active CN1957367B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US10/810,924 US20050215239A1 (en) 2004-03-26 2004-03-26 Feature extraction in a networked portable device
US10/810,924 2004-03-26
US10/820,308 2004-04-07
US10/820,308 US7221902B2 (en) 2004-04-07 2004-04-07 Mobile station and interface adapted for feature extraction from an input media sample
PCT/IB2005/000741 WO2005093622A1 (en) 2004-03-26 2005-03-22 Mobile station and interface adapted for feature extraction from an imput media sample

Publications (2)

Publication Number Publication Date
CN1957367A true CN1957367A (zh) 2007-05-02
CN1957367B CN1957367B (zh) 2012-08-22

Family

ID=34990678

Family Applications (2)

Application Number Title Priority Date Filing Date
CNA2005800164265A Pending CN101461146A (zh) 2004-03-26 2005-03-22 联网便携设备中的特征提取
CN2005800162838A Active CN1957367B (zh) 2004-03-26 2005-03-22 适应于从输入媒体采样中提取特征的移动台和接口

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CNA2005800164265A Pending CN101461146A (zh) 2004-03-26 2005-03-22 联网便携设备中的特征提取

Country Status (10)

Country Link
US (1) US20050215239A1 (zh)
EP (1) EP1743286B1 (zh)
JP (1) JP2007531903A (zh)
KR (1) KR20090108643A (zh)
CN (2) CN101461146A (zh)
AT (1) ATE459940T1 (zh)
BR (1) BRPI0509520A (zh)
CA (1) CA2561148A1 (zh)
DE (1) DE602005019710D1 (zh)
WO (1) WO2005093623A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101394604B (zh) * 2008-10-20 2011-09-28 ***通信集团北京有限公司 一种多媒体消息的识别方法和***
CN102754112A (zh) * 2010-02-12 2012-10-24 微软公司 使用客户机库的社交网络媒体共享
CN103391270A (zh) * 2012-05-07 2013-11-13 华为技术有限公司 一种数据处理的方法、设备及***
CN103635954A (zh) * 2011-02-08 2014-03-12 隆沙有限公司 基于地理和可视信息增强可视数据流的***
CN103391270B (zh) * 2012-05-07 2016-11-30 华为技术有限公司 一种数据处理的方法、设备及***

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9269043B2 (en) 2002-03-12 2016-02-23 Knowm Tech, Llc Memristive neural processor utilizing anti-hebbian and hebbian technology
US9280748B2 (en) 2012-06-22 2016-03-08 Knowm Tech, Llc Methods and systems for Anti-Hebbian and Hebbian (AHaH) feature extraction of surface manifolds using
US9711153B2 (en) 2002-09-27 2017-07-18 The Nielsen Company (Us), Llc Activating functions in processing devices using encoded audio and detecting audio signatures
US7970618B2 (en) * 2004-04-02 2011-06-28 Kddi Corporation Content distribution server for distributing content frame for reproducing music and terminal
US8717301B2 (en) * 2005-08-01 2014-05-06 Sony Corporation Information processing apparatus and method, and program
DE102005005536A1 (de) * 2005-02-07 2006-08-10 Sick Ag Codeleser
US20060218240A1 (en) * 2005-03-25 2006-09-28 Inventec Appliances Corp. Music transmission controlling system and method
US20060276174A1 (en) * 2005-04-29 2006-12-07 Eyal Katz Method and an apparatus for provisioning content data
US8543095B2 (en) * 2005-07-08 2013-09-24 At&T Mobility Ii Llc Multimedia services include method, system and apparatus operable in a different data processing network, and sync other commonly owned apparatus
US8249559B1 (en) 2005-10-26 2012-08-21 At&T Mobility Ii Llc Promotion operable recognition system
KR100684457B1 (ko) * 2006-05-04 2007-02-22 주식회사 모빌리언스 이동통신단말의 외부 음원 인식을 이용하여 사용자에게고유정보를 제공하는 고유정보 제공 시스템, 고유정보 제공방법 및 그 이동통신단말
GB0621101D0 (en) * 2006-10-24 2006-12-06 Wesby Philip B System & method for data acquisition and processing
US20080104246A1 (en) * 2006-10-31 2008-05-01 Hingi Ltd. Method and apparatus for tagging content data
US8116746B2 (en) * 2007-03-01 2012-02-14 Microsoft Corporation Technologies for finding ringtones that match a user's hummed rendition
GB0704856D0 (en) * 2007-03-13 2007-04-18 Wesby Philip B System and method for data acquisition and processing
KR101108684B1 (ko) * 2007-06-19 2012-01-30 주식회사 케이티 입체 컨텐츠 제공 서버, 방법 및 입체 디스플레이 가능통신 단말기
US9674675B2 (en) 2007-06-20 2017-06-06 Qualcomm Incorporated Synchronizing floor control and media sharing in a half-duplex PTT system
CN101374298A (zh) * 2007-08-24 2009-02-25 深圳富泰宏精密工业有限公司 资料自动分类***及方法
KR20090035989A (ko) * 2007-10-08 2009-04-13 삼성전자주식회사 컨텐츠 획득 시스템 및 그 방법
US20090215416A1 (en) * 2008-02-25 2009-08-27 Harry Lee Devore System and Method for Providing Information About Broadcasted Content
US20100023328A1 (en) * 2008-07-28 2010-01-28 Griffin Jr Paul P Audio Recognition System
US9774948B2 (en) 2010-02-18 2017-09-26 The Trustees Of Dartmouth College System and method for automatically remixing digital music
US8996557B2 (en) * 2011-05-18 2015-03-31 Microsoft Technology Licensing, Llc Query and matching for content recognition
US20120296458A1 (en) * 2011-05-18 2012-11-22 Microsoft Corporation Background Audio Listening for Content Recognition
US8918353B2 (en) 2012-02-22 2014-12-23 Knowmtech, Llc Methods and systems for feature extraction
JP5242826B1 (ja) * 2012-03-22 2013-07-24 株式会社東芝 情報処理装置及び情報処理方法
US11237556B2 (en) 2012-06-22 2022-02-01 Knowm, Inc. Autonomous vehicle
US9674587B2 (en) * 2012-06-26 2017-06-06 Sonos, Inc. Systems and methods for networked music playback including remote add to queue
PL2951815T3 (pl) * 2013-01-29 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodery audio, dekodery audio, systemy, sposoby i programy komputerowe wykorzystujące zwiększoną rozdzielczość czasową w otoczeniu czasowym początków lub końców spółgłosek szczelinowych lub spółgłosek zwarto-szczelinowych
US9501533B2 (en) 2013-04-16 2016-11-22 Sonos, Inc. Private queue for a media playback system
US9361371B2 (en) 2013-04-16 2016-06-07 Sonos, Inc. Playlist update in a media playback system
US9247363B2 (en) 2013-04-16 2016-01-26 Sonos, Inc. Playback queue transfer in a media playback system
US10129314B2 (en) * 2015-08-18 2018-11-13 Pandora Media, Inc. Media feature determination for internet-based media streaming
US10650621B1 (en) 2016-09-13 2020-05-12 Iocurrents, Inc. Interfacing with a vehicular controller area network

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5668929A (en) * 1993-01-21 1997-09-16 Hirsch Electronics Corporation Speech activated security systems and methods
JP3034773B2 (ja) * 1994-12-27 2000-04-17 シャープ株式会社 電子通訳機
US5752231A (en) * 1996-02-12 1998-05-12 Texas Instruments Incorporated Method and system for performing speaker verification on a spoken utterance
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
JP2002536746A (ja) * 1999-02-01 2002-10-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 動画シーケンスを表す記述子とその記述子を使用する画像検索システム
US7185201B2 (en) * 1999-05-19 2007-02-27 Digimarc Corporation Content identifiers triggering corresponding responses
US7013301B2 (en) * 2003-09-23 2006-03-14 Predixis Corporation Audio fingerprinting system and method
US6546135B1 (en) * 1999-08-30 2003-04-08 Mitsubishi Electric Research Laboratories, Inc Method for representing and comparing multimedia content
US6862713B1 (en) * 1999-08-31 2005-03-01 International Business Machines Corporation Interactive process for recognition and evaluation of a partial search query and display of interactive results
US7174293B2 (en) * 1999-09-21 2007-02-06 Iceberg Industries Llc Audio identification system and method
US7266343B1 (en) * 1999-09-29 2007-09-04 Nokia Corporation Method of and system for providing identification of a piece of information
US6941275B1 (en) * 1999-10-07 2005-09-06 Remi Swierczek Music identification system
US6529584B1 (en) * 1999-10-13 2003-03-04 Rahsaan, Inc. Audio program delivery system
US6356868B1 (en) * 1999-10-25 2002-03-12 Comverse Network Systems, Inc. Voiceprint identification system
JP4312406B2 (ja) * 1999-11-16 2009-08-12 スイスコム・モバイル・アクチエンゲゼルシヤフト 製品注文方法とシステム
US6438524B1 (en) * 1999-11-23 2002-08-20 Qualcomm, Incorporated Method and apparatus for a voice controlled foreign language translation device
US6490320B1 (en) * 2000-02-02 2002-12-03 Mitsubishi Electric Research Laboratories Inc. Adaptable bitstream video delivery system
US6741757B1 (en) * 2000-03-07 2004-05-25 Microsoft Corporation Feature correspondence between images using an image pyramid
US6453252B1 (en) * 2000-05-15 2002-09-17 Creative Technology Ltd. Process for identifying audio content
US6513010B1 (en) * 2000-05-30 2003-01-28 Voxi Ab Method and apparatus for separating processing for language-understanding from an application and its functionality
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US20020072982A1 (en) * 2000-12-12 2002-06-13 Shazam Entertainment Ltd. Method and system for interacting with a user in an experiential environment
US6735560B1 (en) * 2001-01-31 2004-05-11 International Business Machines Corporation Method of identifying members of classes in a natural language understanding system
US7359889B2 (en) * 2001-03-02 2008-04-15 Landmark Digital Services Llc Method and apparatus for automatically creating database for use in automated media recognition system
US7337114B2 (en) * 2001-03-29 2008-02-26 International Business Machines Corporation Speech recognition using discriminant features
US20020198789A1 (en) * 2001-06-22 2002-12-26 Sony Corp. And Sony Music Entertainment, Inc. Apparatus and method for identifying and purchasing music
US7328153B2 (en) * 2001-07-20 2008-02-05 Gracenote, Inc. Automatic identification of sound recordings
US6961467B2 (en) * 2001-10-17 2005-11-01 Intel Corporation Identifying image content
DE10232916B4 (de) * 2002-07-19 2008-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
AU2003278431A1 (en) * 2002-11-22 2004-06-18 Koninklijke Philips Electronics N.V. Speech recognition device and method
KR20040097555A (ko) * 2003-05-12 2004-11-18 삼성전자주식회사 실시간 검색 정보 제공 시스템 및 방법
US7421305B2 (en) * 2003-10-24 2008-09-02 Microsoft Corporation Audio duplicate detector
US7660715B1 (en) * 2004-01-12 2010-02-09 Avaya Inc. Transparent monitoring and intervention to improve automatic adaptation of speech models
US7231176B2 (en) * 2004-02-06 2007-06-12 Jeffrey Levy Methods and system for retrieving music information from wireless telecommunication devices
US20050197724A1 (en) * 2004-03-08 2005-09-08 Raja Neogi System and method to generate audio fingerprints for classification and storage of audio clips
US7022907B2 (en) * 2004-03-25 2006-04-04 Microsoft Corporation Automatic music mood detection

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101394604B (zh) * 2008-10-20 2011-09-28 ***通信集团北京有限公司 一种多媒体消息的识别方法和***
CN102754112A (zh) * 2010-02-12 2012-10-24 微软公司 使用客户机库的社交网络媒体共享
US9264465B2 (en) 2010-02-12 2016-02-16 Microsoft Technology Licensing, Llc Social network media sharing with client library
US9749368B2 (en) 2010-02-12 2017-08-29 Microsoft Technology Licensing, Llc Social network media sharing with client library
CN103635954A (zh) * 2011-02-08 2014-03-12 隆沙有限公司 基于地理和可视信息增强可视数据流的***
CN103635954B (zh) * 2011-02-08 2016-05-25 奥瑞斯玛有限公司 基于地理和可视信息增强可视数据流的***
CN103391270A (zh) * 2012-05-07 2013-11-13 华为技术有限公司 一种数据处理的方法、设备及***
WO2013166918A1 (zh) * 2012-05-07 2013-11-14 华为技术有限公司 一种数据处理的方法、设备及***
CN103391270B (zh) * 2012-05-07 2016-11-30 华为技术有限公司 一种数据处理的方法、设备及***

Also Published As

Publication number Publication date
EP1743286B1 (en) 2010-03-03
DE602005019710D1 (de) 2010-04-15
WO2005093623A1 (en) 2005-10-06
JP2007531903A (ja) 2007-11-08
EP1743286A1 (en) 2007-01-17
CN1957367B (zh) 2012-08-22
WO2005093623A4 (en) 2009-01-22
US20050215239A1 (en) 2005-09-29
CN101461146A (zh) 2009-06-17
ATE459940T1 (de) 2010-03-15
KR20090108643A (ko) 2009-10-15
CA2561148A1 (en) 2005-10-06
BRPI0509520A (pt) 2007-09-11

Similar Documents

Publication Publication Date Title
CN1957367B (zh) 适应于从输入媒体采样中提取特征的移动台和接口
US7221902B2 (en) Mobile station and interface adapted for feature extraction from an input media sample
JP2007531903A5 (zh)
US20100082328A1 (en) Systems and methods for speech preprocessing in text to speech synthesis
CN101741975B (zh) 利用手机处理音乐片段获取歌曲信息的方法及其手机
TW200300925A (en) System and method for music identification
CN101506808A (zh) 基于音频搜索条件的搜索***和搜索方法
CN102959544A (zh) 用于同步媒体的方法和***
CN103685520A (zh) 基于语音识别的歌曲推送的方法和装置
CN106888154B (zh) 音乐分享方法及***
CN1983253A (zh) 一种提供音乐搜索服务的方法、设备和***
CN111798821A (zh) 声音转换方法、装置、可读存储介质及电子设备
CN108322770A (zh) 视频节目识别方法、相关装置、设备和***
CN106559469A (zh) 一种基于即时通讯推送音乐信息的方法和装置
CN103562909A (zh) 客户端设备识别数据流的内容的方法及***
JP5034599B2 (ja) 楽曲紹介文生成装置、ナレーション付加装置およびプログラム
CN113032616B (zh) 音频推荐的方法、装置、计算机设备和存储介质
CA2561147C (en) Mobile station and interface adapted for feature extraction from an imput media sample
KR100849848B1 (ko) 음성 출력 장치 및 방법
KR20070016750A (ko) 고객 특성이 피드백 반영되는 질의 풀 기반의 유비쿼터스음악 정보 검색 시스템 및 방법
KR100967125B1 (ko) 네트워크 휴대용 장치에서의 특징 추출
CN111627417B (zh) 播放语音的方法、装置及电子设备
US20220019618A1 (en) Automatically converting and storing of input audio stream into an indexed collection of rhythmic nodal structure, using the same format for matching and effective retrieval
CN102549575A (zh) 用于识别和播放录音的方法
CN116312462A (zh) 语音合成方法、预测网络训练方法、服务器和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160206

Address after: Espoo, Finland

Patentee after: Technology Co., Ltd. of Nokia

Address before: Espoo, Finland

Patentee before: Nokia Oyj