CN1979462A - 声控多媒体播放器 - Google Patents
声控多媒体播放器 Download PDFInfo
- Publication number
- CN1979462A CN1979462A CNA2005101016012A CN200510101601A CN1979462A CN 1979462 A CN1979462 A CN 1979462A CN A2005101016012 A CNA2005101016012 A CN A2005101016012A CN 200510101601 A CN200510101601 A CN 200510101601A CN 1979462 A CN1979462 A CN 1979462A
- Authority
- CN
- China
- Prior art keywords
- sound
- media player
- multimedia
- controlled multi
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
本发明涉及一种声控多媒体播放器,该多媒体播放器包括:主控模块、语音识别模块、存储多媒体文件的存储器以及与语音识别模块相连接的语音输入模块,语音输入模块输入语音识别信息并由语音识别模块进行识别,主控模块从存储器内选择多媒体文件名与语音识别信息相匹配的多媒体文件。本发明的声控多媒体播放器通过语音识别模块识别语音识别信息并同存储器中的多媒体文件名或目录名进行比较而不是与多媒体文件的ID3标签内的相关信息进行比较,方便用户根据自己喜好定义识别信息。
Description
【技术领域】
本发明涉及一种多媒体播放器,尤其涉及一种声控多媒体播放器。
【背景技术】
随着数码技术的不断发展,能够播放多媒体数据的便携式多媒体播放器(例如,MP3、MP4播放器)已经在人们的日常生活中得到普及。例如,其中MP3技术是利用音频数据编码技术在不降低现有数据音质的情况对音频数据进行压缩。MP3播放器由于其结构小巧、操作便捷逐渐取代随身听(Walkman)成为人们的新宠。而且随着科技的不断进步,多媒体播放器的功能也在日益增多。目前在市面上已经出现了声控多媒体播放器,用户可以利用语音指令对多媒体播放器进行点播。MP3等多媒体文件都会附加一段被称为ID3标签的特殊数据。ID3标签内包括标题、艺术家、唱片集、歌词等相关信息。声控多媒体播放器通过语音识别模块对用户语音识别信息进行A/D转换,并数字形式的语音信息与ID3标签中的识别信息进行比较,并根据对比结果识别出识别信息相匹配的文件进行播放。但由于ID3标签集成于MP3文件内无法进行简单修改,用户需要预先知道其识别信息的形式,并输入相应的语音信息,这给使用者带来极大的不便。在听取外文歌曲的时候,用户还需要输入相应的外文歌曲名或艺术家名。虽然也有一些专门用于修改这些ID3标签的软件,但这又给使用者增加了附加工作。
【发明内容】
为了解决现有技术的声控多媒体播放器需要将识别信息与多媒体文件的文件标签进行比较的技术问题,本发明提供一种对多媒体文件名进行识别的声控多媒体播放器。本发明的声控多媒体播放器还可以对存储器内的目录名进行识别,以便对存储器内的多媒体文件进行分级查询。
本发明解决现有技术的声控多媒体播放器需要将识别信息与多媒体文件的文件标签进行比较的技术问题所采用的技术方案是:提供一种声控多媒体播放器,该多媒体播放器包括:主控模块、语音识别模块、存储多媒体文件的存储器以及与语音识别模块相连接的语音输入模块,语音输入模块输入语音识别信息并由语音识别模块进行识别,主控模块从存储器内选择多媒体文件名与语音识别信息相匹配的多媒体文件。
根据本发明的一优选结构,多媒体播放器还包括多媒体解码模块,多媒体解码模块对选择的多媒体文件进行解码。
根据本发明的一优选结构,主控模块还可以从存储器内选择目录名与语音识别信息相匹配的目录内的所有多媒体文件。
根据本发明的一优选结构,目录是存在于存储器内的文件夹。
根据本发明的一优选结构,语音输入模块为设置在耳机***上的麦克风。
根据本发明的一优选结构,耳机***上还设置有用于从播放模式切换到点播模式的点播键。
根据本发明的一优选结构,耳机***是有线耳机,麦克风和点播键设置在有线耳机的耳机线上。
根据本发明的一优选结构,耳机***是无线耳机。
根据本发明的一优选结构,语音识别模块采用针对非特定人的语音识别方法识别语音识别信息。
根据本发明的一优选结构,多媒体文件是MP3或MP4文件。
上述结构的有益效果是:通过语音识别模块识别语音识别信息并同存储器中的多媒体文件名或目录名进行比较而不是与多媒体文件的ID3标签内的相关信息进行比较,方便用户根据自己喜好定义识别信息。
【附图说明】
图1是本发明的声控多媒体播放器的示意框图。
【具体实施方式】
下面结合附图和实施例以MP3播放器为例对本发明进行详细说明。
参见图1,本发明的MP3播放器1内部的电路板上设置有主控模块111、存储器113、语音D/A转换模块115、语音识别模块117等功能模块以及USB接口119等数据接口,语音识别模块117与语音输入模块120相连接。其中,主控模块111负责MP3文件的解码、USB接口119传入数据的处理、写入\读取存储器113内的数据以及控制语音D/A模块115发声等的工作,连接MP3播放器1内的所有主要部件,协调各部件工作状态。存储器113内包括指令存储器和数据存储器。语音D/A转换模块115由主控模块111控制,将数字形式的MP3文件转换成模拟数据,并由喇叭或耳机等输出。此外,语音输入模块120接收用户输入的语音识别信息,该语音识别信息经语音识别模块117进行A/D转换、特征量提取等数据处理过程。主控模块111从存储器113中选择文件名与语音识别信息相匹配的MP3文件进行播放。
使用时,用户将MP3文件拷贝到存储器113内,主控模块111根据MP3文件的文件名建立相应的文件名列表。主控模块111将识别的语音识别信息同从该列表中的文件名进行比较,从而选择出文件名相匹配(相同或相似)的MP3文件。而目前普遍使用的MP3播放器是通过将语音识别信息同ID3标签的标题信息进行比较。由于ID3标签内的信息不易修改,这给用户使用带来极大不便。例如如果标题信息是“yesterday once more”这类的英文歌名时,用户必须输入相同的语音识别信息,否则将无法识别出该MP3文件。而采用本发明的MP3播放器,用户可以事先在电脑上方便地将文件名更改成“***”,这样在点播时直接输入汉语即可完成语音点播功能。
此外,在本发明的MP3播放器中,可以将存储器113分成不同的目录(文件夹),并由主控模块111建立相应的目录列表。主控模块111根据语音识别信息选择目录名相匹配的目录。这样用户可以通过电脑自己在存储器上定义不同目录,例如按照歌星名、音乐风格定义不同目录,甚至可以定义个性化目录并将相应MP3文件拷贝到该目录下。用户可以选择播放相应目录下所有MP3文件,也可以再通过文件名进行进一步选择,从而实现分级查询,减少***开销时间。
在本发明的MP3播放器中,语音输入模块120可以采用任意公知的语音输入***。优选采用将麦克风与耳机集成的形式,例如:将麦克风设置在有线耳机的耳机线上或者设置在蓝牙耳机上,这样用户不需要直接对着MP3播放器主机输入语音信息,方便用户使用。
此外,还可以在耳机线或蓝牙耳机上设置将MP3播放器从播放模式切换到点播模式的点播键,用户可以通过该点播键方便地切换到文件名点播模式或目录名点播模式。目前多媒体播放器的容量越来越大,存储的多媒体文件数量越来越多。上述方式提供一种通过声控方式来选择多媒体文件的可能,而且允许用户不必输入与多媒体文件标签的相关信息匹配的信息,而是将文件名或目录名作为识别信息,使用户可以根据自己的喜好定义识别信息。
本发明声控多媒体播放器的语音识别***可以包括:针对特定人的语音识别***或针对非特定人的语音识别***。在针对特定人的语音识别***中,用户需要事先对每一个语音指令进行训练。在训练阶段,用户通过学习模式将每个语音指令依次说数遍,语音识别模块提取语音指令的特征量,并将特征量按序列存入存储器中。在识别阶段,语音识别模块将输入语音指令的特征量依次与存储器中存储的每一个特征量进行相似度比较,将相似度最高者作为识别结果输出或者输出与该特征量相对应的控制指令。这种语音识别***的识别性能随着语音指令数目的增加会有明显的下降,并且对于不同用户、在不同的噪声环境中,以及不同的时间相同用户的不同生理、心理状态下,***的性能都会受到明显的影响,因而并不适用于多媒体播放器的大批量生产。当采用针对非特定人的语音识别***中,采用基于统计模型的算法,***开发者事先采集大量的语音数据进行训练,得到声学模型并存储在存储器中。在识别阶段,语音识别模块将用户的输入语音指令的特征量与通过声学模型构建的识别网络进行匹配解码,输出该语音指令或与该语音指令相对应的控制指令。主控模块可根据语音识别模块输出的识别结果对多媒体播放器进行控制。非特定人语音识别***对于用户而言,不需要引入繁琐的训练过程,方便了用户的使用;同时它可以供不同的人使用,因此大大拓宽了应用范围。另一方面,由于采用了基于统计模型的算法,其稳健性和识别性能都比特定人识别***大大的提高,识别性能不会随着识别词条数目的增加有明显的下降,并且具有一定的抗噪能力。上述的详细描述仅是示范性描述,本领域技术人员在不脱离本发明所保护的范围和精神的情况下,可根据不同的实际需要设计出各种实施方式。例如,多媒体播放器并不局限于上文中所提到的MP3和MP4播放器,本发明还适用于DVD播放器、卡拉OK点播机等其它形式的多媒体播放器。
Claims (10)
1.一种声控多媒体播放器,所述多媒体播放器包括:主控模块、语音识别模块、存储多媒体文件的存储器以及与所述语音识别模块相连接的语音输入模块,其特征在于:所述语音输入模块输入语音识别信息并由所述语音识别模块进行识别,所述主控模块从所述存储器内选择多媒体文件名与所述语音识别信息相匹配的多媒体文件。
2.根据权利要求1所述的声控多媒体播放器,其特征在于:所述多媒体播放器还包括多媒体解码器,所述多媒体解码器对所述选择的多媒体文件进行解码。
3.根据权利要求1所述的声控多媒体播放器,其特征在于:所述主控模块还可以从所述存储器内选择目录名与所述语音识别信息相匹配的目录内的所有多媒体文件。
4.根据权利要求3所述的声控多媒体播放器,其特征在于:所述目录是存在于所述存储器内的文件夹。
5.根据权利要求1所述的声控多媒体播放器,其特征在于:所述语音输入模块为设置在耳机***上的麦克风。
6.根据权利要求5所述的声控多媒体播放器,其特征在于:所述耳机***还设置有用于从播放模式切换到点播模式的点播键。
7.根据权利要求6所述的声控多媒体播放器,其特征在于:所述耳机***是有线耳机,所述麦克风和所述点播键设置在所述有线耳机的耳机线上。
8.根据权利要求6所述的声控多媒体播放器,其特征在于:所述耳机***是无线耳机。
9.根据权利要求1所述的声控多媒体播放器,其特征在于:所述语音识别模块采用针对非特定人的语音识别方法识别所述语音识别信息。
10.根据上述权利要求任意一项所述的声控多媒体播放器,其特征在于:所述多媒体文件是MP3或MP4文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2005101016012A CN1979462A (zh) | 2005-11-29 | 2005-11-29 | 声控多媒体播放器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2005101016012A CN1979462A (zh) | 2005-11-29 | 2005-11-29 | 声控多媒体播放器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1979462A true CN1979462A (zh) | 2007-06-13 |
Family
ID=38130637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2005101016012A Pending CN1979462A (zh) | 2005-11-29 | 2005-11-29 | 声控多媒体播放器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1979462A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101515278B (zh) * | 2008-02-22 | 2011-01-26 | 鸿富锦精密工业(深圳)有限公司 | 影像存取装置及其影像存储以及读取方法 |
CN101534380B (zh) * | 2009-04-15 | 2013-06-05 | 中兴通讯股份有限公司 | 一种移动终端及其声控切换电视/广播频道的方法 |
CN104239328A (zh) * | 2013-06-18 | 2014-12-24 | 联想(北京)有限公司 | 多媒体处理方法及多媒体*** |
CN105225662A (zh) * | 2015-08-24 | 2016-01-06 | 深圳市冠旭电子有限公司 | 智能蓝牙耳机自动播放外部语音的方法及智能蓝牙耳机 |
WO2019214628A1 (zh) * | 2018-05-09 | 2019-11-14 | 北京字节跳动网络技术有限公司 | 一种语音识别的方法、文件处理方法及终端设备 |
-
2005
- 2005-11-29 CN CNA2005101016012A patent/CN1979462A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101515278B (zh) * | 2008-02-22 | 2011-01-26 | 鸿富锦精密工业(深圳)有限公司 | 影像存取装置及其影像存储以及读取方法 |
CN101534380B (zh) * | 2009-04-15 | 2013-06-05 | 中兴通讯股份有限公司 | 一种移动终端及其声控切换电视/广播频道的方法 |
CN104239328A (zh) * | 2013-06-18 | 2014-12-24 | 联想(北京)有限公司 | 多媒体处理方法及多媒体*** |
CN105225662A (zh) * | 2015-08-24 | 2016-01-06 | 深圳市冠旭电子有限公司 | 智能蓝牙耳机自动播放外部语音的方法及智能蓝牙耳机 |
WO2019214628A1 (zh) * | 2018-05-09 | 2019-11-14 | 北京字节跳动网络技术有限公司 | 一种语音识别的方法、文件处理方法及终端设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1693829B1 (en) | Voice-controlled data system | |
US9092435B2 (en) | System and method for extraction of meta data from a digital media storage device for media selection in a vehicle | |
US7684991B2 (en) | Digital audio file search method and apparatus using text-to-speech processing | |
US20090171663A1 (en) | Reducing a size of a compiled speech recognition grammar | |
KR20080000203A (ko) | 음성인식을 이용한 음악 파일 검색 방법 | |
CN101996627B (zh) | 语音处理装置、语音处理方法和程序 | |
CN101415259A (zh) | 嵌入式设备上基于双语语音查询的信息检索***及方法 | |
CN100370437C (zh) | 音乐数据转录的方法 | |
KR20070080481A (ko) | 노래 가사를 이용하여 하이라이트 구간을 검색하는 장치 및그 방법 | |
US20100017381A1 (en) | Triggering of database search in direct and relational modes | |
US20030072463A1 (en) | Sound-activated song selection broadcasting apparatus | |
CN1979462A (zh) | 声控多媒体播放器 | |
EP1403852B1 (en) | Voice activated music playback system | |
CN109492126B (zh) | 一种智能交互方法及装置 | |
CN104851436A (zh) | 一种用于移动终端的声控音乐播放***及其播放方法 | |
CN201118925Y (zh) | 一种声控选卡拉ok歌名的麦克风 | |
US20100222905A1 (en) | Electronic apparatus with an interactive audio file recording function and method thereof | |
CN109377988B (zh) | 用于智能音箱的交互方法、介质、装置和计算设备 | |
CN201196781Y (zh) | 一种可声控操作的电子菜谱 | |
CN1979468A (zh) | 声控文件查询***以及声控文件查询方法 | |
CN1909057A (zh) | 具有卡拉ok功能的便携数据处理装置及其选曲方法 | |
JP2011064969A (ja) | 音声認識装置及び音声認識方法 | |
CN2862265Y (zh) | 声控mp3播放器 | |
CN2842652Y (zh) | 声控点播mp3播放器 | |
CN1979463A (zh) | 声控多媒体播放器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20070613 |