CN111613246A - 一种音频分类提示方法以及相关设备 - Google Patents
一种音频分类提示方法以及相关设备 Download PDFInfo
- Publication number
- CN111613246A CN111613246A CN202010467072.2A CN202010467072A CN111613246A CN 111613246 A CN111613246 A CN 111613246A CN 202010467072 A CN202010467072 A CN 202010467072A CN 111613246 A CN111613246 A CN 111613246A
- Authority
- CN
- China
- Prior art keywords
- audio data
- audio
- category
- humming
- song
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000013145 classification model Methods 0.000 claims abstract description 43
- 238000013459 approach Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 78
- 238000001228 spectrum Methods 0.000 claims description 53
- 238000012549 training Methods 0.000 claims description 34
- 238000013528 artificial neural network Methods 0.000 claims description 32
- 230000009466 transformation Effects 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 description 30
- 230000015654 memory Effects 0.000 description 26
- 230000008569 process Effects 0.000 description 24
- 230000005236 sound signal Effects 0.000 description 20
- 238000011176 pooling Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 15
- 238000013527 convolutional neural network Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 210000002569 neuron Anatomy 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 210000005069 ears Anatomy 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000013707 sensory perception of sound Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种音频分类提示方法,该方法包括:接收通过音源输入的第一音频数据;将所述第一音频数据输入音频分类模型进行分类,确定所述第一音频数据的音频类别,其中,所述音频类别包括音乐类别、哼唱类别以及无效类别;在所述第一音频数据的音频类别为所述音乐类别的情况下,继续接收通过所述音源输入的第二音频数据,根据所述第二音频数据识别出所述第二音频数据所属的歌曲;在所述第一音频数据的音频类别为所述哼唱类别的情况下,提示所述用户切换到哼唱识别模式;在所述第一音频数据的音频类别为所述无效类别的情况下,提示所述用户靠近所述音源。上述方案能够优化用户的听歌识曲体验。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种音频分类提示方法以及相关设备。
背景技术
目前歌曲的种类和数量越来越多,用户在听到某一首感兴趣的歌曲时,常常不知道该歌曲的名称,希望获知该歌曲的相关信息,如歌曲名称、歌手、专辑等信息。
一般的歌曲识别方式,终端设备中安装有具有歌曲识别功能的应用程序,用户在听到好听的歌曲时,可以开启该应用程序,并触发应用程序中的歌曲识别功能,在终端设备接收到音频数据后,应用程序的歌曲识别功能对终端设备接收到的音频数据进行识别,并在该应用程序中显示识别到的歌曲信息。
但是,上述歌曲识别的方式,大多需要对终端设备接收的整段音频数据进行识别,才能识别出音频数据所属歌曲的相关信息,花费的时间较长。另外,上述歌曲识别的方式,在终端设备距离音源较远的情况下,用户往往在录制完毕才发现终端设备未录制到有效声音,用户体验不佳。
发明内容
本申请实施例提供一种音频分类提示方法以及相关设备,能够在接收整段音频数据的过程中对已经接收的音频数据进行分类,确定已经接收的音频数据的音频类别,在音频类别是哼唱类别或无效类别的情况下,及时对用户进行提示,便于用户尽快采取相应措施,优化用户的听歌识曲体验。
第一方面,本申请实施例提供一种音频分类提示方法,所述方法包括:
接收通过音源输入的第一音频数据;
将所述第一音频数据输入音频分类模型进行分类,确定所述第一音频数据的音频类别,其中,所述音频类别包括音乐类别、哼唱类别以及无效类别;
在所述第一音频数据的音频类别为所述音乐类别的情况下,继续接收通过所述音源输入的第二音频数据,根据所述第二音频数据识别出所述第二音频数据所属的歌曲,其中,所述第一音频数据以及所述第二音频数据属于同一首歌曲;
在所述第一音频数据的音频类别为所述哼唱类别的情况下,提示所述用户切换到哼唱识别模式;
在所述第一音频数据的音频类别为所述无效类别的情况下,提示所述用户靠近所述音源。
上述方法能够在终端设备接收整段音频数据的过程中,实时地对终端设备已经接收的第一音频数据(为整段音频数据的任意部分或者全部)进行分类,确定已经接收的第一音频数据的音频类别,即本申请无需对整段音频数据识别完毕才能确定音频数据的音频类别,提高了音频数据的分类效率。上述方法还能够在确定第一音频数据的音频类别为音乐类别的情况下,继续接收与第一音频数据属于同一首歌曲的第二音频数据,在继续接收第二音频数据(为整段音频数据的任意部分或者全部)的过程中确定第二音频数据所属的歌曲,即本申请无需对整段音频数据识别完毕才能确定音频数据所属的歌曲,提高了歌曲识别的效率。另外,上述方法还能够在确定第一音频数据的音频类别为哼唱类别和无效类别的情况下,及时对用户进行提示,便于用户尽快采取相应措施。
在一种可能的实施例中,在所述第一音频数据的音频类别为所述音乐类别的情况下,继续接收通过所述音源输入的第二音频数据,将所述第二音频数据输入歌曲识别模型进行识别,从而识别出所述第二音频数据所属的歌曲,其中,所述歌曲识别模型是通过已知音乐数据和已知歌曲训练得到的,所述已知音乐数据属于所述音乐类别。
在一种可能的实施例中,在所述第一音频数据的音频类别为所述哼唱类别的情况下,提示用户切换到哼唱识别模式之后,所述方法还包括:
继续接收通过所述音源输入的第三音频数据;
将所述第三音频数据输入哼唱识别模型进行识别,从而识别出所述第三音频数据所属的歌曲,其中,所述第一音频数据以及所述第三音频数据属于同一首歌曲,所述哼唱识别模型是通过已知哼唱数据和已知歌曲训练得到的,所述已知哼唱数据属于所述哼唱类别。
可以看出,本申请能够在确定第一音频数据是哼唱类别的情况下,及时提醒用户切换到哼唱识别模式,用户切换到哼唱识别模式后,终端设备可以继续接收与第一音频数据属于同一首歌曲的第三音频数据(为整段音频数据的任意部分或者全部),在继续接收第三音频数据的过程中,使用哼唱识别模型识别第三音频数据所属的歌曲,不仅满足了用户识别哼唱的需求,还无需对整段音频数据识别完毕才能确定音频数据所属的歌曲,提高了歌曲识别的效率。
在一种可能的实施例中,所述方法还包括:
通过已知音频数据和已知音频数据对应的已知音频类别对神经网络进行训练得到所述音频分类模型。
在一种可能的实施例中,所述通过已知音频数据和已知音频数据对应的已知音频类别对神经网络进行训练得到所述音频分类模型,包括:
从所述已知音频数据中获取n个特征向量,其中,所述n个特征向量中的每个特征向量包括m个特征数据,第i个特征向量是对所述已知音频数据的第i个采样点进行频谱变换后得到的频谱,再进行梅尔声谱变换得到的,1≤i≤n,m为大于0的整数;
通过所述n个特征向量以及所述已知音频数据对应的已知音频类别对所述神经网络进行训练得到所述音频分类模型。
可以看出,本申请使用的音频分类模型是通过从已知音频数据中获取的特征向量以及已知音频数据对应的音频类别对神经网络进行训练得到,特征向量中包括对已知音频数据的频谱进行梅尔声谱变换得到的Mel频率标度的特征数据,该特征数据是将已知音频数据中的一些干扰噪声去除之后保留的有效特征,该特征数据比Hz频率标度的频谱更有利于人耳对声音的感知,能够提高音频分类的效率和准确率。
第二方面,本申请实施例提供一种音频分类提示装置,所述装置包括:
接收模块,用于接收通过音源输入的第一音频数据;
分类模块,用于将所述第一音频数据输入音频分类模型进行分类,确定所述第一音频数据的音频类别,其中,所述音频类别包括音乐类别、哼唱类别以及无效类别;
歌曲识别模块,用于在所述第一音频数据的音频类别为所述音乐类别的情况下,继续接收通过所述音源输入的第二音频数据,根据所述第二音频数据识别出所述第二音频数据所属的歌曲,其中,所述第一音频数据以及所述第二音频数据属于同一首歌曲;
提示模块,用于在所述第一音频数据的音频类别为所述哼唱类别的情况下,提示所述用户切换到哼唱识别模式;
所述提示模块,还用于在所述第一音频数据的音频类别为所述无效类别的情况下,提示所述用户靠近所述音源。
在一种可能的实施例中,所述歌曲识别模块,具体用于:
在所述第一音频数据音频类别为所述音乐类别的情况下,继续接收通过所述音源输入的第二音频数据,将所述第二音频数据输入所述歌曲识别模型进行识别,从而识别出所述第二音频数据所属的歌曲,其中,所述歌曲识别模型是通过已知音乐数据和已知歌曲训练得到的,所述已知音乐数据属于所述音乐类别。
在一种可能的实施例中,所述音频分类提示装置还包括:哼唱识别模块,具体用于:
继续接收通过所述音源输入的第三音频数据;
将所述第三音频数据输入哼唱识别模型进行识别,从而识别出所述第三音频数据所属的歌曲,其中,所述第一音频数据以及所述第三音频数据属于同一首歌曲,所述哼唱识别模型是通过已知哼唱数据和已知歌曲训练得到的,所述已知哼唱数据属于所述哼唱类别。
在一种可能的实施例中,所述音频分类提示装置还包括:
训练模块,用于通过已知音频数据和已知音频数据对应的已知音频类别对神经网络进行训练得到所述音频分类模型。
在一种可能的实施例中,所述训练模块具体用于:
从所述已知音频数据中获取n个特征向量,其中,所述n个特征向量中的每个特征向量包括m个特征数据,第i个特征向量是对所述已知音频数据的第i个采样点进行频谱变换后得到的频谱,再进行梅尔声谱变换得到的,1≤i≤n,m为大于0的整数;
通过所述n个特征向量以及所述已知音频数据对应的已知音频类别对所述神经网络进行训练得到所述音频分类模型。
第三方面,本申请实施例提供一种音频分类提示装置,包括:处理器、通信接口以及存储器;所述存储器用于存储指令,所述处理器用于执行所述指令,所述通信接口用于在所述处理器的控制下与其他设备进行通信,其中,所述处理器执行所述指令时实现如上述第一方面任一方法中所描述方法的部分或全部步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被硬件执行以实现如上述第一方面任一方法中所描述方法的部分或全部步骤。
第五方面,本申请实施例提供一种计算机程序产品,当所述计算机程序产品被计算机读取并执行时,实现如上述第一方面任一方法中所描述方法的部分或全部步骤。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种音频分类提示方法的流程示意图;
图2是本申请实施例提供的一种从已知音频数据中获取特征向量的方法的流程示意图;
图3是本申请实施例提供的一种音频分类模型的示意图;
图4是本申请实施例提供的一种终端设备识别第二音频数据的界面示意图;
图5是本申请实施例提供的一种终端设备提示用户切换至哼唱识别模式的界面示意图;
图6是本申请实施例提供的一种终端设备识别第三音频数据的界面示意图;
图7是本申请实施例提供的一种终端设备提示用户靠近音源的界面示意图;
图8是本申请实施例提供的一种音频分类提示装置的结构示意图;
图9是本申请实施例提供的另一种音频分类提示装置的结构示意图;
图10是本申请实施例提供的一种终端设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例提供的音频分类提示方法以及相关设备能够在接收整段音频数据的过程中,实时地对已经接收的音频数据进行分类,确定已经接收的音频数据的音频类别。在确定已经接收的音频类别是哼唱类别或无效类别的情况下,及时对用户进行提示,便于用户尽快采取相应措施。本申请实施例提供的音频分类提示方法以及相关设备还能够在确定音频类别是音乐类别或者哼唱类别的情况下,继续接收整段音频数据中剩余部分的音频数据,在继续接收音频数据的过程中识别音频数据所属的歌曲,无需对整段音频数据进行识别,提高了歌曲识别的效率,优化用户的听歌识曲体验。
接下来,请参见图1,图1是本申请实施例提供的一种音频分类提示方法的流程示意图。如图1所示,本申请提供的音频分类方法,可以包括:
S101:接收通过音源输入的第一音频数据。
在本申请具体的实施例中,第一音频数据可以为整段音频数据(如一首完整的歌曲所组成的音频数据或者一首完整的纯音乐所组成的音频数据等)的任意部分或者全部,此处不作具体限定。根据预设时间段截取完整的歌曲生成第一音频数据。例如,假设整段音频数据为时长3分钟的音频数据,第一音频数据可以为整段音频数据开始部分的500ms音频数据、中间部分的834ms音频数据或者结尾部分的3秒音频数据等,此处不作具体限定。
在本申请具体的实施例中,第一音频数据可以为用户所处环境中正在播放的歌曲,如咖啡厅或者商场等播放的歌曲,也可以为用户正在哼唱的歌词或者旋律等等,此处不作具体限定。音源表示第一音频数据中的声音发出的位置。接收第一音频数据的装置可以为终端设备的麦克风或者拾音器等可以采集声音的装置,此处不作具体限定。
在实际应用中,上述终端设备可以为手机、电脑、多媒体播放器、电子阅读器和可穿戴式设备等,该终端设备中安装有具备听歌识曲功能的应用程序,该具备听歌识曲功能的应用程序可以为单独的歌曲识别应用程序,也可以为具备听歌识曲功能的音乐播放应用程序,还可以是一个具备听歌识曲功能的应用程序插件等,本申请实施例对此不做限定。
S102:将第一音频数据输入音频分类模型进行分类,确定第一音频数据的音频类别。
在本申请具体的实施例中,将第一音频数据输入音频分类模型进行分类,能够确定的第一音频数据的音频类别可以包括音乐类别、哼唱类别、无效类别,这里,先对本申请实施例涉及的音乐类别、哼唱类别、无效类别进行解释说明。
音乐类别,用于表示有背景音乐的歌曲组成的音频数据的音频类别,如电视剧的片尾曲或者手机上的音乐应用程序正在播放的纯音乐等音频数据的音频类别。
哼唱类别,用于表示无背景音乐的歌曲组成的音频数据的音频类别,如人物哼唱的歌词或者旋律等音频数据的音频类别。
无效类别,用于表示既不属于音乐类别也不属于哼唱类别的音频数据的音频类别,如人物说话的声音、车辆驶过的声音或者十分微弱无法进行识别的声音等音频数据的音频类别。
在本申请具体的实施例中,音频分类模型是通过已知音频数据和已知音频数据对应的已知音频类别对神经网络进行训练得到的。
接下来,对通过已知音频数据和已知音频数据对应的已知音频类别对神经网络进行训练得到音频分类模型的过程进行详细描述。该过程可以包括:
A1、从已知音频数据中获取n个特征向量,其中,n个特征向量中的每个特征向量包括m个特征数据,第i个特征向量是对已知音频数据的第i个采样点进行频谱变换后得到的频谱,再进行梅尔声谱变换得到的,1≤i≤n,m为大于0的整数。
可以理解的,人耳对不同频率的声音有不同的听觉敏感度,通常,人耳能听到的声音的频率范围是20Hz~20000Hz,但人耳对Hz这种标度单位的频率的感知度不呈线性关系。举例来说,如果人耳适应了频率为1000Hz的声音,如果把声音频率提高到2000Hz,人耳只能觉察到频率提高了一点点,察觉不到频率提高了一倍。如果将声音的标度单位从普通的Hz频率标度转化为Mel频率标度,则人耳对Mel这种标度单位的频率的感知度就成了线性关系。具体地,Hz频率与Mel频率转换的公式如下:
其中,Mel()为梅尔频率,f为频率,f的单位为Hz。
也就是说,在Mel频率标度下,如果两段声音的Mel频率相差两倍,则人耳可以感知到的频率大概也相差两倍。可以理解为,Mel频率标度更符合人耳的听觉特性。因此,本申请实施例使用以log-mel频谱作为特征数据的特征向量作为神经网络的输入,对神经网络进行训练,得到音频分类模型。这里,log-mel频谱为对已知音频数据的采样点进行频谱变换后得到的Hz频率标度的频谱,再进行梅尔声谱变换得到的Mel频率标度的频谱。
在本申请具体的实施例中,对神经网络进行训练,需要先从已知音频数据中获取特征向量。请参见图2,图2为本申请实施例提供的一种从已知音频数据中获取特征向量的流程示意图。该过程可以包括:
1、预加重:预加重的目的是对已知音频数据的高频部分进行加重,去除杂音影响,增加高频分辨率,使信号的频谱变得平坦。
2、分帧:将已知音频数据分为n段预设时长的音频数据,每段音频数据包括h帧音频信号,每帧音频信号可以为5ms、8ms、13ms等,此处不作具体限定。
3、加窗:为了减弱短时傅里叶变换后的旁瓣大小以及频谱能量泄漏,可采用不同的截断函数对信号进行截断,截断函数称为窗函数,简称为窗。加窗的目的是消除每帧音频信号两端信号的不连续性。常用的窗函数有矩形窗、汉明窗、高斯窗等,此处不作具体限定,根据窗函数的频域特性,常采用汉明窗。
4、快速傅里叶变换(Fast Fourier Transform,FFT):由于音频信号在时域上的变换通常很难看出音频信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,代表不同音频信号的特性。所以在每一帧音频信号乘以汉明窗后,对每一帧音频信号的时域信号X(t)做离散傅里叶变换(Discrete Fourier Transform,DFT)得到每一帧音频信号的频域信号,完成音频信号的时域到频域的转换。X(k)可以表示:
式中,X(k)为频域信号,X(t)为时域信号,k为与采样点i对应的频点,T为周期。
5、梅尔滤波器组:将经过快速傅里叶变换得到的频谱使用包括m个梅尔滤波器的梅尔滤波器组进行过滤,其中,第x个梅尔滤波器的传递函数Hx(k)可以表示:
计算第x个滤波器的能量对数叠加,计算公式为:
式中,E(x)为第x个滤波器输出的能量对数叠加,Hx(k)为传递函数,x为滤波器的个数,T为周期。
6、对数运算:对第x个滤波器输出的能量对数叠加后得到的E(x)取对数,就得到一个log-mel频谱,共有m个滤波器,可以得到m个log-mel频谱,即得到了m个特征数据。
7、特征向量:每段音频数据中的h帧音频信号可以对应得到h个Hz频率标度的频谱,h个Hz频率标度的频谱中的每个频谱可以对应得到m个log-mel频谱,已知音频数据被分成了n段音频数据,因此可以从已知音频数据中得到n个大小为h*m的特征向量。
为了便于理解上述实施例,接下来以从一段时长为1280ms的已知音频数据中获取2个大小为64*32的特征向量为例进行说明。
(1)预加重:预加重的目的是对已知音频数据的高频部分进行加重,去除杂音影响,增加高频分辨率,使信号的频谱变得平坦。
(2)分帧:将时长1280ms的已知音频数据按照时间先后顺序分成2段时长640ms的音频数据,每段640ms的音频数据分为64帧音频信号,即每一帧音频信号时长10ms。
(3)加窗:此处选用汉明窗,汉明窗的大小为10ms,以减弱短时傅里叶变换后的旁瓣大小以及频谱泄露,增加每一帧音频信号左端和右端的连续性。
(4)快速傅里叶变换:对每一帧音频信号进行快速傅里叶变换得到每一帧音频信号的频谱,共有64帧音频信号,一共得到64个频谱。
(5)梅尔滤波器组:将经过短时傅里叶变换得到的每一帧音频信号的频谱使用包含32个滤波器的梅尔滤波器组过滤。然后计算每一个滤波器输出的能量对数叠加,共得到32个能量对数叠加值。
(6)对数运算:对得到的32个能量对数叠加值分别取对数,就得到了32个log-mel频谱,即得到了32个特征数据。
(7)特征向量:64帧音频信号对应得到64个频谱,64个频谱中的每个频谱对应得到32个log-mel频谱,从该1280ms的已知音频数据中可以获取到2个大小为64*32的特征向量。
需要说明的是,在对能量值进行对数运算后,还可以对得到的log-mel频谱进行一阶差分或者二阶差分,得到更高维度的特征,增加每个特征向量中特征数据的个数,此处不作具体限定。
A2、通过n个特征向量以及已知音频数据对应的已知音频类别对神经网络进行训练得到音频分类模型。
在实际应用中,训练得到音频分类模型的神经网络可以为卷积神经网络(Convolutional Neural Networks,CNN),卷积神经网络可以包括残差神经网络(ResidualNetwork,ResNet)、VGG网络(VGG Network,VGGNet)、稠密卷积网络(Dense ConvolutionalNetwork,DenseNet)等等,此处不作具体限定。
在本申请具体的实施例中,将第一音频数据输入音频分类模型进行分类可以得到第一音频数据的音频类别。如图3所示,图3为本申请实施例提供的一种音频分类模型的示意图,在图3中,音频分类模型可以包括输入层、卷积层、池化层、全连接层和输出层。下面对音频分类模型的各个层进行详细说明。
输入层,用于输入第一音频数据,并从第一音频数据中获取l个大小为h*m的特征向量,从输入层中输出的为l个大小为h*m的特征向量,在实际应用中,还可以对输入层进行归一化操作等,此处不作具体限定。
卷积层,用于进行卷积处理,卷积处理的过程可以看作是使用一个可训练的滤波器与输入的特征向量或者卷积特征平面(feature map)做卷积从而得到卷积特征向量。卷积层是指卷积神经网络中对输入的特征向量和滤波器进行卷积处理的神经元层,在卷积神经网络的卷积层中,一个神经元可以只与部分邻层神经元连接。一个卷积层中,通常包含若干个特征平面,每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重,这里共享的权重就是卷积核。在同一卷积层中,可以使用多个卷积核来提取不同的音频信息,一般地,卷积核数量越多,卷积操作反映的音频信息越丰富。
在卷积层中:
将输入层输出的l个大小为h*m的特征向量I1,I2,...,Il作为卷积层的输入,以特征向量Ij为例,经过f1个卷积核Ks(s=1,2,…,f1)的卷积生成f1个卷积特征向量as(s=1,2,…,f1),每个卷积特征向量分别是不同层次的特征向量,可以表征第一音频数据在不同层次的属性特征。特征向量Ij的每个卷积特征向量as的生成过程具体如下:
Cs=conv(Ij,Ks,'same',)+b
us=Cs
as=f(us)
其中,conv表示使用卷积核Ks对特征向量Ij进行卷积运算、same表示padding的方式,b表示偏置值,us表示卷积计算的结果,f()表示激活函数,本发明采用relu函数。
需要说明的是,上述卷积层的各个参数中,卷积核Ks(包括元素、尺寸、步长等等)、偏置值b可以是人为根据需要提取的特征或者输入的特征向量Ii的大小等等进行设置。以卷积核Ks为例,当输入的特征向量Ij比较大时,卷积核Ks的大小也可以比较大,反之,当输入的特征向量Ij比较小时,卷积核Ks的大小也可以比较小,又例如,当输入的特征向量Ij比较大时,卷积核Ks的步长也可以比较大,反之,当输入的特征向量Ij比较小时,卷积核Ks的步长也可以比较小。
池化层,用于进行池化处理,池化处理的过程可以看作是对输入的特征向量进行采样的过程,通过池化处理可以对输入的特征向量进行降维。在本申请中,使用池化层对卷积层输出的卷积特征向量进行降维。
在池化层中:
将卷积层输出的f1个的卷积特征向量as(s=1,2,…,f1)作为池化层的输入,经过池化窗口进行池化之后,生成f1个的池化特征向量bs(s=1,2,…,f1),其中,每个池化特征向量bs的生成过程具体如下:
bs=max pool(as)
其中,maxpool表示最大池化。应理解,这里是采用最大池化作为例子进行说明的,在实际应用中,还可以采用均值池化等等,此处不作具体限定。
在特征分类单元中:
全连接层,在整个音频分类模型中起到“分类器”的作用。在上述特征向量经过多个卷积层和池化层后,还连接着一个或者多个全连接层,全连接层中的每个神经元与其前一层的所有神经元进行全连接,全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。
在全连接层中:
将特征提取单元中输出的f1个池化特征向量bs(s=1,2,…,f1)顺序展开成向量,并有序连接成一个长向量,作为全连接层的输入,经过全连接层进行全连接之后,全连接层对长向量进行分类处理得到初始分类结果。其中,全连接层每个神经元的激励函数可以采用relu函数。
输出层,用于对最后一层全连接层输出的初始分类结果经过向量归一化处理后输出最终分类结果。其中,输出层常采用softmax逻辑回归函数进行归一化处理。
在本申请具体的实施例中,音频分类模型可以表示:
y1=discernment1(x1)
其中,y1为音频类别,x1为第一音频数据。discernment1()为音频类别与第一音频数据的映射关系。discernment1()可以是通过从大量已知音频数据中获取的大量特征向量和已知音频数据对应的已知音频类别对神经网络进行训练得到的。
需要说明的是,在上述方案中,图3所示的音频分类模型仅仅是作为一个具体的示例,不应构成限定。在实际应用中,音频分类模型中卷积层的数量可以是更多,池化层的数量也可以是更多,全连接层的数量也可以是更多,此处不作具体限定。在本申请具体的实施例中,将第一音频数据输入音频分类模型进行分类,音频分类模型可以确定第一音频数据是音乐类别、哼唱类别或无效类别。
由上述实施例可知,本申请中,对已知音频数据的频谱进行梅尔声谱变换可以将已知音频数据中的一些干扰噪声去除掉,保留声音的有效特征,而且进行梅尔声谱变换后得到的Mel频率标度的log-mel频谱比Hz频率标度的频谱更有利于人耳对声音的感知。使用以log-mel频谱作为特征数据的特征向量对神经网络进行训练得到音频分类模型,能够提高音频数据分类的准确率。另外,本申请是将整段音频数据分成预设时长的n段音频数据,提取每段音频数据中h帧音频信号的频谱及其对应的log-mel频谱组成的特征向量作为神经网络的输入,而不是将整段音频数据的频谱及其对应的log-mel频谱组成的特征向量输入神经网络,对神经网络进行训练得到音频分类模型。可以理解的,通过上述方法训练得到的音频分类模型可以在终端设备接收整段音频数据的过程中,对终端设备已经接收的音频数据进行分类,确定已经接收的音频数据的音频类别,无需对整段音频数据识别完毕才能确定音频数据的音频类别,提高了音频数据的分类效率。
在本申请具体的实施例中,在第一音频数据的音频类别为音乐类别的情况下,继续接收通过音源输入的第二音频数据,根据第二音频数据识别出第二音频数据所属的歌曲,其中,第一音频数据以及第二音频数据属于同一首歌曲;在第一音频数据的音频类别为哼唱类别的情况下,提示用户切换到哼唱识别模式;在第一音频数据的音频类别为无效类别的情况下,提示用户靠近音源。
接下来,分别对上述三种情况进行更详细的描述。
A:在第一音频数据的音频类别为音乐类别的情况下,继续接收通过音源输入的第二音频数据,根据第二音频数据识别出第二音频数据所属的歌曲,其中,第一音频数据以及第二音频数据属于同一首歌曲。可以理解的,在第一音频数据为音乐类别的情况下,第二音频数据也为音乐类别。
在本申请具体的实施例中,第二音频数据也可以为整段音频数据的任意部分或者全部,此处不作具体限定。第二音频数据和第一音频数据可以为整段音频数据中相同部分的音频数据,也可以为整段音频数据中不同部分的音频数据,此处不作具体限定。
举例来讲,假设整段音频数据为时长3分钟的音频数据,第一音频数据为整段音频数据开始部分的3秒音频数据,第二音频数据可以为用户重复播放的整段音频数据开始部分的3秒音频数据,也可以为整段音频数据中除第一音频数据之外的任意部分或者全部。
在本申请具体的实施例中,是通过将第二音频数据输入歌曲识别模型进行识别,从而识别出第二音频数据所属的歌曲。其中,歌曲识别模型可以表示:
y2=discernment2(x2)
其中,y2为歌曲名称,x2为第二音频数据。discernment2()为歌曲名称与第二音频数据的映射关系。discernment2()可以是通过大量的已知音乐数据和已知歌曲对神经网络进行训练得到的。需要说明的是,上述已知音乐数据属于音乐类别。
在实际应用中,训练得到歌曲识别模型的神经网络可以为卷积神经网络(Convolutional Neural Networks,CNN),卷积神经网络可以包括残差神经网络(ResidualNetwork,ResNet)、VGG网络(VGG Network,VGGNet)、稠密卷积网络(Dense ConvolutionalNetwork,DenseNet)等等,此处不作具体限定。
如图4所示,图4为本申请实施例提供的一种终端设备识别出第二音频数据所属歌曲的界面示意图。在图4中,将第二音频数据输入终端设备进行识别,终端设备可以识别出第二音频数据属于“AAA”歌曲。
可以理解的,上述图4举例中,只陈述了终端设备可以识别出第二音频数据属于“AAA”歌曲,在实际应用中,终端设备还可以识别出第二音频数据所属“AAA”歌曲的相关信息,如专辑、歌手、歌词等信息。
由上述实施例可知,本申请能够在确定第一音频数据是音乐类别的情况下,继续接收与第一音频数据属于同一首歌曲的第二音频数据,在继续接收第二音频数据的过程中使用歌曲识别模型识别第二音频数据所属的歌曲,无需对整段音频数据识别完毕才能确定音频数据所属的歌曲,提高了歌曲识别的效率,优化了用户的听歌识曲体验。
B:在第一音频数据的音频类别为哼唱类别的情况下,提示用户切换到哼唱识别模式。
如图5所示,图5为本申请实施例提供的一种终端设备提示用户切换到哼唱识别模式的界面示意图。在图5中,当终端设备识别出第一音频数据的音频类别为无效类别时,终端设备可以提醒用户“请切换到哼唱识别模式”。
在本申请具体的实施例中,在用户切换到哼唱识别模式之后,终端设备继续接收通过音源输入的第三音频数据,将第三音频数据输入哼唱识别模型进行识别,从而识别出第三音频数据所属的歌曲。其中,第一音频数据以及第三音频数据属于同一首歌曲。可以理解的,在第一音频数据为哼唱类别的情况下,第三音频数据也为哼唱类别。
在本申请具体的实施例中,第三音频数据也可以为整段音频数据的任意部分或者全部,此处不作具体限定。第三音频数据和第一音频数据可以为整段音频数据中相同部分的音频数据,也可以为整段音频数据中不同部分的音频数据,此处不作具体限定。
在本申请具体的实施例中,是通过将第三音频数据输入哼唱识别模型进行识别,从而识别出第三音频数据所属的歌曲。其中,哼唱识别模型可以表示:
y3=discernment3(x3)
其中,y3为歌曲名称,x3为第三音频数据。discernment3()为歌曲名称与第三音频数据的映射关系。discernment3()可以是通过大量的已知哼唱数据和已知歌曲对神经网络进行训练得到的。需要说明的是,上述已知哼唱数据属于哼唱类别。
在实际应用中,训练得到哼唱识别模型的神经网络可以为卷积神经网络(Convolutional Neural Networks,CNN),卷积神经网络可以包括残差神经网络(ResidualNetwork,ResNet)、VGG网络(VGG Network,VGGNet)、稠密卷积网络(Dense ConvolutionalNetwork,DenseNet)等等,此处不作具体限定。
如图6所示,图6为本申请实施例提供的一种终端设备识别第三音频数据所属歌曲的界面示意图。在图6中,将第三音频数据输入终端设备进行识别,终端设备可以识别出第三音频数据属于“BBB”歌曲。
可以理解的,上述图6举例中,只陈述了终端设备可以识别出第三音频数据属于“BBB”歌曲,在实际应用中,终端设备还可以识别出第三音频数据所属“BBB”歌曲的相关信息,如专辑、歌手、歌词等信息。
由上述实施例可知,本申请能够在确定第一音频数据是哼唱类别的情况下,及时提醒用户切换到哼唱识别模式,用户切换到哼唱识别模式后,终端设备可以继续接收与第一音频数据属于同一首歌曲的第三音频数据,在继续接收第三音频数据的过程中使用哼唱识别模型识别第三音频数据所属的歌曲,即本申请不仅满足了用户识别哼唱的需求,还无需对整段音频数据识别完毕才能确定音频数据所属的歌曲,提高了歌曲识别的效率。
C:在第一音频数据的音频类别为无效类别的情况下,提示用户靠近音源。
具体地,若音频分类模型识别出第一音频数据的音频类别为无效类别,可能是由于音源距离终端设备过远导致终端设备接收的第一音频数据的声音十分微弱,在这种情况下,提示用户靠近音源,在用户靠近音源后,可以继续接收音频数据,并对音频数据的音频类别进行分类。
如图7所示,图7为本申请实施例提供的一种终端设备提示用户靠近音源的界面示意图。在图7中,当终端设备识别出第一音频数据的音频类别为无效类别时,终端设备可以提醒用户“检测不到信号请靠近音源”。
可以理解的,上述图7举例中,只陈述了音频分类模型在识别出第一音频数据的音频类别为无效类别时,终端设备可以提醒用户“检测不到信号请靠近音源”。在实际应用中,若音频分类模型识别出第一音频数据的音频类别为无效类别,也可能是由于终端设备插着耳机导致终端设备接收的第一音频数据的声音十分微弱,在这种情况下,终端设备可以提示用户拔掉耳机。因此,终端设备的显示界面还可以显示“检测不到信号请拔掉耳机”或者“检测不到信号请靠近音源或者拔掉耳机”等,此处不作具体限定。
由上述实施例可知,本申请能够在确定第一音频数据是无效类别的情况下,及时提醒用户靠近音源或者拔掉终端设备上插着的耳机,避免用户以为终端设备可以录制到有效声音,错过对音频数据的录制和识别,优化了用户的听歌识曲体验。
上文详细阐述了本申请实施例的一种音频分类提示方法,基于相同的发明构思,下面继续提供本申请实施例的一种音频分类提示装置100,本申请提供的音频分类提示装置100可以应用于各种终端设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。终端设备可以是基于安卓、IOS或者Windows***构建的电子设备,也可以根据需求基于其他***构建,此处不作具体限定。
参见图8,图8是本申请提供的一种音频分类提示装置100的结构示意图,如图8所示,本申请实施例提供的音频分类提示装置100至少包括:接收模块110、分类模块120、歌曲识别模块130、提示模块140。
接收模块110,用于接收通过音源输入的第一音频数据;
分类模块120,用于将第一音频数据输入音频分类模型进行分类,确定第一音频数据的音频类别,其中,音频类别包括音乐类别、哼唱类别以及无效类别;
歌曲识别模块130,用于在第一音频数据的音频类别为音乐类别的情况下,继续接收通过音源输入的第二音频数据,根据第二音频数据识别出第二音频数据所属的歌曲,其中,第一音频数据以及第二音频数据属于同一首歌曲;
提示模块140,用于在第一音频数据的音频类别为哼唱类别的情况下,提示用户切换到哼唱识别模式;
提示模块140,还用于在第一音频数据的音频类别为无效类别的情况下,提示用户靠近音源。
在本申请具体的实施例中,歌曲识别模块130,具体用于:在第一音频数据的音频类别为音乐类别的情况下,继续接收通过音源输入的第二音频数据,将第二音频数据输入歌曲识别模型进行识别,从而识别出第二音频数据所属的歌曲,其中,歌曲识别模型是通过已知音乐数据和已知歌曲训练得到的,已知音乐数据属于音乐类别。
在本申请具体的实施例中,本申请提供的音频分类提示装置100还可以包括哼唱识别模块150,具体用于:在提示模块140提示用户切换到哼唱识别模式之后,哼唱识别模块150继续接收通过音源输入的第三音频数据,将第三音频数据输入哼唱识别模型进行识别,从而识别出第三音频数据所属的歌曲,其中,第一音频数据以及第三音频数据属于同一首歌曲,哼唱识别模型是通过已知哼唱数据和已知歌曲训练得到的,已知哼唱数据属于哼唱类别。
在本申请具体的实施例中,本申请提供的音频分类提示装置100还可以包括训练模块160,用于通过已知音频数据和已知音频数据对应的已知音频类别对神经网络进行训练得到音频分类模型。
更进一步地,训练模块160,具体用于:
从已知音频数据中获取n个特征向量,其中,n个特征向量中的每个特征向量包括m个特征数据,第i个特征向量是对已知音频数据的第i个采样点进行频谱变换后得到的频谱,再进行梅尔声谱变换得到的,1≤i≤n,m为大于0的整数;
通过n个特征向量以及已知音频数据对应的已知音频类别对神经网络进行训练得到音频分类模型。
上述音频分类提示装置100的各功能模块可用于实现图1实施例所描述的方法,详细内容可参考图1实施例相关内容中的描述,为了说明书的简洁,这里不再赘述。
应当理解,音频分类提示装置100仅为本申请实施例提供的一个例子,并且,音频分类提示装置100可具有比图8示出的部件更多或更少的部件,可以组合两个或更多个部件,或者可具有部件的不同配置实现。
可以看出,上述实施例中的音频分类提示装置能够在接收整段音频数据的过程中,实时地对已经接收的第一音频数据(为整段音频数据的任意部分或者全部)进行分类,确定已经接收的第一音频数据的音频类别,即本申请无需对整段音频数据识别完毕才能确定音频数据的音频类别,提高了音频数据的分类效率。上述方法还能够在确定第一音频数据的音频类别为音乐类别的情况下,继续接收与第一音频数据属于同一首歌曲的第二音频数据,在继续接收第二音频数据(为整段音频数据的任意部分或者全部)的过程中确定第二音频数据所属的歌曲,即本申请无需对整段音频数据识别完毕才能确定音频数据所属的歌曲,提高了歌曲识别的效率。另外,上述方法还能够在确定第一音频数据的音频类别为哼唱类别和无效类别的情况下,及时对用户进行提示,便于用户尽快采取相应措施。本申请实施例还提供另一种音频分类提示装置,参见图9,图9为本申请实施例提供的一种音频分类提示装置200的结构示意图,该装置包括:处理器210、通信接口230以及存储器220,其中,处理器210、通信接口230和存储器220通过总线240进行耦合。其中,
处理器210可以包括一个或者多个通用处理器,其中,通用处理器可以是能够处理电子指令的任何类型的设备,包括中央处理器(Central Processing Unit,CPU)、微处理器、微控制器、主处理器、控制器以及专用集成电路(Application Specific IntegratedCircuit,ASIC)等等。处理器210读取存储器220中存储的程序代码,与通信接口230配合执行本申请上述实施例中由音频分类提示装置100执行的方法的部分或者全部步骤。
通信接口230可以为有线接口(例如以太网接口),用于与其他计算节点或装置进行通信。当通信接口230为有线接口时,通信接口230可以采用TCP/IP之上的协议族,例如,RAAS协议、远程函数调用(Remote Function Call,RFC)协议、简单对象访问协议(SimpleObject Access Protocol,SOAP)协议、简单网络管理协议(Simple Network ManagementProtocol,SNMP)协议、公共对象请求代理体系结构(Common Object Request BrokerArchitecture,CORBA)协议以及分布式协议等等。
存储器220可以存储有程序代码以及程序数据。其中,程序代码包括:接收模块110的代码、分类模块120的代码、歌曲识别模块130的代码、提示模块140的代码、哼唱识别模块150的代码和训练模块160的代码,程序数据包括:第一音频数据、第二音频数据、音乐类别、哼唱类别等等。在实际应用中,存储器220可以包括易失性存储器(Volatile Memory),例如随机存取存储器(Random Access Memory,RAM);存储器也可以包括非易失性存储器(Non-Volatile Memory),例如只读存储器(Read-Only Memory,ROM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD)存储器还可以包括上述种类的存储器的组合。
应当理解,音频分类提示装置200仅为本申请实施例提供的一个例子,并且,音频分类提示装置200可具有比图9示出的部件更多或更少的部件,可以组合两个或更多个部件,或者可具有部件的不同配置实现。
本申请实施例还提供一种终端设备,该终端设备可以是手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、移动互联网设备(Mobile Internet Device,MID)、笔记本电脑、智能穿戴设备(如智能手表、智能手环)等各种电子设备,本申请实施例不作限定。以终端设备为手机为例:
参见图10,图10为本申请实施例提供的一种手机300的示意图。为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。
参考图10,手机300包括射频(Radio Frequency,RF)电路310、存储器320、其他输入设备330、显示屏340、传感器350、音频电路360、输入/输出(Input/Output,I/O)子***370、处理器380、以及电源390等部件。本领域技术人员可以理解,图10中示出的手机300结构并不构成对手机300的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。本领领域技术人员可以理解显示屏340属于用户界面(User Interface,UI),且手机300可以包括比图示或者更少的用户界面。
下面结合图10对手机300的各个构成部件进行具体的介绍:
RF电路310可用于收发信息,包括信号的接收和发送。通常,RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier,LNA)、双工器等。此外,RF电路310还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯***(Global System Of MobileCommunication,GSM)、通用分组无线服务(General Packet Radio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器320可用于存储软件程序以及模块,处理器380通过运行存储在存储器320的软件程序以及模块,从而执行手机300的各种功能应用以及数据处理。存储器320可主要包括存储程序区和存储数据区。其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机300的使用所创建的数据(比如音频数据、视频数据等)等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其他输入设备330可用于接收输入的数字或字符信息,以及产生与手机300的用户设置以及功能控制有关的键信号输入。具体地,其他输入设备330可包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆、光鼠(光鼠是不显示可视输出的触摸敏感表面,或者是由触摸屏形成的触摸敏感表面的延伸)等中的一种或多种。其他输入设备330与I/O子***370的其他输入设备控制器371相连接,在其他设备输入控制器371的控制下与处理器380进行信号交互。
显示屏340可用于显示由用户输入的信息或提供给用户的信息以及手机300的各种菜单,还可以接收用户输入。具体的显示屏340可包括显示面板341,以及触控面板342。其中显示面板341可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板341。触控面板342,也称为触摸屏、触敏屏等,可收集用户在其上或附近的接触或者非接触操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板342上或在触控面板342附近的操作,也可以包括体感操作;该操作包括单点控制操作、多点控制操作等操作类型。),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板342可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位、姿势,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成处理器能够处理的信息,再送给处理器380,并能接收处理器380发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板342,也可以采用未来发展的任何技术实现触控面板342。进一步的,触控面板342可覆盖显示面板341,用户可以根据显示面板341显示的内容(该显示内容包括但不限于,软键盘、虚拟鼠标、虚拟按键、图标等等),在显示面板341上覆盖的触控面板342上或者附近进行操作,触控面板342检测到在其上或附近的操作后,通过I/O子***370传送给处理器380以确定用户输入,随后处理器780根据用户输入通过I/O子***370在显示面板341上提供相应的视觉输出。虽然在图10中,触控面板342与显示面板341是作为两个独立的部件来实现手机300的输入和输出功能,但是在某些实施例中,可以将触控面板342与显示面板341集成而实现手机300的输入和输出功能。
手机300还可包括至少一种传感器350,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板341的亮度,接近传感器可在手机300移动到耳边时,关闭显示面板341和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机300姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机300还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路360、扬声器361,麦克风362可提供用户与手机300之间的音频接口。音频电路360可将接收到的音频数据转换后的信号,传输到扬声器361,由扬声器361转换为声音输出;另一方面,麦克风362将收集的声音转换为信号,由音频电路360接收后转换为音频数据,再将音频数据输出至RF电路310以发送给比如另一手机300,或者将音频数据输出至存储器320以便进一步处理。
I/O子***370用来控制输入输出的外部设备,可以包括其他设备输入控制器371、传感器控制器372、显示控制器373。可选的,一个或多个其他输入设备控制器371从其他输入设备330接收信号和/或者向其他输入设备330发送信号,其他输入设备330可以包括物理按钮(按压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击滚轮、光鼠(光鼠是不显示可视输出的触摸敏感表面,或者是由触摸屏形成的触摸敏感表面的延伸)。值得说明的是,其他输入控制设备控制器370可以与任一个或者多个上述设备连接。所述I/O子***370中的显示控制器373从显示屏340接收信号和/或者向显示屏340发送信号。显示屏340检测到用户输入后,显示控制器373将检测到的用户输入转换为与显示在显示屏340上的用户界面对象的交互,即实现人机交互。传感器控制器372可以从一个或者多个传感器350接收信号和/或者向一个或者多个传感器350发送信号。
处理器380是手机300的控制中心,利用各种接口和线路连接整个手机300的各个部分,通过运行或执行存储在存储器320内的软件程序和/或模块,以及调用存储在存储器320内的数据,执行手机300的各种功能和处理数据,从而对手机300进行整体监控。可选的,处理器380可包括一个或多个处理单元;优选的,处理器380可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器380中。
手机300还包括给各个部件供电的电源390(比如电池),优选的,电源可以通过电源管理***与处理器380逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗等功能。
尽管未示出,手机300还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该手机300所包括的处理器380还具有控制执行以上由音频分类提示装置执行的音频分类提示方法的部分或者全部步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,计算机程序被硬件(例如处理器等)执行,以实现上述方法实施例中记载的音频分类提示方法的部分或者全部步骤。
本申请实施例还提供一种计算机程序产品,当计算机程序产品被计算机读取并执行时,以实现上述方法实施例中记载的音频分类提示方法的部分或者全部步骤。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的终端设备和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种音频分类提示方法,其特征在于,包括:
接收通过音源输入的第一音频数据;
将所述第一音频数据输入音频分类模型进行分类,确定所述第一音频数据的音频类别,其中,所述音频类别包括音乐类别、哼唱类别以及无效类别;
在所述第一音频数据的音频类别为所述音乐类别的情况下,继续接收通过所述音源输入的第二音频数据,根据所述第二音频数据识别出所述第二音频数据所属的歌曲,其中,所述第一音频数据以及所述第二音频数据属于同一首歌曲;
在所述第一音频数据的音频类别为所述哼唱类别的情况下,提示所述用户切换到哼唱识别模式;
在所述第一音频数据的音频类别为所述无效类别的情况下,提示所述用户靠近所述音源。
2.根据权利要求1所述的方法,其特征在于,在所述第一音频数据的音频类别为所述音乐类别的情况下,继续接收通过所述音源输入的第二音频数据,将所述第二音频数据输入歌曲识别模型进行识别,从而识别出所述第二音频数据所属的歌曲,其中,所述歌曲识别模型是通过已知音乐数据和已知歌曲训练得到的,所述已知音乐数据属于所述音乐类别。
3.根据权利要求1或2所述的方法,其特征在于,在所述第一音频数据的音频类别为所述哼唱类别的情况下,提示用户切换到哼唱识别模式之后,所述方法还包括:
继续接收通过所述音源输入的第三音频数据;
将所述第三音频数据输入哼唱识别模型进行识别,从而识别出所述第三音频数据所属的歌曲,其中,所述第一音频数据以及所述第三音频数据属于同一首歌曲,所述哼唱识别模型是通过已知哼唱数据和已知歌曲训练得到的,所述已知哼唱数据属于所述哼唱类别。
4.根据权利要求1至3任一项权利要求所述的方法,其特征在于,所述方法还包括:
通过已知音频数据和已知音频数据对应的已知音频类别对神经网络进行训练得到所述音频分类模型。
5.根据权利要求4所述的方法,其特征在于,所述通过已知音频数据和已知音频数据对应的已知音频类别对神经网络进行训练得到所述音频分类模型,包括:
从所述已知音频数据中获取n个特征向量,其中,所述n个特征向量中的每个特征向量包括m个特征数据,第i个特征向量是对所述已知音频数据的第i个采样点进行频谱变换后得到的频谱,再进行梅尔声谱变换得到的,1≤i≤n,m为大于0的整数;
通过所述n个特征向量以及所述已知音频数据对应的已知音频类别对所述神经网络进行训练得到所述音频分类模型。
6.一种音频分类提示装置,其特征在于,包括:
接收模块,用于接收通过音源输入的第一音频数据;
分类模块,用于将所述第一音频数据输入音频分类模型进行分类,确定所述第一音频数据的音频类别,其中,所述音频类别包括音乐类别、哼唱类别以及无效类别;
歌曲识别模块,用于在所述第一音频数据的音频类别为所述音乐类别的情况下,继续接收通过所述音源输入的第二音频数据,根据所述第二音频数据识别出所述第二音频数据所属的歌曲,其中,所述第一音频数据以及所述第二音频数据属于同一首歌曲;
提示模块,用于在所述第一音频数据的音频类别为所述哼唱类别的情况下,提示所述用户切换到哼唱识别模式;
所述提示模块,还用于在所述第一音频数据的音频类别为所述无效类别的情况下,提示所述用户靠近所述音源。
7.根据权利要求6所述的装置,其特征在于,所述歌曲识别模块具体用于:
在所述第一音频数据的音频类别为所述音乐类别的情况下,继续接收通过所述音源输入的第二音频数据,将所述第二音频数据输入所述歌曲识别模型进行识别,从而识别出所述第二音频数据所属的歌曲,其中,所述歌曲识别模型是通过已知音乐数据和已知歌曲训练得到的,所述已知音乐数据属于所述音乐类别。
8.根据权利要求6或7所述的装置,其特征在于,所述装置还包括:哼唱识别模块,具体用于:
继续接收通过所述音源输入的第三音频数据;
将所述第三音频数据输入哼唱识别模型进行识别,从而识别出所述第三音频数据所属的歌曲,其中,所述第一音频数据以及所述第三音频数据属于同一首歌曲,所述哼唱识别模型是通过已知哼唱数据和已知歌曲训练得到的,所述已知哼唱数据属于所述哼唱类别。
9.根据权利要求6至8任一项权利要求所述的装置,其特征在于,所述装置还包括:
训练模块,用于通过已知音频数据和已知音频数据对应的已知音频类别对神经网络进行训练得到所述音频分类模型。
10.根据权利要求9所述的装置,其特征在于,所述训练模块具体用于:
从所述已知音频数据中获取n个特征向量,其中,所述n个特征向量中的每个特征向量包括m个特征数据,第i个特征向量是对所述已知音频数据的第i个采样点进行频谱变换后得到的频谱,再进行梅尔声谱变换得到的,1≤i≤n,m为大于0的整数;
通过所述n个特征向量以及所述已知音频数据对应的已知音频类别对所述神经网络进行训练得到所述音频分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010467072.2A CN111613246A (zh) | 2020-05-28 | 2020-05-28 | 一种音频分类提示方法以及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010467072.2A CN111613246A (zh) | 2020-05-28 | 2020-05-28 | 一种音频分类提示方法以及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111613246A true CN111613246A (zh) | 2020-09-01 |
Family
ID=72205595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010467072.2A Pending CN111613246A (zh) | 2020-05-28 | 2020-05-28 | 一种音频分类提示方法以及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111613246A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667844A (zh) * | 2020-12-23 | 2021-04-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 检索音频的方法、装置、设备和存储介质 |
CN113488027A (zh) * | 2021-09-08 | 2021-10-08 | 中国科学院自动化研究所 | 一种层级分类的生成音频溯源方法及存储介质、计算机设备 |
CN113658611A (zh) * | 2021-08-11 | 2021-11-16 | 华南农业大学 | 一种基于cnn的粤剧流派分类和识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101504834A (zh) * | 2009-03-25 | 2009-08-12 | 深圳大学 | 一种基于隐马尔可夫模型的哼唱式旋律识别方法 |
CN103823867A (zh) * | 2014-02-26 | 2014-05-28 | 深圳大学 | 一种基于音符建模的哼唱式音乐检索方法及*** |
CN105788592A (zh) * | 2016-04-28 | 2016-07-20 | 乐视控股(北京)有限公司 | 一种音频分类方法及装置 |
CN110399522A (zh) * | 2019-07-03 | 2019-11-01 | 中国传媒大学 | 一种基于lstm与分层匹配的音乐哼唱检索方法及装置 |
-
2020
- 2020-05-28 CN CN202010467072.2A patent/CN111613246A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101504834A (zh) * | 2009-03-25 | 2009-08-12 | 深圳大学 | 一种基于隐马尔可夫模型的哼唱式旋律识别方法 |
CN103823867A (zh) * | 2014-02-26 | 2014-05-28 | 深圳大学 | 一种基于音符建模的哼唱式音乐检索方法及*** |
CN105788592A (zh) * | 2016-04-28 | 2016-07-20 | 乐视控股(北京)有限公司 | 一种音频分类方法及装置 |
CN110399522A (zh) * | 2019-07-03 | 2019-11-01 | 中国传媒大学 | 一种基于lstm与分层匹配的音乐哼唱检索方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667844A (zh) * | 2020-12-23 | 2021-04-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 检索音频的方法、装置、设备和存储介质 |
CN113658611A (zh) * | 2021-08-11 | 2021-11-16 | 华南农业大学 | 一种基于cnn的粤剧流派分类和识别方法 |
CN113488027A (zh) * | 2021-09-08 | 2021-10-08 | 中国科学院自动化研究所 | 一种层级分类的生成音频溯源方法及存储介质、计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109166593B (zh) | 音频数据处理方法、装置及存储介质 | |
CN111210021B (zh) | 一种音频信号处理方法、模型训练方法以及相关装置 | |
CN109256146B (zh) | 音频检测方法、装置及存储介质 | |
CN110853618A (zh) | 一种语种识别的方法、模型训练的方法、装置及设备 | |
CN111613246A (zh) | 一种音频分类提示方法以及相关设备 | |
CN109558512A (zh) | 一种基于音频的个性化推荐方法、装置和移动终端 | |
CN109903773B (zh) | 音频处理方法、装置及存储介质 | |
CN110544488A (zh) | 一种多人语音的分离方法和装置 | |
CN110853617B (zh) | 一种模型训练的方法、语种识别的方法、装置及设备 | |
CN107666638B (zh) | 一种估计录音延迟的方法及终端设备 | |
CN103440862A (zh) | 一种语音与音乐合成的方法、装置以及设备 | |
CN111883091A (zh) | 音频降噪方法和音频降噪模型的训练方法 | |
WO2018223837A1 (zh) | 音乐播放方法及相关产品 | |
WO2022089098A1 (zh) | 音高调节方法、装置及计算机存储介质 | |
CN111105852A (zh) | 一种电子病历推荐方法、装置、终端及存储介质 | |
CN110097895B (zh) | 一种纯音乐检测方法、装置及存储介质 | |
CN110830368B (zh) | 即时通讯消息发送方法及电子设备 | |
CN109754823A (zh) | 一种语音活动检测方法、移动终端 | |
CN108388340A (zh) | 电子设备控制方法及相关产品 | |
CN109756818A (zh) | 双麦克风降噪方法、装置、存储介质及电子设备 | |
CN110276328B (zh) | 指纹识别方法及相关产品 | |
CN109254752A (zh) | 3d音效处理方法及相关产品 | |
CN106055958B (zh) | 一种解锁方法及装置 | |
CN108668018A (zh) | 移动终端、音量控制方法及相关产品 | |
CN111739493B (zh) | 音频处理方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |