CN108010533A - 音频数据码率的自动识别方法和装置 - Google Patents

音频数据码率的自动识别方法和装置 Download PDF

Info

Publication number
CN108010533A
CN108010533A CN201610957146.4A CN201610957146A CN108010533A CN 108010533 A CN108010533 A CN 108010533A CN 201610957146 A CN201610957146 A CN 201610957146A CN 108010533 A CN108010533 A CN 108010533A
Authority
CN
China
Prior art keywords
code check
target class
voice data
class code
labeled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610957146.4A
Other languages
English (en)
Inventor
璧靛博
赵岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuwo Technology Co Ltd
Original Assignee
Beijing Kuwo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuwo Technology Co Ltd filed Critical Beijing Kuwo Technology Co Ltd
Priority to CN201610957146.4A priority Critical patent/CN108010533A/zh
Publication of CN108010533A publication Critical patent/CN108010533A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及音频数据码率的自动识别方法和装置。所述方法包括:根据自动识别训练模型,对待预测音频数据进行标注,获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据;将具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较,若具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率,则输出具有目标类码率格式的标注数据。本发明实施例根据自动识别训练模型,对待预测音频数据进行标注,获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据;并将具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较,实现对不同音频数据码率进行自动识别的过程。

Description

音频数据码率的自动识别方法和装置
技术领域
本发明涉及音频技术领域,具体而言,本发明涉及音频数据码率的自动识别方法和装置。
背景技术
目前,MP3(MPEG-1or MPEG-2Audio Layer III,动态图像专家组-1或动态图像专家组-2音频层III)是当今最流行的一种数字音频编码和有损压缩格式,它被设计用来大幅降低音频数据量。MP3为有损压缩格式,并且容量较小的音乐文件,使传输和储存更为便捷,更利于用户使用,因此,MP3得到了快速发展。MP3中使用的重要技术之一是人体声学模型,该技术舍弃了脉冲编码调制音频数据中对人耳听觉不重要的部分,从而使得数字音频文件得以压缩。
按照不同的码率,对MP3格式的音频文件进行压缩。码率就是数据传输时单位时间传送的数据位数,码率表示经过压缩编码后的视音频数据每秒需要用多少个比特来表示,码率一般采用的单位是kbps,即千位每秒。基于数据大小和音质之间的对应关系,主流码率包括320kbps、256kbps、224kbps、192kbps、128kbps、96kbps、64kbps。然而,随着音乐格式转换软件的普及,市场上出现了大量由低码率转换而来的虚假高码率数字音乐,这种虚假高码率数字音乐造成了用户实际享受到的音乐品质与期待的不一致,降低了用户体验。
目前,对于数字音乐服务提供商,音频码率的识别方法主要为人工识别不同的音频码率。但是,音频码率的人工识别不仅需要消耗大量的人力成本,而且效率低下,识别的准确率低,难以对音频码率的人工识别的识别质量进行质量监控,因此,需要一种音频数据码率的自动识别方法,实现对不同音频数据的码率进行自动识别。
发明内容
本发明实施例在于提供音频数据码率的自动识别方法和装置,通过对采集到的音频数据进行模型训练,得到音频数据码率的自动识别训练模型;根据自动识别训练模型,对待预测音频数据进行标注,获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据,从而实现对不同音频数据的码率进行自动识别的过程。
第一方面,本发明实施例提供了音频数据码率的自动识别方法,所述方法包括:
通过对采集到的音频数据进行模型训练,得到所述音频数据码率的自动识别训练模型;
根据所述自动识别训练模型,对待预测音频数据进行标注,获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据;
将所述具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较,若所述具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率,则输出所述具有目标类码率格式的标注数据。
优选的,所述通过对采集到的音频数据进行模型训练,得到所述音频数据码率的自动识别训练模型具体包括:
对所述音频数据进行标注,以生成具有所述目标类码率格式的标注数据的训练样本;
对具有所述目标类码率格式的标注数据的音频数据进行声谱图转换,得到相应的声谱图;
对所述声谱图进行图片缩放,得到相应的缩略图;
采用卷积神经网络算法对所述缩略图的图像数据进行模型训练,得到相应的音频数据码率的自动识别的训练模型。
优选的,所述目标类码率为MP3格式的目标类码率,且所述MP3格式的目标类码率具体包括如下320kbps的码率、256kbps的码率、224kbps的码率、192kbps的码率、128kbps的码率、96kbps的码率和64kbps的码率中的任一码率。
优选的,所述非目标类码率为MP3格式的目标类码率,且所述MP3格式的非目标类码率具体包括如下与所述MP3格式的目标类码率不同的其余全部码率。
优选的,通过双线性插值法,对所述声谱图进行图片缩放,得到相应的缩略图。
优选的,通过双线性插值法,采用AlexNet卷积神经网络模型作为训练模型,对所述缩略图的图像数据进行模型训练,得到相应的音频数据码率的自动识别的训练模型。
优选的,所述AlexNet卷积神经网络模型具体包括1个输入层、5个卷积层、3个池化层、2个全连接层和1个输出层。
优选的,将所述自动识别训练模型部署至数字音乐存储服务器集群,以对待预测音频数据进行标注。
优选的,采用CPU模式,将所述自动识别训练模型部署至数字音乐存储服务器集群。
第二方面,本发明实施例提供了音频数据码率的自动识别装置,所述装置包括:
训练模型获取模块,通过对采集到的音频数据进行模型训练,得到所述音频数据码率的自动识别训练模型;
标注数据获取模块,根据所述自动识别训练模型,对待预测音频数据进行标注,获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据;
比较模块,将所述具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较,若所述具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率,则输出所述具有目标类码率格式的标注数据。
本发明实施例提供了音频数据码率的自动识别方法,通过对采集到的音频数据进行模型训练,得到音频数据码率的自动识别训练模型;根据自动识别训练模型,对待预测音频数据进行标注,获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据;将具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较,若具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率,则输出具有目标类码率格式的标注数据,从而实现对不同音频数据码率进行自动识别的过程。本发明实施例通过将具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较,若具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率,则输出具有目标类码率格式的标注数据,从而实现对不同音频数据码率进行自动识别的过程。
附图说明
图1是本发明实施例提供的音频数据码率的自动识别方法流程图;
图2是本发明实施例提供的音频数据码率的自动识别装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明。
本发明所提供的技术方案中,通过对采集到的音频数据进行模型训练,得到音频数据码率的自动识别训练模型;根据自动识别训练模型,对待预测音频数据进行标注,获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据;将具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较,若具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率,则输出具有目标类码率格式的标注数据,从而实现了对不同音频数据码率进行自动识别的过程。
下面结合附图详细说明本发明的技术方案。
本发明实施例提供的音频数据码率的自动识别方法流程图,如图1所示,音频数据码率的自动识别方法包括如下步骤:
S101:通过对采集到的音频数据进行模型训练,得到音频数据码率的自动识别训练模型。
具体而言,通过对采集到的音频数据进行模型训练,得到音频数据码率的自动识别训练模型具体包括如下步骤:
对音频数据进行标注,以生成具有目标类码率格式的标注数据的训练样本。
为了保证通过样本训练得到的自动识别训练模型的准确性,本发明具体实施例中所使用的音频数据具体为无损音乐压缩生成低码率音乐文件。
进一步地,对音频数据的预处理过程具体如下所述:对高音质CD抓轨生成WAV格式的数字音乐文件;将得到的WAV格式的数字音乐文件转码成320kbp码率、256kbp码率、224kbp码率、192kbp码率、128kbp码率、96kbp码率、64kbp码率各个码率的MP3格式;将320kbp码率的MP3作为正样本,其余六种码率的MP3作为负样本。
对具有目标类码率格式的标注数据的音频数据进行声谱图转换,得到相应的声谱图。
需要说明的是,由于声谱图可以同时表征声音的时间、频率、能量信息。为了保证音频数据信息表达的完整性,在本发明的具体实施例中,将音频数据对应的声谱图作为卷积神经网络算法的输入数据。
短时傅里叶变换是频谱分析的常用手段。相较于傅里叶变化,短时傅里叶变换引入了窗函数,可以提供频率信号随时间改变的信息。最终得到的声谱图以横坐标表征时间,纵坐标表征频率,颜色表征能量大小,其中,声谱图的能量表征采用红绿蓝颜色模型。
在本发明的具体实施例中,声谱图的能量表征除了采用红绿蓝颜色模型之外,声谱图的能量表征还可以采用灰度声谱图的能量表征方式。
为了保证音频数据码率的自动识别的准确性,对具有目标类码率格式的标注数据的音频数据进行声谱图转换,得到相应的声谱图的过程具体如下所述:
对声谱图进行图片缩放,得到相应的缩略图。
需要说明的是,由于本发明实施例中采用卷积神经网络算法对缩略图的图像数据进行模型训练,而由于卷积神经网络算法仅接受固定大小的图像数据,因此,在采用卷积神经网络算法对缩略图的图像数据进行模型训练之前,需要对各个音频数据对应的声谱图的大小进行规范。
在本发明的具体实施例中,通过双线性插值法,对声谱图进行图片缩放,得到相应的缩略图。
采用双线性插值法对声谱图进行图片缩放,不仅可以兼顾图像数据中像素的高连续性,而且还可以进一步提高算法的复杂度,能够使得得到的声谱图的缩略图的更加逼近于真实的声谱图。
采用卷积神经网络算法对缩略图的图像数据进行模型训练,得到相应的音频数据码率的自动识别的训练模型。
在本发明的具体实施例中,分别对28*28、56*56、84*84、256*256四种大小的数据集进行了模型训练,结果显示:图像越大,得到的相应的音频数据码率的自动识别的训练模型的准确率就越高。进一步,结果还显示出:图片越大,模型训练的训练速度越慢。
在实际应用中,往往对音频数据码率的自动识别的实时性要求不高,若采用256*256的图像尺寸,得到了高准确率的音频数据码率的自动识别的训练模型。
卷积神经网络算法是一种前馈神经网络算法,该算法可以近似模拟人类的视觉认知过程,在图像数据处理领域具有广泛的应用。
进一步地,通过双线性插值法,采用AlexNet卷积神经网络模型作为训练模型,对缩略图的图像数据进行模型训练,得到相应的音频数据码率的自动识别的训练模型。其中,AlexNet卷积神经网络模型具体包括1个输入层、5个卷积层、3个池化层、2个全连接层和1个输出层。
在本发明的具体实施例中,采用AlexNet卷积神经网络模型作为训练模型,对正、负样本进行训练。
在本发明的具体实施例中,分别对320kbps的码率、256kbps的码率、224kbps的码率、192kbps的码率、128kbps的码率、96kbps的码率和64kbps的码率各个码率的MP3格式的数据集进行了模型训练,结果显示:320kbps的码率的MP3的识别准确率达到了98.54%。
需要说明的是,在本发明的具体实施例中,除了针对MP3格式的音乐数据进行多码率自动识别之外,WMA、AAC、OGG格式的音乐数据进行多码率的自动识别。
需要说明的是,在本发明的具体实施例中,采用AlexNet卷积神经网络模型作为训练模型的原因是,该模型的参数数量约为6000万,是GoogleNet模型的12倍,该模型的表达能力强,容易获取到更多的准确特征。
进一步地,AlexNet卷积神经网络模型还采用了ReLU、LRN、Dropout等技术,有效缓解了激活函数饱和的问题,以及模型过拟合的问题,同时,提升了模型的运算性能。
进一步地,为了加速模型训练过程,模型训练过程中采用了CUDA+GPU进行加速,以缩短获得音频数据码率的自动识别的训练模型的训练时间。
需要说明的是,在本发明的具体实施例中,除了采用AlexNet卷积神经网络模型作为训练模型之外,还可以采用LeNet、GoogleNet、VGG等其它卷积神经网络模型作为训练模型,其余这些卷积神经网络模型作为训练模型的技术方案也在本发明的具体实施例的保护方案中。
S102:根据自动识别训练模型,对待预测音频数据进行标注,获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据。
需要说明的是,目标类码率为MP3格式的目标类码率,且MP3格式的目标类码率具体包括如下320kbps的码率、256kbps的码率、224kbps的码率、192kbps的码率、128kbps的码率、96kbps的码率和64kbps的码率中的任一码率。
非目标类码率为MP3格式的目标类码率,且MP3格式的非目标类码率具体包括如下与前述MP3格式的目标类码率不同的其余全部码率。
S103:将具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较,若具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率,则输出具有目标类码率格式的标注数据。
除此之外,在本发明的具体实施例中,音频数据码率的自动识别方法还包括:将自动识别训练模型部署至数字音乐存储服务器集群,以对待预测音频数据进行标注。
在本发明的具体实施例中,采用GPU模式,将自动识别训练模型部署至数字音乐存储服务器集群。
具体而言,采用GPU模式部署至单独的GPU集群,将数字音乐移动至该GPU集群进行标注。
采用GPU模式的优点是,运算速度更快,对于数字音乐标注任务涉及大量的音频数据,造成数据迁移的困难,但是,采用GPU模式的缺点是,成本过高。基于音频数据码率的自动识别对实时性的要求不高,但是要求低成本,采用GPU模式不是更优的方式。如果要求高速度,在线服务的应用场景,可以考虑采用GPU模式部署至单独的GPU集群,将数字音乐移动至该GPU集群进行标注。
在本发明的具体实施例中,采用CPU模式,将自动识别训练模型部署至数字音乐存储服务器集群。
具体而言,采用CPU模式部署至单独的CPU集群,将数字音乐移动至该CPU集群进行标注。
基于音频数据码率的自动识别对实时性的要求不高,但是要求低成本,采用CPU模式是更优的方式。如果针对线下批量处理音频数据的应用场景,可以考虑采用CPU模式部署至单独的CPU集群,将数字音乐移动至该CPU集群进行标注。
在本发明的具体实施例中,除了CPU集群部署方式外,GPU集群部署方式,PC,手机等其它硬件设备的部署才在本发明的具体实施例的方案中。
综上所述,本发明实施例提供的音频数据码率的自动识别方法,通过对采集到的音频数据进行模型训练,得到音频数据码率的自动识别训练模型;根据自动识别训练模型,对待预测音频数据进行标注,获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据;将具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较,若具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率,则输出具有目标类码率格式的标注数据,从而实现对不同音频数据码率进行自动识别的过程。
如图2所示,是本发明实施例提供的建筑物中无线设备自动定位装置的内部结构框图;如图2所示,本发明实施例所提供的音频数据码率的自动识别装置,包括:训练模型获取模块201、标注数据获取模块202和比较模块203。
具体而言,训练模型获取模块,通过对采集到的音频数据进行模型训练,得到音频数据码率的自动识别训练模型。
进一步地,训练模型获取模块具体用于:对音频数据进行标注,以生成具有目标类码率格式的标注数据的训练样本;
对具有目标类码率格式的标注数据的音频数据进行声谱图转换,得到相应的声谱图;
对声谱图进行图片缩放,得到相应的缩略图;
进一步地,训练模型获取模块通过双线性插值法,对声谱图进行图片缩放,得到相应的缩略图。
采用卷积神经网络算法对缩略图的图像数据进行模型训练,得到相应的音频数据码率的自动识别的训练模型。
进一步地,训练模型获取模块通过双线性插值法,采用AlexNet卷积神经网络模型作为训练模型,对缩略图的图像数据进行模型训练,得到相应的音频数据码率的自动识别的训练模型。
其中,训练模型获取模块所采用的AlexNet卷积神经网络模型具体包括1个输入层、5个卷积层、3个池化层、2个全连接层和1个输出层。
标注数据获取模块,根据自动识别训练模型,对待预测音频数据进行标注,获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据。
其中,标注数据获取模块获取到的标注数据的目标类码率为MP3格式的目标类码率,且MP3格式的目标类码率具体包括如下320kbps的码率、256kbps的码率、224kbps的码率、192kbps的码率、128kbps的码率、96kbps的码率和64kbps的码率中的任一码率。
标注数据获取模块获取到的标注数据的非目标类码率为MP3格式的目标类码率,且MP3格式的非目标类码率具体包括如下与前述MP3格式的目标类码率不同的其余全部码率。
比较模块,将具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较,若具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率,则输出具有目标类码率格式的标注数据。
除此之外,音频数据码率的自动识别装置还包括训练模型部署模块(在图2中未标出)。
训练模型部署模块,将自动识别训练模型部署至数字音乐存储服务器集群,以对待预测音频数据进行标注。
进一步地,训练模型部署模块,采用CPU模式,将自动识别训练模型部署至数字音乐存储服务器集群。
本发明的技术方案中,通过对采集到的音频数据进行模型训练,得到音频数据码率的自动识别训练模型;根据自动识别训练模型,对待预测音频数据进行标注,获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据;将具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较,若具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率,则输出具有目标类码率格式的标注数据,从而实现对不同音频数据码率进行自动识别的过程。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.音频数据码率的自动识别方法,其特征在于,包括:
通过对采集到的音频数据进行模型训练,得到所述音频数据码率的自动识别训练模型;
根据所述自动识别训练模型,对待预测音频数据进行标注,获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据;
将所述具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较,若所述具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率,则输出所述具有目标类码率格式的标注数据。
2.根据权利要求1所述的方法,其特征在于,所述通过对采集到的音频数据进行模型训练,得到所述音频数据码率的自动识别训练模型具体包括:
对所述音频数据进行标注,以生成具有所述目标类码率格式的标注数据的训练样本;
对具有所述目标类码率格式的标注数据的音频数据进行声谱图转换,得到相应的声谱图;
对所述声谱图进行图片缩放,得到相应的缩略图;
采用卷积神经网络算法对所述缩略图的图像数据进行模型训练,得到相应的音频数据码率的自动识别的训练模型。
3.根据权利要求1所述的方法,其特征在于,所述目标类码率为MP3格式的目标类码率,且所述MP3格式的目标类码率具体包括如下320kbps的码率、256kbps的码率、224kbps的码率、192kbps的码率、128kbps的码率、96kbps的码率和64kbps的码率中的任一码率。
4.根据权利要求3所述的方法,其特征在于,所述非目标类码率为MP3格式的目标类码率,且所述MP3格式的非目标类码率具体包括与所述MP3格式的目标类码率不同的其余全部码率。
5.根据权利要求2所述的方法,其特征在于,通过双线性插值法,对所述声谱图进行图片缩放,得到相应的缩略图。
6.根据权利要求2所述的方法,其特征在于,通过双线性插值法,采用AlexNet卷积神经网络模型作为训练模型,对所述缩略图的图像数据进行模型训练,得到相应的音频数据码率的自动识别的训练模型。
7.根据权利要求6所述的方法,其特征在于,所述AlexNet卷积神经网络模型具体包括1个输入层、5个卷积层、3个池化层、2个全连接层和1个输出层。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述自动识别训练模型部署至数字音乐存储服务器集群,以对待预测音频数据进行标注。
9.根据权利要求8所述的方法,其特征在于,采用CPU模式,将所述自动识别训练模型部署至数字音乐存储服务器集群。
10.音频数据码率的自动识别装置,其特征在于,包括:
训练模型获取模块,通过对采集到的音频数据进行模型训练,得到所述音频数据码率的自动识别训练模型;
标注数据获取模块,根据所述自动识别训练模型,对待预测音频数据进行标注,获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据;
比较模块,将所述具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较,若所述具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率,则输出所述具有目标类码率格式的标注数据。
CN201610957146.4A 2016-10-27 2016-10-27 音频数据码率的自动识别方法和装置 Pending CN108010533A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610957146.4A CN108010533A (zh) 2016-10-27 2016-10-27 音频数据码率的自动识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610957146.4A CN108010533A (zh) 2016-10-27 2016-10-27 音频数据码率的自动识别方法和装置

Publications (1)

Publication Number Publication Date
CN108010533A true CN108010533A (zh) 2018-05-08

Family

ID=62048392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610957146.4A Pending CN108010533A (zh) 2016-10-27 2016-10-27 音频数据码率的自动识别方法和装置

Country Status (1)

Country Link
CN (1) CN108010533A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036465A (zh) * 2018-06-28 2018-12-18 南京邮电大学 语音情感识别方法
CN110807159A (zh) * 2019-10-30 2020-02-18 同盾控股有限公司 数据标记方法、装置、存储介质及电子设备
CN110992963A (zh) * 2019-12-10 2020-04-10 腾讯科技(深圳)有限公司 网络通话方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102394065A (zh) * 2011-11-04 2012-03-28 中山大学 一种对数字音频假音质wave的分析方法
CN102413378A (zh) * 2011-11-02 2012-04-11 杭州电子科技大学 一种基于自适应神经网络的视频传输丢包恢复方法
CN102903379A (zh) * 2012-09-14 2013-01-30 浪潮(北京)电子信息产业有限公司 一种mp3文件真实性的检测方法及装置
CN103871405A (zh) * 2014-01-14 2014-06-18 中山大学 一种amr音频的鉴定方法
CN104123935A (zh) * 2014-07-16 2014-10-29 武汉大学 一种面向mp3数字音频文件的重压缩检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102413378A (zh) * 2011-11-02 2012-04-11 杭州电子科技大学 一种基于自适应神经网络的视频传输丢包恢复方法
CN102394065A (zh) * 2011-11-04 2012-03-28 中山大学 一种对数字音频假音质wave的分析方法
CN102903379A (zh) * 2012-09-14 2013-01-30 浪潮(北京)电子信息产业有限公司 一种mp3文件真实性的检测方法及装置
CN103871405A (zh) * 2014-01-14 2014-06-18 中山大学 一种amr音频的鉴定方法
CN104123935A (zh) * 2014-07-16 2014-10-29 武汉大学 一种面向mp3数字音频文件的重压缩检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DANIEL SEICHTER等: ""AAC encoding detection and bitrate estimation using a convolutional neural network"", 《2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
高冲红 等: ""基于CNN的录音设备判别研究"", 《信息化研究》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036465A (zh) * 2018-06-28 2018-12-18 南京邮电大学 语音情感识别方法
CN109036465B (zh) * 2018-06-28 2021-05-11 南京邮电大学 语音情感识别方法
CN110807159A (zh) * 2019-10-30 2020-02-18 同盾控股有限公司 数据标记方法、装置、存储介质及电子设备
CN110807159B (zh) * 2019-10-30 2021-05-11 同盾控股有限公司 数据标记方法、装置、存储介质及电子设备
CN110992963A (zh) * 2019-12-10 2020-04-10 腾讯科技(深圳)有限公司 网络通话方法、装置、计算机设备及存储介质
CN110992963B (zh) * 2019-12-10 2023-09-29 腾讯科技(深圳)有限公司 网络通话方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN104347067B (zh) 一种音频信号分类方法和装置
CN1185626C (zh) 修改语音信号的***和方法
CN103026407B (zh) 带宽扩展器
CN110223705A (zh) 语音转换方法、装置、设备及可读存储介质
CN108053836A (zh) 一种基于深度学习的音频自动化标注方法
CN108922513A (zh) 语音区分方法、装置、计算机设备及存储介质
CN111696580B (zh) 一种语音检测方法、装置、电子设备及存储介质
CN105321525A (zh) 一种降低voip通信资源开销的***和方法
CN108833722A (zh) 语音识别方法、装置、计算机设备及存储介质
CN101599271A (zh) 一种数字音乐情感的识别方法
WO2011128723A1 (en) Audio communication device, method for outputting an audio signal, and communication system
CN111508469A (zh) 一种文语转换方法及装置
CN105654939A (zh) 一种基于音向量文本特征的语音合成方法
CN114338623B (zh) 音频的处理方法、装置、设备及介质
CN107895571A (zh) 无损音频文件识别方法及装置
CN113129927B (zh) 语音情绪识别方法、装置、设备及存储介质
CN114333865B (zh) 一种模型训练以及音色转换方法、装置、设备及介质
CN113823323B (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
CN108010533A (zh) 音频数据码率的自动识别方法和装置
CN112738338B (zh) 基于深度学习的电话识别方法、装置、设备及介质
CN113724683B (zh) 音频生成方法、计算机设备及计算机可读存储介质
CN107293306A (zh) 一种基于输出的客观语音质量的评估方法
CN108806725A (zh) 语音区分方法、装置、计算机设备及存储介质
Su et al. Multi-timbre chord classification using wavelet transform and self-organized map neural networks
CN106875944A (zh) 一种语音控制家庭智能终端的***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180508