CN104715756A - 音频数据的处理方法及装置 - Google Patents

音频数据的处理方法及装置 Download PDF

Info

Publication number
CN104715756A
CN104715756A CN201510069567.9A CN201510069567A CN104715756A CN 104715756 A CN104715756 A CN 104715756A CN 201510069567 A CN201510069567 A CN 201510069567A CN 104715756 A CN104715756 A CN 104715756A
Authority
CN
China
Prior art keywords
audio data
frequency range
acoustic feature
original
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510069567.9A
Other languages
English (en)
Inventor
田彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yinzhibang Culture Technology Co ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510069567.9A priority Critical patent/CN104715756A/zh
Publication of CN104715756A publication Critical patent/CN104715756A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供一种音频数据的处理方法及装置。本发明实施例由于将高频段的音频数据即扩展音频数据增加到原始音频数据中,使得所获得的目标音频数据不再只具有低频段的音频数据即原始音频数据,而且还具有高频段的音频数据,这样,才能够向用户提供真正的高音质的音频文件,使用户能够欣赏真正的高音质的音频文件。

Description

音频数据的处理方法及装置
【技术领域】
本发明涉及音频处理技术,尤其涉及一种音频数据的处理方法及装置。
【背景技术】
音频文件的音质,是指经过压缩处理之后的原始音频数据的保真度。高音质的音频文件,能够完全恢复原始音频数据,而不引起任何失真;而低音质的音频文件,则不能够完全恢复原始音频数据,而引起部分失真。目前,出现了一些转换技术,能够将低音质的音频文件转换成伪高音质的音频文件。实际上,这种伪高音质的音频文件,其音质与转换之前的音频文件的音质是一样的,并不属于真正的高音质。用户通过一些音乐类应用获得这些伪高音质的音频文件之后,根本无法欣赏到真正的高音质,这会影响这些音乐类应用的品牌形象,甚至还会导致法律纠纷。
因此,向用户提供真正的高音质的音频文件,使用户能够欣赏真正的高音质的音频文件,是亟待解决的问题。
【发明内容】
本发明的多个方面提供一种音频数据的处理方法及装置,用以提高音频文件的音质。
本发明的一方面,提供一种音频数据的处理方法,包括:
获取待处理的原始音频数据;所述原始音频数据所对应的音频信号的频段为第一信号频段;
根据所述原始音频数据,获得扩展音频数据;所述扩展音频数据所对应的音频信号的频段为第二信号频段;所述第二信号频段高于所述第一信号频段;
根据所述原始音频数据和所述扩展音频数据,获得目标音频数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述第一信号频段为大于或等于0,且小于或等于第一频段阈值;所述第二信号频段为大于所述第一频段阈值,且小于或等于第二频段阈值。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述原始音频数据,获得扩展音频数据,包括:
根据所述原始音频数据,获得所述原始音频数据的原始声学特征;
根据所述原始声学特征,获得所述扩展声学特征;
根据所述扩展声学特征,获得所述扩展音频数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述原始声学特征,获得所述扩展声学特征,包括:
根据所述原始声学特征,利用原始声学特征与扩展声学特征之间的转换关系,获得所述扩展声学特征。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述原始声学特征,利用原始声学特征与扩展声学特征之间的转换关系,获得所述扩展声学特征之后,还包括:
获得至少一个样本音频数据;
根据所述至少一个样本音频数据中每个样本音频数据,获得所述每个样本音频数据的第一音频数据和所述每个样本音频数据的第二音频数据;所述第一音频数据所对应的音频信号的频段为所述第一信号频段;所述第二音频数据所对应的音频信号的频段为所述第二信号频段;
根据所述第一音频数据,获得所述每个样本音频数据的第一声学特征;
根据所述第二音频数据,获得所述每个样本音频数据的第二声学特征;
根据所述每个样本音频数据的第一声学特征和所述每个样本音频数据的第二声学特征,利用深度学习算法,获得所述转换关系。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述声学特征包括线性预测LPC系数、线性预测倒谱系数LPCC、梅尔频率倒谱系数MFCC或感知线性预测PLP系数。
本发明的另一方面,提供一种音频数据的处理装置,包括:
获取单元,用于获取待处理的原始音频数据;所述原始音频数据所对应的音频信号的频段为第一信号频段;
特征单元,用于根据所述原始音频数据,获得扩展音频数据;所述扩展音频数据所对应的音频信号的频段为第二信号频段;所述第二信号频段高于所述第一信号频段;
处理单元,用于根据所述原始音频数据和所述扩展音频数据,获得目标音频数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述第一信号频段为大于或等于0,且小于或等于第一频段阈值;所述第二信号频段为大于所述第一频段阈值,且小于或等于第二频段阈值。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特征单元,具体用于
根据所述原始音频数据,获得所述原始音频数据的原始声学特征;
根据所述原始声学特征,获得所述扩展声学特征;以及
根据所述扩展声学特征,获得所述扩展音频数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特征单元,具体用于
根据所述原始声学特征,利用原始声学特征与扩展声学特征之间的转换关系,获得所述扩展声学特征。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特征单元,还用于
获得至少一个样本音频数据;
根据所述至少一个样本音频数据中每个样本音频数据,获得所述每个样本音频数据的第一音频数据和所述每个样本音频数据的第二音频数据;所述第一音频数据所对应的音频信号的频段为所述第一信号频段;所述第二音频数据所对应的音频信号的频段为所述第二信号频段;
根据所述第一音频数据,获得所述每个样本音频数据的第一声学特征;
根据所述第二音频数据,获得所述每个样本音频数据的第二声学特征;以及
根据所述每个样本音频数据的第一声学特征和所述每个样本音频数据的第二声学特征,利用深度学习算法,获得所述转换关系。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述声学特征包括线性预测LPC系数、线性预测倒谱系数LPCC、梅尔频率倒谱系数MFCC或感知线性预测PLP系数。
由上述技术方案可知,本发明实施例通过根据所获取的待处理的原始音频数据,获得扩展音频数据,所述扩展音频数据所对应的音频信号的频段为第二信号频段,使得能够根据所述原始音频数据和所述扩展音频数据,获得目标音频数据,由于将高频段的音频数据即扩展音频数据增加到低频段的音频数据即原始音频数据中,使得所获得的目标音频数据不再只具有低频段的音频数据,而且还具有高频段的音频数据,这样,才能够向用户提供真正的高音质的音频文件,使用户能够欣赏真正的高音质的音频文件。
另外,采用本发明提供的技术方案,操作简单,能够有效提高音频数据的处理的效率。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的音频数据的处理方法的流程示意图;
图2为本发明另一实施例提供的音频数据的处理装置的结构示意图。
【具体实施方式】
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(Tablet Computer)、个人电脑(Personal Computer,PC)、MP3播放器、MP4播放器、可穿戴设备(例如,智能眼镜、智能手表、智能手环等)等。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明一实施例提供的一种音频数据的处理方法的流程示意图,如图1所示。
101、获取待处理的原始音频数据;所述原始音频数据所对应的音频信号的频段为第一信号频段。
102、根据所述原始音频数据,获得扩展音频数据;所述扩展音频数据所对应的音频信号的频段为第二信号频段;所述第二信号频段高于所述第一信号频段。
其中,所述第一信号频段可以为大于或等于0,且小于或等于第一频段阈值例如,22050赫兹(Hz)等,即[0,22050Hz];所述第二信号频段则可以为大于所述第一频段阈值,且小于或等于第二频段阈值例如,48000Hz,即(22050Hz,48000Hz]。
103、根据所述原始音频数据和所述扩展音频数据,获得目标音频数据。
至此,所获得的所述目标音频数据所对应的音频信号的频段包括所述第一信号频段和所述第二信号频段,在本实施例中,由于所述第二信号频段高于所述第一信号频段,因此,所述第一信号频段可以称为低频段,所述第二信号频段可以称为高频段。
本发明,在获得了目标音频数据之后,可以将所获得的目标音频数据存储为一个完整的音频文件,进行存储处理,或者还可以直接将所获得的目标音频数据传输给播放设备,进行实时播放处理,本实施例对此不进行特别限定。
具体地,具体可以在终端的存储设备中,将音频文件进行存储处理。
在一个具体的实现过程中,所述终端的存储设备可以慢速存储设备,具体可以为计算机***的硬盘,或者还可以为手机的非运行内存即物理内存,例如,只读存储器(Read-Only Memory,ROM)和内存卡等,本实施例对此不进行特别限定。
在另一个具体的实现过程中,所述终端的存储设备还可以为快速存储设备,具体可以为计算机***的内存,或者还可以为手机的运行内存即***内存,例如,随机存储器(Random Access Memory,RAM)等,本实施例对此不进行特别限定。
需要说明的是,101~103的执行主体的部分或全部可以为位于本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者还可以为位于网络侧的服务器中的处理引擎,或者还可以为位于网络侧的分布式***,本实施例对此不进行特别限定,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。
这样,由于将高频段的音频数据即扩展音频数据增加到低频段的音频数据即原始音频数据中,使得所获得的目标音频数据不再只具有低频段的音频数据,而且还具有高频段的音频数据,这样,才能够向用户提供真正的高音质的音频文件,使用户能够欣赏真正的高音质的音频文件。
本发明中所涉及的声学特征即原始声学特征、扩展声学特征、第一声学特征和第二声学特征中的任意一个,可以包括但不限于线性预测(LinearPrediction Coding,LPC)系数、线性预测倒谱系数(Linear PredictionCepstrum Coefficient,LPCC)、梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient,MFCC)或感知线性预测(Perceptual Linear Predictive,PLP)系数,本实施例对此不进行特别限定。
可选地,在本实施例的一个可能的实现方式中,在101中,具体可以通过对待处理的音频文件的数据块进行解码处理,获得所述原始音频数据。所谓的原始音频数据,是由对音频信号转换而来的数字信号,例如,对所述音频信号进行抽样、量化和编码处理,以获得脉冲编码调制(Pulse CodeModulation,PCM)数据。解码处理的详细描述可以参见现有技术中的相关内容,此处不再赘述。
其中,所述待处理的音频文件可以包括现有技术中各种编码格式的音频文件,例如,动态图像专家组(Moving Picture Experts Group,MPEG)层3(MPEGLayer-3,MP3)格式音频文件、WMA(Windows Media Audio)格式音频文件、高级音频编码(Advanced Audio Coding,AAC)格式音频文件、无损音频压缩编码(Free Lossless Audio Codec,FLAC)或APE格式音频文件等,本实施例对此不进行特别限定。
本实施例中,通过执行101,所获得的所述原始音频数据,可以为一个声道所对应的原始音频数据,如果音频文件存在多个声道,具体可以对每个声道所对应的原始音频数据,都分别执行后续的处理流程即102~103。
在一个具体的实现过程中,具体可以确定所述音频文件的声道数目,以及对所述音频文件的数据块进行解码处理,以获得原始音频数据。然后,则可以根据所述声道数目和所述原始音频数据,获得每个声道所对应的原始音频数据。
例如,具体可以对所述音频文件的帧头进行解析处理,以确定所述音频文件的声道数目。
或者再例如,具体可以对所述音频文件的文件头进行解析处理,以确定所述音频文件的声道数目。
或者再例如,具体可以对音频文件的其他部分进行解析处理,以确定所述音频文件的声道数目,本实施例对此不进行特别限定。
或者再例如,具体还可以从配置文件中,获得所述音频文件的声道数目。
可以理解的是,“确定所述音频文件的声道数目”,以及“对所述音频文件的数据块进行解码处理,以获得原始音频数据”的两个步骤,没有固定顺序,所述处理装置可以先执行“确定所述音频文件的声道数目”的步骤,再执行“对所述音频文件的数据块进行解码处理,以获得原始音频数据”的步骤,或者还可以先执行“对所述音频文件的数据块进行解码处理,以获得原始音频数据”的步骤,再执行“确定所述音频文件的声道数目”的步骤,或者还可以同时执行这两个步骤,本实施例对此不进行特别限定。
可选地,在本实施例的一个可能的实现方式中,在102中,具体可以根据所述原始音频数据,获得所述原始音频数据的原始声学特征,进而,则可以根据所述原始声学特征,获得所述扩展声学特征。然后,可以根据所述扩展声学特征,获得所述扩展音频数据。
在一具体的技术方案,具体可以对所述原始音频数据进行分帧处理,以获得至少一帧数据,进而对至少一帧数据中每帧数据进行声学分析处理,以获得每帧数据的原始声学特征。
例如,可以对所述原始音频数据按照预设时间间隔,例如,20ms,进行分帧处理,且相邻帧之间有部分的数据重叠,例如50%的数据重叠,这样,能够获得所述原始音频数据的至少一帧数据。
下面将以进行LPC分析为例,对具体的实现过程进行详细说明。LPC分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为***的传递函数符合全极点数字滤波器的形式,从而n(n为大于0的数)时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际音频信号的采样值和线性预测采样值之间达到最小均方差(Least Mean Square,LMS),即可得到LPC系数。
例如,如果利用P个采样值来进行预测,则成为P阶线性预测。假设用前P个时刻的采样值{s(n-1),s(n-2),……,s(n-P)}的加权之和,来预测音频信号当前的采样值s(n),则预测信号为:
s ^ ( n ) = Σ k = 1 P a k × s ( n - k ) ;
其中,ak表示加权系数,称为LPC系数。
预测误差e(n)为:
e ( n ) = s ( n ) - s ^ ( n ) = s ( n ) - Σ k = 1 P a k × s ( n - k ) ;
要使得预测最佳,则要使短时音频信号的采样值和线性预测采样值之间达到最小均方差(Least Mean Square,LMS)ε最小,即
ϵ = E [ e 2 ( n ) ] = min ∂ [ e 2 ( n ) ] ∂ a k = 0 , ( 1 ≤ k ≤ P ) ;
其中,E[e2(n)]为e2(n)的数学期望。
令φ(i,k)=E[s(n-i),s(n-k)],最小的ε可以表示成如下形式:
ϵ min = φ ( 0 , 0 ) - Σ k = 1 P a k × φ ( 0 , k )
线性预测的准确度在最小均方误差时是最高的,由此可以计算出LPC系数。
在另一具体的技术方案,具体可以根据所述原始声学特征,利用原始声学特征与扩展声学特征之间的转换关系,获得所述扩展声学特征。
在一个具体的实现过程中,具体地,具体可以针对每帧数据,根据所述原始声学特征,利用原始声学特征与扩展声学特征之间的转换关系,获得所述扩展声学特征。这样,获得了若干帧数据的扩展声学特征。
在另一个具体的实现过程中,还可以进一步包括获得所述转换关系的操作。具体地,具体可以获得至少一个样本音频数据,进而,则可以根据所述至少一个样本音频数据中每个样本音频数据,获得所述每个样本音频数据的第一音频数据和所述每个样本音频数据的第二音频数据;所述第一音频数据所对应的音频信号的频段为所述第一信号频段;所述第二音频数据所对应的音频信号的频段为所述第二信号频段。然后,可以根据所述第一音频数据,获得所述每个样本音频数据的第一声学特征,以及根据所述第二音频数据,获得所述每个样本音频数据的第二声学特征。接着,则可以根据所述每个样本音频数据的第一声学特征和所述每个样本音频数据的第二声学特征,利用深度学习算法,获得所述转换关系。
具体地,具体可以采用滤波器,对每个样本音频数据进行滤波处理,以获得所述每个样本音频数据的第一音频数据和所述每个样本音频数据的第二音频数据。
例如,采用一个带通滤波器,其通带可以为所述第一信号频段,例如,0~22050Hz,对每个样本音频数据进行滤波处理,以获得所述每个样本音频数据的低频段的音频数据,即第一音频数据。
或者,再例如,采用一个带通滤波器,其通带可以为所述第二信号频段,例如,22050~48000Hz,对每个样本音频数据进行滤波处理,以获得所述每个样本音频数据的高频段的音频数据,即第二音频数据。
具体地,具体还可以对每个样本音频数据进行分帧处理,以获得至少一帧数据。然后,则可以对所述至少一帧数据,进行频域变换处理,以获得每帧数据所对应的频域数据。接着,根据每帧数据所对应的频域数据,获得每帧数据所对应的第一音频数据和第二音频数据。其中,所述频域变换处理可以包括但不限于快速傅里叶变换(Fast Fourier Transform,FFT),本实施例对此不进行特别限定。
具体地,具体可以对所述第一音频数据进行声学分析处理,以获得所述每个样本音频数据的第一声学特征;以及对所述第二音频数据进行声学分析处理,以获得所述每个样本音频数据的第二声学特征。
此处所进行的声学分析处理,与前面所描述的声学分析处理,是相同的处理方式。详细描述可以参见现有技术中的相关内容,此处不再赘述。
可以理解的是,“对所述第一音频数据进行声学分析处理,以获得所述每个样本音频数据的第一声学特征”,以及“对所述第二音频数据进行声学分析处理,以获得所述每个样本音频数据的第二声学特征”的两个步骤,没有固定顺序,所述处理装置可以先执行“对所述第一音频数据进行声学分析处理,以获得所述每个样本音频数据的第一声学特征”的步骤,再执行“对所述第二音频数据进行声学分析处理,以获得所述每个样本音频数据的第二声学特征”的步骤,或者还可以先执行“对所述第二音频数据进行声学分析处理,以获得所述每个样本音频数据的第二声学特征”的步骤,再执行“对所述第一音频数据进行声学分析处理,以获得所述每个样本音频数据的第一声学特征”的步骤,或者还可以同时执行这两个步骤,本实施例对此不进行特别限定。
所谓的深度学习,其概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
同机器学习算法一样,深度机器学习算法也有监督学习与无监督学习之分。不同的学习框架下建立的学习模型很是不同。例如,卷积神经网络(Convolutional neural networks,简称CNNs)就是一种深度的监督学习下的机器学习模型,而深度置信网(Deep Belief Nets,简称DBNs)就是一种无监督学习下的机器学习模型。
在另一具体的技术方案,具体可以根据每帧数据的扩展声学特征,获得所对应的扩展音频数据。这样,则可以将一帧一帧的扩展音频数据,重新合并成完整的扩展音频数据。
具体可以采用声学分析处理的逆过程,根据每帧数据的扩展声学特征,获得所对应的扩展音频数据。详细描述可以参见现有技术中的相关内容,此处不再赘述。
可选地,在本实施例的一个可能的实现方式中,在103中,具体可以对所述原始音频数据和所述扩展音频数据进行加法处理,以获得所述目标音频数据。
本实施例中,通过根据所获取的待处理的原始音频数据,获得扩展音频数据,所述扩展音频数据所对应的音频信号的频段为第二信号频段,使得能够根据所述原始音频数据和所述扩展音频数据,获得目标音频数据,由于将高频段的音频数据即扩展音频数据增加到低频段的音频数据即原始音频数据中,使得所获得的目标音频数据不再只具有低频段的音频数据,而且还具有高频段的音频数据,这样,才能够向用户提供真正的高音质的音频文件,使用户能够欣赏真正的高音质的音频文件。
另外,采用本发明提供的技术方案,操作简单,能够有效提高音频数据的处理的效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图2为本发明另一实施例提供的音频数据的处理装置的结构示意图,如图2所示。本实施例的音频数据的处理装置可以包括获取单元21、特征单元22和处理单元23。其中,获取单元21,用于获取待处理的原始音频数据;所述原始音频数据所对应的音频信号的频段为第一信号频段;特征单元22,用于根据所述原始音频数据,获得扩展音频数据;所述扩展音频数据所对应的音频信号的频段为第二信号频段;所述第二信号频段高于所述第一信号频段;处理单元23,用于根据所述原始音频数据和所述扩展音频数据,获得目标音频数据。
其中,所述第一信号频段可以为大于或等于0,且小于或等于第一频段阈值例如,22050赫兹(Hz)等,即[0,22050Hz];所述第二信号频段则可以为大于所述第一频段阈值,且小于或等于第二频段阈值例如,48000Hz,即(22050Hz,48000Hz]。
需要说明的是,本实施例所提供的音频数据的处理装置的部分或全部可以为位于本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者还可以为位于网络侧的服务器中的处理引擎,或者还可以为位于网络侧的分布式***,本实施例对此不进行特别限定,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。
可选地,在本实施例的一个可能的实现方式中,所述特征单元22,具体可以用于根据所述原始音频数据,获得所述原始音频数据的原始声学特征;根据所述原始声学特征,获得所述扩展声学特征;以及根据所述扩展声学特征,获得所述扩展音频数据。
具体地,所述特征单元22,具体可以用于根据所述原始声学特征,利用原始声学特征与扩展声学特征之间的转换关系,获得所述扩展声学特征。
具体地,所述特征单元22,还可以进一步用于获得至少一个样本音频数据;根据所述至少一个样本音频数据中每个样本音频数据,获得所述每个样本音频数据的第一音频数据和所述每个样本音频数据的第二音频数据;所述第一音频数据所对应的音频信号的频段为所述第一信号频段;所述第二音频数据所对应的音频信号的频段为所述第二信号频段;根据所述第一音频数据,获得所述每个样本音频数据的第一声学特征;根据所述第二音频数据,获得所述每个样本音频数据的第二声学特征;以及根据所述每个样本音频数据的第一声学特征和所述每个样本音频数据的第二声学特征,利用深度学习算法,获得所述转换关系。
需要说明的是,图1对应的实施例中方法,可以由本实施例提供的音频数据的处理装置实现。详细描述可以参见图1对应的实施例中的相关内容,此处不再赘述。
本实施例中,通过特征单元根据获取单元所获取的待处理的原始音频数据,获得扩展音频数据,所述扩展音频数据所对应的音频信号的频段为第二信号频段,使得处理单元能够根据所述原始音频数据和所述扩展音频数据,获得目标音频数据,由于将高频段的音频数据即扩展音频数据增加到低频段的音频数据即原始音频数据中,使得所获得的目标音频数据不再只具有低频段的音频数据,而且还具有高频段的音频数据,这样,才能够向用户提供真正的高音质的音频文件,使用户能够欣赏真正的高音质的音频文件。
另外,采用本发明提供的技术方案,操作简单,能够有效提高音频数据的处理的效率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,音频处理引擎,或者网络装置等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (12)

1.一种音频数据的处理方法,其特征在于,包括:
获取待处理的原始音频数据;所述原始音频数据所对应的音频信号的频段为第一信号频段;
根据所述原始音频数据,获得扩展音频数据;所述扩展音频数据所对应的音频信号的频段为第二信号频段;所述第二信号频段高于所述第一信号频段;
根据所述原始音频数据和所述扩展音频数据,获得目标音频数据。
2.根据权利要求1所述的方法,其特征在于,所述第一信号频段为大于或等于0,且小于或等于第一频段阈值;所述第二信号频段为大于所述第一频段阈值,且小于或等于第二频段阈值。
3.根据权利要求1所述的方法,其特征在于,所述根据所述原始音频数据,获得扩展音频数据,包括:
根据所述原始音频数据,获得所述原始音频数据的原始声学特征;
根据所述原始声学特征,获得所述扩展声学特征;
根据所述扩展声学特征,获得所述扩展音频数据。
4.根据权利要求3所述的方法,其特征在于,所述根据所述原始声学特征,获得所述扩展声学特征,包括:
根据所述原始声学特征,利用原始声学特征与扩展声学特征之间的转换关系,获得所述扩展声学特征。
5.根据权利要求4所述的方法,其特征在于,所述根据所述原始声学特征,利用原始声学特征与扩展声学特征之间的转换关系,获得所述扩展声学特征之后,还包括:
获得至少一个样本音频数据;
根据所述至少一个样本音频数据中每个样本音频数据,获得所述每个样本音频数据的第一音频数据和所述每个样本音频数据的第二音频数据;所述第一音频数据所对应的音频信号的频段为所述第一信号频段;所述第二音频数据所对应的音频信号的频段为所述第二信号频段;
根据所述第一音频数据,获得所述每个样本音频数据的第一声学特征;
根据所述第二音频数据,获得所述每个样本音频数据的第二声学特征;
根据所述每个样本音频数据的第一声学特征和所述每个样本音频数据的第二声学特征,利用深度学习算法,获得所述转换关系。
6.根据权利要求3~5任一权利要求所述的方法,其特征在于,所述声学特征包括线性预测LPC系数、线性预测倒谱系数LPCC、梅尔频率倒谱系数MFCC或感知线性预测PLP系数。
7.一种音频数据的处理装置,其特征在于,包括:
获取单元,用于获取待处理的原始音频数据;所述原始音频数据所对应的音频信号的频段为第一信号频段;
特征单元,用于根据所述原始音频数据,获得扩展音频数据;所述扩展音频数据所对应的音频信号的频段为第二信号频段;所述第二信号频段高于所述第一信号频段;
处理单元,用于根据所述原始音频数据和所述扩展音频数据,获得目标音频数据。
8.根据权利要求7所述的装置,其特征在于,所述第一信号频段为大于或等于0,且小于或等于第一频段阈值;所述第二信号频段为大于所述第一频段阈值,且小于或等于第二频段阈值。
9.根据权利要求7所述的装置,其特征在于,所述特征单元,具体用于
根据所述原始音频数据,获得所述原始音频数据的原始声学特征;
根据所述原始声学特征,获得所述扩展声学特征;以及
根据所述扩展声学特征,获得所述扩展音频数据。
10.根据权利要求9所述的装置,其特征在于,所述特征单元,具体用于
根据所述原始声学特征,利用原始声学特征与扩展声学特征之间的转换关系,获得所述扩展声学特征。
11.根据权利要求10所述的装置,其特征在于,所述特征单元,还用于
获得至少一个样本音频数据;
根据所述至少一个样本音频数据中每个样本音频数据,获得所述每个样本音频数据的第一音频数据和所述每个样本音频数据的第二音频数据;所述第一音频数据所对应的音频信号的频段为所述第一信号频段;所述第二音频数据所对应的音频信号的频段为所述第二信号频段;
根据所述第一音频数据,获得所述每个样本音频数据的第一声学特征;
根据所述第二音频数据,获得所述每个样本音频数据的第二声学特征;以及
根据所述每个样本音频数据的第一声学特征和所述每个样本音频数据的第二声学特征,利用深度学习算法,获得所述转换关系。
12.根据权利要求7~11任一权利要求所述的装置,其特征在于,所述声学特征包括线性预测LPC系数、线性预测倒谱系数LPCC、梅尔频率倒谱系数MFCC或感知线性预测PLP系数。
CN201510069567.9A 2015-02-10 2015-02-10 音频数据的处理方法及装置 Pending CN104715756A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510069567.9A CN104715756A (zh) 2015-02-10 2015-02-10 音频数据的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510069567.9A CN104715756A (zh) 2015-02-10 2015-02-10 音频数据的处理方法及装置

Publications (1)

Publication Number Publication Date
CN104715756A true CN104715756A (zh) 2015-06-17

Family

ID=53415018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510069567.9A Pending CN104715756A (zh) 2015-02-10 2015-02-10 音频数据的处理方法及装置

Country Status (1)

Country Link
CN (1) CN104715756A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106057220A (zh) * 2016-05-19 2016-10-26 Tcl集团股份有限公司 一种音频信号的高频扩展方法和音频播放器
CN109791772A (zh) * 2016-09-27 2019-05-21 松下知识产权经营株式会社 声音信号处理装置、声音信号处理方法以及控制程序
CN111863027A (zh) * 2019-04-24 2020-10-30 北京京东尚科信息技术有限公司 处理音频的方法、装置和***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020116698A1 (en) * 2000-05-05 2002-08-22 Marc Lurie Method for distributing, integrating, and hosting a software platform
CN101162584A (zh) * 2006-09-18 2008-04-16 三星电子株式会社 使用带宽扩展技术对音频信号编码和解码的方法和设备
CN101789239A (zh) * 2009-01-23 2010-07-28 奥迪康有限公司 便携式听音设备中的音频处理
US20110257980A1 (en) * 2010-04-14 2011-10-20 Huawei Technologies Co., Ltd. Bandwidth Extension System and Approach
CN102543089A (zh) * 2012-01-17 2012-07-04 大连理工大学 一种窄带码流转换为宽带码流的转换装置及其转换方法
CN102637436A (zh) * 2011-02-09 2012-08-15 索尼公司 声音信号处理装置、声音信号处理方法和程序
CN103093757A (zh) * 2012-01-17 2013-05-08 大连理工大学 一种窄带码流转换为宽带码流的转换方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020116698A1 (en) * 2000-05-05 2002-08-22 Marc Lurie Method for distributing, integrating, and hosting a software platform
CN101162584A (zh) * 2006-09-18 2008-04-16 三星电子株式会社 使用带宽扩展技术对音频信号编码和解码的方法和设备
CN101789239A (zh) * 2009-01-23 2010-07-28 奥迪康有限公司 便携式听音设备中的音频处理
US20110257980A1 (en) * 2010-04-14 2011-10-20 Huawei Technologies Co., Ltd. Bandwidth Extension System and Approach
CN102637436A (zh) * 2011-02-09 2012-08-15 索尼公司 声音信号处理装置、声音信号处理方法和程序
CN102543089A (zh) * 2012-01-17 2012-07-04 大连理工大学 一种窄带码流转换为宽带码流的转换装置及其转换方法
CN103093757A (zh) * 2012-01-17 2013-05-08 大连理工大学 一种窄带码流转换为宽带码流的转换方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106057220A (zh) * 2016-05-19 2016-10-26 Tcl集团股份有限公司 一种音频信号的高频扩展方法和音频播放器
CN106057220B (zh) * 2016-05-19 2020-01-03 Tcl集团股份有限公司 一种音频信号的高频扩展方法和音频播放器
CN109791772A (zh) * 2016-09-27 2019-05-21 松下知识产权经营株式会社 声音信号处理装置、声音信号处理方法以及控制程序
CN109791772B (zh) * 2016-09-27 2023-07-04 松下知识产权经营株式会社 声音信号处理装置、声音信号处理方法以及记录介质
CN111863027A (zh) * 2019-04-24 2020-10-30 北京京东尚科信息技术有限公司 处理音频的方法、装置和***

Similar Documents

Publication Publication Date Title
Bhat et al. A real-time convolutional neural network based speech enhancement for hearing impaired listeners using smartphone
CN104538011A (zh) 一种音调调节方法、装置及终端设备
EP2559026A1 (en) Audio communication device, method for outputting an audio signal, and communication system
CN111370019A (zh) 声源分离方法及装置、神经网络的模型训练方法及装置
US10262677B2 (en) Systems and methods for removing reverberation from audio signals
Luo et al. Group communication with context codec for lightweight source separation
CN105448302A (zh) 一种环境自适应的语音混响消除方法和***
CN113470688B (zh) 语音数据的分离方法、装置、设备及存储介质
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
CN104036788A (zh) 音频文件的音质识别方法及装置
CN113539297A (zh) 一种用于声音分类的联合注意力机制模型、方法及应用
CN113823323A (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
CN104715756A (zh) 音频数据的处理方法及装置
Thomas et al. Acoustic and data-driven features for robust speech activity detection
Mandel et al. Audio super-resolution using concatenative resynthesis
CN104882146A (zh) 音频推广信息的处理方法及装置
CN112735466A (zh) 一种音频检测方法及装置
Zhan et al. Audio post-processing detection and identification based on audio features
CN116978359A (zh) 音素识别方法、装置、电子设备及存储介质
CN105336327B (zh) 音频数据的增益控制方法及装置
Medhi et al. Isolated assamese speech recognition using artificial neural network
Bouchakour et al. Noise-robust speech recognition in mobile network based on convolution neural networks
CN115116469A (zh) 特征表示的提取方法、装置、设备、介质及程序产品
CN114333891A (zh) 一种语音处理方法、装置、电子设备和可读介质
Kumar et al. Speech quality evaluation for different pitch detection algorithms in LPC speech analysis–synthesis system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160321

Address after: 100027 Haidian District, Qinghe Qinghe East Road, No. 23, building two, floor 2108, No., No. 18

Applicant after: BEIJING YINZHIBANG CULTURE TECHNOLOGY Co.,Ltd.

Address before: 100085 Beijing, Haidian District, No. ten on the street Baidu building, No. 10

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication

Application publication date: 20150617

RJ01 Rejection of invention patent application after publication