【发明内容】
本发明的多个方面提供一种音频文件的音质识别方法及装置,用以实现音频文件的音质识别。
本发明的一方面,提供一种音频文件的音质识别方法,包括:
获取待识别的目标音频文件;
根据所述目标音频文件,获得所述目标音频文件的时域波形特征和所述目标音频文件的频域谱线特征中的至少一项;
根据所述时域波形特征和所述频域谱线特征中的至少一项,识别所述目标音频文件的音质为第一音质或第二音质,所述第一音质高于所述第二音质。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述目标音频文件,获得所述目标音频文件的时域波形特征和所述目标音频文件的频域谱线特征中的至少一项,包括:
确定所述目标音频文件的声道数目;
对所述目标音频文件的数据块进行解码,以获得原始音频数据;
根据所述声道数目和所述原始音频数据,获得每个声道所对应的声道音频数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述时域波形特征和所述频域谱线特征中的至少一项,识别所述目标音频文件的音质为第一音质或第二音质,包括:
若所述声道数目大于或等于2,根据每个声道所对应的声道音频数据,获得至少两个声道所对应的第一声道音频数据和第二声道音频数据;
将所述第一声道音频数据和所述第二声道音频数据进行加法处理,以获得混合声道音频数据;
若所述混合声道音频数据大于或等于所述第一声道音频数据/N或所述第二声道音频数据/M,识别所述目标音频文件的音质为所述第一音质;
若所述混合声道音频数据小于所述第一声道音频数据/N或所述第二声道音频数据/M,识别所述目标音频文件的音质为所述第二音质;其中,
N为大于1的数;M为大于1的数。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述时域波形特征和所述频域谱线特征中的至少一项,识别所述目标音频文件的音质为第一音质或第二音质,包括:
若连续指定数目的目标声道音频数据的值中两两之间的差值,小于或等于第一幅度阈值,识别所述目标音频文件的音质为所述第二音质,所述目标声道音频数据包括每个声道所对应的声道音频数据中的任一声道所对应的声道音频数据;或者
若连续两个的目标声道音频数据的值的差值,大于或等于第二幅度阈值,且所述连续两个的目标声道音频数据的值的符号相反,识别所述目标音频文件的音质为所述第二音质,所述目标声道音频数据包括每个声道所对应的声道音频数据中的任一声道所对应的声道音频数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述声道数目和所述原始音频数据,获得每个声道所对应的声道音频数据之后,还包括:
对目标声道音频数据进行分帧处理,以获得至少一帧音频数据,所述目标声道音频数据包括每个声道所对应的声道音频数据中的任一声道所对应的声道音频数据;
对所述至少一帧音频数据,进行频域变换处理,以获得每帧音频数据所对应的频域数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述时域波形特征和所述频域谱线特征中的至少一项,识别所述目标音频文件的音质为第一音质或第二音质,包括:
根据每帧音频数据所对应的频域数据,获得每帧音频数据所对应的频域数据在每个频点处的能量分量;
若每帧音频数据所对应的频域数据在至少一个相同频点处的能量分量中两两之间的差值,小于或等于所述能量阈值,识别所述目标音频文件的音质为所述第二音质。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取待识别的目标音频文件之前,还包括:
获取候选音频文件的格式参数;
根据所述格式参数,确定所述候选音频文件为所述目标音频文件;或者识别所述候选音频文件的音质为所述第二音质。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述格式参数包括压缩格式、采样率、采样深度和码率中的至少一项。
本发明的另一方面,提供一种音频文件的音质识别装置,包括:
获取单元,用于获取待识别的目标音频文件;
特征单元,用于根据所述目标音频文件,获得所述目标音频文件的时域波形特征和所述目标音频文件的频域谱线特征中的至少一项;
识别单元,用于根据所述时域波形特征和所述频域谱线特征中的至少一项,识别所述目标音频文件的音质为第一音质或第二音质,所述第一音质高于所述第二音质。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特征单元,具体用于
确定所述目标音频文件的声道数目;
对所述目标音频文件的数据块进行解码,以获得原始音频数据;以及
根据所述声道数目和所述原始音频数据,获得每个声道所对应的声道音频数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述识别单元,具体用于
若所述声道数目大于或等于2,根据每个声道所对应的声道音频数据,获得至少两个声道所对应的第一声道音频数据和第二声道音频数据;
将所述第一声道音频数据和所述第二声道音频数据进行加法处理,以获得混合声道音频数据;以及
若所述混合声道音频数据大于或等于所述第一声道音频数据/N或所述第二声道音频数据/M,识别所述目标音频文件的音质为所述第一音质;
若所述混合声道音频数据小于所述第一声道音频数据/N或所述第二声道音频数据/M,识别所述目标音频文件的音质为所述第二音质;其中,
N为大于1的数;M为大于1的数。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述识别单元,具体用于
若连续指定数目的目标声道音频数据的值中两两之间的差值,小于或等于第一幅度阈值,识别所述目标音频文件的音质为所述第二音质,所述目标声道音频数据包括每个声道所对应的声道音频数据中的任一声道所对应的声道音频数据;或者
若连续两个的目标声道音频数据的值的差值,大于或等于第二幅度阈值,且所述连续两个的目标声道音频数据的值的符号相反,识别所述目标音频文件的音质为所述第二音质,所述目标声道音频数据包括每个声道所对应的声道音频数据中的任一声道所对应的声道音频数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特征单元,还用于
对目标声道音频数据进行分帧处理,以获得至少一帧音频数据,所述目标声道音频数据包括每个声道所对应的声道音频数据中的任一声道所对应的声道音频数据;以及
对所述至少一帧音频数据,进行频域变换处理,以获得每帧音频数据所对应的频域数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述识别单元,具体用于
根据每帧音频数据所对应的频域数据,获得每帧音频数据所对应的频域数据在每个频点处的能量分量;以及
若每帧音频数据所对应的频域数据在至少一个相同频点处的能量分量中两两之间的差值,小于或等于所述能量阈值,识别所述目标音频文件的音质为所述第二音质。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述识别单元,还用于
获取候选音频文件的格式参数;以及
根据所述格式参数,确定所述候选音频文件为所述目标音频文件;或者识别所述候选音频文件的音质为所述第二音质。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述格式参数包括压缩格式、采样率、采样深度和码率中的至少一项。
由上述技术方案可知,本发明实施例通过获取待识别的目标音频文件,进而根据所述目标音频文件,获得所述目标音频文件的时域波形特征和所述目标音频文件的频域谱线特征中的至少一项,使得能够根据所述时域波形特征和所述频域谱线特征中的至少一项,识别所述目标音频文件的音质为第一音质或第二音质,所述第一音质高于所述第二音质,这样,才能够向用户提供真正的高音质的音频文件,使用户能够欣赏真正的高音质的音频文件。
另外,采用本发明提供的技术方案,操作简单,能够有效提高音频文件的音质识别的效率。
【具体实施方式】
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持装置、无线上网本、便携电脑、个人电脑(Personal Computer,PC)、MP3播放器、MP4播放器等。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明一实施例提供的一种音频文件的音质识别方法的流程示意图,如图1所示。
101、获取待识别的目标音频文件。
其中,所述目标音频文件可以包括现有技术中各种编码格式的音频文件,例如,动态图像专家组(Moving Picture Experts Group,MPEG)层3(MPEGLayer-3,MP3)格式音频文件、WMA(Windows Media Audio)格式音频文件、高级音频编码(Advanced Audio Coding,AAC)格式音频文件、无损音频压缩编码(Free Lossless Audio Codec,FLAC)或APE格式音频文件等,本实施例对此不进行特别限定。
102、根据所述目标音频文件,获得所述目标音频文件的时域波形特征和所述目标音频文件的频域谱线特征中的至少一项。
其中,所述目标音频文件的时域波形特征,可以包括但不限于原始音频数据的幅度信息。
原始音频数据,是由对声音信号转换而来的数字信号,例如,对所述声音信号进行抽样、量化和编码处理,以获得脉冲编码调制(Pulse CodeModulation,PCM)数据,具体可以通过对目标音频文件的数据块进行解析获得。
其中,所述目标音频文件的频域谱线特征,可以包括但不限于原始音频数据的频谱信息。
103、根据所述时域波形特征和所述频域谱线特征中的至少一项,识别所述目标音频文件的音质为第一音质或第二音质,所述第一音质高于所述第二音质。
需要说明的是,101~103的执行主体可以为处理装置,可以位于本地的应用(Application,App)例如,百度音乐中,或者还可以位于网络侧的服务器中,或者还可以一部分位于本地的应用中,另一部分位于网络侧的服务器。
可以理解的是,所述应用可以是安装在终端上的应用程序(nativeAPP),或者还可以是终端上的浏览器的一个网页(webAPP),只要能够实现音频数据的处理的客观存在形式都可以,本实施例对此不进行限定。
这样,通过获取待识别的目标音频文件,进而根据所述目标音频文件,获得所述目标音频文件的时域波形特征和所述目标音频文件的频域谱线特征中的至少一项,使得能够根据所述时域波形特征和所述频域谱线特征中的至少一项,识别所述目标音频文件的音质为第一音质或第二音质,所述第一音质高于所述第二音质,这样,才能够向用户提供真正的高音质的音频文件,使用户能够欣赏真正的高音质的音频文件。
可选地,在本实施例的一个可能的实现方式中,在101之前,处理装置还可以进一步获取候选音频文件的格式参数。然后,所述处理装置则可以根据所述格式参数,确定所述候选音频文件为所述目标音频文件;或者识别所述候选音频文件的音质为所述第二音质。
其中,所述格式参数可以包括但不限于压缩格式、采样率、采样深度和码率中的至少一项。
所述压缩格式,原始音频数据经过某个程序执行压缩的压缩方法,例如MP3格式、WMA格式、AAC格式、FLAC格式或APE格式等。
所述采样率,也称为采样速度或者采样频率,定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。
所述采样深度,指一个采样点的值由几比特数来表示,它决定了每个采样点的值的位数,例如,8比特(bit)、16位或24位等。
所述码率,是指单位时间内处理的比特的数量,单位是每秒比特(bps)。
具体地,处理装置具体可以对候选音频文件的帧头进行解析,以获得候选音频文件的格式参数。
例如,若采样深度是8bit,识别所述候选音频文件的音质为所述第二音质;若采样深度是16bit,确定所述候选音频文件为所述目标音频文件。
或者,再例如,若采样率小于44100Hz,识别所述候选音频文件的音质为所述第二音质;若采样率大于或等于44100Hz,确定所述候选音频文件为所述目标音频文件。
或者,再例如,压缩格式为MP3,且码率小于320每秒千比特(kbps),识别所述候选音频文件的音质为所述第二音质;压缩格式为MP3,且码率大于或等于320kbps,确定所述候选音频文件为所述目标音频文件。
这样,通过获取候选音频文件的格式参数,进而可以根据所述格式参数,预先识别所述候选音频文件的音质为所述第二音质,使得该候选音频文件无需作为目标音频文件,以进行进一步识别,能够有效提高音频文件的音质识别的效率。
另外,由于无需对候选音频文件进行解码,只需要对帧头进行解析就可以获得候选音频文件的格式参数,因此,能够进一步提高音频文件的音质识别的效率。
可选地,在本实施例的一个可能的实现方式中,在102中,处理装置具体可以确定所述目标音频文件的声道数目,以及对所述目标音频文件的数据块进行解码,以获得原始音频数据。然后,所述处理装置则可以根据所述声道数目和所述原始音频数据,获得每个声道所对应的声道音频数据。其中,解析方法和解码方法的详细描述可以参见现有技术中的相关内容,此处不再赘述。
例如,处理装置具体可以对所述目标音频文件的帧头进行解析,以确定所述目标音频文件的声道数目。
或者再例如,处理装置具体对所述目标音频文件的文件头进行解析,以确定所述目标音频文件的声道数目。
或者再例如,处理装置还可以对目标音频文件的其他部分进行解析,以确定所述目标音频文件的声道数目,本实施例对此不进行特别限定。
或者再例如,处理装置具体还可以从配置文件中,获得所述目标音频文件的声道数目。
可以理解的是,“确定所述目标音频文件的声道数目”,以及“对所述目标音频文件的数据块进行解码,以获得原始音频数据”的两个步骤,没有固定顺序,所述处理装置可以先执行“确定所述目标音频文件的声道数目”的步骤,再执行“对所述目标音频文件的数据块进行解码,以获得原始音频数据”的步骤,或者还可以先执行“对所述目标音频文件的数据块进行解码,以获得原始音频数据”的步骤,再执行“确定所述目标音频文件的声道数目”的步骤,或者还可以同时执行这两个步骤,本实施例对此不进行特别限定。
相应地,在本实施例的一个可能的实现方式中,在103中,若所述声道数目大于或等于2,处理装置则可以根据每个声道所对应的声道音频数据,获得至少两个声道所对应的第一声道音频数据和第二声道音频数据,进而将所述第一声道音频数据和所述第二声道音频数据进行加法处理,以获得混合声道音频数据。
若所述混合声道音频数据大于或等于所述第一声道音频数据/N或所述第二声道音频数据/M,所述处理装置则可以识别所述目标音频文件的音质为所述第一音质。其中,N为大于1的数;M为大于1的数。
若所述混合声道音频数据小于所述第一声道音频数据/N或所述第二声道音频数据/M,所述处理装置则可以识别所述目标音频文件的音质为所述第二音质;其中,N为大于1的数;M为大于1的数。
相应地,在本实施例的一个可能的实现方式中,在103中,若连续指定数目(如3个)的目标声道音频数据的值中两两之间的差值,小于或等于第一幅度阈值,这种情况所对应的波形可以如图2所示,那么,所述处理装置则可以识别所述目标音频文件的音质为所述第二音质。其中,目标声道音频数据可以为任意一个声道所对应的声道音频数据,本实施例对此不进行特别限定。图2中,横坐标表示时间,纵坐标表示幅度。
相应地,在本实施例的一个可能的实现方式中,在103中,若连续两个的目标声道音频数据的值的差值,大于或等于第二幅度阈值,且所述连续两个的目标声道音频数据的值的符号相反,这种情况所对应的波形可以如图3所示,那么,所述处理装置则可以识别所述目标音频文件的音质为所述第二音质。其中,目标声道音频数据可以为任意一个声道所对应的声道音频数据,本实施例对此不进行特别限定。图3中,横坐标表示时间,纵坐标表示幅度,。
可选地,在本实施例的一个可能的实现方式中,在102中,处理装置在获得每个声道所对应的声道音频数据之后,还可以进一步对目标声道音频数据进行分帧处理,以获得至少一帧音频数据,所述目标声道音频数据包括每个声道所对应的声道音频数据中的任一声道所对应的声道音频数据。然后,所述处理装置则可以对所述至少一帧音频数据,进行频域变换处理,以获得每帧音频数据所对应的频域数据。其中,目标声道音频数据可以为任意一个声道所对应的声道音频数据,本实施例对此不进行特别限定。
具体地,所述频域变换处理可以包括但不限于快速傅里叶变换(FastFourier Transform,FFT)。
例如,处理装置可以对目标声道音频数据按照20ms的间隔,进行分帧处理,且相邻帧之间有50%的数据重叠,以获得至少一帧音频数据。然后,所述处理装置则可以对所述至少一帧音频数据,进行FFT处理,以获得每帧音频数据所对应的频域数据,记为Ai,j;其中,i表示频点的编号,j表示帧的编号,Ai,j表示第j个帧在第i个频点处的频域数据。
相应地,在本实施例的一个可能的实现方式中,在103中,所述处理装置具体可以根据每帧音频数据所对应的频域数据,获得每帧音频数据所对应的频域数据在每个频点处的能量分量。若每帧音频数据所对应的频域数据在至少一个相同频点处的能量分量中两两之间的差值,小于或等于所述能量阈值,这种情况所对应的能量谱可以如图4所示,那么,所述处理装置则可以识别所述目标音频文件的音质为所述第二音质。图4中,横坐标表示时间,纵坐标表示频率,每个点的颜色表示能量。
例如,处理装置根据所获得的每帧音频数据所对应的频域数据记为Ai,j,获得每帧音频数据所对应的频域数据在每个频点处的能量分量Ei,j;其中,i表示频点的编号,j表示帧的编号,Ei,j表示第j个帧在第i个频点处的能量分量。
本实施例中,通过获取待识别的目标音频文件,进而根据所述目标音频文件,获得所述目标音频文件的时域波形特征和所述目标音频文件的频域谱线特征中的至少一项,使得能够根据所述时域波形特征和所述频域谱线特征中的至少一项,识别所述目标音频文件的音质为第一音质或第二音质,所述第一音质高于所述第二音质,这样,才能够向用户提供真正的高音质的音频文件,使用户能够欣赏真正的高音质的音频文件。
另外,采用本发明提供的技术方案,操作简单,能够有效提高音频文件的音质识别的效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图5为本发明另一实施例提供的音频文件的音质识别装置的结构示意图,如图5所示。本实施例的音频文件的音质识别装置可以包括获取单元51、特征单元52和识别单元53。其中,
获取单元51,用于获取待识别的目标音频文件。
其中,所述目标音频文件可以包括现有技术中各种编码格式的音频文件,例如,动态图像专家组(Moving Picture Experts Group,MPEG)层3(MPEGLayer-3,MP3)格式音频文件、WMA(Windows Media Audio)格式音频文件、高级音频编码(Advanced Audio Coding,AAC)格式音频文件、无损音频压缩编码(Free Lossless Audio Codec,FLAC)或APE格式音频文件等,本实施例对此不进行特别限定。
特征单元52,用于根据所述目标音频文件,获得所述目标音频文件的时域波形特征和所述目标音频文件的频域谱线特征中的至少一项。
其中,所述目标音频文件的时域波形特征,可以包括但不限于原始音频数据的幅度信息。
原始音频数据,是由对声音信号转换而来的数字信号,例如,对所述声音信号进行抽样、量化和编码处理,以获得脉冲编码调制(Pulse CodeModulation,PCM)数据,具体可以通过对目标音频文件的数据块进行解析获得。
其中,所述目标音频文件的频域谱线特征,可以包括但不限于原始音频数据的频谱信息。
识别单元53,用于根据所述时域波形特征和所述频域谱线特征中的至少一项,识别所述目标音频文件的音质为第一音质或第二音质,所述第一音质高于所述第二音质。
需要说明的是,本实施例所提供的音频文件的音质识别装置可以为处理装置,可以位于本地的应用(Application,App)例如,百度音乐中,或者还可以位于网络侧的服务器中,或者还可以一部分位于本地的应用中,另一部分位于网络侧的服务器。
可以理解的是,所述应用可以是安装在终端上的应用程序(nativeAPP),或者还可以是终端上的浏览器的一个网页(webAPP),只要能够实现音频数据的处理的客观存在形式都可以,本实施例对此不进行限定。
这样,通过获取单元获取待识别的目标音频文件,进而由特征单元根据所述目标音频文件,获得所述目标音频文件的时域波形特征和所述目标音频文件的频域谱线特征中的至少一项,使得识别单元能够根据所述时域波形特征和所述频域谱线特征中的至少一项,识别所述目标音频文件的音质为第一音质或第二音质,所述第一音质高于所述第二音质,这样,才能够向用户提供真正的高音质的音频文件,使用户能够欣赏真正的高音质的音频文件。
可选地,在本实施例的一个可能的实现方式中,所述识别单元,还可以进一步用于获取候选音频文件的格式参数;以及根据所述格式参数,确定所述候选音频文件为所述目标音频文件;或者识别所述候选音频文件的音质为所述第二音质。
其中,所述格式参数可以包括但不限于压缩格式、采样率、采样深度和码率中的至少一项。
所述压缩格式,原始音频数据经过某个程序执行压缩的压缩方法,例如MP3格式、WMA格式、AAC格式、FLAC格式或APE格式等。
所述采样率,也称为采样速度或者采样频率,定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。
所述采样深度,指一个采样点的值由几比特数来表示,它决定了每个采样点的值的位数,例如,8比特(bit)、16位或24位等。
所述码率,是指单位时间内处理的比特的数量,单位是每秒比特(bps)。
具体地,所述识别单元53具体可以对候选音频文件的帧头进行解析,以获得候选音频文件的格式参数。
例如,若采样深度是8bit,识别所述候选音频文件的音质为所述第二音质;若采样深度是16bit,确定所述候选音频文件为所述目标音频文件。
或者,再例如,若采样率小于44100Hz,识别所述候选音频文件的音质为所述第二音质;若采样率大于或等于44100Hz,确定所述候选音频文件为所述目标音频文件。
或者,再例如,压缩格式为MP3,且码率小于320每秒千比特(kbps),识别所述候选音频文件的音质为所述第二音质;压缩格式为MP3,且码率大于或等于320kbps,确定所述候选音频文件为所述目标音频文件。
这样,通过识别单元获取候选音频文件的格式参数,进而可以根据所述格式参数,预先识别所述候选音频文件的音质为所述第二音质,使得该候选音频文件无需作为目标音频文件,以进行进一步识别,能够有效提高音频文件的音质识别的效率。
另外,由于无需对候选音频文件进行解码,只需要对帧头进行解析就可以获得候选音频文件的格式参数,因此,能够进一步提高音频文件的音质识别的效率。
可选地,在本实施例的一个可能的实现方式中,所述特征单元52,具体可以用于确定所述目标音频文件的声道数目;对所述目标音频文件的数据块进行解码,以获得原始音频数据;以及根据所述声道数目和所述原始音频数据,获得每个声道所对应的声道音频数据。其中,解析方法和解码方法的详细描述可以参见现有技术中的相关内容,此处不再赘述。
例如,所述特征单元52具体可以对所述目标音频文件的帧头进行解析,以确定所述目标音频文件的声道数目。
或者再例如,所述特征单元52具体对所述目标音频文件的文件头进行解析,以确定所述目标音频文件的声道数目。
或者再例如,所述特征单元52还可以对目标音频文件的其他部分进行解析,以确定所述目标音频文件的声道数目,本实施例对此不进行特别限定。
或者再例如,所述特征单元52具体还可以从配置文件中,获得所述目标音频文件的声道数目。
相应地,在本实施例的一个可能的实现方式中,所述识别单元53,具体可以用于若所述声道数目大于或等于2,根据每个声道所对应的声道音频数据,获得至少两个声道所对应的第一声道音频数据和第二声道音频数据;将所述第一声道音频数据和所述第二声道音频数据进行加法处理,以获得混合声道音频数据;以及若所述混合声道音频数据大于或等于所述第一声道音频数据/N或所述第二声道音频数据/M,识别所述目标音频文件的音质为所述第一音质;若所述混合声道音频数据小于所述第一声道音频数据/N或所述第二声道音频数据/M,识别所述目标音频文件的音质为所述第二音质;其中,N为大于1的数;M为大于1的数。
相应地,在本实施例的一个可能的实现方式中,所述识别单元53,具体可以用于若连续指定数目(如3个)的目标声道音频数据的值中两两之间的差值,小于或等于第一幅度阈值,识别所述目标音频文件的音质为所述第二音质,所述目标声道音频数据包括每个声道所对应的声道音频数据中的任一声道所对应的声道音频数据。这种情况所对应的波形可以如图2所示。其中,目标声道音频数据可以为任意一个声道所对应的声道音频数据,本实施例对此不进行特别限定。
相应地,在本实施例的一个可能的实现方式中,所述识别单元53,具体可以用于若连续两个的目标声道音频数据的值的差值,大于或等于第二幅度阈值,且所述连续两个的目标声道音频数据的值的符号相反,识别所述目标音频文件的音质为所述第二音质,所述目标声道音频数据包括每个声道所对应的声道音频数据中的任一声道所对应的声道音频数据。这种情况所对应的波形可以如图3所示。其中,目标声道音频数据可以为任意一个声道所对应的声道音频数据,本实施例对此不进行特别限定。
可选地,在本实施例的一个可能的实现方式中,所述特征单元52,还可以进一步用于对目标声道音频数据进行分帧处理,以获得至少一帧音频数据,所述目标声道音频数据包括每个声道所对应的声道音频数据中的任一声道所对应的声道音频数据;以及对所述至少一帧音频数据,进行频域变换处理,以获得每帧音频数据所对应的频域数据。其中,目标声道音频数据可以为任意一个声道所对应的声道音频数据,本实施例对此不进行特别限定。
具体地,所述频域变换处理可以包括但不限于快速傅里叶变换(FastFourier Transform,FFT)。
例如,所述特征单元52可以对目标声道音频数据按照20ms的间隔,进行分帧处理,且相邻帧之间有50%的数据重叠,以获得至少一帧音频数据。然后,所述特征单元52则可以对所述至少一帧音频数据,进行FFT处理,以获得每帧音频数据所对应的频域数据,记为Ai,j;其中,i表示频点的编号,j表示帧的编号,Ai,j表示第j个帧在第i个频点处的频域数据。
相应地,在本实施例的一个可能的实现方式中,所述识别单元53,具体可以用于根据每帧音频数据所对应的频域数据,获得每帧音频数据所对应的频域数据在每个频点处的能量分量;若每帧音频数据所对应的频域数据在至少一个相同频点处的能量分量中两两之间的差值,小于或等于所述能量阈值,识别所述目标音频文件的音质为所述第二音质。这种情况所对应的能量谱可以如图4所示。
例如,所述识别单元53根据所获得的每帧音频数据所对应的频域数据记为Ai,j,获得每帧音频数据所对应的频域数据在每个频点处的能量分量Ei,j;其中,i表示频点的编号,j表示帧的编号,Ei,j表示第j个帧在第i个频点处的能量分量。
本实施例中,通过获取单元获取待识别的目标音频文件,进而由特征单元根据所述目标音频文件,获得所述目标音频文件的时域波形特征和所述目标音频文件的频域谱线特征中的至少一项,使得识别单元能够根据所述时域波形特征和所述频域谱线特征中的至少一项,识别所述目标音频文件的音质为第一音质或第二音质,所述第一音质高于所述第二音质,这样,才能够向用户提供真正的高音质的音频文件,使用户能够欣赏真正的高音质的音频文件。
另外,采用本发明提供的技术方案,操作简单,能够有效提高音频文件的音质识别的效率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,音频处理引擎,或者网络装置等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。