CN107958672A

CN107958672A - 获取基音波形数据的方法和装置

Info

Publication number: CN107958672A
Application number: CN201711337024.6A
Authority: CN
Inventors: 肖纯智
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2018-04-24

Abstract

本公开是关于一种获取基音波形数据的方法和装置，属于音频技术领域。所述方法包括：对目标音频中每个音频帧进行音高提取，得到每个音频帧对应的目标频率；对于每个音频帧，基于所述音频帧对应的目标频率，在所述音频帧的频谱数据中，确定对应的目标振幅；基于每个音频帧对应的目标振幅和目标频率，确定所述目标音频的基音波形数据。采用本公开，根据音高与基音的振动频率成正比的关系，通过每一帧音频的音高确定每一帧音频中基音的平均频率，然后基于基音的平均频率得到每一帧音频的基音波形数据，最后得到目标音频的基音波形数据，进而，可以准确得到目标音频的基音振动情况。

Description

获取基音波形数据的方法和装置

技术领域

本公开是关于音频技术领域，尤其是关于一种获取基音波形数据的方法和装置

背景技术

随着人们生活节奏的加快，唱歌已经成为人们放松心情的常用娱乐休闲方式之一，对于经常唱跑调的用户可以使用多媒体设备对其音调进行调整，以接近相应歌曲的标准音高数据。通常多媒体设备中预先储存有歌曲的标准音高数据，多媒体设备可以基于该标准音高数据对采集到的用户歌唱的人声音频的音调进行调整。

声音是由振动产生的，包括基音的振动和泛音的振动，而音调由基音的振动决定的。因此改变音调的关键在于获取人声音频的基音，根据基音的振动情况和标准音高数据的对比，对人声音频进行调节，进而实现人声音频的变音调不变音色。因此，变音调的关键在于准确获取基音的振动情况，现有技术中，通常使用带通滤波器对音频进行时域滤波，其中，通带的频率范围设置为一般的人声音频的基音的频率范围。

在实现本公开的过程中，发明人发现至少存在以下问题：

一首完整的歌曲其基音的频率波动较大，例如，在初始阶段基音的频率较低，在中间阶段高潮阶段基音的频率较高，这样，带通滤波器的通带的频率范围必须设置足够宽，才能覆盖所有基音的频率，但是这样也会覆盖部分泛音的频率，这样不能准确得到基音的振动情况。

发明内容

为了克服相关技术中存在的问题，本公开提供了一种获取基音波形数据的方法和装置。所述技术方案如下：

根据本公开实施例，提供一种获取基音波形数据的方法，所述方法包括：

对目标音频中每个音频帧进行音高提取，得到每个音频帧对应的目标频率；

对于每个音频帧，基于所述音频帧对应的目标频率，在所述音频帧的频谱数据中，确定对应的目标振幅；

基于每个音频帧对应的目标振幅和目标频率，确定所述目标音频的基音波形数据。

可选的，所述对于每个音频帧，基于所述音频帧对应的目标频率，在所述音频帧的频谱数据中，确定对应的目标振幅，包括：

对每个音频帧的音频波形数据，分别进行傅里叶变换，得到每个音频帧的频谱数据；

在每个音频帧的频谱数据中，确定目标频率对应的目标振幅。

可选的，所述基于每个音频帧对应的目标振幅和目标频率，确定所述目标音频的基音波形数据，包括：

在每个音频帧的频谱数据中，保持目标频率对应的目标振幅不变，并将其它频率对应的振幅置零，得到每个音频帧的调整后的频谱数据；

对每个音频帧的调整后的频谱数据进行傅里叶逆变换，得到所述目标音频的基音波形数据。

基于每个音频帧对应的目标振幅和目标频率，分别生成每个音频帧的调整后的频谱数据；

可选的，所述方法还包括：

基于所述目标音频的基音波形数据、预先储存的与所述目标音频相对应的标准音高数据，对所述目标音频进行音调调整。

根据本公开实施例，提供一种音频处理的方法，所述方法包括：

将上述所述的基音波形数据中每个周期对应的频率值，分别与标准音高数据中在时间上相对应的标准频率值进行比较，如果频率值与标准频率值之差的绝对值大于预设数值，则对所述频率值所在周期的目标音频进行调整。

根据本公开实施例，提供一种获取基音波形数据的装置，所述装置包括：

提取模块，用于对目标音频中每个音频帧进行音高提取，得到每个音频帧对应的目标频率；

第一确定模块，用于对于每个音频帧，基于所述音频帧对应的目标频率，在所述音频帧的频谱数据中，确定对应的目标振幅；

第二确定模块，用于基于每个音频帧对应的目标振幅和目标频率，确定所述目标音频的基音波形数据。

可选的，所述第一确定模块，具体用于：

可选的，所述第二确定模块，具体用于：

可选的，所述装置还包括：

调整模块，用于基于所述目标音频的基音波形数据、预先储存的与所述目标音频相对应的标准音高数据，对所述目标音频进行音调调整。

根据本公开实施例，提供一种音频处理的装置，所述装置包括音频调整模块，用于：

根据本公开实施例，提供一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现上述所述的获取基音波形数据的方法。

根据本公开实施例的第一方面，提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述所述的获取基音波形数据的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例中，终端如多媒体设备使用上述方法先对目标音频中的每个音频帧进行音高提取，得到每个音频帧对应的目标频率；对于每个音频帧，基于音频帧对应的目标频率，在音频帧的频谱数据中，确定对应的目标振幅；基于每个音频帧对应的目标振幅和目标频率，确定目标音频的基音波形数据。这种根据音高与基音的振动频率成正比，通过每一帧音频的音高确定每一帧音频中基音的平均频率，然后基于基音的平均频率得到每一帧音频的基音波形数据，最后得到目标音频的基音波形数据的方法，可以准确得到目标音频的基音振动情况。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。在附图中：

图1是根据实施例示出的一种获取基音波形数据的方法的流程图；

图2是根据实施例示出的一种基音波形数据的装置的示意图；

图3是根据实施例示出的一种基音波形数据的装置的示意图；

图4是根据实施例示出的一种终端的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本发明实施例提供了一种获取基音波形数据的方法，该方法可以由终端实现。其中，终端可以是平板电脑、台式计算机、笔记本计算机等。终端可以包括处理器、存储器等部件。处理器，可以为CPU(Central Processing Unit，中央处理单元)等，可以用于对目标音频中每个音频帧进行音高提取，得到每个音频帧对应的目标频率，等处理。存储器，可以为RAM(RandomAccess Memory，随机存取存储器)，Flash(闪存)等，可以用于存储数据、处理过程所需的数据、处理过程中生成的数据等，如音频等。

终端还可以包括收发器、输入部件、显示部件、音频输出部件等。收发器，可以用于与服务器进行数据传输，收发器可以包括蓝牙部件、WiFi(Wireless-Fidelity，无线高保真技术)部件、天线、匹配电路、调制解调器等。输入部件可以是触摸屏、键盘、鼠标等。音频输出部件可以是音箱、耳机等。

本公开实施例提供了一种获取基音波形数据的方法，其中，基音波形数据也即是基音的振幅与时间关系的数据。如图1所示，该方法的处理流程可以包括如下的步骤：

在步骤101中，对目标音频中每个音频帧进行音高提取，得到每个音频帧对应的目标频率。

其中，目标音频可以是人声音频，也可以是伴奏声音频，本实施例以人声音频示例。

声音通常是由发音体发出的一系列频率、振幅各不相同的振动复合而成的，这些振动中有一个频率最低的振动，由它发出的音就是基音，其余为泛音。音高是指各种不同高低的声音，即音的高度，由基音的振动频率决定的，两者成正比关系。

在实施中，终端对目标音频进行时域分析，将目标音频切分成各音频帧，每个音频帧的时长一般在10ms至30ms之间。对每个音频帧利用音高提取算法进行音高提取，其中，该音高为每个音频帧的平均音高，由于音高与基音的振动频率成正比关系，进而可以得到每个音频帧对应的目标频率，该目标频率即为每个音频帧的基音的平均频率。其中，常用的音高提取算法有自相关函数法、倒谱法和将自相关函数法与倒谱法相结合的YIN算法。

在步骤102中，对于每个音频帧，基于音频帧对应的目标频率，在音频帧的频谱数据中，确定对应的目标振幅。

可选的，终端确定出每一帧的目标频率之后，可以进一步确定目标频率对应的目标振幅，相应的处理可以是，对每个音频帧的音频波形数据，分别进行傅里叶变换，得到每个音频帧的频谱数据；在每个音频帧的频谱数据中，确定目标频率对应的目标振幅，该目标振幅也即是每一帧音频中基音的平均频率对应的振幅。

其中，具体将音频波形数据转换为频谱数据，所使用的傅里叶公式为：

在实施中，终端确定出每个音频帧的目标频率之后，首先，通过上述傅里叶方式将各音频帧从时域数据转换为每一帧的短时频域数据，其中，频谱数据也即是用于表示振幅与频率对应关系的数据。然后，终端在每个音频帧的频谱数据中，确定目标频率对应的目标振幅，每一帧音频的目标频率为基音的平均频率，其对应的目标振幅为基音的振幅。

在步骤103中，基于每个音频帧对应的目标振幅和目标频率，确定所述目标音频的基音波形数据。

其中，基音波形数据为用于表示基音的振幅与时间的对应关系的数据。

在实施中，终端基于每个音频帧的目标频率和目标振幅，进一步可以得到目标音频的基音波形数据，这一步骤也是对每一帧目标音频进行频谱滤波的过程，也即是将每一帧目标音频中的基音的频率对应的振幅保留下来，将泛音的频率对应的振幅衰减至零。具体的可以有以下两种方式：

其中，在得到每帧基音波形数据的过程中需要用到傅里叶逆变换，其公式为：

方式一，终端在每个音频帧的频谱数据中，保持目标频率对应的目标振幅不变，并将其它频率对应的振幅置零，得到每个音频帧的调整后的频谱数据；对每个音频帧的调整后的频谱数据进行傅里叶逆变换，得到目标音频的基音波形数据。

在实施中，终端将其它频率对应的振幅置零，也即是终端将这些频率对应的振幅衰减至零，在每一帧音频中，终端进而得到目标频率对应的目标振幅，非目标频率对应的振幅为零的频谱数据。然后终端对只含有目标振幅的频谱数据，利用上述的傅里叶逆变换，得到只含有目标频率的波形数据，也即是每一帧音频的基音波形数据，最终得到目标音频的基音波形数据。

方式二，终端基于每个音频帧对应的目标振幅和目标频率，分别生成每个音频帧的调整后的频谱数据；对每个音频帧的调整后的频谱数据进行傅里叶逆变换，得到目标音频的基音波形数据。

在实施中，对于每一帧音频，终端确定出目标频率和目标振幅之后，可以生成目标频率对应的振幅值为目标振幅，其它频率对应的振幅为零的频谱数据，然后对该频谱数据再利用上述的傅里叶逆变换，也可以得到只含有目标频率的波形数据，也即是每一帧音频的基音波形数据，最终得到目标音频的基音波形数据。

上述两种方式的数学处理过程虽然不相同，但是最终得到的结果一样，方式一通过将每帧频谱数据中的非目标频率对应的振幅置零得到调整后的频谱数据；而方式二是终端确定目标频率和目标振幅之后，将目标频率和目标振幅提取出来与振幅值为零的其它频率一起生成调整后的频谱数据。可见，二者得到的调整后的频谱数据相同，那么经过傅里叶逆变换得到的基音波形数据也相同。这样，终端基于目标音频的基音波形数据可以获取该目标音频的振动周期以及每个周期的起始时间点和结束时间点等。

基于上述所述，终端使用上述方法首先对目标音频中的每个音频帧进行音高提取，得到每个音频帧对应的目标频率，由于音高与基音的振动频率成正比，进而可以确定每一帧音频中基音的平均频率，记为该音频帧的目标频率；然后，终端对每个音频帧，基于音频帧对应的目标频率，在音频帧的频谱数据中，确定对应的目标振幅；最后，终端基于每个音频帧对应的目标振幅和目标频率，确定目标音频的基音波形数据。这种通过每一帧音频的音高确定每一帧音频中基音的平均频率，然后基于基音的平均频率对每一帧音频进行频域滤波得到每一帧音频的基音波形数据，最后得到目标音频的基音波形数据的方法，可以准确得到目标音频的基音振动情况。

可选的，终端利用上述方法获取目标音频的基音波形数据之后，对上述目标音频进行音调调整，相应的处理可以是，终端可以基于目标音频的基音波形数据、预先储存的与目标音频相对应的标准音高数据，对目标音频进行音调调整。

其中，标准音高数据在终端中以音符数据的形式存储，一个音符通常由三个数据组成该音符的音高，该音高的起始时间和结束时间，音高由频率值表示，每个音高所持续的时长通常为几秒，例如3秒等。通过上述方法获取的基音波形数据中每一帧基音波形数据只含有一种频率的，因此每一帧基音波形数据都具有周期性，一帧基音波形数据中可能含有多个周期波形数据，这样，每一帧基音波形数据中的周期时长通常为几个毫秒。这样，标准音高数据中每个音高的持续时长内会覆盖多个基音波形数据的周期，进而，在比较基音波形数据与标准音高数据中，只需比较在相对应的时长内二者的频率值。

上述对目标音频进行音调调整可以用对目标音频进行变音调不变音色的算法(该算法又称Lent变音调不变音色算法)。在实施中，终端利用变音调不变音色算法，基于目标音频的基音波形数据、标准音高数据，对目标音频进行音调调整，其中上述变音调不变音色的算法原理可以为，将基音波形数据中每个周期对应的频率值与标准音高数据中对应时间段内的标准频率值进行比较，如果某一周期的频率值与相对应的标准频率值存在差别，则对该周期的目标音频进行调整，如果某一周期的频率值与相对应的标准频率值不存在差别，则不对该周期的目标音频进行音调调整。变音调不变音色的算法对基音波形数据与标准音高数据的具体比较可以是：

例如，对于基音波形数据的某一周期的起始时间点为15.050秒，结束时间点为15.052秒，则该周期对应的频率值为500赫兹，标准音高数据中15秒到16秒之间的音高频率为ω₀，500赫兹与ω₀进行比较。如果500赫兹与ω₀之差的绝对值在预设范围内，其中，该预设范围为接近于零的范围，则可以认为上述周期的频率值与标准音高数据中的音高频率相等，终端不对该周期内的目标音频进行调整。如果500赫兹与ω₀之差的绝对值不在预设范围内，则终端利用变音调不变音色的算法对该周期内的目标音频进行调整。

上述方法的在实际应用中的场景可以是：

当用户使用多媒体设备进行唱歌时，多媒体设备的麦克风将采集的人声音频，发送给多媒体终端的处理器。处理器首先将人声音频划分为多个音频帧，并对每个音频帧利用音高提取算法进行音高提取，得到每个音频帧的目标频率。然后，处理器对每个音频帧进行傅里叶变换，转换为频谱数据，并在每一帧频谱数据中确定目标频率对应的目标振幅。最后，多媒体设备中的处理器基于目标频率和目标振幅确定人声音频的基音波形数据。多媒体确定人声音频的基音波形数据之后，基于基音波形数据、上述歌曲的标准音高数据，对人声音频的波形数据进行相应调整，以使多媒体设备向外输出的歌声与上述歌曲标准的歌声比较接近。

例如，用户在使用多媒体设备唱“青藏高原”时，“青藏高原”在高潮部分的音调比较高，用户唱不上去，这个时候，多媒体设备可以基于上述方法，将采集到的用户在高潮部分的音调数据进行调整，以使用户唱出的歌声比较标准。

又例如，对于经常唱歌走调的用户，在使用多媒体设备进行唱歌时，多媒体设备可以利用上述方法，将采集到的用户的音调数据进行调整，以使用户唱出的歌声比较标准。

本公开实施例还提供了一种获取基音波形数据的装置，该装置可以是上述实施例中的终端，如图2所示，所述装置包括：

提取模块210，用于对目标音频中每个音频帧进行音高提取，得到每个音频帧对应的目标频率；

第一确定模块220，用于对于每个音频帧，基于所述音频帧对应的目标频率，在所述音频帧的频谱数据中，确定对应的目标振幅；

第二确定模块230，用于基于每个音频帧对应的目标振幅和目标频率，确定所述目标音频的基音波形数据。

可选的，所述第一确定模块220，具体用于：

可选的，所述第二确定模块230，具体用于：

可选的，如图3所示，所述装置还包括：

调整模块240，用于基于所述目标音频的基音波形数据、预先储存的与所述目标音频相对应的标准音高数据，对所述目标音频进行音调调整。

本公开实施例中，终端如多媒体设备使用上述装置先对目标音频中的每个音频帧进行音高提取，得到每个音频帧对应的目标频率；对于每个音频帧，基于音频帧对应的目标频率，在音频帧的频谱数据中，确定对应的目标振幅；基于每个音频帧对应的目标振幅和目标频率，确定目标音频的基音波形数据。这种根据音高与基音的振动频率成正比，通过每一帧音频的音高确定每一帧音频中基音的平均频率，然后基于基音的平均频率得到每一帧音频的基音波形数据，最后得到目标音频的基音波形数据的方法，可以准确得到目标音频的基音振动情况。

需要说明的是：上述实施例提供的获取基音波形数据的装置在获取基音波形数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的获取基音波形数据的装置与获取基音波形数据的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

根据本公开实施例还提供了一种音频处理的装置，所述装置包括音频调整模块，用于：

本公开实施例中，终端如多媒体设备使用上述获取基音波形数据的装置准确得到目标音频的基音振动情况之后，终端再基于目标音频的基音波形数据、标准音高数据，对目标音频进行音调调整，进而可以使目标音频的音调与标准音高数据的音调比较接近。

需要说明的是：上述实施例提供的音频处理的装置在进行音频处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频处理的装置与音频处理的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

根据本公开还提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现上述所述的获取基音波形数据的方法。

图4示出了本发明一个示例性实施例提供的终端400的结构框图。该终端400可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端400包括有：处理器401和存储器402。

处理器401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器401所执行以实现本申请中方法实施例提供的XXXX方法。

在一些实施例中，终端400还可选包括有：***设备接口403和至少一个***设备。处理器401、存储器402和***设备接口403之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口403相连。具体地，***设备包括：射频电路404、触摸显示屏405、摄像头406、音频电路407、定位组件408和电源409中的至少一种。

***设备接口403可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器401和存储器402。在一些实施例中，处理器401、存储器402和***设备接口403被集成在同一芯片或电路板上；在一些其他实施例中，处理器401、存储器402和***设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路404包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路404还可以包括NFC(Near Field Communicati^on，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏405是触摸显示屏时，显示屏405还具有采集在显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。此时，显示屏405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏405可以为一个，设置终端400的前面板；在另一些实施例中，显示屏405可以为至少两个，分别设置在终端400的不同表面或呈折叠设计；在再一些实施例中，显示屏405可以是柔性显示屏，设置在终端400的弯曲表面上或折叠面上。甚至，显示屏405还可以设置成非矩形的不规则图形，也即异形屏。显示屏405可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件406用于采集图像或视频。可选地，摄像头组件406包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器401进行处理，或者输入至射频电路404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路407还可以包括耳机插孔。

定位组件408用于定位终端400的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件408可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。

电源409用于为终端400中的各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于：加速度传感器411、陀螺仪传感器412、压力传感器413、指纹传感器414、光学传感器415以及接近传感器416。

加速度传感器411可以检测以终端400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器411可以用于检测重力加速度在三个坐标轴上的分量。处理器401可以根据加速度传感器411采集的重力加速度信号，控制触摸显示屏405以横向视图或纵向视图进行用户界面的显示。加速度传感器411还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器412可以检测终端400的机体方向及转动角度，陀螺仪传感器412可以与加速度传感器411协同采集用户对终端400的3D动作。处理器401根据陀螺仪传感器412采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器413可以设置在终端400的侧边框和/或触摸显示屏405的下层。当压力传感器413设置在终端400的侧边框时，可以检测用户对终端400的握持信号，由处理器401根据压力传感器413采集的握持信号进行左右手识别或快捷操作。当压力传感器413设置在触摸显示屏405的下层时，由处理器401根据用户对触摸显示屏405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器414用于采集用户的指纹，由处理器401根据指纹传感器414采集到的指纹识别用户的身份，或者，由指纹传感器414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器401授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器414可以被设置终端400的正面、背面或侧面。当终端400上设置有物理按键或厂商Logo时，指纹传感器414可以与物理按键或厂商Logo集成在一起。

光学传感器415用于采集环境光强度。在一个实施例中，处理器401可以根据光学传感器415采集的环境光强度，控制触摸显示屏405的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏405的显示亮度；当环境光强度较低时，调低触摸显示屏405的显示亮度。在另一个实施例中，处理器401还可以根据光学传感器415采集的环境光强度，动态调整摄像头组件406的拍摄参数。

接近传感器416，也称距离传感器，通常设置在终端400的前面板。接近传感器416用于采集用户与终端400的正面之间的距离。在一个实施例中，当接近传感器416检测到用户与终端400的正面之间的距离逐渐变小时，由处理器401控制触摸显示屏405从亮屏状态切换为息屏状态；当接近传感器416检测到用户与终端400的正面之间的距离逐渐变大时，由处理器401控制触摸显示屏405从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图4中示出的结构并不构成对终端400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本公开的又一实施例提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行：

可选的，所述方法还包括：

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由上面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种获取基音波形数据的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对于每个音频帧，基于所述音频帧对应的目标频率，在所述音频帧的频谱数据中，确定对应的目标振幅，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于每个音频帧对应的目标振幅和目标频率，确定所述目标音频的基音波形数据，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于每个音频帧对应的目标振幅和目标频率，确定所述目标音频的基音波形数据，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

6.一种音频处理的方法，其特征在于，所述方法包括：

将权利要求1-5任一项所述的基音波形数据中每个周期对应的频率值，分别与标准音高数据中在时间上相对应的标准频率值进行比较，如果频率值与标准频率值之差的绝对值大于预设数值，则对所述频率值所在周期的目标音频进行调整。

7.一种获取基音波形数据的装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述第一确定模块，具体用于：

9.根据权利要求8所述的装置，其特征在于，所述第二确定模块，具体用于：

10.根据权利要求8所述的装置，其特征在于，所述第二确定模块，具体用于：

11.根据权利要求7-10任一项所述的装置，其特征在于，所述装置还包括：

12.一种音频处理的装置，其特征在于，所述装置包括音频调整模块，用于：

将权利要求7-11任一项所述的基音波形数据中每个周期对应的频率值，分别与标准音高数据中在时间上相对应的标准频率值进行比较，如果频率值与标准频率值之差的绝对值大于预设数值，则对所述频率值所在周期的目标音频进行调整。

13.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至5任一所述的获取基音波形数据的方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至5任一所述的获取基音波形数据的方法。