CN112397102B

CN112397102B - 音频处理方法、装置及终端

Info

Publication number: CN112397102B
Application number: CN201910749571.8A
Authority: CN
Inventors: 胡贝
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2022-07-08
Anticipated expiration: 2039-08-14
Also published as: CN112397102A

Abstract

本申请公开了一种音频处理方法、装置及终端，在该方法中，将检测到第一音频信号之前的音频录制存储至第一音频文件，通过将第一音频文件中的目标音频片段和检测到的与第一音频信号相匹配的音频数据共同得到目标音频文件。使得能够在不满足第一音频信号的音频中获取到相应的音频片段添加至检测到的音频数据中，能够避免以第一音频信号作为检测点的部分音频数据的丢失，若第一音频信号表征有声音的信号，从而可以减少语音数据的丢失，满足了用户的需求。

Description

音频处理方法、装置及终端

技术领域

本申请涉及技术领域，尤其涉及一种音频处理方法、装置及终端。

背景技术

语音活动检测是从声音信号流里识别和消除长时间的静音期，使得最终保留的音频文件为识别到的有声音的音频，但是由于环境等因素的影响，最终保留的音频文件可能会丢失部分语音数据，从而无法满足用户的需求。

发明内容

有鉴于此，本申请提供了一种音频处理方法、装置及终端，以使得能够减少音频数据的丢失，满足了用户需求。

为实现上述目的，一方面，本申请提供了一种音频处理方法，包括：

启动音频录制，响应于检测到第一音频信号，将已录制的音频生成第一音频文件；

在第一音频文件中获取目标音频片段，并将所述目标音频片段存储至第二音频文件；

将检测到的与所述第一音频信号相匹配的音频数据，写入到所述第二音频文件，获得目标音频文件。

在一种可能的实现方式中，所述在所述第一音频文件中获取目标音频片段，包括：

获取第一音频文件对应的音频录制时长和与所述第一音频信号相匹配的音频数据的音频时长；

根据所述音频录制时长和所述音频时长，获得回溯音频时长；

在所述第一音频文件中提取所述回溯音频时长对应的音频片段，得到目标音频片段。

在又一种可能的实现方式中，所述在所述第一音频文件中提取所述回溯音频时长对应的音频片段，得到目标音频片段，包括：

根据所述回溯音频时长，获得回溯音频长度；

获取所述第一音频文件的结束音频帧；

在所述结束音频帧向前选取长度为所述回溯音频长度的音频片段，得到目标音频片段。

又一方面，本申请还提供了一种音频处理装置，包括：

生成单元，用于启动音频录制，响应于检测到第一音频信号，将已录制的音频生成第一音频文件；

获取单元，用于在第一音频文件中获取目标音频片段，并将所述目标音频片段存储至第二音频文件；

写入单元，用于将检测到的与所述第一音频信号相匹配的音频数据，写入到所述第二音频文件，获得目标音频文件。

又一方面，本申请还提供了一种终端，包括：

处理器和存储器；

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

可见，将检测到第一音频信号之前的音频录制存储至第一音频文件，通过将第一音频文件中的目标音频片段和检测到的与第一音频信号相匹配的音频数据共同得到目标音频文件。使得能够在不满足第一音频信号的音频中获取到相应的音频片段添加至检测到的音频数据中，能够避免以第一音频信号作为检测点的部分音频数据的丢失，若第一音频信号表征有声音的信号，从而可以减少语音数据的丢失，满足了用户的需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本申请实施例的一种音频处理***的组成框架示意图；

图2示出了本申请实施例的一种音频处理方法的流程交互示意图；

图3示出了本申请实施例的一种音频数据的波形图；

图4示出了本申请实施例的一种音频应用显示界面一示例图；

图5示出了本申请实施例的一种获取目标音频片段方法的流程示意图；

图6示出了本申请实施例的一种音频数据回溯的一示例图；

图7示出了本申请实施例的一种音频检测场景的一示例图；

图8示出了本申请实施例的又一种获取目标音频片段方法的流程示意图；

图9示出了本申请实施例的一种音频处理装置一个实施例的组成示意图；

图10示出了本申请实施例的一种终端的组成结构示意图。

具体实施方式

本申请的方案可以在对音频录制、音频识别等音频应用过程中，较为准确地获取到满足需求的音频文件，以减少某些音频数据的丢失。

其中，在本申请实施例中，音频是指场景中存在的声音，该声音可能被人耳识别到，也可能无法被人耳识别到，并且该声音包括一些具有特定特征的声音信号，也可能包括噪声等声音信号。

为了便于理解本申请的音频处理方法，下面对本申请的音频处理方法所适用的***进行介绍。请参见附图1，其示出了本申请一种音频处理***一种组成架构示意图。

如图1所示，本申请实施例提供的音频处理***包括：音频终端10和服务器11。音频终端10与服务器11之间通过网络12实现通信连接。

其中，音频终端10可以为手机、平板电脑等移动终端，也可以为具有音频采集功能的个人计算机等固定终端。

在本申请实施例中，音频终端10可以该终端设置或者连接有麦克风等音频采集部件采集需要进行录制的音频，并通过网络12将录制的音频文件传输给服务器11。

相应的，服务器11会根据音频终端采集到的音频生成最终的目标音频文件，通过音频终端10输出或存储，或者存储在服务器11的数据库中，便于后续的应用。

需要说明的是，在音频终端10进行音频采集或音频录制过程中，其采用的是分段采集的模式，即音频终端先进行音频录制，获得第一音频文件，并且该第一音频文件是在检测到第一音频信号之前录制的。假设音频终端是对用户发出的声音进行录制，则该音频终端在对声音进行录制过程中采用的分段采集模式对于用户来说是无感的，即用户只需要发出对应的待录制的声音即可，其无法感受到音频终端是采用分段采集的模式进行录制的。

第一音频信号表征了检测门限，其可以代表声音的分贝值，也可以表示具有特定特征的声音，如女士声音、儿童声音等。由于第一音频信号为检测门限相关的信号参数或者信号特征，在进行音频数据检测时由于门限值的设定或者采集的延时，会使得某些符合或者近似采集或者录制标准的音频数据丢失。例如，需要对用户的说话声音进行录制，若设定一个声音分贝阈值，即检测到声音高于高阈值时会录制当前的声音数据，作为最终的目标音频文件，这样会使得如果用户出现较小声音，这部分声音数据会丢失。另外，如过将声音分贝阈值设置一个很小的值，如接近零，这样录制的音频文件中又会包括大量的非必要音频片段，这就使得录制的音频文件在存储或传输过程中占用大量的资源，效果较差。

因此，在本申请实施例中将检测到第一音频信号之前的音频数据先进行存储得到第一音频文件，然后将检测到的与第一音频信号相匹配的音频数据再进行存储，这样可以通过在先存储的第一音频文件和实际检测到的匹配第一音频信号的音频数据来获得目标音频文件。具体的，是通过在第一音频文件中获取目标音频片段，先将该目标音频片段存储至第二音频文件，然后将检测到的与第一音频信号相匹配的音频数据继续存储至第二音频文件中，直至无法检测到与第一音频信号相匹配的音频数据为止，此时的第二音频文件为目标音频文件。其中，在第一音频文件中获取到的目标音频片段可以为与第一音频信号具有相似特征的音频数据，如第一音频信号表征声音分贝阈值，则目标音频片段为小于该声音分贝阈值的一定分贝范围内的声音数据；该目标音频片段也可以是由于检测延时造成的丢失声音数据，如，当检测到第一音频信号进行存储时，可能会存在录制延时，这就造成部分声音数据没有录制到相应的音频文件中，而这部分音频数据由于存储到了第一音频文件中，可以在其中提取到对应的目标音频片段，与录制的声音数据相组合，形成最终的目标音频文件。

音频终端在对检测到第一音频信号之前的音频进行录制的第一录制模块，可以与对检测到的与第一音频信号相匹配的音频数据的第二录制模块不是同一录制模块，当然也可以为同一模块。如图1所示，在音频终端10录制得到了第一音频文件后，会发送给服务器11，此时服务器11会将第一音频文件存储至服务器中的音频数据库110中，然后服务器11会从中获取目标音频片段，将其存储至第二音频文件，在存储目标音频片段之前第二音频文件为空。然后音频终端10在检测到第一音频信号之后，会将之后的音频数据继续写入到第二音频文件中，需要说明的是，写入到第二音频文件中的音频数据是与第一音频信号相匹配的音频数据，其中，相匹配是指音频数据与第一音频信号具有相同特性或者符合一定的偏差范围内的音频数据，如第一音频信号表示的声音分贝阈值，即当检测到与当前声音分贝阈值相同，或者声音分贝在上下浮动的一定范围内的声音数据均可以作为与第一音频信号相匹配的音频数据进行存储。

可选地，音频终端中可以运行有应用，如音频录制应用，英语学习应用等，该应用用于与服务器通信连接，音频终端通过该应用与该服务器进行信息交互。

下面对终端与服务器之间的交互过程进行详细介绍。

请参见图2，其示出了本申请一种音频处理方法一个实施例的流程交互示意图，本实施例的方法可以包括：

S201、终端启动音频录制，响应于检测到第一音频信号，将已录制的音频生成第一音频文件。

其中，终端可以根据启动指令来进行音频录制，该启动指令可以为伴随着终端中对应的音频应用的启动产生的指令，如终端中的配音应用，当用户点击进入到该配音应用时，就会生成一个启动指令，来指示终端启动音频录制功能，即开始记录当前的音频数据。对应的该启动指令也可以为根据时间设置的一个定时启动指令，如在用户选定某个音频应用之后的预设时长后启动音频录制，如用户启动音频应用的5s后开始进行音频录制。当然启动指令也可以为用户输入的指令，如用户点击开始录制按钮生成音频录制指令。此时用户点击开始录制按钮时，用户并不一定马上说话，或者其说话的声音分贝并不一定能够达到检测的分贝阈值，由于这时已经进行了音频录制，会将此时检测到的音频数据实时记录到第一音频文件中。

在一种可能的情况中，在检测到第一音频信号之前，终端启动的音频录制功能可能是终端运行应用之后，由应用启动的音频录制功能，即由终端的应用实现对检测到第一信号之前的音频录制。

在又一种可能的情况中，在检测到第一音频信号之前，又终端的音频录制功能模块对音频数据进行录制，即终端中的音频应用只记录检测到第一音频信号之后的音频数据，在此之前的音频数据由终端中非该音频应用的录制功能模块进行录制，这样可以减少音频应用的响应范围，使得音频应用中缓存的文件数量最少，便于后续的使用和管理。

S202、终端将第一音频文件发送至服务器；

S203、服务器在第一音频文件中获取目标音频片段；

S204、服务器将目标音频片段存储至第二音频文件；

S205、服务器将第二音频文件发送至终端。

其中，第一音频文件为在检测到第一音频信号之前录制的音频数据，例如，第一音频信号表征用户说话的信号，则第一音频文件记录的是用户说话之前的音频数据。

在本申请实施例中，在终端生成第一音频文件之后，可以将第一音频文件直接发送给服务器，也可以对第一音频文件中的音频数据进行格式转换后发送给服务器，还可以生成第一音频文件的文件标识，将带有文件标识的第一音频文件发送给服务器，其中，文件标识可以为音频录制的时间标识、终端标识或者其他可以区分该音频文件与其他音频文件的标识信息。

服务器在获取到第一音频文件之后，并且终端已经检测到第一音频信号，则服务器会在第一音频文件中获取目标音频片段，该目标音频片段至少包括部分第一音频文件的音频数据，服务器可以预先存储有针对不同音频应用的音频片段提取规则，也可以基于当前音频应用的采样参数来提取目标音频片段。

在一种可能的情况下，若服务器存储有针对某个音频应用的音频片段提取规则，则当检测到终端发送的第一音频文件为针对该音频应用，则会调用针对该音频应用的提取规则，来提取第一音频文件中的目标音频片段。其中，该提取规则可以直接定义提取音频片段的起始音频帧位置，和要提取的音频片段长度；也可以直接定义音频片段长度，此时默认的从第一音频文件的末尾音频帧向前提取此音频片段长度的音频帧，作为目标音频片段。之所以采用从后向前的模式进行提取，是由于越接近检测到第一音频信号的音频帧越有可能存在与第一音频信号相匹配的音频特征，并且与检测到的第一音频信号之后的音频数据越具有连贯性，便于后续的使用和分析。

在又一种可能的情况下，若服务器没有存储有针对音频应用的提取规则，则会采用默认的提取规则，即服务器分析终端当前运行的音频应用的音频采样参数，依据该采样参数来计算待提取的音频片段的长度，然后根据该音频片段的长度进行音频提取，获得目标音频。

又如，第一音频信号表征具有特殊音色的音频数据，则服务器可以通过提取模型在第一音频文件中获取与该特殊音色相匹配的音频数据，该提取模型是通过大量的不同音色、不同分贝的声音数据训练而成的，因此可以在第一音频文件中的音频数据中识别到与目标特殊音色具有相同音色但是声音分贝有可能不同的音频数据。

当然，音频片段的提取条件还可以有其他可能，在此不加以限制。

为了便于后续分析和使用的便捷性，服务器在提取到目标音频片段后，将目标音频片段存储至第二音频文件，该第二音频文件在存储目标音频片段之前其为空的文件。其中，目标音频片段可以作为第二音频文件的起始音频片段，也可以根据需求作为第二音频文件在存储其他音频数据后中的一部分，但是需要与其他音频数据进行区分，可以通过设置其存储标识进行区分，也可以通过设置其存储起始和结束帧进行区分。

当服务器将目标音频片段存储至第二音频文件后，会将第二音频文件发送给终端，便于终端后续的应用。

S206、终端将检测到的与第一音频信号相匹配的音频数据，写入到第二音频文件，获得目标音频文件。

由于第二音频文件中存储了在第一音频文件中提取到的目标音频片段，然后终端将持续检测到的与第一音频信号相匹配的音频数据，继续写入到第二音频文件中，直至无法检测到与第一音频信号相匹配的音频数据。此时的第二音频文件中不仅包括目标音频片段，还包括检测到的符合预期条件的音频数据，这时将第二音频文件作为目标音频文件，进行保存或者输出。

为了便于理解，结合图3的一种音频数据的波形图，对本申请实施例提供的一种音频处理方法进行说明。在图3(a)表示了一段完成的音频数据波形图，若采用现有技术中的音频处理方法，即设置一个音频检测门限，如将第一音频信号作为该音频检测门限，当检测到第一音频信号后开始录制音频生成一个音频文件，该音频文件中的音频数据的波形图为如图3(b)所示，可见其丢失了一部分音频数据，该丢失部分的音频数据为图3(c)所示。本申请实施例的目的是将丢失的音频数据还原回来，然后拼接到图3(b)所示的音频数据的前面，得到目标音频文件中的音频数据，该音频数据的波形图如图3(d)所示。

该现有技术进行音频数据处理的方法可以为语音活动检测(VoiceActivityDetection，VAD)又称语音端点检测或者语音边界检测。目的是从声音信号流里识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用，静音抑制可以节省宝贵的带宽资源，可以有利于减少用户感觉到的端到端的时延。因此，本申请实施例中提供的音频处理方法可以用来解决VAD在做前向静音检测时，由于环境噪声，用户说话声音大小以及语速等原因，使得实际说话开始到检测到语音之间有一定的判断门限和延时，造成在判断用户是否开口说话时会有误差，最终导致前向静音检测会丢失部分用户语音的问题。即可以通过先保存的第一音频文件中提取目标音频片段来还原至检测到的音频数据中，形成完整的音频数据，避免丢失部分用户语音。

下面以一个具体的应用实例对本申请的音频处理方法进行说明。参见图4，其示出了一种音频应用显示界面示例图。即终端中显示的该音频应用为儿童英语跟读应用。在界面上会显示儿童需要根据的英语单词和该单词对应的图片，如“Dog”，并且当显示界面上显示麦克风图标时，表示儿童需要对该单词进行朗读，如果儿童在麦克风图标出现之后，一段时间内都没有说话，在图4中进度条现有的位置才开始说话，这时候可以利用VAD做前向静音检测来采集开始说话的声音数据，而在此之前的音频数据会作为第一音频文件进行保存，从中提取目标音频片段，该目标音频片段可能为声音分贝较小的音频片段，也可能为由于延时丢失的音频片段，然后将该音频片段存储至采集到的开始说话的声音数据之前，这样在回放的时候可以了解儿童跟读的具体情况，该提取到的目标音频片段可能是儿童声音分贝较小的音频片段，可以通过分析该音频片段了解到儿童跟读的一些缺陷，如发音不准或者掌握不牢固等问题，以帮助儿童能够更好地学习英语。

另一方面，不采集前面这段没有说话的数据，即不将VAD检测获得的认为是静音片段的音频片段直接添加到采集到的声音数据中，是为了避免大量静音片段的存在占用带宽和存储空间。这是由于类似于上述的英语跟读应用，需要将学生的跟读音频上传至服务器或对应的外教终端，通过本申请提供的音频处理方法，可以避免将包括大量静音片段的音频数据发送时占用过多的带宽造成的传输速度较慢的问题，也可以避免丢失有效音频片段。

下面对本申请的可能实现方式进行说明。

在本申请的另一实施例中提供了一种获取目标音频片段的方法，参见图5，其示出了获取目标音频片段的方法流程图。该方法可以包括：

S501、获取第一音频文件对应的音频录制时长和与第一音频信号相匹配的音频数据的音频时长；

S502、根据音频录制时长和音频时长，获得回溯音频时长；

S503、在第一音频文件中提取回溯音频时长对应的音频片段，得到目标音频片段。

在该实施例中，是通过设置时间参数来提取第一音频文件中的目标音频片段的。在一种可能实现方式中是获取第一音频文件的音频录制时长和与第一音频信号相匹配的音频数据的音频时长，若第一音频信号表示用户开始说话的信号，则音频录制时长可以理解为静音时长，音频时长可以理解为有声音的时长。

在另一种实现方式中可以是通过总时长和有声音的音频时长进行提取。以VAD检测为例，其判断在检测单元(begin_confirm_window)时间长度内，有音频时长(如以参数begin_confirm表示)对应的时间长苏是有声音的，就说明用户开始说话，不再是静音状态。

然后，根据上述获得的时间参数，来计算回溯音频时长，这种通过时间参数来获取回溯音频时长的方式更能体现音频采集时间上的连贯性以及回溯丢失片段的准确性。

其中，回溯音频时长表示需要在第一音频文件中回溯该时长的音频数据，由于是回溯，则从第一音频文件的末尾音频向前选取该时长对应的音频数据，作为目标音频片段。

需要说明的是，回溯音频时长其反映的是时间参数，在对第一音频数据中进行音频片段提取时提取的是相应的音频字节，则需要根据回溯音频时长，获取回溯音频长度。具体的，可以根据时长与音频字节长度的对应关系来确定回溯音频长度，也可以根据当前终端运行的音频应用的采样数据，并通过回溯音频时长来计算回溯音频长度的字节数。

在确定了回溯音频长度即需要回溯的音频字节数后，需要获取第一音频文件的结束音频帧，在该结束音频帧向前选取长度为回溯音频长度的音频片段，得到目标音频片段。

参见图6，其示出了一种音频数据回溯示例图，在图6中，601表示第一音频文件中的音频数据的音频长度，602表示第一音频文件的结束音频帧，603表示回溯音频长度，604表示目标音频片段。即在确定了回溯音频长度后，从第一音频文件的结束音频帧向前选取该回溯音频长度对应的音频字节，作为目标音频片段。

在本申请实施例中还提供了一种获取回溯音频长度的方法，该方法是通过回溯音频时长计算获得回溯音频长度的。首先需要获取预设采样参数，该预设采样参数表征终端当前运行的音频应用的采样参数，或者终端本身的音频采样参数，其实质是需要获的音频文件的采样参数，即与音频应用产品的业务相关。

具体的，预设采样参数可以包括采样率、采样位数和声道数，之所以通过预设采样参数来计算回溯音频长度即回溯的音频字节大小，是为了能够将回溯的音频与检测到的与第一音频信号相对应的音频数据具有统一的采样参数。其中，回溯音频长度＝回溯音频时长*采样率*采样位数*声道数，即通过上式可以计算获得回溯的字节大小。

下面以具体应用实例对上述音频处理方法进行说明。参见图7，其示出了音频检测场景的一示例图。在该音频检测场景中是为了检测获得用户开口说话后的数据，采用VAD检测方式，通过麦克风接收用户的语音数据。

检测麦克风获取到的语音数据，该语音数据表示实时的音频数据，可能有声音也可能没有声音。然后，利用VAD做前向静音检测，检测用户的声音是从哪个部分开始从无到有的，将开始说话之前的所有音频数据保存在第一音频文件中，后续通过从这个第一音频文件中获取音频数据来追加到录音文件中。

当检测到用户的声音从无到有时，先根据VAD检测时设置的检测单元的时间长度参数计算出需要回溯的音频时间长度。

例如，用begin_confirm_window表示检测单元的时间，则

回溯时间＝begin_confirm_window*采样率*采样位数*声道数。

获得需要回溯的时间长度之后，通过回溯时间*采样率*采样位数*声道数得到需要回溯的字节大小。然后从上述第一音频文件中保存的音频数据中，从后往前获取计算出的回溯的字节大小的长度的数据，将其先写入需要保存的录音文件中。

将检测到用户开口说话之后的数据继续写入到录音文件中，直到用户说话结束或者录音结束。此时的录音文件就是做了前向静音检测优化之后得到的录音文件，即不全了丢失的语音数据的音频文件。

在本申请实施例中通过前向静音检测减少了目标音频文件中包含的静音片段，从而减少了音频数据上传下载过程中的流量；在后续的一些需要使用到这些音频文件作为素材的活动中，做了前向静音检测之后，能够达到更好的效果。

在本申请的另一实施例中还提供了一种获取目标音频片段，参见图8，其示出了一种获取目标音频片段方法的流程示意图，该方法包括：

S801、获取与所述第一音频信号对应的第二音频信号；

S802、在第一音频文件中提取与第二音频信号相匹配的音频片段，得到目标音频片段。

其中，所述第二音频信号的分贝值小于所述第一音频信号的分贝值。即该方法是通过降低检测门限来获取目标音频片段的。以对用户的说话声音进行VAD检测为例，由于从实际讲话开始到检测到语音之间有一定的判断门限和时延，有时语音波形的开始和结束部分会作为静音被丢掉，还原的语音会出现变化，因此需要在突发语音前面增加一个语音分组进行平滑来结束这一问题，该语音分组即为目标音频片段，其是通过降低检测门限获得的。即若第一音频信号的分贝值为A，第二音频信号的分贝值为B，则B小于A，且小于A的比例范围大于A分贝浮动比例范围。

需要说明的是，在本申请实施例中将已录制的音频生成第一音频文件时，需要将其转换为目标格式，并且该目标格式与第一音频信号的格式相同，即其实质是与音频采集有目标音频的格式相同，便于后续音频的拼接。

如，将第一音频文件中的音频数据保存到一个二进制数组里面，即使得其以二进制格式进行存储。因为声音采集模块如麦克风设备将声音转换成了二进制数据，这里直接保存二进制数据便于后续的使用，也可以使用其它格式，不过需要先转换成其它格式，然后使用这些音频数据的时候再转回二进制格式。

在上述实施例的基础上，该音频处理方法还包括：

对目标音频文件进行降噪处理，使得所述目标音频文件的音频属性匹配所述第一音频信号的音频属性。

通过对目标音频文件中的音频数据进行降噪处理，能够去除掉较大的噪声，可以使得目标文件中的环境音与第一音频信号的环境音相同，即与用户说话时的环境音相同。

当然也可以对第一音频文件进行降噪处理，实现在较大的背景噪声中提取到有效的目标音频片段。对于具体的降噪方法本申请实施例中不做限制，如可以采用speex、WebRCT等开源方式进行降噪处理。

又一方面，本申请还提供一种音频处理装置，如参见图9，其示出了本申请一种音频处理装置的一个实施例的组成示意图，本实施例的装置可以应用于终端，该装置可以包括：

生成单元901，用于启动音频录制，响应于检测到第一音频信号，将已录制的音频生成第一音频文件；

获取单元902，用于在第一音频文件中获取目标音频片段，并将所述目标音频片段存储至第二音频文件；

写入单元903，用于将检测到的与所述第一音频信号相匹配的音频数据，写入到所述第二音频文件，获得目标音频文件。

在一种可能的情况中，所述获取单元包括：

第一获取子单元，用于获取第一音频文件对应的音频录制时长和与所述第一音频信号相匹配的音频数据的音频时长；

第二获取子单元，用于根据所述音频录制时长和所述音频时长，获得回溯音频时长；

第一提取子单元，用于在所述第一音频文件中提取所述回溯音频时长对应的音频片段，得到目标音频片段。

可选地，所述第一提取子单元包括：

长度获取子单元，用于根据所述回溯音频时长，获得回溯音频长度；

音频帧获取子单元，用于获取所述第一音频文件的结束音频帧；

选取子单元，用于在所述结束音频帧向前选取长度为所述回溯音频长度的音频片段，得到目标音频片段。

可选地，所述长度获取子单元具体用于：

获取预设采样参数，所述预设采样参数包括采样率、采样位数和声道数；

按照所述预设采样参数，对所述回溯音频时长进行计算，得到回溯音频长度。

在又一种可能的情况中，所述获取单元包括：

第三获取子单元，用于获取与所述第一音频信号对应的第二音频信号，其中，所述第二音频信号的分贝值小于所述第一音频信号的分贝值；

第二提取子单元，用于在所述第一音频文件中提取与所述第二音频信号相匹配的音频片段，得到目标音频片段。

可选地，所述生成单元包括：

格式转换子单元，用于将已录制的音频转换为目标格式，获得第一音频文件，所述目标格式与所述第一音频信号的格式相同。

可选地，在以上任意一个装置的实施例中，该装置还包括：

降噪单元，用于对目标音频文件进行降噪处理，使得所述目标音频文件的音频属性匹配所述第一音频信号的音频属性。

另一方面，本申请还提供了一种终端，如参见图10，其示出了本申请的终端的一种组成结构示意图，本实施例的终端1000可以包括：处理器1001和存储器1002。

可选的，该终端还可以包括通信接口1003、输入单元1004和显示器1005和通信总线1006。

处理器1001、存储器1002、通信接口1003、输入单元1004、显示器1005、均通过通信总线1006完成相互间的通信。

在本申请实施例中，该处理器1001，可以为中央处理器(CentralProcessingUnit，CPU)，特定应用集成电路，数字信号处理器、现成可编程门阵列或者其他可编程逻辑器件等。

该处理器可以调用存储器1002中存储的程序。具体的，处理器可以执行以上音频处理方法的实施例中的操作。

存储器1002中用于存放一个或者一个以上程序，程序可以包括程序代码，所述程序代码包括计算机操作指令，在本申请实施例中，该存储器中至少存储有用于实现以下功能的程序：

进一步地，所述在所述第一音频文件中获取目标音频片段，包括：

进一步地，所述在所述第一音频文件中提取所述回溯音频时长对应的音频片段，得到目标音频片段，包括：

根据所述回溯音频时长，获得回溯音频长度；

获取所述第一音频文件的结束音频帧；

进一步地，所述根据所述回溯音频时长，获得回溯音频长度，包括：

获取与所述第一音频信号对应的第二音频信号，其中，所述第二音频信号的分贝值小于所述第一音频信号的分贝值；

在所述第一音频文件中提取与所述第二音频信号相匹配的音频片段，得到目标音频片段。

进一步地，所述将已录制的音频生成第一音频文件，包括：

将已录制的音频转换为目标格式，获得第一音频文件，所述目标格式与所述第一音频信号的格式相同。

进一步地，其特征在于，该方法还包括：

在一种可能的实现方式中，该存储器1002可包括存储程序区和存储数据区，其中，存储程序区可存储操作***、以及至少一个功能(比如信息输出功能等)所需的应用程序等；存储数据区可存储根据计算机的使用过程中所创建的数据，比如，音频提取规则、降噪模型等等。

此外，存储器1002可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

该通信接口1003可以为通信模块的接口，如GSM模块的接口。

本申请还可以包括显示器1004和输入单元1005等等。

当然，图10所示的终端的结构并不构成对本申请实施例中终端的限定，在实际应用中终端可以包括比图10所示的更多或更少的部件，或者组合某些部件。

另一方面，本申请实施例还提供了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器记载并执行时，实现如上任意一个实施例中的音频处理方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频处理方法，其特征在于，包括：

终端启动音频录制，响应于检测到第一音频信号，将已录制的音频生成第一音频文件，所述第一音频信号为表征检测门限的音频信号或者具有特定特征的音频信号，所述第一音频文件为在检测到所述第一音频信号之前录制的音频文件，由终端将所述第一音频文件发送至服务器；

服务器在第一音频文件中获取目标音频片段，将所述目标音频片段存储至第二音频文件，并将所述第二音频文件发送至终端；

终端将检测到的与所述第一音频信号相匹配的音频数据，写入到所述第二音频文件，获得目标音频文件，其中，所述相匹配的音频数据是指与所述第一音频信号具有相同特性或者符合预设偏差范围内的音频数据；

所述在第一音频文件中获取目标音频片段包括：

获取与所述第一音频信号对应的第二音频信号，所述第二音频信号的分贝值小于所述第一音频信号的分贝值，在所述第一音频文件中提取与所述第二音频信号相匹配的音频片段，得到目标音频片段，其中，在所述第一音频文件中获取到的所述目标音频片段为小于所述第一音频信号表征的声音分贝阈值的预设分贝范围内的声音数据；

或者，

获取第一音频文件对应的音频录制时长和与所述第一音频信号相匹配的音频数据的音频时长，根据所述音频录制时长和所述音频时长，获得回溯音频时长，在所述第一音频文件中提取所述回溯音频时长对应的音频片段，得到目标音频片段。

2.根据权利要求1所述的方法，其特征在于，所述在所述第一音频文件中提取所述回溯音频时长对应的音频片段，得到目标音频片段，包括：

根据所述回溯音频时长，获得回溯音频长度；

获取所述第一音频文件的结束音频帧；

3.根据权利要求2所述的方法，其特征在于，所述根据所述回溯音频时长，获得回溯音频长度，包括：

4.根据权利要求1所述的方法，其特征在于，所述将已录制的音频生成第一音频文件，包括：

5.根据权利要求1所述的方法，其特征在于，该方法还包括：

6.一种终端，其特征在于，包括：

处理器和存储器；

其中，所述存储器用于存储程序，所述处理器用于执行所述存储器中存储的程序；

所述程序至少用于：

所述在第一音频文件中获取目标音频片段包括：

或者，

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器记载并执行时，执行如权利要求1至5中任意一项所述的音频处理方法。