CN111508531A

CN111508531A - 音频处理方法及装置

Info

Publication number: CN111508531A
Application number: CN202010327785.9A
Authority: CN
Inventors: 肖国坤
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2020-08-07
Anticipated expiration: 2040-04-23
Also published as: CN111508531B

Abstract

本申请实施例提供一种音频处理方法，应用于移动通信技术领域。该方法通过两个麦克风分别采集第一音频信号；对所述第一音频信号进行降噪处理，生成第二音频信号；获取所述第二音频信号中的空白音频片段；删除所述第二音频信号中的至少部分所述空白音频片段，得到目标音频。将采集到的第一音频信号去除环境噪音和空白音频片段后得到目标音频，从而保证了用户在收听音频过程中，不被无用的音频信息打断。

Description

音频处理方法及装置

技术领域

本申请实施例涉及移动通信技术领域，尤其涉及音频处理方法及装置。

背景技术

随着移动通信技术的快速发展，越来越多的电子设备带有录音功能，用户可以很方便的录音和收听音频。但在音频录制过程中，从录音开始到录音结束，电子设备不可避免的录入许多无用的音频信息。这些无用信息不仅占据电子设备内存，还降低了用户的信息接收效率。

申请内容

本申请提供音频处理方法，以解决现有技术中录制的音频包括无用信息，用户信息接收效率低的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供一种音频处理方法，包括通过两个麦克风采集对应的两个第一音频信号；对所述第一音频信号进行降噪处理，生成第二音频信号；获取所述第二音频信号中的空白音频片段；删除所述第二音频信号中的至少部分所述空白音频片段，得到目标音频。

第二方面，本申请实施例提供一种音频处理装置，包括采集模块，用于通过两个麦克风采集对应的两个第一音频信号；处理模块，用于对所述第一音频信号进行降噪处理，生成第二音频信号；获取模块，用于获取所述第二音频信号中的空白音频片段；删除模块，用于删除所述第二音频信号中的至少部分所述空白音频片段，得到目标音频。

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现上述音频处理方法的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述音频处理方法的步骤。

本申请实施例中，通过两个麦克风采集两个第一音频信号，对该第一音频信号进行降噪处理，得到去除环境噪音后的第二音频信号。对第二音频信号做进一步分析，得到至少一个空白音频片段，将空白音频片段从第二音频信号中删除，得到去除环境噪音和空白片段的目标音频。本申请实施例，将采集到的第一音频信号去除环境噪音和空白音频片段后得到目标音频，从而保证了用户在收听音频过程中，不被无用的音频信息打断。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种音频处理方法的流程图；

图2为本申请实施例提供的一种音频处理信号流；

图3为本申请实施例提供的一种降噪处理信号流；

图4为本申请实施例的降噪原理示意图；

图5为本申请实施例去噪前后的音频信号示意图；

图6为本申请实施例所提供的一种音频处理装置的框图；

图7为本申请实施例所提供的一种音频处理装置的框图；

图8为本申请实施例所提供的一种音频处理装置的框图；

图9为本申请实施例所提供的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，本申请实施例示例性的提供了一种音频处理方法，该方法包括以下步骤：

步骤101：通过两个麦克风分别采集第一音频信号。

本申请实施例中，麦克风(Microphone，MIC)用于采集声音信息，可以设置在手机、平板电脑、笔记本电脑、录音笔、音乐播放器、耳机等电子设备上。该麦克风的数量至少为两个，以便采集得到第一音频信号，该第一音频信号可以是数量与麦克风数量对应的至少两个第一音频信号，也可以是至少两个麦克风采集得到的一个总的第一音频信号，通过对第一音频信号进行处理，得到降噪音频。

需说明的是，通过多个麦克风采集第一音频信号，必然包括通过两个麦克风采集第一音频信号，因此也在本申请所保护的范围内。具体的，麦克风的数量可以为两个、三个、四个等，相应的可以采集两个、三个、四个第一音频信号，本申请实施例对此不作限制。

麦克风可以采集数字音频信号，也可采集模拟音频信号，当采集模拟音频信号时，可通过模数转换，将采集到的信号转换为数字音频信号，方便后续进一步处理音频信号，获得高质量的音频文件。为了简化电子设备结构，节约成本，也可直接对模拟音频信号进行处理，本申请实施例对信号的具体形式不作限制。

由于不同麦克风设置在不同位置，这样从同一位置声源发出的声音，传播到不同麦克风的距离不同，进而使得第一音频信号的音频特征有所不同。以麦克风设置在手机上为例，可以设置两个麦克风，分别设置在在手机内腔中与显示屏的顶部和底部对应位置，也可设置显示屏的两侧。又如，麦克风可以设置在耳机上，可以左右听筒各设置一个麦克风，也可在左听筒的内、外侧和右听筒的内、外侧分别设置麦克风。

步骤102：对所述第一音频信号进行降噪处理，生成第二音频信号。

本申请实施例对麦克风采集得到的第一音频信号进行降噪处理，得到去除环境噪音的第二音频信号。在具体处理上，可以通过单独采集环境噪音信号、根据环境噪音信号特征获取环境噪音样本或者将环境噪音设置为某个合理参数值，对采集到的第一音频信号进行去噪处理。处理时，可对采集的多个第一音频信号分别进行降噪处理后，再生成第二音频信号。也可以，直接对采集得到的一个总的第一音频信号进行降噪处理；还可以是将采集得到的多个第一音频信号合成为一个信号后，再对其进行降噪处理。对信号处理的具体方式，本申请实施例不作限制。

在本申请的一种实施例中，上述步骤102还可以包括以下子步骤：

子步骤A：对所述第一音频信号进行差分处理，得到去噪音频信号。

由于麦克风设置的位置无法完全重合，从同一声源(例如用户)处发出的声音，传播到不同麦克风时，声音包括的物理信息不尽相同，也即采集得到的第一音频信号的信号特征参数不尽相同。如图4所示，以两个麦克风为例，用户发出的声音传播到MIC1和MIC2时，MIC1和MIC2接收到的声音信息有差异，具体用户发出的一个音节信息，MIC1和MIC2接收到的声音的幅值和相位(时间)会有所不同。例如，MIC1接收到的声音相对MIC 2滞后，幅值相对较低。通常情况下，环境噪音的声源位置相对麦克风较远，待其传播到麦克风所在位置时，环境噪音相当于均匀分布在每个麦克风周围，因此环境噪音在每个麦克风处形成的声音信息差异较小。由于麦克风录音时，待录音声源(如用户的语音)与环境噪音存在这种差异，麦克风不同其位置也不同，采集到的第一音频信号也不同。而不同的第一音频信号中包括的环境噪音信息差异很小，相比之下，待录音声源发出的声音信息差异较大。因此，通过对不同的第一音频信号进行差分处理，环境噪声可以被抵消掉，而有用的待录音声源信息由于差异较大，在差分处理后，其对应的音频信息被保留。从图5的波形图可以看出，经过降噪处理后的波形波(b)相对于(a)而言，中间的噪声部分被去除了。

具体的，当只有两个麦克风，则将这两个麦克风采集到的两个第一音频信号进行差分处理，得到一个去噪音频信号(也可以认为是两个相同的去噪音频信号)。

当通过多个麦克风采集多个第一音频信号，以四个麦克风采集四个第一音频信号为例，四个麦克风可分别设置在左听筒的内、外侧和右听筒的内、外侧，由于每个麦克风设置的位置不同，相应的其接收到的第一音频信号中待录音声源信息的幅值和相位不同，但环境噪音信号基本相同。因此，将四个第一音频信号中的任意两个音频信号进行差分处理，可以去除共同的环境噪音，保留有用的待录音声源信息。

可选的，可只对四个第一音频信号中，间隔最远的两个麦克风采集的两个第一音频信号进行差分处理，得到去噪音频信号。为获得更好的音频处理效果，可选的，对四个第一音频信号中的任意两个进行差分处理，得到多个去噪音频信号，这多个去噪音频信号可能包括相同的信号。例如可将位置间隔较远的两个第一音频信号进行差分，左听筒内、外侧麦克风分别到右听筒的外侧麦克风的距离大于到右听筒的内侧麦克风的距离，则将左听筒内侧麦克风和右听筒外侧麦克风采集的第一音频信号进行差分，得到一个去噪音频信号；同样的，将左听筒外侧麦克风和右听筒外侧麦克风采集的第一音频信号进行差分，得到又一个去噪音频信号。可选的，对四个第一音频信号中的任意两个进行差分处理，得到四个去噪音频信号，这四个去噪音频信号可能包括相同的信号，例如左听筒内侧麦克风和右听筒外侧麦克风差分得到两个相同的去噪音频信号。多个去噪音频信号相对于单个去噪音频信号，能够保留更多的声音信息，产生更加立体的音效。可分别对多个去噪音频信号进行放大和删除空白音频片段处理后，将处理后的多个信号合并得到目标音频。也可以先将多个去噪音频信号合并为一个信号后再进行后续处理，本申请实施例对此不作限制。

子步骤B：对所述去噪音频信号进行放大处理，得到所述第二音频信号。

经过差分处理后的去噪音频信号，其幅值相对较小，为了得到便于收听的音频信号，对去噪音频信号进行信号放大处理。现有技术已经有成熟的信号处理方法和电路来实现信号放大，本申请实施例对此不作具体限制。

如图2至图4所示，利用麦克风接收到的待录音声源信息和环境噪音的差异，将第一音频信号进行差分处理后再进行信号放大处理，得到降噪后的第二音频信号。相较于单独采集环境噪音进行降噪的方法而言，本申请实施例的方法的实现电路简单，数据处理量较少。处理得到的第二音频通过进一步处理，可以得到目标音频。

步骤103：获取所述第二音频信号中的空白音频片段。

降噪后得到的第二音频信号中，通常包括用户的语音信息(或者其他特定待录音声源发出的声音信息)这一有效音频，和有效音频之间的空白音频。有效音频和空白音频在音频特征上具有差异，利用这些音频特征的差异可以对两者进行区分。在将这两部分音频进行区分时，可将原音频按照固定或可变的时间段进行划分，分析该时间段内音频信号的平均信息，如幅值信息。由于第二音频信息为降噪后的音频信息，空白音频的幅值小于有效音频。对于经过放大处理得到的第二音频信息，空白音频和有效音频的幅值差距更大。将对应的幅值大于一定阈值的第二音频视为有效音频，小于一定阈值为空白音频。其中阈值可以为具体的预设的某个幅度值，也可以是幅度比例，例如为第二音频信号中最大幅值的10％。其中，可以将整个第二音频信号对应时间段内所有的空白音频作为空白音频片段，删除全部或者部分空白音频片段，得到目标音频。获取第二音频信号中包括的所有空白音频作为空白音频片段时，相应的计算量会更大，可选的，可以根据需要，获取特定时间段内的空白音频，而不必分析其他时间段的第二音频信号，从而减少计算量。

可根据需要，删除空白音频片段中的部分或者全部，得到目标音频。可选地，也可根据需要只获取第一音频中的部分空白音频作为空白音频片段，例如一段30分钟的第二音频片段，只对其中第10分钟到第20分钟的音频进行分析，获取其中的空白音频作为空白音频片段。由于实际应用场景的不同，例如日常寒暄、一对多授课、单人录制课程等，第二音频信号中包括有效音频和空白音频的分布和特征也不同，可以根据需要只对其中的部分进行空白音频获取操作，在一定程度上能够减少计算量，有利于节约电子设备的软硬件计算资源。

可选地，空白音频片段为所述第二音频信号中幅值小于预设阈值的连续音频片段。具体的，可以根据预设帧长间隔对第二音频信号进行分析，该帧长间隔可以是2帧、3帧、5帧、7帧等。以5帧为例，电子设备从每5个音频帧中提取出一个音频帧进行分析，若该音频帧的幅值小于预设阈值，则确定其对应的5帧音频帧均为空白音频帧，预设阈值可以为具体的预设的某个幅度值，也可以是幅度比例，例如为第二音频信号中最大幅值的10％。当电子设备检测到第一个空白音频帧时，记录其对应的第一时刻点，继续对之后的一帧或者预设帧长间隔的音频帧进行检测，当检测到第一时刻点之后的第一个包括有效音频的音频帧时，获取该第一个包括有效音频的音频帧前一个音频帧作为第二音频帧，第二音频帧对应的第二时刻点。该第一时刻点和第二时刻点之间的多个音频帧为空白音频帧，其对应的连续音频片段为空白音频片段。也可以根据预设时间间隔对第二音频信号进行分析，例如该预设时间间隔为0.2秒、0.3秒、0.5秒等。以0.5秒为例，电子设备从每0.5秒中提取出0.1秒的音频片段进行分析，若该音频片段的平均幅值小于预设阈值，则确定其对应的5秒音频片段均为空白音频片段。

通过分析音频帧的幅值，可以准确的识别出有效音频和空白音频，从而准确找出空白音频片段，保证后续删除音频时不至误删有效音频。

步骤104：删除所述第二音频信号中的至少部分所述空白音频片段，得到目标音频。

删除第二音频信号中空白音频片段，将余下的音频信号按照音频帧或者时间进行拼接，可以得到需要的目标音频。在删除时，可根据具体需要只删除部分空白音频片段，也可删除全部空白音频片段。预删除的空白音频片段在第二音频信号中的位置，或者其在第二音频信号中所对应的音频信息、所承载的声音信息可能不同，可根据实际需要进行设置，本申请实施例对此不作限制。

当存在多人对话时，通过声纹识别方式，可识别出第二音频信号中包括的不同用户的音频信息。此时，可根据需要，删除指定用户的音频信息中的空白音频片段，而保留一部分空白音频，以使得对话更易于理解。

可选地，删除所述第二音频信号中的至少部分所述空白音频片段，得到目标音频包括：

接收第一输入；

响应于所述第一输入，获取所述第二音频信号中第一用户的音频信号；其中，所述第二音频信号包括至少两个用户的音频信号，所述第一用户为所述至少两个用户中的至少一个用户；

删除空白音频片段中的第一空白音频片段，得到所述目标音频；

其中，所述第二音频信号的第一时刻和第二时刻之间的音频片段为所述第一空白音频片段，所述第一时刻前的预设时间到所述第一时刻之间的时间段为第一时间段，所述第二时刻到所述第二时刻后的预设时间之间的时间段为第二时间段，所述第二音频信号的第一时间段和所述第二时间段的音频片段来自所述第一用户中的同一个用户。

例如，两个及以上用户对话的场景中，第二音频信号包括这些用户的对话信息，可以根据需要删除其中某个用户音频信息中间的空白音频片段。其中第一输入用于获取第一用户的音频信号，具体的可以是触控输入也可以是语音输入，本申请实施例对此不作限制。接收第一输入；响应于第一输入，获取第二音频信号中的第一用户的音频信号。其中第二音频信号包括至少两个用户的音频信号，第一用户为至少两个用户中的至少一个用户。具体的可以采用声纹识别等方式检测参与对话的不同用户的音频信号，本申请实施例对此不作限制。例如，现有甲乙丙丁四个用户，可以从中选出甲用户，第一空白音频片段开始于第一时刻，结束于第二时刻。第一时刻之前预设时间到第一时刻之间为第一时间段，第二时刻之后预设时间到第二时刻之间为第二时间段。第二音频信号中，第一时间段和第二时间段的音频片段都是来自于甲用户的声音，也即去除甲在无人打断的那段时间的音频片段中的空白音频片段，得到目标音频。其中预设时间可以是10秒、20秒，具体的可根据需要选取，本申请实施例对此不作限制。

再例如，答辩情景中，甲为准备答辩的学生，乙丙为评审老师，前10分钟只有甲发言，后3分钟乙丙轮流发问。可删除前10分钟中空白音频片段。再例如，在一对一交谈中，可能会存在全由用户甲的声音构成第一语音段，全由用户乙的声音构成的第二语音段，或者是两人交替说话的第二语音段。在进行空白音频片段删除时，可以只删除第一语音段中的空白音频片段，而保留其他空白音频片段，以方便理解音频内容。例如用户甲为学生，用户乙为老师，只删除学生说话中间的空白，保留老师说话中的空白，在学生在此收听音频进行复习时，既可以节省时间，也可以在老师说话间隙的停顿时间进行思考，还原上课场景。

再例如，甲乙丙丁四人对话时，甲乙为第一用户，可获取甲乙两个用户的音频信号，第一空白音频片段相邻的第一时间段和第二时间段的音频片段均来自甲用户，或者均来自乙用户，则删除该第一空白音频片段，得到目标音频。

本申请实施例，根据需要可选择特定用户，删除该用户说话时间段内的空白音频片段，从而能够灵活地删除空白音频片段，更好的满足用户录音需求。

可选的，所述删除所述第二音频信号中的至少部分所述空白音频片段，得到目标音频包括：

接收第二输入；

响应于所述第二输入，获取所述第二音频信号中第二用户的音频信号；其中，所述第二音频信号包括N个用户的音频信号，所述第二用户为所述N个用户中的M个用户，N为大于2的整数，M为大于1且小于N的整数；

删除空白音频片段中的第二空白音频片段，得到所述目标音频；

其中，所述第二音频信号的第三时刻和第四时刻之间的音频片段为所述第二空白音频片段，所述第三时刻前的预设时间到所述第三时刻之间的时间段为第三时间段，所述第四时刻到所述第四时刻后的预设时间之间的时间段为第四时间段，所述第二音频信号的第三时间段和所述第四时间段的音频片段来自所述第二用户。

本申请实施例中，第二输入可以是触控输入也可以是语音输入，本申请实施例对此不作限制。可以采用声纹识别等方式检测参与对话的不同用户的音频信号，本申请实施例对此不作限制。

具体的，两个及以上用户对话的场景中，第二音频信号包括这些用户的对话信息，可以根据需要删除其中某几个用户音频信息中间的空白音频片段。

例如在包括甲乙丙三名学生和A老师的授课场景中，可选择甲乙丙为第二用户，删除甲乙丙说话中间的空白音频片段，保留A老师讲话中的空白音频片段和A与学生对话间的空白音频片段。也即，可获取甲乙丙三个用户的音频信号，第二空白音频片段相邻的第三时间段和第四时间段的音频片段均来自甲、均来自乙、均来自丙，或分别来自甲乙丙中的任意两人，则删除该第二空白音频片段，得到目标音频。

授课场景中，A老师讲话中的停顿通常是留给学生思考和反映的时间，保留此部分空白音频，有利于再现授课场景，让学生在学习时能够有足够的思考时间。而学生之间的对话相对于老师授课内容而言，知识量少，中间的空白音频片段存在的意义不大，删除该部分有利于让学生在复习时，不必浪费时间。

可选的，还可以删除指定时间段内，第二用户之间的空白音频片段。例如老师甲、学生乙和学生丙的15分钟的教学音频，前5分钟是老师甲讲话内容，中间3分钟是三个师生间的问答音频，接着2分钟是学生乙丙讨论时间，接着学生乙总结发言2分钟，最后3分钟为老师甲质询学生乙的问答时间。可选择空白音频片段的删除时间为第6到第10分钟，指定用户为学生乙和学生丙。则只会将该段时间内学生乙和学生丙对话中间的空白音频片段删除，保留老师甲说话中间的空白音频片段。

可选的，本申请实施例，获取所述第二音频信号中的空白音频片段包括：显示所述第二音频信号的原始波形图，在所述原始波形图显示第一标记，所述第一标记指代空白音频片段。

显示第二音频信号的部分或者全部原始波形图，在原始波形图上的一个或多个第一片段显示第一标记，第一片段对应于空白音频片段。由于屏幕尺寸限制，同一时间可只显示第二音频信号的部分原始波形图，该原始波形图可在电子设备上自动移动，以向用户呈现全部原始波形图。电子设备也根据用户的拖动或滑动操作，显示其他部分原始波形图，本申请实施例对此不作限制。第一标记可以是线型、颜色等区别于有效音频片段对应的波形的标记。具体的，原始波形图中有效音频片段对应部分可以用实线显示，第一标记可以是虚线，对应于空白音频片段。第一标记的起点和终点的横坐标可以和原始波形图中空白音频片段对应的起点和终点的横坐标一致，第一标记为红色的方框，方框的垂直于横坐标的两条边分别对应起点和终点。

通过第一标记，用户可以直观的确定空白音频片段在第二音频信号中的具***置。

删除所述第二音频信号中的至少部分所述空白音频片段，得到目标音频，包括：

接收第三输入，

响应于所述第三输入，删除至少部分所述第一标记指代的空白音频片段，得到目标音频。

具体的，接收第三输入，第三输入可以是点击、拖动第一片段的触控操作。也可以将第一片段按照时间先后排序，第三输入为序号输入，响应于该序号输入，删除该序号所指代的空白音频片段。第三输入还可以是其他输入形式，响应于该输入删除至少部分第一标记指代的空白音频片段，本申请实施例对此不作限制。可选的，删除至少部分第一标记指代的空白音频片段，还可删除至少部分第一标记。具体的，在删除至少部分第一标记后，原始波形图中的其他波形可通过拼接，形成新的目标音频对应的波形图。

通过显示第二音频信号对应的原始波形图，并对用第一标志将空白音频片段与有效音频片段区别开来的方式，用户通过在原始波形图上简单的拖动、移动等操作，就可以删除想要删除的空白音频片段。本申请实施例增加了用户操作的趣味性，同时有利于用户根据需要灵活的删除空白音频片段。

进一步的，所述第二音频信号的播放时长为第一时长，所述响应于所述第三输入，删除至少部分所述第一标记指代的空白音频片段，得到目标音频包括：

响应于所述第三输入，删除目标空白音频片段，所述目标空白音频片段为所述至少部分所述第一标记指代的空白音频片段；

对所述第二音频信号中除所述目标空白音频片段外的音频信号做变速处理，得到目标音频，所述目标音频的播放时长等于所述第一时长。

可选的，还可显示变速处理后的目标音频的波形图。

第二音频信号删除目标空白音频片段，对应音频的播放时长缩短，包含的信息量增加，但是过于密集的信息输入不利于用户理解。而本申请实施例中，删除目标空白音频片段的同时或者之后，对第二音频信号中除所述目标空白音频片段外的音频信号做变速处理，得到目标音频信号，使目标音频的播放时长和第二音音频信号的播放时长保持一致。这样既删除了空白音频信号，保证了用户在收听音频时不会被无用的空白音频暂用时间，又降低了有效音频的播放速度，有利于用户理解音频内容。

本申请实施例提供的方法，通过两个麦克风分别采集第一音频信号，对该第一音频信号进行降噪处理，得到去除环境噪音后的第二音频信号。对第二音频信号做进一步分析，得到至少一个空白音频片段，将空白音频片段从第二音频信号中删除，得到去除环境噪音和空白片段的目标音频。本申请实施例，本申请实施例，将采集到的第一音频信号去除环境噪音和空白音频片段后得到目标音频，从而保证了用户在收听音频过程中，不被无用的音频信息打断。此外将采集到的第一音频信号去除环境噪音后，再删除空白音频片段，此时第二音频信号中的有效音频片段与无声片段的音频特征参数差异大，易于区分。因此，可以准确区分出有效音频，保证有效音频不被误删。

如图6所示，本申请实施例还提供一种音频处理装置，包括：采集模块201、处理模块202、获取模块203和删除模块204。其中：

采集模块，用于通过两个麦克风分别采集第一音频信号；处理模块，用于对所述第一音频信号进行降噪处理，生成第二音频信号；获取模块，用于获取所述第二音频信号中的空白音频片段；删除模块，用于删除所述第二音频信号中的至少部分所述空白音频片段，得到目标音频。

本申请实施例提供的装置，通过两个麦克风分别采集第一音频信号，对该第一音频信号进行降噪处理，得到去除环境噪音后的第二音频信号。对第二音频信号做进一步分析，得到至少一个空白音频片段，将空白音频片段从第二音频信号中删除，得到去除环境噪音和空白片段的目标音频。本申请实施例，本申请实施例，将采集到的第一音频信号去除环境噪音和空白音频片段后得到目标音频，从而保证了用户在收听音频过程中，不被无用的音频信息打断。此外将采集到的第一音频信号去除环境噪音后，再删除空白音频片段，此时第二音频信号中的有效音频片段与无声片段的音频特征参数差异大，易于区分。因此，可以准确区分出有效音频，保证有效音频不被误删。

可选地，如图7所示，处理模块202具体包括差分模块2021和放大模块2022。其中差分模块，用于对所述第一音频信号进行差分处理，得到去噪音频信号；放大模块，用于对所述去噪音频信号进行放大处理，得到所述第二音频信号。

可选地，所述空白音频片段为所述第二音频信号中幅值小于预设阈值的连续音频片段。

可选的，如图8所示，删除模块204具体包括：

第一接收子模块2041，用于接收第一输入；

第一获取子模块2042，用于响应于所述第一输入，获取所述第二音频信号中第一用户的音频信号；其中，所述第二音频信号包括至少两个用户的音频信号，所述第一用户为所述至少两个用户中的至少一个用户；

第一删除子模块2043，用于删除空白音频片段中的第一空白音频片段，得到所述目标音频；

可选地，如图9所示，删除模块204具体包括：

第二接收子模块，用于接收第二输入；

第二获取子模块，用于响应于所述第二输入，获取所述第二音频信号中第二用户的音频信号；其中，所述第二音频信号包括N个用户的音频信号，所述第二用户为所述N个用户中的M个用户，N为大于2的整数，M为大于1且小于N的整数；

第二删除子模块，用于删除空白音频片段中的第二空白音频片段，得到所述目标音频；

可选的，所述获取模块203，包括显示子模块,所述显示子模块用于显示所述第二音频信号的原始波形图，在所述原始波形图显示第一标记，所述第一标记指代空白音频片段；

所述删除模块204包括第三接收子模块和第三删除子模块，所述第三接收子模块，用于接收第三输入，

所述第三删除子模块，用于响应于所述第三输入，删除至少部分所述第一标记指代的空白音频片段，得到目标音频。

可选的，所述第二音频信号的播放时长为第一时长，所述第三删除子模块，具体用于响应于所述第三输入，删除目标空白音频片段，所述目标空白音频片段为所述至少部分所述第一标记指代的空白音频片段；对所述第二音频信号中除所述目标空白音频片段外的音频信号做变速处理，得到目标音频，所述目标音频的播放时长等于所述第一时长。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

需要说明的是，本申请实施例提供的音频处理方法，执行主体可以为音频处理装置，或者该音频处理装置中的用于执行加载音频处理的方法的控制模块。本申请实施例中以音频处理执行加载音频处理的方法为例，说明本申请实施例提供的音频处理的方法。

本申请实施例中的音频处理装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的音频处理装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***，可以为ios操作***，还可以为其他可能的操作***，本申请实施例不作具体限定。

本申请实施例提供的音频处理装置能够实现图1的方法实施例中音频处理装置实现的各个过程，为避免重复，这里不再赘述。

图9为实现本申请各个实施例的一种电子设备的硬件结构示意图，

该电子设备300包括但不限于：射频单元301、网络模块302、音频输出单元301、输入单元304、传感器305、显示单元306、用户输入单元307、接口单元308、存储器309、处理器310、以及电源311等部件。本领域技术人员可以理解，图9中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本申请实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

应理解的是，本申请实施例中，音频输出单元301可以将射频单元301或网络模块302接收的或者在存储器309中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元301还可以提供与电子设备300执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元301包括扬声器、蜂鸣器以及受话器等。

输入单元304用于接收音频或视频信号。输入单元304可以包括图形处理器(Graphics Processing Unit，GPU)3041和麦克风3042，图形处理器3041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元306上。经图形处理器3041处理后的图像帧可以存储在存储器309(或其它存储介质)中或者经由射频单元301或网络模块302进行发送。麦克风3042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元301发送到移动通信基站的格式输出。

显示单元306用于显示由用户输入的信息或提供给用户的信息。显示单元306可包括显示面板3061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板3061。

用户输入单元307可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元307包括触控面板3071以及其他输入设备3072。触控面板3071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板3071上或在触控面板3071附近的操作)。触控面板3071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器310，接收处理器310发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板3071。除了触控面板3071，用户输入单元307还可以包括其他输入设备3072。具体地，其他输入设备3072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板3071可覆盖在显示面板3061上，当触控面板3071检测到在其上或附近的触摸操作后，传送给处理器310以确定触摸事件的类型，随后处理器310根据触摸事件的类型在显示面板3061上提供相应的视觉输出。虽然在图9中，触控面板3071与显示面板3061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板3071与显示面板3061集成而实现电子设备的输入和输出功能，具体此处不做限定。

存储器(Memory)309可用于存储软件程序以及各种数据。存储器309可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器309可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器310是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器309内的软件程序和/或模块，以及调用存储在存储器309内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器310可包括一个或多个处理单元；可选地，处理器310可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器310中。例如，处理器可以包括音频数字信号处理单元(Audio Digital Signal Processing,Audio DSP)，也可以包括中央处理器(Central Processing Unit，CPU)。

电子设备300还可以包括给各个部件供电的电源311(比如电池)，可选地，电源311可以通过电源管理***与处理器310逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。另外，电子设备300包括一些未示出的功能模块，在此不再赘述。

可选地，本申请实施例还提供一种电子设备，包括处理器310，存储器309，存储在存储器309上并可在所述处理器310上运行的计算机程序，该计算机程序被处理器310执行时实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有程序，该程序被处理器执行时实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包括”或者其任何其他变体意在涵盖非排他性的包括，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种音频处理方法，其特征在于，包括：

通过两个麦克风分别采集第一音频信号；

对所述第一音频信号进行降噪处理，生成第二音频信号；

获取所述第二音频信号中的空白音频片段；

删除所述第二音频信号中的至少部分所述空白音频片段，得到目标音频。

2.根据权利要求1所述的方法，其特征在于，所述对所述第一音频信号进行降噪处理，生成第二音频信号包括：

对所述第一音频信号进行差分处理，得到去噪音频信号；

对所述去噪音频信号进行放大处理，得到所述第二音频信号。

3.根据权利要求1或2所述的方法，其特征在于，所述空白音频片段为所述第二音频信号中幅值小于预设阈值的连续音频片段。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述删除所述第二音频信号中的至少部分所述空白音频片段，得到目标音频包括：

接收第一输入；

5.根据权利要求1至3任一项所述的方法，其特征在于，所述删除所述第二音频信号中的至少部分所述空白音频片段，得到目标音频包括：

接收第二输入；

6.根据权利要求1所述的方法，其特征在于，所述获取所述第二音频信号中的空白音频片段包括：

显示所述第二音频信号的原始波形图，在所述原始波形图显示第一标记，所述第一标记指代空白音频片段；

接收第三输入，

7.根据权利要求6所述的方法，其特征在于，所述第二音频信号的播放时长为第一时长，

所述响应于所述第三输入，删除至少部分所述第一标记指代的空白音频片段，得到目标音频包括，

8.一种音频处理装置，其特征在于，包括：

采集模块，用于通过两个麦克风分别采集第一音频信号；

处理模块，用于对所述第一音频信号进行降噪处理，生成第二音频信号；

获取模块，用于获取所述第二音频信号中的空白音频片段；

删除模块，用于删除所述第二音频信号中的至少部分所述空白音频片段，得到目标音频。

9.根据权利要求8所述的装置，其特征在于，所述处理模块具体包括：

差分模块，用于对所述第一音频信号进行差分处理，得到去噪音频信号；

放大模块，用于对所述去噪音频信号进行放大处理，得到所述第二音频信号。

10.根据权利要求8或9所述的装置，其特征在于，所述空白音频片段为所述第二音频信号中幅值小于预设阈值的连续音频片段。

11.根据权利要求8至10任一项所述的装置，其特征在于，所述删除模块具体包括：

第一接收子模块，用于接收第一输入；

第一获取子模块，响应于所述第一输入，获取所述第二音频信号中第一用户的音频信号；其中，所述第二音频信号包括至少两个用户的音频信号，所述第一用户为所述至少两个用户中的至少一个用户；

第一删除子模块，用于删除空白音频片段中的第一空白音频片段，得到所述目标音频；

12.根据权利要求8至10任一项所述的装置，其特征在于，所述删除模块具体包括：

第二接收子模块，用于接收第二输入；

13.根据权利要求8所述的装置，其特征在于，所述获取模块，包括显示子模块，

所述显示子模块用于显示所述第二音频信号的原始波形图，在所述原始波形图显示第一标记，所述第一标记指代空白音频片段；

所述删除模块包括第三接收子模块和第三删除子模块，

所述第三接收子模块，用于接收第三输入，

14.根据权利要求13所述的装置，其特征在于，所述第二音频信号的播放时长为第一时长，

所述第三删除子模块，具体用于响应于所述第三输入，删除目标空白音频片段，所述目标空白音频片段为所述至少部分所述第一标记指代的空白音频片段；对所述第二音频信号中除所述目标空白音频片段外的音频信号做变速处理，得到目标音频，所述目标音频的播放时长等于所述第一时长。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储程序，所述程序被处理器执行时实现如权利要求1至7中任一项所述的音频处理方法的步骤。