CN112712825A

CN112712825A - 音频处理方法、装置及电子设备

Info

Publication number: CN112712825A
Application number: CN202011604816.7A
Authority: CN
Inventors: 续路波
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-27
Anticipated expiration: 2040-12-30
Also published as: EP4273863A4; WO2022143888A1; CN112712825B; EP4273863A1; US20230343325A1; KR20230125284A

Abstract

本申请公开了一种音频处理方法、装置及电子设备，属于音频技术领域。该方法包括：在监测到第一音频播放中断的情况下，根据所述第一音频的播放中断位置、所述第一音频的各个断句位置和所述第一音频的各个静音片段的位置，确定所述第一音频的第一位置，其中，所述第一位置为位于所述第一音频的第一音频片段的断句位置或静音片段的结束位置，所述第一音频片段为所述第一音频的开始位置至所述第一音频的播放中断位置之间的音频片段；根据所述分割位置分割所述第一音频，得到第二音频片段和第三音频片段。通过本申请提供的音频处理方法，可以提高分割后得到的音频片段的完整性。

Description

音频处理方法、装置及电子设备

技术领域

本申请属于音频技术领域，具体涉及一种音频处理方法、装置及电子设备。

背景技术

在通过社交软件通信的过程中，音频消息的发送和接收较为常见，特别是在用户不方便输入文本和阅读文本的情况下。目前，在播放音频消息的过程中，若该音频消息在未播放完的情况下播放中断了，当用户想要继续收听该音频消息时，往往需要重新从头到尾播放该音频消息，较为浪费时间。

针对上述问题，现有技术中通过检测音频播放的中断位置，基于该中断位置对剩余音频进行标记，方便下次收听。然而，在实现本申请过程中，发明人发现现有技术中至少存在如下问题：基于音频播放的中断位置开始标记剩余音频，容易导致标记的剩余音频的内容的完整性较差，例如，包含半个句子。

发明内容

本申请实施例的目的是提供一种音频处理方法、装置及电子设备，能够解决现有技术中基于音频播放的中断位置开始标记剩余音频导致标记的剩余音频的内容的完整性较差的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种音频处理方法，该方法包括：

在监测到第一音频播放中断的情况下，根据所述第一音频的播放中断位置、所述第一音频的各个断句位置和所述第一音频的各个静音片段的位置，确定所述第一音频的第一位置，其中，所述第一位置为位于所述第一音频的第一音频片段的断句位置或静音片段的结束位置，所述第一音频片段为所述第一音频的开始位置至所述第一音频的播放中断位置之间的音频片段；

根据所述第一位置分割所述第一音频，得到第二音频片段和第三音频片段，其中，所述第二音频片段为所述第一音频的第一位置至所述第一音频的结束位置之间的音频片段，所述第三音频片段为所述第一音频的开始位置至所述第一音频的第一位置之间的音频片段。

第二方面，本申请实施例提供了一种音频处理装置，该装置包括：

第一确定模块，用于在监测到第一音频播放中断的情况下，根据所述第一音频的播放中断位置、所述第一音频的各个断句位置和所述第一音频的各个静音片段的位置，确定所述第一音频的第一位置，其中，所述第一位置为位于所述第一音频的第一音频片段的断句位置或静音片段的结束位置，所述第一音频片段为所述第一音频的开始位置至所述第一音频的播放中断位置之间的音频片段；

分割模块，用于根据所述第一位置分割所述第一音频，得到第二音频片段和第三音频片段，其中，所述第二音频片段为所述第一音频的第一位置至所述第一音频的结束位置之间的音频片段，所述第三音频片段为所述第一音频的开始位置至所述第一音频的第一位置之间的音频片段。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本申请实施例中，通过在监测到第一音频播放中断的情况下，根据所述第一音频的播放中断位置、所述第一音频的各个断句位置和所述第一音频的各个静音片段的位置，确定所述第一音频的第一位置，其中，所述第一位置为位于所述第一音频的第一音频片段的断句位置或静音片段的结束位置，所述第一音频片段为所述第一音频的开始位置至所述第一音频的播放中断位置之间的音频片段；根据所述第一位置分割所述第一音频，得到第二音频片段和第三音频片段，其中，所述第二音频片段为所述第一音频的第一位置至所述第一音频的结束位置之间的音频片段，所述第三音频片段为所述第一音频的开始位置至所述第一音频的第一位置之间的音频片段。由于基于根据播放中断位置确定的断句位置或者静音片段的结束位置分割音频，可以提高分割后得到的音频片段的完整性。

附图说明

图1是本申请一实施例提供的音频处理方法的流程图；

图2是本申请实施例提供的音频的断句位置和静音片段的位置的示意图；

图3是本申请实施例提供的音频拼接前和音频拼接后的示意图；

图4是本申请另一实施例提供的音频处理方法的流程图；

图5是本申请一实施例提供的音频处理装置的结构图；

图6是本申请一实施例提供的电子设备的结构图；

图7是本申请另一实施例提供的电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的音频处理方法进行详细地说明。

参见图1，图1是本申请一实施例提供的音频处理方法的流程图，如图1所示，该音频处理方法包括以下步骤：

步骤101、在监测到第一音频播放中断的情况下，根据所述第一音频的播放中断位置、所述第一音频的各个断句位置和所述第一音频的各个静音片段的位置，确定所述第一音频的第一位置，其中，所述第一位置为位于所述第一音频的第一音频片段的断句位置或静音片段的结束位置，所述第一音频片段为所述第一音频的开始位置至所述第一音频的播放中断位置之间的音频片段。

本申请实施例中，上述第一音频可以是任意音频，例如，音频消息、音频文件或视频中的音频部分等。上述播放中断位置可以理解为第一音频播放中断时间点或者播放中断时刻，例如，在第一音频播放到第5秒的情况下中断播放，则上述播放中断位置为第一音频的第5秒。上述第一音频片段可以是指第一音频的开始位置至第一音频的播放中断位置之间的音频片段，也即第一音频中已播放的音频片段。

上述断句位置可以是指第一音频中各个句子的分割位置。需要说明的是，上述断句位置可以理解为音频的断句时间点或者断句时刻。

上述静音片段可以是指第一音频中的静音部分。上述静音片段的位置可以包括静音片段的开始位置和结束位置。需要说明的是，上述静音片段的开始位置可以理解为静音片段的开始时间点或者开始时刻，上述静音片段的结束位置可以理解为静音片段的结束时间点或者结束时刻。

可选地，可以通过语音活动检测(Voice Activity Detection，VAD)算法检测第一音频中的各个静音片段，其中，上述VAD算法可以将音频的每一帧分成两类，一类是静音帧(即sil帧)，一类是非静音帧，其中，上述VAD算法所采用的分类算法可以包括滤波器算法或神经网络算法。可选地，可以将所述第一音频中时长超过预设时长的静音部分确定为静音片段。其中，上述预设时长可以根据实际需求进行合理设置，例如，1秒、1.5秒或者2秒等。

可选地，本实施例可以预先标记第一音频的各个断句位置、各个静音片段的位置，例如，如图2所示，其中，标记为sil的音频部分为静音片段。这样方便快速查找第一音频的第一音频片段中距离第一音频的播放中断位置最近的断句位置或者静音片段的结束位置。

该步骤101中，可以基于第一音频的播放中断位置从第一音频片段的各个断句位置和各个静音片段的结束位置中确定一断句位置或静音片段的结束位置作为第一位置。例如，可以将第一音频片段中与播放中断位置距离最近的断句位置或者静音片段的结束位置作为第一位置，或者可以将第一音频片段中与播放中断位置小于预设距离的断句位置或静音片段的结束位置作为第一位置等。

步骤102、根据所述第一位置分割所述第一音频，得到第二音频片段和第三音频片段，其中，所述第二音频片段为所述第一音频的第一位置至所述第一音频的结束位置之间的音频片段，所述第三音频片段为所述第一音频的开始位置至所述第一音频的第一位置之间的音频片段。

该步骤中，可以根据第一位置将第一音频分割为第三音频片段(即已播放音频片段)和第二音频片段(即未播放音频片段)，这样用户在需要继续收听第一音频中未播放音频部分的情况下，可以直接收听上述第二音频片段，节省用户时间，此外，由于是基于距离第一音频的播放中断位置最近的断句位置或者静音片段的结束位置分割第一音频，可以提高分割后得到的音频片段的完整性。

本申请实施例的音频处理方法，通过在监测到第一音频播放中断的情况下，根据所述第一音频的播放中断位置、所述第一音频的各个断句位置和所述第一音频的各个静音片段的位置，确定所述第一音频的第一位置，其中，所述第一位置为位于所述第一音频的第一音频片段的断句位置或静音片段的结束位置，所述第一音频片段为所述第一音频的开始位置至所述第一音频的播放中断位置之间的音频片段；根据所述第一位置分割所述第一音频，得到第二音频片段和第三音频片段，这样可以提高分割后得到的音频片段的完整性，使得用户在继续收听第二音频片段的情况下更容易理解音频的内容。

可选地，所述第一位置为所述第一音频片段中距离所述播放中断位置为第一距离的断句位置或静音片段的结束位置，所述第一距离为所述第一音频片段的各个断句位置和各个静音片段的结束位置与所述播放中断位置的距离中的最小值。

本实施例中，可以将第一音频片段中与播放中断位置距离最近的断句位置或者静音片段的结束位置作为第一位置。例如，可以查看已播放音频片段中位于播放中断位置之前的每个词，如果播放中断位置的前一个词的结束位置为断句位置，或者前一个词是静音词，则可以把前一个词的结束时刻作为音频的分割位置。例如，如图2中所示，若在播放到“我叫”的时候中断播放，其前面的词是静音词(即sil)，则可以将该静音词的结束位置作为第一位置，也即第一音频的分割位置。

本申请实施例通过将第一音频片段中与播放中断位置距离最近的断句位置或者静音片段的结束位置作为第一位置以分割第一音频，不仅可以提高分割后得到的音频片段的完整性，还可以提高第一音频的已播放部分和未播放部分分割的准确性。

可选地，所述在监测到第一音频播放中断的情况下，识别所述第一音频的第一音频片段中距离所述第一音频的播放中断位置最近的第一位置之前，所述方法还包括：

识别所述第一音频对应的文本；

标记所述文本中每个词对应的音频位置；

对所述文本进行断句处理，得到断句处理结果；

根据所述断句处理结果和所述文本中每个词对应的音频位置，确定所述第一音频的各个断句位置。

本实施例中，可以通过语音识别算法将第一音频转换为文本，并标记文本中每个词对应的音频位置，例如，标记文本中每个词在第一音频中的开始时间点和结束时间点。

上述对所述文本进行断句处理，示例地，可以是采用文本断句算法，为该文本标记标点符号，例如，逗号、句号、问号、叹号、空白等符号，其中，标记为空白表示此处不进行断句，否则表示此处需要断句。

可选地，上述文本断句算法可以是一种基于N个标注文本训练得到的分类算法，通过对上述文本中的每个词的末尾进行分类，其中，分类类别可以包括逗号、句号、问号、叹号、空白等符号，上述N的取值往往较大，例如，5000、10000、50000等，具体可以根据实际需求进行合理设置，上述文本断句算法可以包括条件随机场(Conditional Random Field，CRF)算法或神经网络算法等，本实施例对此不做限定。

本实施例通过对所述文本进行断句处理，可以得到文本的各个断句位置，这样结合标记的文本中每个词对应的音频位置，可以得到第一音频的各个断句位置。例如，如图2所示，文本中“你好”这一词后带有叹号，且该词在音频中的结束时间点为第2秒，则可以确定该音频的第2秒为一个断句位置。

本实施例通过将音频转换为文本进行断句处理，可以提高断句处理结果的准确性，此外，通过标注文本中各个词对应的音频位置，并基于文本中各个词对应的音频位置和文本的断句处理结果确定音频的断句位置，实现较为简单和方便。

可选地，所述第一音频为音频消息，所述根据所述第一位置分割所述第一音频，得到第二音频片段和第三音频片段之后，所述方法还包括如下至少一项：

在所述第一音频存在后置音频的情况下，对所述后置音频与所述第二音频片段进行去重处理，并将去重处理后的所述后置音频和所述第二音频片段进行拼接，得到第一拼接音频；其中，所述后置音频为所述第一音频的后一条音频消息，且所述后置音频对应的音频对象与所述第一音频对应的音频对象相同；

在所述第一音频存在前置音频的情况下，对所述前置音频与所述第三音频片段进行去重处理，并将去重处理后的所述前置音频和所述第三音频片段进行拼接，得到第二拼接音频；其中，所述前置音频为所述第一音频的前一条音频消息，且所述前置音频对应的音频对象与所述第一音频对应的音频对象相同。

本实施例中，上述第一音频可以为通过即时通信应用传输的音频消息。上述音频对象可以理解为音频的说话对象。

上述前置音频可以理解为对应的音频对象与第一音频对应的音频对象相同，位于第一音频之后且与第一音频相邻的音频消息。具体地，若第一音频的后一条消息为音频消息且该音频消息对应的音频对象与第一音频的音频对象相同，则确定第一音频存在后置音频，否则确定第一音频不存在后置音频。例如，若音频消息A的后一条消息为音频消息B且该音频消息B对应的音频对象与音频消息A对应的音频对象均为用户B，则确定音频消息A存在后置音频，也即音频消息B；若音频消息A的后一条消息不为音频消息，或者音频消息A的后一条消息为音频消息B但该音频消息B对应的音频对象与音频消息A对应的音频对象不同，则可以确定音频消息A不存在后置音频。

上述前置音频可以理解为对应的音频对象与第一音频对应的音频对象相同，位于第一音频之前且与第一音频相邻的音频消息。具体地，若第一音频的前一条消息为音频消息且该音频消息对应的音频对象与第一音频的音频对象相同，则确定第一音频存在前置音频，否则确定第一音频不存在前置音频。例如，若音频消息A的前一条消息为音频消息C且该音频消息C对应的音频对象与音频消息A对应的音频对象均为用户B，则确定音频消息A存在前置音频，也即音频消息C；若音频消息A的前一条消息不为音频消息，或者音频消息A的前一条消息为音频消息C但该音频消息C对应的音频对象与音频消息A对应的音频对象不同，则确定音频消息A不存在前置音频。

实际应用中，一条音频消息通常较短，例如，最长60秒，往往难以完整表达用户需要传达的内容，因此，用户往往是通过发送连续多条音频消息来表达其需要传达的内容。本实施例通过将第一音频中的第二音频片段与后置音频拼接，将第一音频中的第三音频片段与前置音频拼接，这样用户基于拼接音频即可以收听到较为完整的音频内容，方便用户操作。此外，在音频拼接前进行去重处理，可以提高音频拼接的平滑性。

可选地，上述后置音频的传输时间与上述第一音频的传输时间的时间间隔小于第一预设时间间隔，或者上述后置音频的传输时间与上述第一音频的传输时间位于同一天内，上述前置音频的传输时间与上述第一音频的传输时间的时间间隔小于第二预设时间间隔，或者上述前置音频的传输时间与上述第一音频的传输时间位于同一天内，这样可以减少将不相关的两条音频消息拼接在一起。

其中，上述第一预设时间间隔和第二预设时间间隔均可以根据实际需求进行合理设置，例如，10分钟、5分钟等。需要说明的是，上述传输时间可以包括发送时间和接收时间。

可选地，所述对所述后置音频与所述第二音频片段进行去重处理，可以包括：

获取位于所述后置音频的第二位置之前的第四音频片段和位于所述第二音频片段的第三位置之后的第五音频片段，其中，所述第二位置包括所述后置音频的第一个断句位置或者第一个静音片段的位置，所述第三位置包括所述第二音频片段的最后一个断句位置或者最后一个静音片段的位置；

若所述第四音频片段对应的文本与所述第五音频片段对应的文本相同，则从所述后置音频中删除所述第四音频片段，或者从所述第二音频片段中删除所述第五音频片段；

所述对所述前置音频与所述第三音频片段进行去重处理，包括：

获取所述前置音频的第四位置之后的第六音频片段和所述第三音频片段的第五位置之前的第七音频片段，其中，所述第四位置包括所述前置音频的最后一个断句位置或者最后一个静音片段的位置，所述第五位置包括所述第三音频片段的第一个断句位置或者第一个静音片段的位置；

若所述第六音频片段对应的文本与所述第七音频片段对应的文本相同，则从所述前置音频中删除所述第六音频片段，或者从所述第三音频片段中删除所述第七音频片段。

本实施例中，上述位于后置音频的第一个断句位置或者第一个静音片段的位置之前的音频片段，也即上述第四音频片段，例如，如图2所示，后置音频的第一个断句位置为“我找你”的结束位置，则上述第四音频片段为后置音频中对应“我找你”的音频片段。上述位于第三音频片段的最后一个断句位置或者最后一个静音片段的位置之后的音频片段，也即上述第五音频片段，例如，如图2所示，第一音频的最后一个断句位置为“我找你”的开始位置，则上述第五音频片段为第一音频中对应“我找你”的音频片段。

具体地，在第四音频片段对应的文本与第五音频片段对应的文本相同的情况下，可以从所述后置音频中删除所述第四音频片段，例如，如图2所示，删除后置音频中对应“我找你”的音频片段，并将删除第四音频片段后的后置音频和第二音频片段进行拼接；或者从所述第二音频片段中删除所述第五音频片段，例如，如图2所示，删除第一音频中对应“我找你”的音频片段，并将删除第五音频片段的第二音频片段和后置音频拼接。在第四音频片段对应的文本与第五音频片段对应的文本不相同的情况下，可以直接将第二音频片段和后置音频拼接。

同样地，上述位于前置音频的最后一个断句位置或者最后一个静音片段的位置之后的音频片段，也即上述第六音频片段。上述位于第三音频片段的第一个断句位置或者第一个静音片段的位置之前的音频片段，也即上述第七音频片段。如图2所示，第一音频的第一个断句位置为“你好”的结束位置，则上述第七音频片段为第一音频中对应“你好”的音频片段。

具体地，在第六音频片段对应的文本与第七音频片段对应的文本相同的情况下，可以删除从前置音频中删除第六音频片段，并将删除第六音频片段的前置音频与第三音频片段拼接；或者从第三音频片段中删除第七音频片段，并将删除第七音频片段的第三音频片段和前置音频拼接。在第六音频片段对应的文本与第七音频片段对应的文本不相同的情况下，可以直接将第三音频片段和前置音频拼接。

本实施例基于后置音频的第一个断句位置或者第一个静音片段的位置以及第二音频片段的最后一个断句位置或者最后一个静音片段的位置确定后置音频与第二音频片段的重复音频片段，并基于前置音频的最后一个断句位置或者最后一个静音片段的位置以及第三音频片段的第一个断句位置或者第一个静音片段的位置确定前置音频和第三音频片段的重复音频片段，可以较为快速、准确的确定重复音频片段，进而可以提高去重处理的速度和准确性。

可选地，所述将去重处理后的所述后置音频和所述第二音频片段进行拼接，得到第一拼接音频之后，所述方法还包括：

在消息显示窗口显示所述第一拼接音频，并取消显示所述后置音频和所述第二音频片段，其中，所述第一拼接音频被标记为未读状态，且在所述第一拼接音频上显示有第一播放速度调整标识；

所述将去重处理后的所述前置音频和所述第三音频片段进行拼接，得到第二拼接音频之后，所述方法还包括：

在消息显示窗口显示所述第二拼接音频，并取消显示所述前置音频和所述第三音频片段，其中，所述第二拼接音频被标记为已读状态，且在所述第二拼接音频上显示有第二播放速度调整标识。

本实施例中，在得到第一拼接音频的情况下，可以在消息显示窗口显示所述第一拼接音频，并取消显示所述后置音频和所述第二音频片段，其中，所述第一拼接音频被标记为未读状态，且在所述第一拼接音频上显示有第一播放速度调整标识；在得到第二拼接音频的情况下，可以在消息显示窗口显示第二拼接音频，并取消显示前置音频和第三音频片段，其中，所述第二拼接音频被标记为已读状态，且在所述第二拼接音频上显示有第二播放速度调整标识，例如，如图3所示。

上述第一播放速度调整标识用于调整第一拼接音频的播放速度，可以在接收到对第一播放速度调整标识的第一输入的情况下，调整第一拼接音频的播放速度为与上述第一播放速度调整标识对应的播放速度。上述第二播放速度调整标识用于调整第二拼接音频的播放速度，可以在接收到对第二播放速度调整标识的第二输入的情况下，调整第二拼接音频的播放速度为与上述第二播放速度调整标识对应的播放速度。

可选地，上述第一播放速度调整标识和第二播放速度调整标识均可以包括至少一个播放速度子标识，每个播放速度子标识对应一种播放速度，例如，上述第一播放速度调整标识和第二播放速度调整标识均可以包括1.5倍数播放的播放速度子标识、2倍速播放的播放速度子标识和3倍数播放的播放速度子标识中的至少一项。

本申请实施例通过在所述将去重处理后的所述后置音频和所述第二音频片段进行拼接，得到第一拼接音频之后，在消息显示窗口显示所述第一拼接音频，并取消显示所述后置音频和所述第二音频片段，其中，所述第一拼接音频被标记为未读状态，且在所述第一拼接音频上显示有第一播放速度调整标识；在所述将去重处理后的所述前置音频和所述第三音频片段进行拼接，得到第二拼接音频之后，在消息显示窗口显示所述第二拼接音频，并取消显示所述前置音频和所述第三音频片段，其中，所述第二拼接音频被标记为已读状态，且在所述第二拼接音频上显示有第二播放速度调整标识。这样不仅方便用户直观分辨已播放音频片段和未播放音频片段，进而可以快速的进行播放选择，还可以灵活的调整音频消息的播放速度，节省用户收听音频消息的时间。

可选地，在第一音频不存在后置音频的情况下，可以直接标记第二音频片段为未读状态，并在第二音频片段上显示第三播放速度调整标识，该第三播放速度调整标识可以用于调整第二音频片段的播放速度；在第一音频不存在前置音频的情况下，可以直接标记第三音频片段为已读状态，并在第三音频片段上显示第四播放速度调整标识，该第四播放速度调整标识可以用于调整第三音频片段的播放速度，不仅方便用户直观分辨已播放音频片段和未播放音频片段，进而可以快速的进行播放选择，还可以灵活的调整音频消息的播放速度，节省用户收听音频消息的时间。

可选地，本申请实施例可以在接收到针对目标音频的播放输入的情况下，识别所述目标音频对应的文本；对所述目标音频对应的文本进行语义理解，并基于语义理解结果确定目标背景音乐；在播放所述目标音频的过程中播放所述目标背景音乐。

其中，上述目标音频可以是任意的音频或音频片段或者拼接音频。上述目标背景音乐可以是与目标音频对应的文本的语义理解结果匹配的音乐，例如，若目标音频对应的文本的语义理解结果指示该目标音频为生日祝福，则上述目标背景音乐可以为生日祝福相关歌曲，若目标音频对应的文本的语义理解结果指示该目标音频为旅游计划，则上述目标背景音乐可以为旅游相关歌曲。

本申请实施例通过在播放音频的过程中播放与该音频的内容相匹配的背景音乐，可以提高音频播放的效果和趣味性。

参见图4，图4是本申请另一实施例提供的音频处理方法的流程图。

如图4所示，本申请实施例提供的音频处理方法包括以下步骤：

步骤201、播放第一音频。

步骤202、是否暂停播放第一音频。

在暂停播放第一音频的情况下，可以记录第一音频的中断播放位置，并执行步骤203，否则继续播放第一音频。

步骤203、通过语音活动检测算法检测第一音频中的各个静音片段。

该步骤中，可以通过VAD算法将音频的每一帧分成两类，一类是静音帧(即sil帧)，一类是非静音帧，并将时长超过预设时长的静音部分确定为静音片段。

步骤204、通过语音识别算法识别第一音频对应的文本，并标记文本中各个词对应的音频位置。

该步骤中，通过语音识别算法识别第一音频对应的文本，并标记文本中各个词对应的音频位置，也即标记各个词在第一音频中的开始时间点和结束时间点。

步骤205、通过文本断句算法对文本进行断句处理，并结合文本中各个词对应的音频位置确定第一音频的各个断句位置。

该步骤中，可以根据文本断句算法为该文本标记标点符号，例如，逗号、句号、问号、叹号、空白等符号，其中，标记为空白表示此处不进行断句，否则表示此处需要断句，并可以在得到文本的各个断句位置之后，结合标记的文本中每个词对应的音频位置，可以得到第一音频的各个断句位置。

步骤206、根据第一音频的播放中断位置、第一音频中的各个静音片段的位置和第一音频的各个断句位置确定分割位置。

该步骤中，可以查找第一音频的已播放音频片段(即上述第一音频片段)中与播放中断位置距离最近的断句位置或者静音片段的结束位置。例如，可以查看已播放音频片段中位于播放中断位置之前的每个词，如果播放中断位置的前一个词的结束位置为断句位置，或者前一个词是静音词，则可以把前一个词的结束时刻作为音频的分割位置。

步骤207、根据分割位置分割第一音频，得到第二音频片段和第三音频片段。

该步骤中，第二音频片段为所述第一音频的分割位置至所述第一音频的结束位置之间的音频片段，第三音频片段为所述第一音频的开始位置至所述第一音频的分割位置之间的音频片段。

步骤208、判断第一音频是否存在前置音频和后置音频。

该步骤中，在第一音频存在前置音频和后置音频的情况下，执行步骤210，在第一音频不存在前置音频和后置音频的情况下，执行步骤209；在第一音频存在后置音频但不存在前置音频的情况下，可以将第三音频片段标记为已读状态，并将第二音频片段和后置音频进行去重处理并拼接得到第一拼接音频；在第一音频存在前置音频但不存在后置音频的情况下，可以将第二音频片段标记为未读状态，并将将第三音频片段与前置音频进行去重处理并拼接得到第二拼接音频。

步骤209、将第二音频片段标记为未读状态，将第三音频片段标记为已读状态。

步骤210、将第二音频片段和后置音频进行去重处理并拼接得到第一拼接音频，将第三音频片段与前置音频进行去重处理并拼接得到第二拼接音频。

该步骤中，将第二音频片段和后置音频进行去重处理以及将第三音频片段与前置音频进行去重处理可以参见前述相关说明，在此不做赘述。

步骤211、将第一拼接音频标记为未读状态，将第二拼接音频标记为未读状态。

本申请实施例通过语音活动检测算法、语音识别算法、文本断句算法，可以自动调整播放中断点，使得中断点后面的音频相对完整，方便下次接着上次的音频来听。此外，本申请实施例可以在音频拼接过程中把重复的音频去除，可以增加两个音频拼接的平滑性，方便收听。

需要说明的是，本申请实施例提供的音频处理方法，执行主体可以为音频处理装置，或者，或者该音频处理装置中的用于执行加载音频处理方法的控制模块。本申请实施例中以音频处理装置执行加载音频处理方法为例，说明本申请实施例提供的音频处理装置。

参见图5，图5是本申请一实施例提供的音频处理装置的结构图，如图5所示，该音频处理装置500包括：

第一确定模块501，用于在监测到第一音频播放中断的情况下，根据所述第一音频的播放中断位置、所述第一音频的各个断句位置和所述第一音频的各个静音片段的位置，确定所述第一音频的第一位置，其中，所述第一位置为位于所述第一音频的第一音频片段的断句位置或静音片段的结束位置，所述第一音频片段为所述第一音频的开始位置至所述第一音频的播放中断位置之间的音频片段；

分割模块502，用于根据所述第一位置分割所述第一音频，得到第二音频片段和第三音频片段，其中，所述第二音频片段为所述第一音频的第一位置至所述第一音频的结束位置之间的音频片段，所述第三音频片段为所述第一音频的开始位置至所述第一音频的第一位置之间的音频片段。

可选地，所述装置还包括：

识别模块，用于所述在监测到第一音频播放中断的情况下，根据所述第一音频的播放中断位置、所述第一音频的各个断句位置和所述第一音频的各个静音片段的位置，确定所述第一音频的第一位置之前，识别所述第一音频对应的文本；

标记模块，用于标记所述文本中每个词对应的音频位置；

断句模块，用于对所述文本进行断句处理，得到断句处理结果；

第二确定模块，用于根据所述断句处理结果和所述文本中每个词对应的音频位置，确定所述第一音频的各个断句位置。

可选地，所述第一音频为音频消息，所述装置还包括如下至少一项：

第一处理模块，用于所述根据所述第一位置分割所述第一音频，得到第二音频片段和第三音频片段之后，在所述第一音频存在后置音频的情况下，对所述后置音频与所述第二音频片段进行去重处理，并将去重处理后的所述后置音频和所述第二音频片段进行拼接，得到第一拼接音频；其中，所述后置音频为所述第一音频的后一条音频消息，且所述后置音频对应的音频对象与所述第一音频对应的音频对象相同；

第二处理模块，用于在所述第一音频存在前置音频的情况下，对所述前置音频与所述第三音频片段进行去重处理，并将去重处理后的所述前置音频和所述第三音频片段进行拼接，得到第二拼接音频；其中，所述前置音频为所述第一音频的前一条音频消息，且所述前置音频对应的音频对象与所述第一音频对应的音频对象相同。

可选地，所述第一处理模块具体用于：

所述第二处理模块具体用于：

可选地，所述装置还包括：

第一显示模块，用于所述将去重处理后的所述后置音频和所述第二音频片段进行拼接，得到第一拼接音频之后，在消息显示窗口显示所述第一拼接音频，并取消显示所述后置音频和所述第二音频片段，其中，所述第一拼接音频被标记为未读状态，且在所述第一拼接音频上显示有第一播放速度调整标识；

第二显示模块，用于所述将去重处理后的所述前置音频和所述第三音频片段进行拼接，得到第二拼接音频之后，在消息显示窗口显示所述第二拼接音频，并取消显示所述前置音频和所述第三音频片段，其中，所述第二拼接音频被标记为已读状态，且在所述第二拼接音频上显示有第二播放速度调整标识。

本申请实施例中的音频处理装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的音频处理装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***，可以为ios操作***，还可以为其他可能的操作***，本申请实施例不作具体限定。

本申请实施例提供的音频处理装置能够实现上述方法实施例中的各个过程，为避免重复，这里不再赘述。

本申请实施例的音频处理装置500中，第一确定模块501，用于在监测到第一音频播放中断的情况下，根据所述第一音频的播放中断位置、所述第一音频的各个断句位置和所述第一音频的各个静音片段的位置，确定所述第一音频的第一位置，其中，所述第一位置为位于所述第一音频的第一音频片段的断句位置或静音片段的结束位置，所述第一音频片段为所述第一音频的开始位置至所述第一音频的播放中断位置之间的音频片段；分割模块502，用于根据所述第一位置分割所述第一音频，得到第二音频片段和第三音频片段，其中，所述第二音频片段为所述第一音频的第一位置至所述第一音频的结束位置之间的音频片段，所述第三音频片段为所述第一音频的开始位置至所述第一音频的第一位置之间的音频片段。由于基于根据播放中断位置确定的断句位置或者静音片段的结束位置分割音频，可以提高分割后得到的音频片段的完整性。

可选地，如图6所示，本申请实施例还提供一种电子设备600，包括处理器601，存储器602，存储在存储器602上并可在所述处理器601上运行的程序或指令，该程序或指令被处理器601执行时实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

参见图7，图7是本申请另一实施例提供的电子设备的结构图，如图7所示，该电子设备700包括但不限于：射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、以及处理器710等部件。

本领域技术人员可以理解，电子设备700还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理***与处理器710逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器710，用于在监测到第一音频播放中断的情况下，根据所述第一音频的播放中断位置、所述第一音频的各个断句位置和所述第一音频的各个静音片段的位置，确定所述第一音频的第一位置，其中，所述第一位置为位于所述第一音频的第一音频片段的断句位置或静音片段的结束位置，所述第一音频片段为所述第一音频的开始位置至所述第一音频的播放中断位置之间的音频片段；根据所述第一位置分割所述第一音频，得到第二音频片段和第三音频片段，其中，所述第二音频片段为所述第一音频的第一位置至所述第一音频的结束位置之间的音频片段，所述第三音频片段为所述第一音频的开始位置至所述第一音频的第一位置之间的音频片段。

可选地，所述处理器710还用于：

所述在监测到第一音频播放中断的情况下，识别所述第一音频的第一音频片段中距离所述第一音频的播放中断位置最近的第一位置之前，识别所述第一音频对应的文本；

标记所述文本中每个词对应的音频位置；

对所述文本进行断句处理，得到断句处理结果；

可选地，所述处理器710还用于：

所述第一音频为音频消息，所述根据所述第一位置分割所述第一音频，得到第二音频片段和第三音频片段之后，在所述第一音频存在后置音频的情况下，对所述后置音频与所述第二音频片段进行去重处理，并将去重处理后的所述后置音频和所述第二音频片段进行拼接，得到第一拼接音频；其中，所述后置音频为所述第一音频的后一条音频消息，且所述后置音频对应的音频对象与所述第一音频对应的音频对象相同；

可选地，所述处理器710还用于：

可选地，所述显示单元706用于：

所述将去重处理后的所述后置音频和所述第二音频片段进行拼接，得到第一拼接音频之后，在消息显示窗口显示所述第一拼接音频，并取消显示所述后置音频和所述第二音频片段，其中，所述第一拼接音频被标记为未读状态，且在所述第一拼接音频上显示有第一播放速度调整标识；

所述将去重处理后的所述前置音频和所述第三音频片段进行拼接，得到第二拼接音频之后，在消息显示窗口显示所述第二拼接音频，并取消显示所述前置音频和所述第三音频片段，其中，所述第二拼接音频被标记为已读状态，且在所述第二拼接音频上显示有第二播放速度调整标识。

应理解的是，本申请实施例中，输入单元704可以包括图形处理器(GraphicsProcessing Unit，GPU)7041和麦克风7042，图形处理器7041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元706可包括显示面板7061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板7061。用户输入单元707包括触控面板7071以及其他输入设备7072。触控面板7071，也称为触摸屏。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其他输入设备7072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器709可用于存储软件程序以及各种数据，包括但不限于应用程序和操作***。处理器710可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器710中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为***级芯片、***芯片、芯片***或片上***芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种音频处理方法，其特征在于，包括：

在监测到第一音频播放中断的情况下，根据所述第一音频的播放中断位置和所述第一音频的各个静音片段的位置，确定所述第一音频的第一位置，其中，所述第一位置为位于所述第一音频的第一音频片段的断句位置或静音片段的结束位置，所述第一音频片段为所述第一音频的开始位置至所述第一音频的播放中断位置之间的音频片段；

2.根据权利要求1所述的方法，其特征在于，所述第一位置为所述第一音频片段中距离所述播放中断位置为第一距离的断句位置或静音片段的结束位置，所述第一距离为所述第一音频片段的各个断句位置和各个静音片段的结束位置与所述播放中断位置的距离中的最小值。

3.根据权利要求1所述的方法，其特征在于，所述在监测到第一音频播放中断的情况下，根据所述第一音频的播放中断位置、所述第一音频的各个断句位置和所述第一音频的各个静音片段的位置，确定所述第一音频的第一位置之前，所述方法还包括：

识别所述第一音频对应的文本；

标记所述文本中每个词对应的音频位置；

对所述文本进行断句处理，得到断句处理结果；

4.根据权利要求1所述的方法，其特征在于，所述第一音频为音频消息，所述根据所述第一位置分割所述第一音频，得到第二音频片段和第三音频片段之后，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述后置音频与所述第二音频片段进行去重处理，包括：

6.根据权利要求4所述的方法，其特征在于，所述将去重处理后的所述后置音频和所述第二音频片段进行拼接，得到第一拼接音频之后，所述方法还包括：

7.一种音频处理装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述第一位置为所述第一音频片段中距离所述播放中断位置为第一距离的断句位置或静音片段的结束位置，所述第一距离为所述第一音频片段的各个断句位置和各个静音片段的结束位置与所述播放中断位置的距离中的最小值。

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：

识别模块，用于所述在监测到第一音频播放中断的情况下，识别所述第一音频的第一音频片段中距离所述第一音频的播放中断位置最近的第一位置之前，识别所述第一音频对应的文本；

标记模块，用于标记所述文本中每个词对应的音频位置；

10.根据权利要求7所述的装置，其特征在于，所述第一音频为音频消息，所述装置还包括：

11.根据权利要求10所述的装置，其特征在于，所述第一处理模块具体用于：

所述第二处理模块具体用于：

12.根据权利要求10所述的装置，其特征在于，所述装置还包括：

13.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-7任一项所述的音频处理方法的步骤。

14.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-7任一项所述的音频处理方法的步骤。