CN112509609A

CN112509609A - 音频处理方法、装置、电子设备以及存储介质

Info

Publication number: CN112509609A
Application number: CN202011486633.XA
Authority: CN
Inventors: 董超宏; 刘衍晴
Original assignee: Beijing Lexuebang Network Technology Co Ltd
Current assignee: Beijing Lexuebang Network Technology Co Ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-03-16
Anticipated expiration: 2040-12-16
Also published as: CN112509609B

Abstract

本公开提供了一种音频处理方法、装置、电子设备以及存储介质。其中，该方法包括：获取用户针对预设文本的原始朗读音频；基于预设文本的发音信息，在原始朗读音频中确定出目标音频段的起始位置和终止位置；根据目标音频段的起始位置和终止位置，从原始朗读音频中获取目标音频段；将目标音频段合成到目标待合成文件的对应位置处；其中，目标待合成文件为音视频文件。一方面可以降低合成后的文件中的冗余音频量，另一方面也可以确保预设文本的有效朗读音频能够更加准确地合成到目标待合成文件中的期望位置，从而提高合成后的文件的播放效果，提升用户体验。

Description

音频处理方法、装置、电子设备以及存储介质

技术领域

本公开涉及音频的技术领域，具体而言，涉及一种音频处理方法、装置、电子设备以及存储介质。

背景技术

为了提升儿童的学习兴趣，市场上不断推出了各类学习软件来增加学习过程的趣味性。例如，现有的一种帮助儿童进行朗读学习的APP，可以录制老师针对指定文本(如古诗句)的朗读音频，之后将朗读音频发送给学生，学生选择感兴趣的文本之后，可以试听老师提前录制的朗读音频，然后自己录制跟读音频，并将跟读音频上传。

然而，这种方式趣味性较低，用户体验也不佳。

发明内容

本公开实施例至少提供一种音频处理方法、装置、电子设备以及存储介质。

第一方面，本公开实施例提供了一种音频处理方法，包括：获取用户针对预设文本的原始朗读音频；基于预设文本的发音信息，在原始朗读音频中确定出目标音频段的起始位置和终止位置；根据目标音频段的起始位置和终止位置，从原始朗读音频中获取目标音频段；将目标音频段合成到目标待合成文件的对应位置处；其中，目标待合成文件为音视频文件。

在一种可选的实施方式中，基于预设文本的发音信息，所述在原始朗读音频中确定出目标音频段的起始位置和终止位置，包括：将原始朗读音频和预设文本发送至服务器；接收服务器发送的基于预设文本的发音信息在原始朗读音频中确定出的目标音频段的起始位置和终止位置。

在一种可选的实施方式中，预设文本的发音信息表征为声韵母序列；所述基于预设文本的发音信息，在原始朗读音频中确定出目标音频段的起始位置和终止位置，包括：获取预设文本的声韵母序列，以及原始朗读音频的音素序列；将预设文本的声韵母序列和原始朗读音频的音素序列进行匹配，根据匹配结果在原始朗读音频中确定出目标音频段的起始位置和终止位置。

在一种可选的实施方式中，所述将预设文本的声韵母序列和原始朗读音频的音素序列进行匹配，根据匹配结果在原始朗读音频中确定出目标音频段的起始位置和终止位置，包括：在音素序列中确定出与声韵母序列匹配的子音素序列；根据子音素序列在音素序列中的位置，在原始朗读音频中确定出预设文本的有效朗读音频段的起始位置和终止位置；根据预设文本的有效朗读音频段的起始位置和终止位置，在原始朗读音频中确定出目标音频段的起始位置和终止位置。

在一种可选的实施方式中，所述在音素序列中确定出与声韵母序列匹配的子音素序列，包括：在音素序列中，确定出与预设文本的首字的声韵母序列匹配的第一子音素序列、以及与预设文本的尾字的声韵母序列匹配的第二子音素序列；根据子音素序列在音素序列中的位置，在原始朗读音频中确定出预设文本的有效朗读音频段的起始位置和终止位置，包括：根据第一子音素序列和第二子音素序列在音素序列中的位置，在原始朗读音频中分别确定出预设文本的有效朗读音频段的起始位置和结束位置。

在一种可选的实施方式中，所述根据第一子音素序列和第二子音素序列在音素序列中的位置，在原始朗读音频中分别确定出预设文本的有效朗读音频段的起始位置和结束位置，包括：在音素序列中，确定出与首字的后一个文字的声韵母序列相匹配的第三子音素序列、确定出与尾字的前一个文字的声韵母序列相匹配的第四子音素序列；在确定第一子音素序列与第三子音素序列相邻、且第二子音素序列与第四子音素序列相邻时，根据第一子音素序列在音素序列中的位置确定出有效朗读音频段的起始位置，根据第二子音素序列在音素序列中的位置确定出有效朗读音频段的终止位置。

在一种可选的实施方式中，所述根据预设文本的有效朗读音频段的起始位置和终止位置，在原始朗读音频中确定出目标音频段的起始位置和终止位置，包括：将预设文本的有效朗读音频段的起始位置设置为目标音频段的起始位置，或者，将位于预设文本的有效朗读音频段的起始位置之前、且与有效朗读音频段的起始位置相距第一步长的第一位置，作为目标音频段的起始位置；将预设文本的有效朗读音频段的终止位置设置为目标音频段的终止位置，或者，将位于预设文本的有效朗读音频段的终止位置之后、且与有效朗读音频段的终止位置相距第二步长的第二位置，作为目标音频段的终止位置。

第二方面，本公开实施例还提供一种音频处理装置，音频处理装置包括原始朗读音频获取模块、目标音频确定模块、目标音频获取模块和音频合成模块；

原始朗读音频获取模块用于获取用户针对预设文本的原始朗读音频；

目标音频确定模块用于基于预设文本的发音信息，在原始朗读音频中确定出目标音频段的起始位置和终止位置；

目标音频获取模块用于根据目标音频段的起始位置和终止位置，从原始朗读音频中获取目标音频段；

音频合成模块用于将目标音频段合成到目标待合成文件的对应位置处；其中，目标待合成文件为音视频文件。

在一种可选的实施方式中，所述目标音频确定模块在用于基于预设文本的发音信息，在原始朗读音频中确定出目标音频段的起始位置和终止位置时，具体用于：将原始朗读音频和预设文本发送至服务器；接收服务器发送的基于预设文本的发音信息在原始朗读音频中确定出的目标音频段的起始位置和终止位置。

在一种可选的实施方式中，预设文本的发音信息表征为声韵母序列；所述目标音频确定模块在用于基于预设文本的发音信息，在原始朗读音频中确定出目标音频段的起始位置和终止位置时，具体用于：获取预设文本的声韵母序列，以及原始朗读音频的音素序列；将预设文本的声韵母序列和原始朗读音频的音素序列进行匹配，根据匹配结果在原始朗读音频中确定出目标音频段的起始位置和终止位置。

在一种可选的实施方式中，所述目标音频确定模块在用于将预设文本的声韵母序列和原始朗读音频的音素序列进行匹配，根据匹配结果在原始朗读音频中确定出目标音频段的起始位置和终止位置时，具体用于：在音素序列中确定出与声韵母序列匹配的子音素序列；根据子音素序列在音素序列中的位置，在原始朗读音频中确定出预设文本的有效朗读音频段的起始位置和终止位置；根据预设文本的有效朗读音频段的起始位置和终止位置，在原始朗读音频中确定出目标音频段的起始位置和终止位置。

在一种可选的实施方式中，所述目标音频确定模块在用于在音素序列中确定出与声韵母序列匹配的子音素序列时，具体用于：在音素序列中，确定出与预设文本的首字的声韵母序列匹配的第一子音素序列、以及与预设文本的尾字的声韵母序列匹配的第二子音素序列；

所述目标音频确定模块在用于根据子音素序列在音素序列中的位置，在原始朗读音频中确定出预设文本的有效朗读音频段的起始位置和终止位置时，具体用于：根据第一子音素序列和第二子音素序列在音素序列中的位置，在原始朗读音频中分别确定出预设文本的有效朗读音频段的起始位置和结束位置。

在一种可选的实施方式中，所述目标音频确定模块在用于根据第一子音素序列和第二子音素序列在音素序列中的位置，在原始朗读音频中分别确定出预设文本的有效朗读音频段的起始位置和结束位置时，具体用于：在音素序列中，确定出与首字的后一个文字的声韵母序列相匹配的第三子音素序列、确定出与尾字的前一个文字的声韵母序列相匹配的第四子音素序列；在确定第一子音素序列与第三子音素序列相邻、且第二子音素序列与第四子音素序列相邻时，根据第一子音素序列在音素序列中的位置确定出有效朗读音频段的起始位置，根据第二子音素序列在音素序列中的位置确定出有效朗读音频段的终止位置。

在一种可选的实施方式中，所述目标音频确定模块在用于根据预设文本的有效朗读音频段的起始位置和终止位置，在原始朗读音频中确定出目标音频段的起始位置和终止位置时，具体用于：将预设文本的有效朗读音频段的起始位置设置为目标音频段的起始位置，或者，将位于预设文本的有效朗读音频段的起始位置之前、且与有效朗读音频段的起始位置相距第一步长的第一位置，作为目标音频段的起始位置；将预设文本的有效朗读音频段的终止位置设置为目标音频段的终止位置，或者，将位于预设文本的有效朗读音频段的终止位置之后、且与有效朗读音频段的终止位置相距第二步长的第二位置，作为目标音频段的终止位置。

第三方面，本公开实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的音频处理方法的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的音频处理方法的步骤。

本公开实施例提供的音频处理方法、装置、电子设备以及存储介质，在获取到用户针对预设文本的原始朗读音频之后，以预设文本的发音信息为依据在原始朗读音频获取目标音频段，使得获得的目标音频段既能够包含原始朗读音频的有效信息，又能够删除原始朗读音频的冗余音频。由于目标音频段的长度更短，目标音频段相比于原始朗读音频所包含的冗余音频也就更少，因此将目标音频段合成到目标待合成文件，一方面可以降低合成后的文件中的冗余音频量，另一方面也可以确保预设文本的有效朗读音频能够更加准确地合成到目标待合成文件中的期望位置，从而提高合成后的文件的播放效果，提升用户体验。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本公开实施例提供的一种音频处理方法的流程图；

图2为本公开实施例提供的一种确定目标音频段的起始位置和终止位置的具体方法的流程图；

图3为本公开实施例提供的另一种音频处理方法的流程图；

图4为本公开实施例提供的一种音频处理装置的示意图；

图5为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，现有的帮助儿童进行朗读学习的APP，可以录制老师针对指定文本(如古诗句)的朗读音频，之后将朗读音频发送给学生，学生选择感兴趣的文本之后，可以试听老师提前录制的朗读音频，然后自己录制跟读音频，并将跟读音频上传。然而，这种方式趣味性较低，用户体验也不佳。现有的一种帮助儿童进行朗读学习的APP，可以录制儿童针对指定文本(如古诗句)的朗读音频，之后将朗读音频合成到指定文件(如配乐文件和/或视频文件)中。在播放合成后的指定文件时，可以同步地播放儿童针对指定文本的朗读音频以及配乐(或视频)，增加儿童的朗读学习过程的趣味性。

然而，上述朗读学习的APP所录制用户针对指定文本(如古诗句)的朗读音频除了包含指定文本的有效朗读音频之外，通常还包括其它的冗余音频。例如，从音频录制开始的时刻到用户开始朗读预设文本的时刻可能会存在一段时间间隔，同样地，在用户结束朗读预设文本的时刻到音频录制结束的时刻也可能会存在一段时间间隔，在上述时间间隔内录制的音频便成为冗余音频。这些冗余音频会和有效音频一起被合成到指定文件中，这会导致在播放合成后的指定文件的过程中，冗余音频也会被播放出来，另外，由于朗读音频中冗余音频的存在，还会导致有效朗读音频的部分不能较准确地合成到指定文件中期望的位置，进而导致有效朗读音频内容与配乐内容/或视频画面不匹配，上述两方面都会严重地影响文件的播放效果。

基于上述研究，本公开提供了一种音频处理方法，在获取到用户针对预设文本的原始朗读音频之后，以预设文本的发音信息为依据在原始朗读音频获取目标音频段，使得获得的目标音频段既能够包含原始朗读音频的有效信息，又能够删除原始朗读音频的冗余音频。由于目标音频段的长度更短，目标音频段相比于原始朗读音频所包含的冗余音频也就更少，因此将目标音频段合成到目标待合成文件，一方面可以降低合成后的文件中的冗余音频量，另一方面也可以确保预设文本的有效朗读音频能够更加准确地合成到目标待合成文件中的期望位置，从而提高合成后的文件的播放效果，提升用户体验。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种音频处理方法进行详细介绍，本公开实施例所提供的音频处理方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端设备、终端设备、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该音频处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面以执行主体为终端设备为例对本公开实施例提供的音频处理方法加以说明。

参见图1所示，为本公开实施例提供的一种音频处理方法的流程图，所述方法包括步骤S110～S140，其中：

S110：获取用户针对预设文本的原始朗读音频。

在录制用户针对预设文本的朗读音频时，由于技术因素和/或人为因素的影响，录制的音频中除了包含预设文本的有效朗读音频段之外，还会包含冗余音频，冗余音频一般包括杂音和/或空白音频。

举例而言，目前常见的录音跟读时间都是固定8秒，但是有时候用户说话只花了5秒，这就产生了3秒的冗余时间，对此不做赘述。

例如，从音频录制开始的时刻到用户开始朗读预设文本的时刻，可能会存在一段时间间隔；同样地，在用户结束朗读预设文本的时刻到音频录制结束的时刻也可能会存在一段时间间隔；类似地，在用户出现卡顿时，不同的字之间也可能会存在一段时间间隔。

在本公开实施例中，可以将在所述时间间隔内所录制的音频称为冗余音频；可以将在用户开始朗读预设文本的时刻到结束朗读预设文本的时刻所录制的音频，称为预设文本的有效朗读音频段；将包含了冗余音频和预设文本的有效朗读音频段的音频，称为原始朗读音频。

在该步骤中，原始朗读音频可以是由执行本公开实施例所提供的音频处理方法的终端设备录制的。当然，原始朗读音频也可是由终端设备之外的指定设备录制的，终端设备在所述指定设备出获取原始朗读音频，或者指定设备可以将原始朗读音频上传到数据存储设备(如云端服务器)，所述终端设备在数据存储设备处下载得到原始朗读音频。

S120：基于预设文本的发音信息，在原始朗读音频中确定出目标音频段的起始位置和终止位置。

目标音频段的起始位置和终止位置，分别代表目标音频段在原始朗读音频中的开始时刻和结束时刻。例如，原始朗读音频的播放时长为10秒，从0秒在开始播放原始朗读音频，将第3秒到第6秒播放的音频作为目标音频段，则第3秒和第6秒在原始朗读音频对应的位置即分别为目标音频段的起始位置和终止位置。应当理解，基于预设文本的发音信息所确定出的目标音频段至少包含预设文本的有效朗读音频段，而且，目标音频段的时长小于原始朗读音频的时长。

在一种可选的实施方式中，预设文本的发音信息表征为声韵母序列。步骤S120可以具体包括：获取预设文本的声韵母序列，以及原始朗读音频的音素序列；将预设文本的声韵母序列和原始朗读音频的音素序列进行匹配，根据匹配结果在原始朗读音频中确定出目标音频段的起始位置和终止位置。

预设文本的声韵母序列，是由预设文本中的每个字对应的拼音字母所组成的序列。

接下来对本公开实施例中与音素相关的内容进行介绍。音素即Phoneme，是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位；从生理性质来看，一个发音动作形成一个音素。音素可以分为元音音素和辅音音素，单个的元音音素可以自成一个音节，元音音素和辅音音素也可以组合成音节，音节是表音语系中最小语音单位，每个音节对应一个发音。

在本公开实施例中，原始朗读音频包括冗余音频和预设文本的有效音频，因此原始朗读音频的音素序列包括了预设文本的有效音频中的每个音节、以及冗余音频中的每个音节。音素可以使用拼音字母的形式进行表示，对于同一个文字，该文字的声韵母序列与该文字的发音的音素序列所使用的拼音字母是相同的，因此在原始朗读音频的音素序列中可以匹配到预设文本的声韵母序列。在此需要说明的是，对于冗余音频中的空白音频，可以原始朗读音频的音素序列使用指定字符进行占位，该指定字符即表示冗余音频中的空白音频。

以预设文本为“白日依山尽”为例，“白日依山尽”的声韵母序列为“bairiyishanjin”；“白日依山尽”对应的原始朗读音频的音素序列为“xxxxxgaoxxxbairiyishanjinxxxxxjieshuxx”，在原始朗读音频的音素序列中，“bairiyishanjin”对应预设文本的有效音频，“bairiyishanjin”之外的部分对应冗余音频。

接下来介绍一种通过将预设文本的声韵母序列和原始朗读音频的音素序列进行匹配来确定目标音频段的起始位置和终止位置的具体方法，参见图2所示，为本公开实施例提供的一种确定目标音频段的起始位置和终止位置的具体方法的流程图，所述具体方法包括步骤S1201～S1203，其中：

S1201：在音素序列中确定出与声韵母序列匹配的子音素序列。

如前文所述，原始朗读音频的音素序列包括了预设文本的有效音频中的每个音节、以及冗余音频中的每个音节，也就是说，原始朗读音频的音素序列包括预设文本的有效音频的音素序列、以及冗余音频的音素序列。在该步骤中，与预设文本的声韵母序列相匹配的子音素序列，实际上就是预设文本的有效音频的音素序列。以预设文本为“白日依山尽”为例，该预设文本的声韵母序列为“bairiyishanjin”，在原始朗读音频的音素序列确定出与“bairiyishanjin”匹配的子音素序列。

可以理解，上述步骤所确定出的子音素序列需要与整个预设文本的声韵母序列相匹配。在一种可选的实施方式中，也可以在音素序列仅确定出与预设文本的部分文字相匹配的子音素序列。例如，在音素序列中，确定出与预设文本的首字的声韵母序列匹配的第一子音素序列、以及与预设文本的尾字的声韵母序列匹配的第二子音素序列。以预设文本为“白日依山尽”为例，该预设文本的首字是“白”，首字的声韵母序列是“bai”；该预设文本的尾字是“尽”，尾字的声韵母序列是“jin”。因此可以在原始朗读音频的音素序列确定出分别与“bai”和“jin”匹配的第一子音素序列和第二子音素序列。

S1202：根据子音素序列在音素序列中的位置，在原始朗读音频中确定出预设文本的有效朗读音频段的起始位置和终止位置。

如前文所述，该步骤中的子音素序列是预设文本的有效音频的音素序列，因此该子音素序列相对于原始朗读音频的音素序列的位置关系，与预设文本的有效朗读音频段相对于原始朗读音频的位置关系是相同的。

对于与整个预设文本的声韵母序列相匹配子音素序列，可以根据子音素序列在原始朗读音频的音素序列中的起始位置，在原始朗读音频中确定出预设文本的有效朗读音频段的起始位置；根据子音素序列在原始朗读音频的音素序列中的终止位置，在原始朗读音频中确定出预设文本的有效朗读音频段的终止位置。

对于与预设文本的首字的声韵母序列匹配的第一子音素序列、以及与预设文本的尾字的声韵母序列匹配的第二子音素序列，可以根据第一子音素序列和第二子音素序列在音素序列中的位置，在原始朗读音频中分别确定出预设文本的有效朗读音频段的起始位置和结束位置。

为了检验第一子音素序列和第二子音素序列在音素序列中位置是否正确，可以在音素序列中确定出第一子音素序列和第二子音素序列之后，继续在音素序列中确定出与预设文本的首字和尾字之外的至少一个文字的声韵母序列匹配的预设子音素序列，基于该预设子音素序列与第一子音素序列和第二子音素序列的位置关系，来确定第一子音素序列和第二子音素序列在音素序列中位置是否正确，在确定第一子音素序列和第二子音素序列在音素序列中的位置是正确的之后，再根据第一子音素序列和第二子音素序列在音素序列中的位置，在原始朗读音频中分别确定出预设文本的有效朗读音频段的起始位置和结束位置。

在一种可选的实施方式中，在音素序列中确定出第一子音素序列和第二子音素序列之后，可以在音素序列中确定出与首字的后一个文字的声韵母序列相匹配的第三子音素序列、与尾字的前一个文字的声韵母序列相匹配的第四子音素序列；在确定第一子音素序列与第三子音素序列相邻、且第二子音素序列与第四子音素序列相邻时，则可以确定第一子音素序列和第二子音素序列在音素序列中的位置是正确的，之后根据第一子音素序列在音素序列中的位置确定出有效朗读音频段的起始位置，根据第二子音素序列在音素序列中的位置确定出有效朗读音频段的终止位置。

以预设文本为“白日依山尽”为例，该预设文本的首字是“白”，首字的声韵母序列是“bai”；该预设文本的尾字是“尽”，尾字的声韵母序列是“jin”。可以在原始朗读音频的音素序列确定出分别与“bai”和“jin”匹配的第一子音素序列和第二子音素序列。

在确定出第一子音素序列和第二子音素序列之后，在音素序列中确定出与“白”的后一个文字“日”相匹配的第三子音素序列、与“尽”的前一个文字“山”相匹配的第四子音素序列。具体地，“日”声韵母序列是“ri”，“山”的声韵母序列是“shan”，在音素序列中确定出与分别与“ri”和“shan”匹配的第三子音素序列和第四子音素序列。

可以理解，在预设文本中，“白”和“日”是相邻的，“山”和“尽”是相邻的，若第一子音素序列和第二子音素序列在音素序列中的位置是正确的，则第一子音素序列应当与第三子音素序列相邻、且第二子音素序列应当与第四子音素序列相邻。因此，在确定第一子音素序列与第三子音素序列相邻、且第二子音素序列与第四子音素序列相邻时，则可以确定第一子音素序列和第二子音素序列在音素序列中的位置是正确的。

S1203：根据预设文本的有效朗读音频段的起始位置和终止位置，在原始朗读音频中确定出目标音频段的起始位置和终止位置。

在该步骤中，可以将目标音频段设置为与有效朗读音频段相同，也可以目标音频段设置为包含有效朗读音频段和部分的冗余音频，因此可以根据不同情况来确定目标音频段的起始位置和终止位置。下面介绍几种根据有效朗读音频段的起始位置和终止位置来确定目标音频段的起始位置和终止位置的方式。

方式1：将预设文本的有效朗读音频段的起始位置设置为目标音频段的起始位置，将预设文本的有效朗读音频段的终止位置设置为目标音频段的终止位置。由方式1所确定出的目标音频段与预设文本的有效朗读音频段是相同的，这可以较大程度上避免目标音频段包含冗余音频。

方式2：将位于预设文本的有效朗读音频段的起始位置之前、且与有效朗读音频段的起始位置相距第一步长的第一位置，作为目标音频段的起始位置；将位于预设文本的有效朗读音频段的终止位置之后、且与有效朗读音频段的终止位置相距第二步长的第二位置，作为目标音频段的终止位置。

方式3：将位于预设文本的有效朗读音频段的起始位置之前、且与有效朗读音频段的起始位置相距第一步长的第一位置，作为目标音频段的起始位置；将预设文本的有效朗读音频段的终止位置设置为目标音频段的终止位置。

方式4：将预设文本的有效朗读音频段的起始位置设置为目标音频段的起始位置，将位于预设文本的有效朗读音频段的终止位置之后、且与有效朗读音频段的终止位置相距第二步长的第二位置，作为目标音频段的终止位置。

在此需要说明的是，方式2至方式4中的第一步长和/或第二步长的长度可以根据实际的需要而定。由于目标音频段的起始位置位于预设文本的有效朗读音频段的起始位置之前，和/或目标音频段的终止位置位于预设文本的有效朗读音频段的终止位置之后，可以在较大程度上保证目标音频段能够完全包含预设文本的有效朗读音频段，避免获取到的目标音频段缺少预设文本的部分有效朗读音频段，确保目标音频段所包含的有效朗读音频段的完整性。

S130：根据目标音频段的起始位置和终止位置，从原始朗读音频中获取目标音频段。

在该步骤中，可以在原始朗读音频中，将目标音频段的起始位置之前的音频、以及目标音频段的终止位置之后的音频删除，被保留的音频即为目标音频段。或者，还可以原始朗读音频中，目标音频段的起始位置和终止位置之前的音频裁剪出来，裁剪出的音频即为目标音频段。

进一步地，还可以对目标音频段中的冗余音频也删除，例如目标音频段中个别字词之间的时间间隔过长，也可以将这几个字词之间的冗余音频删除。如，裁剪出的目标音频段为诗句白日依山尽，其中每个字之间的时间间距为白(0.3秒)日(6秒)依(0.5秒)山(0.4秒)尽，从而可以得到“日”和“依”之间的时间间距为6秒，即这个时间间距可作为应该删除的冗余的时间间隔，假设设定的每两个字之间的间隔不应该长于1秒，则可以将6秒删减成0.5秒或者1秒等，对此不做赘述。

S140：将目标音频段合成到目标待合成文件的对应位置处。

在本公开实施例中，目标待合成文件可以是音频文件(如配乐文件)、视频文件(如动画视频文件)或者同时包含了音频和视频的文件。

在一种可选的实施方式中，目标待合成文件中可以设置指示标识，该指示标识用于指示目标音频段在目标待合成文件中的起始位置。可以根据指示标所在的位置将目标音频段合成到目标待合成文件，使目标音频段的起始位置与指示标识所在的位置重合。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

上述内容以执行主体为终端设备为例对本公开实施例提供的音频处理方法进行了介绍，可以理解，本公开实施例所提供的音频处理方法也可以由两个以上的执行主体来执行，每个执行主体分别执行音频处理方法的部分步骤。下面以执行主体为终端设备和服务器为例对本公开实施例提供的音频处理方法加以说明。

在另一些可能的实施方式中，当目标待合成文件为视频文件时，将目标音频段合成到目标待合成文件的对应位置处，还可以包括：

在视频画面中展示预设文本；

并在视频画面中按照目标音频段的播放顺序，高亮相应的字词。

例如，假设待合成文件为山水视频，在合成了用户上传的目标音频段之后，客户端屏幕还可以展示包括目标音频段的山水视频，并可以将预设文本作为字幕展示在屏幕上，还可以按照播放时序，高亮响应的字词。例如白日依山尽，可以展示在屏幕的中间、下面、右上角、左上角等等，在播放到“山”时，可以将“白日依山”四个字展示为黄色，将“尽”字展示为灰色等，颜色以及展示方式可以随意设置，此处不作限制。

在另一些可能的实施方式中，客户端还可将合成之后的文件上传到服务器或者保存在本地，以防止信息的丢失，对此不做赘述。

参见图3所示，为本公开实施例提供的另一种音频处理方法的流程图，所述方法包括步骤S210～S260，其中：

S210：终端设备获取用户针对预设文本的原始朗读音频。

在此需要说明的是，该步骤的描述可以参考上述步骤S101的描述，并且可以达到相同的技术效果，在此不再赘述。

S220：终端设备将原始朗读音频和预设文本发送至服务器。

S230：服务器接收终端设备发送的原始朗读音频和预设文本发送，基于预设文本的发音信息，在原始朗读音频中确定出目标音频段的起始位置和终止位置。

在此需要说明的是，该步骤的确定目标音频段的起始位置和终止位置的描述可以参考上述步骤S120的描述，并且可以达到相同的技术效果，在此不再赘述。

S240：服务器将目标音频段的起始位置和终止位置发送至终端设备。

S250：终端设备根据服务器发送来的目标音频段的起始位置和终止位置，从原始朗读音频中获取目标音频段。

在此需要说明的是，该步骤的获取目标音频段的描述可以参考上述步骤S120的描述，并且可以达到相同的技术效果，在此不再赘述。

S260：终端设备将目标音频段合成到目标待合成文件的对应位置处；其中，目标待合成文件为音视频文件。

在此需要说明的是，该步骤的描述可以参考上述步骤S140的描述，并且可以达到相同的技术效果，在此不再赘述。

基于同一发明构思，本公开实施例中还提供了与音频处理方法对应的音频处理装置300，由于本公开实施例中的音频处理装置300解决问题的原理与本公开实施例上述音频处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图4所示，为本公开实施例提供的一种音频处理装置的示意图，音频处理装置300包括原始朗读音频获取模块31、目标音频确定模块32、目标音频获取模块33和音频合成模块34。

原始朗读音频获取模块31用于获取用户针对预设文本的原始朗读音频。

目标音频确定模块32用于基于预设文本的发音信息，在原始朗读音频中确定出目标音频段的起始位置和终止位置。

目标音频获取模块33用于根据目标音频段的起始位置和终止位置，从原始朗读音频中获取目标音频段。

音频合成模块34用于将目标音频段合成到目标待合成文件的对应位置处；其中，所述目标待合成文件为音视频文件。

本公开实施例提供的音频处理装置，在获取到用户针对预设文本的原始朗读音频之后，以预设文本的发音信息为依据在原始朗读音频获取目标音频段，使得获得的目标音频段既能够原始包含原始朗读音频的有效信息，又能够删除原始朗读音频的冗余音频。由于目标音频段的长度更短，目标音频段相比于原始朗读音频所包含的冗余音频也就更少，因此将目标音频段合成到目标待合成文件，一方面可以降低合成后的文件中的冗余音频量，另一方面也可以确保预设文本的有效朗读音频能够更加准确地合成到目标待合成文件中的期望位置，从而提高合成后的文件的播放效果，提升用户体验。

在一种可选的实施方式中，目标音频确定模块32在用于基于预设文本的发音信息，在原始朗读音频中确定出目标音频段的起始位置和终止位置时，具体用于：将原始朗读音频和预设文本发送至服务器；接收服务器发送的基于预设文本的发音信息在原始朗读音频中确定出的目标音频段的起始位置和终止位置。

在一种可选的实施方式中，预设文本的发音信息表征为声韵母序列；目标音频确定模块32在用于基于预设文本的发音信息，在原始朗读音频中确定出目标音频段的起始位置和终止位置时，具体用于：获取预设文本的声韵母序列，以及原始朗读音频的音素序列；将预设文本的声韵母序列和原始朗读音频的音素序列进行匹配，根据匹配结果在原始朗读音频中确定出目标音频段的起始位置和终止位置。

在一种可选的实施方式中，目标音频确定模块32在用于将预设文本的声韵母序列和原始朗读音频的音素序列进行匹配，根据匹配结果在原始朗读音频中确定出目标音频段的起始位置和终止位置时，具体用于：在音素序列中确定出与声韵母序列匹配的子音素序列；根据子音素序列在音素序列中的位置，在原始朗读音频中确定出预设文本的有效朗读音频段的起始位置和终止位置；根据预设文本的有效朗读音频段的起始位置和终止位置，在原始朗读音频中确定出目标音频段的起始位置和终止位置。

在一种可选的实施方式中，目标音频确定模块32在用于在音素序列中确定出与声韵母序列匹配的子音素序列时，具体用于：在音素序列中，确定出与预设文本的首字的声韵母序列匹配的第一子音素序列、以及与预设文本的尾字的声韵母序列匹配的第二子音素序列。

目标音频确定模块32在用于根据子音素序列在音素序列中的位置，在原始朗读音频中确定出预设文本的有效朗读音频段的起始位置和终止位置时，具体用于：根据第一子音素序列和第二子音素序列在音素序列中的位置，在原始朗读音频中分别确定出预设文本的有效朗读音频段的起始位置和结束位置。

在一种可选的实施方式中，目标音频确定模块32在用于根据第一子音素序列和第二子音素序列在音素序列中的位置，在原始朗读音频中分别确定出预设文本的有效朗读音频段的起始位置和结束位置时，具体用于：在音素序列中，确定出与首字的后一个文字的声韵母序列相匹配的第三子音素序列、确定出与尾字的前一个文字的声韵母序列相匹配的第四子音素序列；在确定第一子音素序列与第三子音素序列相邻、且第二子音素序列与第四子音素序列相邻时，根据第一子音素序列在音素序列中的位置确定出有效朗读音频段的起始位置，根据第二子音素序列在音素序列中的位置确定出有效朗读音频段的终止位置。

在一种可选的实施方式中，目标音频确定模块32在用于根据预设文本的有效朗读音频段的起始位置和终止位置，在原始朗读音频中确定出目标音频段的起始位置和终止位置时，具体用于：将预设文本的有效朗读音频段的起始位置设置为目标音频段的起始位置，或者，将位于预设文本的有效朗读音频段的起始位置之前、且与有效朗读音频段的起始位置相距第一步长的第一位置，作为目标音频段的起始位置；将预设文本的有效朗读音频段的终止位置设置为目标音频段的终止位置，或者，将位于预设文本的有效朗读音频段的终止位置之后、且与有效朗读音频段的终止位置相距第二步长的第二位置，作为目标音频段的终止位置

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

对应于图1中的音频处理方法，本公开实施例还提供了一种电子设备400，如图5所示，为本公开实施例提供的电子设备的结构示意图，电子设备400包括处理器41、存储器42和总线43。存储器42用于存储执行指令，包括内存421和外部存储器422。这里的内存421也称内存储器，用于暂时存放处理器41中的运算数据，以及与硬盘等外部存储器422交换的数据，处理器41通过内存421与外部存储器422进行数据交换，当所述电子设备400运行时，所述处理器41与所述存储器42之间通过总线43通信，使得所述处理器41执行以下指令：

获取用户针对预设文本的原始朗读音频；基于预设文本的发音信息，在原始朗读音频中确定出目标音频段的起始位置和终止位置；根据目标音频段的起始位置和终止位置，从原始朗读音频中获取目标音频段；将目标音频段合成到目标待合成文件的对应位置处；其中，目标待合成文件为音视频文件。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的音频处理方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的音频处理方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种音频处理方法，其特征在于，包括：

获取用户针对预设文本的原始朗读音频；

基于所述预设文本的发音信息，在所述原始朗读音频中确定出目标音频段的起始位置和终止位置；

根据所述目标音频段的起始位置和终止位置，从所述原始朗读音频中获取所述目标音频段；

将所述目标音频段合成到目标待合成文件的对应位置处；其中，所述目标待合成文件为音视频文件。

2.根据权利要求1所述的音频处理方法，其特征在于，所述基于所述预设文本的发音信息，在所述原始朗读音频中确定出目标音频段的起始位置和终止位置，包括：

将所述原始朗读音频和所述预设文本发送至服务器；

接收所述服务器发送的基于所述预设文本的发音信息在所述原始朗读音频中确定出的所述目标音频段的起始位置和终止位置。

3.根据权利要求1或2所述的音频处理方法，其特征在于，所述预设文本的发音信息表征为声韵母序列；所述基于所述预设文本的发音信息，在所述原始朗读音频中确定出目标音频段的起始位置和终止位置，包括：

获取所述预设文本的声韵母序列，以及所述原始朗读音频的音素序列；

将所述预设文本的声韵母序列和所述原始朗读音频的音素序列进行匹配，根据匹配结果在所述原始朗读音频中确定出所述目标音频段的起始位置和终止位置。

4.根据权利要求3所述的音频处理方法，其特征在于，所述将所述预设文本的声韵母序列和所述原始朗读音频的音素序列进行匹配，根据匹配结果在所述原始朗读音频中确定出所述目标音频段的起始位置和终止位置，包括：

在所述音素序列中确定出与所述声韵母序列匹配的子音素序列；

根据所述子音素序列在所述音素序列中的位置，在所述原始朗读音频中确定出所述预设文本的有效朗读音频段的起始位置和终止位置；

根据所述预设文本的有效朗读音频段的起始位置和终止位置，在所述原始朗读音频中确定出所述目标音频段的起始位置和终止位置。

5.根据权利要求4所述的音频处理方法，其特征在于，所述在所述音素序列中确定出与所述声韵母序列匹配的子音素序列，包括：在所述音素序列中，确定出与所述预设文本的首字的声韵母序列匹配的第一子音素序列、以及与所述预设文本的尾字的声韵母序列匹配的第二子音素序列；

所述根据所述子音素序列在所述音素序列中的位置，在所述原始朗读音频中确定出所述预设文本的有效朗读音频段的起始位置和终止位置，包括：根据所述第一子音素序列和所述第二子音素序列在所述音素序列中的位置，在所述原始朗读音频中分别确定出所述预设文本的有效朗读音频段的起始位置和结束位置。

6.根据权利要求5所述的音频处理方法，其特征在于，所述根据所述第一子音素序列和所述第二子音素序列在所述音素序列中的位置，在所述原始朗读音频中分别确定出所述预设文本的有效朗读音频段的起始位置和结束位置，包括：

在所述音素序列中，确定出与所述首字的后一个文字的声韵母序列相匹配的第三子音素序列、确定出与所述尾字的前一个文字的声韵母序列相匹配的第四子音素序列；

在确定所述第一子音素序列与所述第三子音素序列相邻、且所述第二子音素序列与所述第四子音素序列相邻时，根据所述第一子音素序列在所述音素序列中的位置确定出所述有效朗读音频段的起始位置，根据所述第二子音素序列在所述音素序列中的位置确定出所述有效朗读音频段的终止位置。

7.根据权利要求4至6中任一所述的音频处理方法，其特征在于，所述根据所述预设文本的有效朗读音频段的起始位置和终止位置，在所述原始朗读音频中确定出所述目标音频段的起始位置和终止位置，包括：

将所述预设文本的有效朗读音频段的起始位置设置为所述目标音频段的起始位置，或者，将位于所述预设文本的有效朗读音频段的起始位置之前、且与所述有效朗读音频段的起始位置相距第一步长的第一位置，作为所述目标音频段的起始位置；

将所述预设文本的有效朗读音频段的终止位置设置为所述目标音频段的终止位置，或者，将位于所述预设文本的有效朗读音频段的终止位置之后、且与所述有效朗读音频段的终止位置相距第二步长的第二位置，作为所述目标音频段的终止位置。

8.一种音频处理装置，其特征在于，包括：

原始朗读音频获取模块，用于获取用户针对预设文本的原始朗读音频；

目标音频确定模块，用于基于所述预设文本的发音信息，在所述原始朗读音频中确定出目标音频段的起始位置和终止位置；

目标音频获取模块，用于根据所述目标音频段的起始位置和终止位置，从所述原始朗读音频中获取所述目标音频段；

音频合成模块，用于将所述目标音频段合成到目标待合成文件的对应位置处；其中，所述目标待合成文件为音视频文件。

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的音频处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7中任意一项所述的音频处理方法的步骤。