CN113407275A

CN113407275A - 音频编辑方法、装置、设备及可读存储介质

Info

Publication number: CN113407275A
Application number: CN202110671014.6A
Authority: CN
Inventors: 刘佳娜
Original assignee: Guangzhou Fanxing Huyu IT Co Ltd
Current assignee: Guangzhou Fanxing Huyu IT Co Ltd
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2021-09-17

Abstract

本公开实施例提供了一种音频编辑方法、装置、设备及可读存储介质，涉及多媒体处理领域。该方法包括：显示音频编辑页面；在音高参考区域中显示过程音频的音符块；接收在音频编辑页面上的音频调整操作；基于对过程音频的音频调整操作生成结果音频。在音频的编辑过程中，用户能够直接在网页上进行音符块的设置，以及音频参数的调整，音频编辑环境较为灵活，且音频的编辑方式较为便捷，无需用户额外制作MIDI文件，并将MIDI文件导入以实现音频的生成，提高了音频文件的生成效率以及生成的灵活程度，提高了用户交互体验。

Description

音频编辑方法、装置、设备及可读存储介质

技术领域

本公开涉及多媒体处理领域，特别涉及一种音频编辑方法、装置、设备及可读存储介质。

背景技术

音频编辑器是一种通过导入MIDI文件创作音频的软件。

相关技术中，创作者找到对应需要创作音频的MIDI文件，或者制作需要创作音频的MIDI文件后，将MIDI文件导入至音频编辑器中，并进行参数配置操作，从而生成对应需要创作的音频作为创作结果。

然而，由于上述方式需要创作者找到MIDI文件或者制作MIDI文件实现音频创作，MIDI文件的获取过程较为繁琐，音频创作的效率较低。

发明内容

本公开实施例提供了一种音频编辑方法、装置、设备及可读存储介质，能够提高音频创作的效率和方式多样性。所述技术方案如下：

一方面，提供了一种音频编辑方法，所述方法包括：

显示音频编辑页面，所述音频编辑页面为浏览器程序中显示的网页页面，所述音频编辑页面中包括音高参考区域；

在所述音高参考区域中显示过程音频的音符块，所述音符块用于构成所述过程音频，所述过程音频为在所述音高参考区域中产生的音频；

接收在所述音频编辑页面上的音频调整操作，所述音频调整操作用于对所述过程音频的音频参数进行调整；

基于对所述过程音频的所述音频调整操作生成结果音频。

在一个可选的实施例中，所述音频编辑页面中包括音源设定组件；

所述接收在所述音频编辑页面上的音频调整操作，包括：

接收在所述音源设定组件上的第一音频调整操作，所述第一音频调整操作用于对所述过程音频的音色进行确定。

在一个可选的实施例中，所述接收在所述音源设定组件上的第一音频调整操作，包括：

接收在所述音源设定组件上的选择操作；

基于所述选择操作显示音源候选项，所述音源候选项为预先存储的音色调整方式对应的选项；

接收在目标音源候选项上的选择操作作为所述第一音频调整操作。

接收在所述音频设定组件上的选择操作；

基于所述选择操作显示音频录制页面，所述音频录制页面用于通过音频输入设备采集样本音频；

响应于所述样本音频录制完毕，接收音源生成操作作为所述第一音频调整操作。

在一个可选的实施例中，所述音频编辑页面中包括曲速设定组件；

所述接收在所述音频编辑页面上的音频调整操作，包括：

接收在所述曲速设定组件上的第二音频调整操作，所述第二音频调整操作用于对所述过程音频的曲谱播放速度进行确定。

在一个可选的实施例中，所述音频编辑页面中包括音高调整组件；

所述接收在所述音频编辑页面上的音频调整操作，包括：

接收在所述音高调整组件上的第三音频调整操作，所述第三音频调整操作用于对所述过程音频的音符块音高进行确定。

在一个可选的实施例中，所述接收在所述音高调整组件上的第三音频调整操作，包括：

接收在所述音高调整组件上的选择操作；

基于所述选择操作显示音高线，所述音高线为根据所述音符块生成的用于表达音高情况的指示线；

接收对所述音高线的拖动调整操作作为所述第三音频调整操作。

在一个可选的实施例中，所述音频编辑页面中包括换气设置组件；

所述接收在所述音频编辑页面上的音频调整操作，包括：

接收在所述换气设置组件上的第四音频调整操作，所述第四音频调整操作用于在所述过程音频中针对声源发声内容增加换气事项。

在一个可选的实施例中，所述在所述音高参考区域中显示过程音频的音符块之前，还包括：

接收音频导入操作，所述音频导入操作用于在所述音高参考区域中导入候选音频的音符块，所述候选音频为已存储的或者已知获取地址的音频；

或者，

接收在所述音高参考区域中的音符块绘制操作，所述音符块绘制操作用于对应所述音高参考区域创建音符块。

在一个可选的实施例中，所述方法还包括：

接收第一快捷键操作；

基于所述第一快捷键操作撤销当前时刻之前最近一次音频调整操作。

在一个可选的实施例中，所述方法还包括：

接收第二快捷键操作；

基于所述第二快捷键操作恢复当前时刻之前最近一次被撤销的音频调整操作。

另一方面，提供了一种音频编辑方法，所述方法包括：

接收过程音频的音频数据，所述过程音频为所述终端在音频编辑页面中待编辑的音频，所述音频编辑页面为所述终端的浏览器程序中显示的网页页面；

接收音频调整信号，所述音频调整信号为所述终端在所述音频编辑页面上接收到音频调整操作时向服务器发送的信号；

基于所述音频调整信号对所述过程音频的音频参数进行调整；

接收音频生成信号，所述音频生成信号用于指示在当前过程音频的基础上生成结果音频；

基于所述音频生成信号向所述终端反馈所述结果音频。

另一方面，提供了一种音频编辑装置，所述装置包括：

显示模块，用于显示音频编辑页面，所述音频编辑页面为浏览器程序中显示的网页页面，所述音频编辑页面中包括音高参考区域；

所述显示模块，还用于在所述音高参考区域中显示过程音频的音符块，所述音符块用于构成所述过程音频，所述过程音频为在所述音高参考区域中产生的音频；

接收模块，用于接收在所述音频编辑页面上的音频调整操作，所述音频调整操作用于对所述过程音频的音频参数进行调整；

生成模块，用于基于对所述过程音频的所述音频调整操作生成结果音频。

所述接收模块，还用于接收在所述音源设定组件上的第一音频调整操作，所述第一音频调整操作用于对所述过程音频的音色进行确定。

在一个可选的实施例中，所述接收模块，还用于接收在所述音源设定组件上的选择操作；

所述显示模块，还用于基于所述选择操作显示音源候选项，所述音源候选项为预先存储的音色调整方式对应的选项；

所述接收模块，还用于接收在目标音源候选项上的选择操作作为所述第一音频调整操作。

在一个可选的实施例中，所述接收模块，还用于接收在所述音频设定组件上的选择操作；

所述显示模块，还用于基于所述选择操作显示音频录制页面，所述音频录制页面用于通过音频输入设备采集样本音频；

所述接收模块，还用于响应于所述样本音频录制完毕，接收音源生成操作作为所述第一音频调整操作。

所述接收模块，还用于接收在所述曲速设定组件上的第二音频调整操作，所述第二音频调整操作用于对所述过程音频的曲谱播放速度进行确定。

所述接收模块，还用于接收在所述音高调整组件上的第三音频调整操作，所述第三音频调整操作用于对所述过程音频的音符块音高进行确定。

在一个可选的实施例中，所述接收模块，还用于接收在所述音高调整组件上的选择操作；

所述显示模块，还用于基于所述选择操作显示音高线，所述音高线为根据所述音符块生成的用于表达音高情况的指示线；

所述接收模块，还用于接收对所述音高线的拖动调整操作作为所述第三音频调整操作。

所述接收模块，还用于接收在所述换气设置组件上的第四音频调整操作，所述第四音频调整操作用于在所述过程音频中针对声源发声内容增加换气事项。

在一个可选的实施例中，所述接收模块，还用于接收音频导入操作，所述音频导入操作用于在所述音高参考区域中导入候选音频的音符块，所述候选音频为已存储的或者已知获取地址的音频；

或者，

所述接收模块，还用于接收在所述音高参考区域中的音符块绘制操作，所述音符块绘制操作用于对应所述音高参考区域创建音符块。

在一个可选的实施例中，所述接收模块，还用于接收第一快捷键操作；基于所述第一快捷键操作撤销当前时刻之前最近一次音频调整操作。

在一个可选的实施例中，所述接收模块，还用于接收第二快捷键操作；基于所述第二快捷键操作恢复当前时刻之前最近一次被撤销的音频调整操作。

另一方面，提供了一种音频编辑装置，所述装置包括：

接收模块，用于接收过程音频的音频数据，所述过程音频为所述终端在音频编辑页面中待编辑的音频，所述音频编辑页面为所述终端的浏览器程序中显示的网页页面；

所述接收模块，还用于接收音频调整信号，所述音频调整信号为所述终端在所述音频编辑页面上接收到音频调整操作时向服务器发送的信号；

调整模块，用于基于所述音频调整信号对所述过程音频的音频参数进行调整；

所述接收模块，还用于接收音频生成信号，所述音频生成信号用于指示在当前过程音频的基础上生成结果音频；

发送模块，用于基于所述音频生成信号向所述终端反馈所述结果音频。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上述本公开实施例中提供的音频编辑方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如上述本公开实施例中提供的音频编辑方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的音频编辑方法。

本公开实施例提供的技术方案的有益效果至少包括：

在音频的编辑过程中，用户能够直接在网页上进行音符块的设置，以及音频参数的调整，音频编辑环境较为灵活，且音频的编辑方式较为便捷，无需用户额外制作MIDI文件，并将MIDI文件导入以实现音频的生成，提高了音频文件的生成效率以及生成的灵活程度，提高了用户交互体验。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并于说明书一起用于解释本公开的原理。

图1是本公开一个示例性实施例提供的实施环境示意图；

图2是本公开一个示例性实施例提供的音频编辑方法流程图；

图3是基于图2示出的实施例提供的音频编辑过程的示意图；

图4是本公开一个示例性实施例提供的音频编辑页面的页面示意图；

图5是本公开一个示例性实施例提供的编辑器组件框架示意图；

图6是本公开另一个示例性实施例提供的音频编辑方法的流程图；

图7是基于图6示出的实施例提供的曲速设定组件的示意图；

图8是基于图6示出的实施例提供的音高线示意图；

图9是基于图6示出的实施例提供的试听播放过程中状态示意图；

图10是本公开一个是示例性实施例提供的Vuex数据架构示意图；

图11是本公开另一个示例性实施例提供的音频编辑方法的流程图；

图12是本公开一个示例性实施例提供的音频编辑装置的结构框图；

图13是本公开另一个示例性实施例提供的音频编辑装置的结构框图；

图14是本公开一个示例性实施例提供的终端的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

首先，针对本公开实施例涉及的音频编辑方法的实施环境进行介绍。

本公开涉及的音频编辑方法可以由终端执行实现，也可以由终端和服务器配合执行实现。本实施例中，以终端和服务器配合执行以实现音频编辑方法为例进行说明，示意性的，请参考图1，其示出了本公开一个示例性实施例提供的实施环境的示意图。

如图1所示，该实施环境中包括终端110和服务器120，其中，终端110和服务器120之间通过通信网络130连接。

终端110用于在具有网页浏览功能的应用程序中打开并显示音频编辑页面。终端110还用于在音频编辑页面中导入初始音频，或者通过音符块绘制的方式创建初始音频，其中，当终端110在音频编辑页面中导入初始音频时，终端110向服务器120上传该初始音频以便服务器120后续在初始音频的基础上进行音频参数的调整；当终端110通过音符块绘制的方式创建初始音频时，终端110向服务器120发送已绘制的音符块，从而服务器120根据已生成的初始音频进行后续音频参数的调整。

终端110还可以将初始音频作为过程音频，对过程音频进行音频参数的调整。也即在终端110上接收音频调整操作，从而终端110向服务器120发送音频调整信号，服务器120根据音频调整信号对当前已生成的过程音频进行音频参数的调整。

当终端110对过程音频调整完毕时，向服务器120发送音频生成信号，服务器120根据音频生成信号生成结果音频，并将结果音频反馈至终端110进行播放。

值得注意的是，上述实施例中以终端和服务器共同实现音频编辑方法为例进行说明，在一些实施例中，上述服务器根据音频调整信号进行音频参数调整的过程也可以实现在终端侧，也即终端也可以线下完成音频编辑过程，本申请实施例对实施音频编辑方法的主体不加以限定。

其中，终端包括智能手机、平板电脑、便携式膝上笔记本电脑、台式计算机、智能音箱、智能可穿戴设备、智能人脸识别设备等终端中的至少一种，服务器可以是物理服务器，也可以是提供云计算服务的云服务器，且服务器可以实现为一台服务器，也可以是多个服务器构成的服务器集群或分布式***。其中，当终端和服务器协同实现本申请实施例提供的方案时，终端和服务器可以通过有线或无线通信方式进行直接或间接连接，本申请实施例对此不加以限定。

本公开实施例中，提供了一种在线Web音频编辑器，能够通过浏览器打开音频编辑网页，从而在音频编辑网页上实现在线实时编辑音频。通过创作音符，画音符的音高，调整音符的因素，以及调节响度、张力、音源、曲速等参数实现音频的创作。

示意性的，图2是本公开一个示例性实施例提供的音频编辑方法流程图，以该方法应用于终端中为例进行说明，如图2所示，该方法包括：

步骤201，显示音频编辑页面，音频编辑页面为浏览器程序中显示的网页页面。

音频编辑页面中包括音高参考区域。其中，音高参考区域用于为创作者在创作音频时的音符设置提供音高参考。

在一些实施例中，浏览器程序可以实现为终端中安装的独立程序，也可以实现为终端中安装的任意母程序中的子程序，或者终端中安装的其他能够打开网页链接的应用程序，本公开实施例对浏览器程序的实现方式不加以限定。

在一些实施例中，音频编辑页面是通过Vue框架开发的页面，Vue框架是一种渐进式的JavaScript框架。

音频编辑页面提供了音频编辑功能，在一些实施例中，该音频编辑功能包括如下功能中的至少一种：创作音符、调节音符音高、调节音符音素、调节响度、调节张力、调节音源、调节曲速等。

其中，创作音符是指在过程音频中增加或者删除音符，或者对过程音频中的音符进行位置调整等；调节音符音高是指对音符块所表达的音高进行调整，如：C4代表一个音高，表示中央C，是钢琴键上最中间的一个音；调节音符音素是指对音符对应音素块的拖音长度进行调整；调节响度是指对过程音频声音的大小进行调整；调节张力是指对过程音频声音表现的紧张与放松程度进行调整；调节音源是指对过程音频的发声音色进行调整，如：音源包括卡通人物音源、真人录制音源、影视剧角色音源等，本公开实施例对此不加以限定；调节曲速是指对过程音频的播放速度进行调整。

在一些实施例中，对过程音频进行音频调整时，通过Web Audio API实现，其中，Web Audio API是Web上控制音频的一个***，可以对音频进行对应的各种操作。

步骤202，在音频参考区域中显示过程音频的音符块。

音符块用于构成过程音频，过程音频为在音高参考区域中产生的音频。在一些实施例中，过程音频为音高参考区域中实施产生的音频。

在一些实施例中，在音高参考区域中显示过程音频的音符块包括如下方式中的至少一种：

第一种，接收音频导入操作，音频导入操作用于在音高参考区域中导入候选音频的音符块，候选音频为已存储的或者已知获取地址的音频。

也即，音频导入操作所导入的候选音频为终端本地已存储的音频；或者，音频导入操作所导入的候选音频为资源获取链接对应的音频，如：在音频导入栏输入音频资源地址。

将候选音频导入至音高参考区域中，该候选音频即为当前待调整的音频，将该候选音频作为过程音频进行后续的音频参数调整。

第二种，接收在音高参考区域中的音块绘制操作。

音块绘制操作用于对应音高参考区域创建音符块，音符块用于构成该过程音频，过程音频为在所述音高参考区域中产生的音频。

在一些实施例中，接收音块绘制操作的方式包括如下方式中的至少一种：

第一，音频编辑页面上包括音块绘制组件，通过在音块绘制组件上的点击操作确定当前需要执行的操作为绘制音符块，当接收到在与音高参考区域对应的音符绘制区域中的指定操作时，根据指定操作指定的音高及旋律位置设置音符块；

第二，接收在与音高参考区域对应的音符绘制区域中的功能指定操作，并显示候选功能，候选功能中包括音块绘制功能，当接收到对音块绘制功能的选择操作时，在指定音高及旋律位置设置音符块；

第三，音频编辑页面上包括音块绘制组件，当接收到在音块绘制组件上的点击操作时在默认位置生成候选音符块，接收对候选音符块的拖动操作，将候选音符块拖动至指定的音高及旋律位置从而生成得到音符块。

值得注意的是，上述绘制音符块的方式仅为示意性的举例，本公开实施例对此不加以限定。

在一些实施例中，音频编辑页面上纵向显示音高参考区域，可选地，按音高由高到低纵向显示音高。

将绘制的音符按旋律设定连起来即可构成过程音频，其中，过程音频为根据音符绘制操作或者其他编辑操作生成的音频，也即尚未被导出作为结果的音频。用户能够在音频编辑页面的基础上对当前已生成的过程音频进行试听，也可以基于过程音频生成最终的结果音频。

步骤203，接收在音频编辑页面上的音频调整操作。

音频调整操作用于对过程音频的音频参数进行调整，其中，音频参数包括音源、音高、音素、响度、张力、曲速中的至少一种，上述音频参数仅为示意性的举例，本公开实施例对音频参数的类型不加以限定。

在一些实施例中，音频编辑页面上包括与各个音频参数对应的组件，通过组件或者其他方式对音频参数进行调整。

示意性的，图3是本公开一个示例性实施例提供的音频编辑过程的示意图，如图3所示，该过程中，当开始对音频的编辑后，包括如下步骤：步骤301，调节曲速、节拍、音源。也即，对过程音频的播放速度、节拍情况进行设置，以及对过程音频对应的发声音色进行设置。步骤302，画音块，也即执行音块绘制操作，绘制用于构成过程音频的音符块。步骤303，画音高线。也即对过程音频的音高线进行调整或者绘制。步骤304，调节音素。对音素的调节包括对音素发音的调整以及对音素拖音长度的调整中的至少一种。步骤305，调节响度。对响度的调整包括对音源发声响度的调整、对伴奏响度的调整以及对整体响度的调整中的至少一种。步骤306，调节张力。也即对过程音频中音源声音的放松和紧张程度进行调整。步骤307，调节伴奏轨。其中，对伴奏轨的调整包括对伴奏轨与音源发声匹配程度的调整，或者对伴奏轨伴奏长度的调整。

步骤204，基于对过程音频的音频调整操作生成结果音频。

示意性的，请参考图3，在调整过程完成后还包括步骤308，点击播放控件试听。也即对当前生成的过程音频进行试听。或者步骤309，生成音频。也即在当前过程音频的基础上进行音频的生成，得到结果音频。

值得注意的是，上述过程以终端侧为例进行说明，当终端与服务器侧共同实现该音频编辑方法时，首先服务器接收过程音频的音频数据，该过程音频为终端在音频编辑页面中待编辑的音频，音频编辑页面为终端的浏览器程序中显示的网页页面；服务器接收终端发送的音频调整信号，音频调整信号为终端在音频编辑页面上接收到音频调整操作时向服务器发送的信号；基于音频调整信号对过程音频的音频参数进行调整；接收音频生成信号，音频生成信号用于指示在当前过程音频的基础上生成结果音频；服务器基于音频生成信号向终端反馈结果音频。

综上所述，本实施例提供的方法，在音频的编辑过程中，用户能够直接在网页上进行音符块的设置，以及音频参数的调整，音频编辑环境较为灵活，且音频的编辑方式较为便捷，无需用户额外制作MIDI文件，并将MIDI文件导入以实现音频的生成，提高了音频文件的生成效率以及生成的灵活程度，提高了用户交互体验。

示意性的，图4是本公开一个示例性实施例提供的音频编辑页面的页面示意图，如图4所示，该音频编辑页面400中包括音高参考区域410、音符绘制区域420、设置面板430、音轨显示区域440以及功能区域450。

其中，音高参考区域410与音符绘制区域420对应设置。音高参考区域410中显示有各个音高参数，如：“F4、E4、D4、C4等”。音高参考区域410中的音高参数纵向显示。音符绘制区域420用于对应音高参考区域410显示音符块。

音符绘制区域420上还显示有节拍信息，如图4所示的4/4即表示当前过程音频的节拍为4/4拍。对应节拍信息以及音高参考区域410在音符绘制区域420中绘制音符构成过程音频。

设置面板430中用于设置音频对应的名称、音源、曲速等参数。其中，音源可以是从音源库中选择的，也可以是用户录制得到的，曲速可以是直接编辑数字得到的，也可以是从候选曲速中选择的，本公开实施例对此不加以限定。

音轨显示区域440用于对干音音轨441和伴奏音轨442进行显示，其中，干音音轨441是指除了伴奏以外由音源对应发声得到的音轨；伴奏音轨442是指用于对音源发声内容进行伴奏的音频对应的音轨。其中，音轨显示区域440中能够对干音音轨441对应的响度进行调整，以及能够对伴奏音轨442对应的响度进行调整。

功能区域450中包括曲谱导入控件451、编曲控件452、模式切换控件453、响度控件454、张力控件455、播放控制控件456以及音频生成控件457。

其中，曲谱导入控件451用于向当前过程音频编辑过程中导入已编辑完成的曲谱。编曲控件452用于跳转至编曲过程。模式切换控件453用于在至少两种编辑模式之间进行切换，示意性的，模式切换控件453用于在音符模式、音高线模式以及音素模式之间切换，其中，音符模式即为在音符绘制区域420中显示已绘制的音符块的模式，音高线模式是指在音符绘制区域420中显示根据已绘制的音符块生成的音高线的模式，音素模式是指在音符绘制区域420中显示音素信息的模式。响度控件454用于调整当前过程音频的播放响度。张力控件455用于调整当前过程音频中音源发声张力。播放控制控件456用于控制对当前已编辑的过程音频进行播放试听或者暂停播放。音频生成控件457用于在当前已编辑的过程音频的基础上生成结果音频。

上述图4示出的界面仅为示意性的说明，在一些实施例中，音频编辑页面中包括的组件还可以更多或者更少。示意性的，图5是本公开一个示例性实施例里提供的编辑器组件框架示意图，如图5所示，该音频编辑器500中包括如下部分。

音轨区510：其中包括音频标题、节拍、轨道、舞台(干音轨道)、舞台背景、伴奏轨道。

头部区520：其中包括导入曲谱弹窗、普通会话。

节拍区530：其中包括节拍、节拍弹窗、节拍展示区。

主区域540：其中包括钢琴区(也即音高参考区域)、舞台背景区、播放线、舞台(其中包括箭头、换气、换气箭头)、菜单列表、音高线模式、音素模式、张力模式、舞台菜单列表、歌词设置、歌曲校正设置。

其中，钢琴区中钢琴键的实现是通过web技术，首先在web页面中确定出钢琴曲，通过确定C4音频文件，然后使用Web Audio API对音频通过公式进行转换成相应音高的音频声音，对应到每个钢琴键上。

控制面板区域550。

结合上述图4和图5，图6是本公开另一个示例性实施例提供的音频编辑方法的流程图，以该方法应用于终端中为例进行说明，如图6所示，该方法包括：

步骤601，显示音频编辑页面，音频编辑页面为浏览器程序中显示的网页页面。

步骤602，在音高参考区域中显示过程音频的音符块。

音符块用于构成过程音频，过程音频为在音高参考区域中产生的音频。

第二种，接收在音高参考区域中的音块绘制操作。

步骤603，接收在音源设定组件上的第一音频调整操作。

音频编辑页面中包括音源设定组件，第一音频调整操作用于对过程音频的音色进行确定。

在一些实施例中，第一音频调整操作的实现方式包括如下方式中的至少一种：

第一，接收在音源设定组件上的选择操作，基于选择操作显示音源候选项，音源候选项为预先存储的音色调整方式对应的调整选项，接收在目标音源候选项上的选择操作作为第一音频调整操作。

示意性的，当接收在音源设定组件上的选择操作时，显示候选音源列表，候选音源列表中包括音源候选项，其中包括：A、娃娃音；B、明星x；C、动漫人物y。当接收到对选项A的选择操作时，则将娃娃音作为当前过程音频中声源发声的音效。

第二，接收在音频设定组件上的选择操作，基于选择操作显示音频录制页面，音频里录制页面用于通过音频输入设备采集样本音频，响应于样本音频录制完毕，接收音源生成操作作为第一音频调整操作。

步骤604，接收在曲速设定组件上的第二音频调整操作。

音频编辑页面中包括曲速设定组件，第二音频调整操作用于对过程音频的曲谱播放速度进行确定。

在一些实施例中，曲速设定组件用于展开弹窗从而对曲速进行数值设定；或者，曲速设定组件包括增大控件和减小控件，通过在增大控件上的触发操作提高曲速，以及通过在减小控件上的触发操作降低曲速。

示意性的，请参考图7，其示出了本公开一个示例性实施例提供的曲速设定组件的示意图，如图7所示，该曲速设定组件700中包括增大控件710、减小控件720以及曲速数值展示区730；其中，在曲速数值展示区730中显示有当前过程音频的曲速数值，当接收到在增大控件710上的选择操作时，以预设步长提高曲速展示区730中的曲速数值；反之，当接收到在减小控件720上的选择操作时，以预设步长降低曲速展示区730中的曲速数值。

步骤605，接收在音高调整组件上的第三音频调整操作。

音频编辑页面中包括音高调整组件，第三音频调整操作用于对过程音频的音符块音高进行确定。

在一些实施例中，接收在音高调整组件上的选择操作，基于选择操作显示音高线，该音高线为根据音符块生成的用于表达音高情况的指示线，接收对音高线的拖动调整操作作为第三音频调整操作。

可选地，音高调整组件实现为上述音高线模式组件，也即用户对当前音频编辑页面中的模式切换控件进行选择，并选中其中的音高线模式，从而在音频编辑页面中显示当前过程音频所对应的音高线。

在一些实施例中，过程音频所对应的音高线为通过人工智能方式预测得到的。示意性的，将过程音频中当前音符块的信息输入预先训练得到的神经网络模型，从而输出得到该过程音频对应的音高线。

预测得到的音高线在音频编辑页面中显示为虚线形式，用户在预测得到的音高线的基础上进行音高调整，并将用户调整后的音高线显示为实线形式。

示意性的，图8是本公开一个示例性实施例提供的音高线示意图，如图8所示，在音频编辑页面800中显示有音符块810和对应音符块自动生成的参考音高线820，用户可以对参考音高线820进行拖动，从而得到调整后的音高线830作为过程音频的音高线。

或者，用户能够直接在音频编辑页面中对音高线进行绘制，得到与过程音频对应的音高线。音高线主要是用可缩放矢量图形(Scalable Vector Graphics。SVG)实现，通过SVG中的path属性，将所有的点连接起来，然后通过鼠标的绘制，改动点的数据，然后通过将新的数据点连接起来，最后形成新的音高线。

步骤606，接收在换气设置组件上的第四音频调整操作。

音频编辑页面中包括换气设置组件，第四音频调整操作用于在过程音频中针对声源发声内容增加换气事项。

在一些实施例中，用于在相邻两个音素之间增加换气事项，模拟发声过程中的换气事件。

步骤607，基于对过程音频的音频调整操作生成结果音频。

也即在当前过程音频的基础上进行音频的生成，得到结果音频。

在一些实施例中，首先对过程音频进行试听后，当试听结果符合用户要求，则生成结果音频。

音频编辑网页中包括播放控制控件，通过对播放控制控件的选择操作对过程音频进行试听播放。其中，请参考图9，试听播放过程中主要包括如下状态：初始状态910、播放状态920、暂停状态930、结束状态940。

其中，初始状态910能切换至播放状态920，播放状态920与暂停状态930之间能够互相切换，播放状态920与结束状态940之间能够互相切换。

首先在初始状态910下，当用户点击播放控制控件时，首先判断是否需要重新合成音频文件，当需要重新合成音频文件时，合成并播放过程音频；当无需重新合成音频文件时，判断是否有可播放的链接，若存在可播放的音频时，不合成直接播放；若不存在可播放的音频时，合成并播放过程音频。切换至播放状态920。

在播放状态920下，当再次点击播放控制控件时，则切换至暂停状态930。

在暂停状态930下，当点击播放控制控件时，判断是否需要重新合成，若需要则合成并播放，若无需合成则直接播放或者继续播放。切换至播放状态920。

在结束状态940下，当点击播放控制控件时，判断是否需要重新合成，若需要则合成并播放，若无需合成则直接播放或者继续播放。切换至播放状态920。

本实施例提供的方法，除了创作音符块，还能够针对音高线、响度、张力、曲速、节拍、音源等方面进行调整，提高了音频编辑的效率以及准确率。

在一些实施例中，本公开实施例提供的音频编辑器依托Vue状态管理模式(Vuex)进行状态管理，并实现音频编辑器中的数据转变，其中，Vuex的数据架构如图10所示。

请参考图10，编辑器基本元素1010中包括：32分音符的最小宽度，如：20；32分音符的最小高度，如：25；节拍，如：4/4拍；播放线位置；编辑器的小节数；曲速；音源；舞台相关内容。

Vuex的数据架构还包括舞台音块1020、响度原始数据1030、张力原始数据1040、音高线1050、操作标志1060、模式切换1070等。

其中，音高线1050涉及人工智能(Artificial Intelligence，AI)合成的音高线、用户编辑的音高线、音高线本地编辑内容等；操作标志1060涉及舞台音块的改变、音高线的改变、响度的改变、张力的改变、元辅音的改变等。

在一些实施例中，还可以通过快捷键进行操作的撤回。图11是本公开另一个示例性实施例提供的音频编辑方法的流程图，以该方法应用于终端中为例进行说明，如图11所示，该方法包括：

步骤1101，显示音频编辑页面，音频编辑页面为浏览器程序中显示的网页页面。

步骤1102，在音高参考区域中显示过程音频的音符块。

第二种，接收在音高参考区域中的音块绘制操作。

步骤1103，接收在音频编辑页面上的音频调整操作。

步骤1104，接收第一快捷键操作。

第一快捷键操作为预先设定的与操作对应的快捷键操作。示意性的，该第一快捷键操作为通过键盘输入Ctrl+z的操作。

步骤1105，基于第一快捷键操作撤销当前时刻之前最近一次音频调整操作。

第一快捷键操作为预先设定并存储的与撤销功能对应的快捷键操作。

在一些实施例中，音频编辑器还对应有撤回栈，每次操作的时候，将操作放到撤回栈中，当需要撤回的时候，从撤回栈中将最后一个操作拿出，并执行从而实现撤回功能。

步骤1106，接收第二快捷键操作。

第二快捷键操作为预先设定的与操作对应的快捷键操作。示意性的，该第二快捷键操作为通过键盘输入Ctrl+y的操作。

步骤1107，基于第二快捷键操作恢复当前时刻之前最近一次被撤销的音频调整操作。

第二快捷键操作为预先设定并存储的与前进功能对应的快捷键操作。

在一些实施例中，音频编辑器还对应有前进栈，当需要撤回的时候，从撤回栈中将最后一个操作拿出，并执行从而实现撤回功能，同时，将从撤回栈中拿出的操作放入前进栈中，当需要执行前进功能的时候，将前进栈中最后一个操作取出并执行，将这个操作放进撤回栈中，然后下次需要撤回，可以在撤回栈中继续执行。

步骤1108，基于对过程音频的音频调整操作生成结果音频。

本实施例提供的方法，通过提供设置撤回快捷键以提供撤回功能，以及设置前进快捷键以提供前进功能，从而在用户执行了误操作时能够通过撤回快捷键撤回音频调整操作，在用户误撤回操作后也能够通过前进快捷键恢复撤回的音频调整操作，提高了音频编辑的效率和人机交互效率。

图12是本申请一个示例性实施例提供的音频编辑装置的结构框图，如图12所示，该装置包括：

显示模块1210，用于显示音频编辑页面，所述音频编辑页面为浏览器程序中显示的网页页面，所述音频编辑页面中包括音高参考区域；

显示模块1210，还用于在所述音高参考区域中显示过程音频的音符块，所述音符块用于构成所述过程音频，所述过程音频为在所述音高参考区域中产生的音频；

所述接收模块1220，还用于接收在所述音频编辑页面上的音频调整操作，所述音频调整操作用于对所述过程音频的音频参数进行调整；

生成模块1230，用于基于对所述过程音频的所述音频调整操作生成结果音频。

所述接收模块1220，还用于接收在所述音源设定组件上的第一音频调整操作，所述第一音频调整操作用于对所述过程音频的音色进行确定。

在一个可选的实施例中，所述接收模块1220，还用于接收在所述音源设定组件上的选择操作；

所述显示模块1210，还用于基于所述选择操作显示音源候选项，所述音源候选项为预先存储的音色调整方式对应的选项；

所述接收模块1220，还用于接收在目标音源候选项上的选择操作作为所述第一音频调整操作。

在一个可选的实施例中，所述接收模块1220，还用于接收在所述音频设定组件上的选择操作；

所述显示模块1210，还用于基于所述选择操作显示音频录制页面，所述音频录制页面用于通过音频输入设备采集样本音频；

所述接收模块1220，还用于响应于所述样本音频录制完毕，接收音源生成操作作为所述第一音频调整操作。

所述接收模块1220，还用于接收在所述曲速设定组件上的第二音频调整操作，所述第二音频调整操作用于对所述过程音频的曲谱播放速度进行确定。

所述接收模块1220，还用于接收在所述音高调整组件上的第三音频调整操作，所述第三音频调整操作用于对所述过程音频的音符块音高进行确定。

在一个可选的实施例中，所述接收模块1220，还用于接收在所述音高调整组件上的选择操作；

所述显示模块1210，还用于基于所述选择操作显示音高线，所述音高线为根据所述音符块生成的用于表达音高情况的指示线；

所述接收模块1220，还用于接收对所述音高线的拖动调整操作作为所述第三音频调整操作。

所述接收模块1220，还用于接收在所述换气设置组件上的第四音频调整操作，所述第四音频调整操作用于在所述过程音频中针对声源发声内容增加换气事项。

在一个可选的实施例中，所述接收模块1220，还用于接收音频导入操作，所述音频导入操作用于在所述音高参考区域中导入候选音频的音符块，所述候选音频为已存储的或者已知获取地址的音频；

或者，

所述接收模块1220，还用于接收在所述音高参考区域中的音符块绘制操作，所述音符块绘制操作用于对应所述音高参考区域创建音符块。

在一个可选的实施例中，所述接收模块1220，还用于接收第一快捷键操作；基于所述第一快捷键操作撤销当前时刻之前最近一次音频调整操作。

在一个可选的实施例中，所述接收模块1220，还用于接收第二快捷键操作；基于所述第二快捷键操作恢复当前时刻之前最近一次被撤销的音频调整操作。

图13是本公开另一个示例性实施例提供的音频编辑装置的结构框图，如图13所示，该装置包括：

接收模块1310，用于接收过程音频的音频数据，所述过程音频为所述终端在音频编辑页面中待编辑的音频，所述音频编辑页面为所述终端的浏览器程序中显示的网页页面；

所述接收模块1310，还用于接收音频调整信号，所述音频调整信号为所述终端在所述音频编辑页面上接收到音频调整操作时向服务器发送的信号；

调整模块1320，用于基于所述音频调整信号对所述过程音频的音频参数进行调整；

所述接收模块1310，还用于接收音频生成信号，所述音频生成信号用于指示在当前过程音频的基础上生成结果音频；

发送模块1330，用于基于所述音频生成信号向所述终端反馈所述结果音频。

综上所述，本实施例提供的装置，在音频的编辑过程中，用户能够直接在网页上进行音符块的绘制，以及音频参数的调整，音频编辑环境较为灵活，且音频的编辑方式较为便捷，无需用户额外制作MIDI文件，并将MIDI文件导入以实现音频的生成，提高了音频文件的生成效率以及生成的灵活程度，提高了用户交互体验。

需要说明的是：上述实施例提供的音频编辑装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频编辑装置与音频编辑方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图14是根据一示例性实施例示出的一种计算机设备1400的框图。例如，计算机设备1400可以是上文介绍的终端。例如，终端可以是手机、平板电脑、电子书阅读器、多媒体播放设备、个人计算机(Personal Computer，PC)、可穿戴设备等电子设备。

参照图14，计算机设备1400可以包括以下一个或多个组件：处理组件1402，存储器1404，电源组件1406，多媒体组件1408，音频组件1410，输入/输出(Input/Output，I/O)接口1412，传感器组件1414，以及通信组件1416。

处理组件1402通常控制计算机设备1400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1402可以包括一个或多个处理器1420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1402可以包括一个或多个模块，便于处理组件1402和其他组件之间的交互。例如，处理组件1402可以包括多媒体模块，以方便多媒体组件1408和处理组件1402之间的交互。

存储器1404被配置为存储各种类型的数据以支持在计算机设备1400的操作。这些数据的示例包括用于在计算机设备1400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random-Access Memory，SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read OnlyMemory，EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)，可编程只读存储器(Programmable Read Only Memory，PROM)，只读存储器(ReadOnly Memory，ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1406为计算机设备1400的各种组件提供电力。电源组件1406可以包括电源管理***，一个或多个电源，及其他与为计算机设备1400生成、管理和分配电力相关联的组件。

多媒体组件1408包括在所述计算机设备1400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括有机发光二极管(Organic Light-Emitting Diode，OLED)显示屏和触摸面板(TouchPad，TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1408包括一个前置摄像头和/或后置摄像头。当计算机设备1400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件1410被配置为输出和/或输入音频信号。例如，音频组件1410包括一个麦克风(Microphone，MIC)，当计算机设备1400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1404或经由通信组件1416发送。在一些实施例中，音频组件1410还包括一个扬声器，用于输出音频信号。

I/O接口1412为处理组件1402和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1414包括一个或多个传感器，用于为计算机设备1400提供各个方面的状态评估。例如，传感器组件1414可以检测到计算机设备1400的打开/关闭状态，组件的相对定位，例如所述组件为计算机设备1400的显示器和小键盘，传感器组件1414还可以检测计算机设备1400或计算机设备1400一个组件的位置改变，用户与计算机设备1400接触的存在或不存在，计算机设备1400方位或加速/减速和计算机设备1400的温度变化。传感器组件1414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1414还可以包括光传感器，如互补金属氧化物半导体(Complementary MetalOxide Semiconductor，CMOS)或电荷耦合元件(Charge-coupled Device，CCD)图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1416被配置为便于计算机设备1400和其他设备之间有线或无线方式的通信。计算机设备1400可以接入基于通信标准的无线网络，如Wi-Fi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1416经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1416还包括近场通信(NearField Communication，NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(Radio Frequency Identification，RFID)技术，红外数据协会(Infrared DataAssociation，IrDA)技术，超宽带(Ultra Wide Band，UWB)技术，蓝牙(BlueTooth，BT)技术和其他技术来实现。

在示例性实施例中，计算机设备1400可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，ASIC)、数字信号处理器(Digital SignalProcessing，DSP)、数字信号处理设备(Digital Signal Processing Device，DSPD)、可编程逻辑器件(Programmable Logic Device，PLD)、现场可编程门阵列(Field ProgrammableGate Array，FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述音频编辑方法。

在示例性实施例中，还提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，当所述计算机程序由计算机设备1400的处理器执行时，使得计算机设备1400能够实现上述音频编辑方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(Random-Access Memory，RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开实施例还提供一种计算机设备，该计算机设备包括存储器和处理器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并实现上述音频编辑方法。

本公开实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述音频编辑方法。

本公开还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的音频编辑方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频编辑方法，其特征在于，所述方法包括：

基于对所述过程音频的所述音频调整操作生成结果音频。

2.根据权利要求1所述的方法，其特征在于，所述音频编辑页面中包括音源设定组件；

所述接收在所述音频编辑页面上的音频调整操作，包括：

3.根据权利要求2所述的方法，其特征在于，所述接收在所述音源设定组件上的第一音频调整操作，包括：

接收在所述音源设定组件上的选择操作；

4.根据权利要求2所述的方法，其特征在于，所述接收在所述音源设定组件上的第一音频调整操作，包括：

接收在所述音频设定组件上的选择操作；

5.根据权利要求1所述的方法，其特征在于，所述音频编辑页面中包括曲速设定组件；

所述接收在所述音频编辑页面上的音频调整操作，包括：

6.根据权利要求1所述的方法，其特征在于，所述音频编辑页面中包括音高调整组件；

所述接收在所述音频编辑页面上的音频调整操作，包括：

7.根据权利要求6所述的方法，其特征在于，所述接收在所述音高调整组件上的第三音频调整操作，包括：

接收在所述音高调整组件上的选择操作；

8.根据权利要求1所述的方法，其特征在于，所述音频编辑页面中包括换气设置组件；

所述接收在所述音频编辑页面上的音频调整操作，包括：

9.根据权利要求1至8任一所述的方法，其特征在于，所述在所述音高参考区域中显示过程音频的音符块之前，还包括：

或者，

接收在所述音高参考区域中的音块绘制操作，所述音符块绘制操作用于对应所述音高参考区域创建音符块。

10.根据权利要求1至8任一所述的方法，其特征在于，所述方法还包括：

接收第一快捷键操作；

11.根据权利要求9任一所述的方法，其特征在于，所述方法还包括：

接收第二快捷键操作；

12.一种音频编辑方法，其特征在于，所述方法包括：

基于所述音频生成信号向所述终端反馈所述结果音频。

13.一种音频编辑装置，其特征在于，所述装置包括：

14.一种音频编辑装置，其特征在于，所述装置包括：

15.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至12任一所述的音频编辑方法。

16.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至12任一所述的音频编辑方法。