CN113936699B

CN113936699B - 音频处理方法、装置、设备及存储介质

Info

Publication number: CN113936699B
Application number: CN202010604858.4A
Authority: CN
Inventors: 傅梦馨
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2023-05-26
Anticipated expiration: 2040-06-29
Also published as: CN113936699A; WO2022001579A1; US20220262339A1

Abstract

本申请公开了音频处理方法、装置、设备及存储介质。方法包括：基于目标音频的处理请求，显示目标音频以及与目标音频对应的目标文字信息；响应于获取到目标文字信息的位置选择指令，将目标文字信息中与位置选择指令匹配的文字信息所在的位置作为待处理文字位置，将与待处理文字位置具有映射关系的音频片段所在的位置作为待处理音频位置；基于处理指令，根据待处理音频位置对目标音频进行处理，根据待处理文字位置对目标文字信息进行处理。在此种过程中，文字信息的辨识度较高，根据目标文字信息中的文字信息所在的位置确定待处理文字位置的效率和准确率较高，有利于提高确定待处理音频位置的效率和准确率，从而提高音频处理效率和处理效果。

Description

音频处理方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种音频处理方法、装置、设备及存储介质。

背景技术

随着计算机技术的发展，越来越多的应用程序或者网页支持对已有的音频进行处理，以得到更合适的音频。例如，从音频中删除某个位置对应的音频片段或者在音频的某个位置处***新的音频片段等。

相关技术在对音频进行处理的过程中，先由用户通过试听音频确定音频中的待处理位置，然后根据用户的处理指令对音频中的待处理位置进行相应的处理，例如，在待处理位置处***新的音频片段，或者，将待处理位置对应的音频片段删除等。在此种音频处理的过程中，待处理位置由用户通过试听音频确定，音频的辨识度较低，在较少次数的试听情况下难以准确确定待处理位置，因此，用户通常需要反复试听音频才能确定较为准确的待处理位置，此种音频处理的过程较为耗时耗力，音频处理的效率较低，导致音频处理的效果不佳。

发明内容

本申请实施例提供了一种音频处理方法、装置、设备及存储介质，可用于提高音频处理的效率。所述技术方案如下：

一方面，本申请实施例提供了一种音频处理方法，所述方法包括：

基于目标音频的处理请求，显示所述目标音频以及与所述目标音频对应的目标文字信息，所述目标音频中的音频片段所在的位置和所述目标文字信息中的文字信息所在的位置之间具有映射关系；

响应于获取到所述目标文字信息的位置选择指令，将所述目标文字信息中与所述位置选择指令匹配的文字信息所在的位置作为待处理文字位置，将与所述待处理文字位置具有映射关系的音频片段所在的位置作为待处理音频位置；

基于处理指令，根据所述待处理音频位置对所述目标音频进行处理，根据所述待处理文字位置对所述目标文字信息进行处理，以对显示的所述目标音频以及所述目标文字信息进行更新。

另一方面，提供了一种音频处理装置，所述装置包括：

显示模块，用于基于目标音频的处理请求，显示所述目标音频以及与所述目标音频对应的目标文字信息，所述目标音频中的音频片段所在的位置和所述目标文字信息中的文字信息所在的位置之间具有映射关系；

确定模块，用于响应于获取到所述目标文字信息的位置选择指令，将所述目标文字信息中与所述位置选择指令匹配的文字信息所在的位置作为待处理文字位置，将与所述待处理文字位置具有映射关系的音频片段所在的位置作为待处理音频位置；

处理模块，用于基于处理指令，根据所述待处理音频位置对所述目标音频进行处理，根据所述待处理文字位置对所述目标文字信息进行处理，以对显示的所述目标音频以及所述目标文字信息进行更新。

在一种可能实现方式中，所述待处理文字位置包括待删除文字位置，所述待处理音频位置包括待删除音频位置，所述处理指令包括所述待删除文字位置的删除确认指令；所述处理模块，用于基于所述待删除文字位置的删除确认指令，将所述目标文字信息中的第一文字信息进行删除，将所述目标音频中的第一音频片段进行删除，所述第一文字信息为所述目标文字信息中与所述待删除文字位置对应的文字信息，所述第一音频片段为所述目标音频中与所述待删除音频位置对应的音频片段；基于删除所述第一文字信息后得到的文字信息，确定更新后的文字信息，显示所述更新后的文字信息；基于删除所述第一音频片段后得到的音频，确定更新后的音频，显示所述更新后的音频。

在一种可能实现方式中，所述删除所述第一文字信息后得到的文字信息包括第二文字信息和第三文字信息，所述第二文字信息为所述目标文字信息中位于所述第一文字信息之前的文字信息，所述第三文字信息为所述目标文字信息中位于所述第一文字信息之后的文字信息；所述处理模块，还用于将所述第二文字信息和所述第三文字信息进行拼接处理，将拼接处理后得到的文字信息作为更新后的文字信息；

所述删除所述第一音频片段后得到的音频包括第二音频片段和第三音频片段，所述第二音频片段为所述目标音频中位于所述第一音频片段之前的音频片段，所述第三音频片段为所述目标音频中位于所述第一音频片段之后的音频片段；所述处理模块，还用于将所述第二音频片段和所述第三音频片段进行合成处理，将合成处理后得到的音频作为更新后的音频。

在一种可能实现方式中，所述显示模块，还用于将所述目标文字信息中的第一文字信息进行突出显示，将所述目标音频中的第一音频片段进行突出显示。

在一种可能实现方式中，所述待处理文字位置包括待***文字位置，所述待处理音频位置包括待***音频位置，所述处理指令包括所述待***音频位置的音频***指令；所述处理模块，用于基于所述待***音频位置的音频***指令，获取待***音频片段以及与所述待***音频片段对应的待***文字信息；基于所述待***音频片段、所述目标音频以及所述待***音频位置，确定更新后的音频，显示所述更新后的音频；基于所述待***文字信息、所述目标文字信息以及所述待***文字位置，确定更新后的文字信息，显示所述更新后的文字信息。

在一种可能实现方式中，所述处理模块，还用于将所述目标音频中位于所述待***音频位置之前的音频片段作为第四音频片段，将所述目标音频中位于所述待***音频位置之后的音频片段作为第五音频片段；将所述待***音频片段置于所述第四音频片段和所述第五音频片段之间，按照排列顺序对所述第四音频片段、所述待***音频片段以及所述第五音频片段进行合成处理，将合成处理后得到的音频作为更新后的音频；

将所述目标文字信息中位于所述待***文字位置之前的文字信息作为第四文字信息，将所述目标文字信息中位于所述待***文字位置之后的文字信息作为第五文字信息；将所述待***文字信息置于所述第四文字信息和所述第五文字信息之间，按照排列顺序对所述第四文字信息、所述待***文字信息以及所述第五文字信息进行拼接处理，将拼接处理后得到的文字信息作为更新后的文字信息。

在一种可能实现方式中，所述显示模块，还用于在所述待***文字位置处显示具有目标属性的光标；

所述装置还包括：

移动模块，用于将所述待***音频位置移动至定位指针处。

在一种可能实现方式中，所述位置选择指令包括***选择指令；所述显示模块，还用于响应于获取到所述目标文字信息的***选择指令，显示音频录制控件；

所述确定模块，还用于基于交互对象对所述音频录制控件的触发操作，得到所述待***音频位置的音频***指令。

在一种可能实现方式中，所述目标文字信息包括文字构成的间隔，所述显示模块，还用于在显示所述目标音频以及所述目标文字信息的显示页面显示***控件；基于交互对象对所述目标文字信息中的任一间隔的触发操作，在所述任一间隔所在的位置处显示具有默认属性的光标；

所述确定模块，还用于响应于检测到交互对象对所述具有默认属性的光标的定位操作以及对所述***控件的触发操作，得到所述目标文字信息的***选择指令。

在一种可能实现方式中，所述装置还包括：

获取模块，用于基于目标音频的处理请求，获取所述目标音频；

转换模块，用于对所述目标音频进行文字转换处理，得到与所述目标音频对应的目标文字信息；

所述确定模块，还用于基于所述目标音频和所述目标文字信息，确定所述目标音频中的音频片段所在的位置和所述目标文字信息中的文字信息所在的位置之间的映射关系。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现上述任一所述的音频处理方法。

另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述任一所述的音频处理方法。

另一方面，还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行上述任一所述的音频处理方法。

本申请实施例提供的技术方案至少带来如下有益效果：

先根据目标文字信息中的文字信息所在的位置确定待处理文字位置，然后将与待处理文字位置具有映射关系的音频片段所在的位置作为待处理音频位置，进而根据处理指令，实现对目标音频的处理过程。在此种音频处理过程中，通过确定待处理文字位置来进一步确定需要处理的音频位置，文字信息的辨识度较高，根据目标文字信息中的文字信息所在的位置确定待处理文字位置的效率和准确率较高，有利于提高确定待处理音频位置的效率和准确率，从而提高音频处理效率和音频处理效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频处理方法的实施环境的示意图；

图2是本申请实施例提供的一种音频处理方法的流程图；

图3是本申请实施例提供的一种显示页面的示意图；

图4是本申请实施例提供的一种显示页面的示意图；

图5是本申请实施例提供的一种在显示目标音频以及目标文字信息的过程中，交互对象、终端以及服务器的交互流程图；

图6是本申请实施例提供的一种显示页面的示意图；

图7是本申请实施例提供的一种在删除目标音频中的某个音频片段的处理过程中，交互对象和终端的交互流程图；

图8是本申请实施例提供的一种在目标音频中***音频片段的处理过程中，交互对象、终端和服务器的交互流程图；

图9是本申请实施例提供的一种音频处理过程的示意图；

图10是本申请实施例提供的一种音频处理装置的示意图；

图11是本申请实施例提供的一种音频处理装置的示意图；

图12是本申请实施例提供的一种音频处理设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

需要说明的是，本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

对此，本申请实施例提供了一种音频处理方法，请参考图1，其示出了本申请实施例提供的音频处理方法的实施环境的示意图。该实施环境包括：终端11和服务器12。

其中，终端11安装有具有音频处理功能的应用程序或者网页，当该应用程序或者网页中的音频需要进行处理时，可应用本申请实施例提供的方法进行处理。终端11能够显示需要进行处理的音频以及与音频信息对应的文字信息，从而实现根据文字信息确定需要处理的音频位置，进而根据需要处理的音频位置对音频进行处理的过程。服务器12可以对需要处理的音频进行存储，也可以将音频转换成文字信息，服务器12还可以将音频和音频对应的文字信息发送至终端11。终端11将音频以及音频对应的文字信息进行可视化显示。当然，终端11上也可以对音频和音频对应的文字信息进行存储，以便于对存储的音频和音频对应的文字信息进行可视化显示。

在一种可能实现方式中，终端11是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如PC(Personal Computer，个人计算机)、手机、智能手机、PDA(Personal Digital Assistant，个人数字助手)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、智能车机、智能电视、智能音箱等。服务器12既可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。

本领域技术人员应能理解上述终端11和服务器12仅为举例，其他现有的或今后可能出现的终端或服务器如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

基于上述图1所示的实施环境，本申请实施例提供一种音频处理方法，以该方法应用于终端11为例。如图2所示，本申请实施例提供的方法包括如下步骤：

在步骤201中，基于目标音频的处理请求，显示目标音频以及与目标音频对应的目标文字信息，目标音频中的音频片段所在的位置和目标文字信息中的文字信息所在的位置之间具有映射关系。

目标音频是指需要进行处理的任一音频，本申请实施例对目标音频的类型不加以限定，示例性地，目标音频为录制的语音音频，或者，目标音频为录制的歌曲音频等。

在执行步骤201之前，需要先获取目标音频的处理请求。在一种可能实现方式中，根据目标音频的来源不同，获取目标音频的处理请求的过程包括但不限于以下两种情况：

情况1：在音频选择页面显示至少一个候选音频，每个候选音频均对应有处理控件，当检测到任一候选音频的处理控件被触发时，将该任一候选音频作为目标音频，此时，获取到目标音频的处理请求。

此种情况1发生在目标音频来源于预先存储的至少一个候选音频的前提下。在此种情况1下，音频选择页面中显示的每个候选音频均对应有处理控件。处理控件用于引导交互对象执行对候选音频的处理过程。

当检测到任一候选音频的处理控件被触发时，说明交互对象想要对该候选音频进行处理，此时，将处理控件被触发的候选音频作为目标音频，终端获取到目标音频的处理请求。

在一种可能实现方式中，音频选择页面中显示的每个候选音频除对应有处理控件外，还对应有播放控件。播放控件用于控制候选音频的开始播放和停止播放。当检测到任一候选音频的播放控件被触发时，播放该候选音频；在播放该候选音频的过程中，若再次检测到播放控件被触发，则停止播放该候选音频。在示例性实施例中，播放控件在播放过程中以及在非播放过程中具有不同的表现形式，以便于区分播放过程和非播放过程。

候选音频在音频选择页面中以指定形式进行显示，以供交互对象进行选择。指定形式可以是指用音频标识进行显示。音频标识是指音频标题、音频图片等。在一种可能实现方式中，候选音频可以是指交互对象具有处理权限的音频，以保证音频处理过程的可靠性。示例性地，候选音频为交互对象历史录制的音频。

情况2：在音频录制页面显示处理控件，若检测到处理控件被触发，则将音频录制页面录制的音频作为目标音频，此时，获取到目标音频的处理请求。

此种情况2发生在目标音频来源于实时录制的音频的前提下。在音频录制页面，交互对象能够实时录制音频。在音频录制页面显示处理控件，该处理控件用于引导交互对象执行对实时录制的音频的处理过程。当检测到处理控件被触发时，说明交互对象想要对实时录制的音频进行处理，此时，将音频录制页面录制的音频作为目标音频，终端获取到目标音频的处理请求。

在一种可能实现方式中，在音频录制页面显示音频录制控件，该音频录制控件用于控制音频的录制过程。当检测到该音频录制控件的触发操作时，开始录制交互对象的音频；当再次检测到该音频录制控件的触发操作时，停止录制。以此类推，奇数次的触发操作对应继续录制过程，偶数次的触发操作对应停止录制过程。录制过程中的音频录制控件以及非录制过程中的音频录制控件可以具有不同的表现形式，以便于直观地区分录制过程和非录制过程。

在一种可能实现方式中，在录制过程中不显示处理控件或者将处理控件设置为不可触发状态，以禁止录制过程中触发处理控件，从而能够避免对录制过程产生不必要的干扰。

在一种可能实现方式中，在音频录制页面显示处理控件的同时，还可以显示确认完成控件，该确认完成控件用于结束录制过程。当检测到该确认完成控件的触发操作时，说明录制过程结束并且交互对象当前无需对录制的音频进行处理，此时，终端对录制的音频进行存储，或者将录制的音频发送至服务器进行存储，以便于实现后续对该录制的音频的播放或者处理操作。在一种可能实现方式中，与处理控件类似，在录制过程中不显示确认完成控件或者将确认完成控件设置为不可触发状态，以禁止录制过程中触发确认完成控件，从而能够避免对录制过程产生不必要的干扰。

示例性地，录制音频的过程中的显示页面如图3所示。交互对象打开具有音频录制功能的应用程序，进入应用程序中的音频录制页面，录制之前的音频录制页面如图3中的(1)所示，图3中的(1)中显示有音频录制控件301，此时的音频录制控件具有第一表现形式，该第一表现形式为音频录制控件在非录制过程中的表现形式。当交互对象触发图3中的(1)中的音频录制控件301时，终端检测到音频录制控件的触发操作，开始录制交互对象的音频。在录制交互对象的音频的过程中，如图3中的(2)中显示的音频录制控件301所示，音频录制控件具有第二表现形式，该第二表现形式为音频录制控件在录制过程中的表现形式。

随着录制过程的进行，在音频录制页面显示录制的音频的波纹，图3中的(2)为录制时长为17秒时的显示页面，定位指针处的波纹表示当前录制时刻的波纹，随着录制时间的延长，已录制的波纹从右向左移动。在录制过程中，波纹的进度条不可移动，定位指针始终对应当前录制时刻录制的音频的波纹，以避免干扰录制过程。录制时长为27分17秒时的显示页面如图3中的(3)所示。若录制过程需要终止或者暂停，交互对象可以触发具有第二表现形式的音频录制控件。当交互对象触发具有第二表现形式的音频录制控件时，如图3中的(4)所示，音频录制控件301恢复到第一表现形式。

如图3中的(4)所示，音频录制页面显示有播放控件302，该播放控件302用于触发已录制的音频的开始播放和停止播放，在触发播放控件302开始播放后，若不停止播放，则终端循环播放已录制的音频。在音频录制页面中还显示有处理控件303以及确认完成控件304。当交互对象触发处理控件303时，终端检测到处理控件被触发，将音频录制页面录制的音频作为目标音频，此时，终端获取到目标音频的处理请求。当交互对象触发确认完成控件304时，终端检测到确认完成控件被触发，将音频录制页面录制的音频进行本地存储或者发送至服务器进行存储。

如图3所示，在录制音频的过程中的显示页面中，显示已录制的音频的总时长，便于交互对象查看。在示例性实施例中，非录制过程中的波纹和录制过程中的波纹用不同的颜色进行显示，以便于区分不同录制过程和非录制过程，例如，录制过程中的波纹用绿色进行显示，非录制过程中的波纹用白色进行显示。此外，录制过程中和非录制过程中的定位指针也可以用不同的颜色进行显示，例如，录制过程中的定位指针用绿色进行显示，非录制过程中的定位指针用蓝色进行显示等。在非录制过程中，支持拖动音频的波纹，以调整音频的播放进度。

需要说明的是，对于目标音频来源于预先存储的候选音频的情况，候选音频同样是通过录制得到的，候选音频的录制过程与上述所述的录制过程类似，此处不再赘述。

无论是哪种情况，在获取到目标音频的处理请求后，基于目标音频的处理请求，显示目标音频以及与目标音频对应的目标文字信息。需要说明的是，在显示目标音频以及与目标音频对应的目标文字信息之前，终端需要先获取目标音频以及与目标音频对应的目标文字信息。接下来介绍获取目标音频以及与目标音频对应的目标文字信息的过程：

对于目标音频为任一候选音频的情况，目标音频可能存储在终端中，也可能存储在服务器中。对于目标音频为实时录制的音频的情况，目标音频存储在终端中。

对于目标音频存储在终端中的情况，终端获取目标音频以及与目标音频对应的文字信息的方式包括但不限于以下两种：

1.终端基于目标音频的处理请求，本地提取目标音频；终端对目标音频进行文字转换处理，得到与目标音频对应的目标文字信息。

2.终端基于目标音频的处理请求，本地提取目标音频；终端将目标音频发送至服务器，由服务器对目标音频进行文字转换处理并得到与目标音频对应的目标文字信息；终端接收服务器发送的与目标音频对应的目标文字信息。

对于目标音频存储在服务器中的情况，终端获取目标音频以及与目标音频对应的文字信息的包括但不限于以下两种：

1、终端基于目标音频的处理请求，向服务器发送目标音频获取请求；终端接收服务器发送的目标音频；终端对接收的目标音频进行文字转换处理，得到与目标音频对应的目标文字信息。

2、终端基于目标音频的处理请求，向服务器发送目标音频以及与目标音频对应的目标文字信息的获取请求，由服务器对目标音频进行文字转换处理并得到与目标音频对应的目标文字信息，或者由服务器提取预先存储的目标音频以及与目标音频对应的目标文字信息；终端接收服务器发送的目标音频以及与目标音频对应的目标文字信息。

也就是说，目标文字信息通过对目标音频进行文字转换处理得到，对目标音频进行文字转换处理的过程可以由服务器执行，也可以由终端执行。无论由服务器执行，还是由终端执行，均能够通过音频转文字技术实现对目标音频的文字转换处理过程。本申请实施例对采用的音频转文字技术不加以限定。

在一种可能实现方式中，除获取目标音频和与目标音频对应的目标文字信息外，还需要获取目标音频中的音频片段所在的位置与目标文字信息中的文字信息所在的位置之间的映射关系，以便于后续在根据目标文字信息确定待处理文字位置后，根据映射关系快速确定待处理音频位置。目标音频中的音频片段所在的位置与目标文字信息中的文字信息所在的位置之间的映射关系用于指示目标音频中的音频片段所在的位置与目标文字信息中的文字信息所在的位置的对应关系。

需要说明的是，目标音频中的音频片段所在的位置既可以是指某个时间戳处的音频波纹所在的位置，也可以是指某个时间范围对应的音频片段所在的位置，本申请实施例对此不加以限定。目标文字信息中包括文字和文字构成的间隔，目标文字信息中的文字信息所在的位置既可以是指某个间隔所在的位置，也可以是指至少一个文字和至少一个间隔构成的文字信息所在的位置。目标音频中的每个音频片段所在的位置均在存在对应的文字信息所在的位置，目标文字信息中的每个文字信息所在的位置同样均存在对应的音频片段所在的位置。

在一种可能实现方式中，终端获取目标音频中的音频片段所在的位置与目标文字信息中的文字信息所在的位置之间的映射关系的方式为：终端基于目标音频和目标文字信息，确定目标音频中的音频片段所在的位置和目标文字信息中的文字信息所在的位置之间的映射关系。在一种可能实现方式中，此过程的实现方式为：根据时间戳信息将目标音频中的音频片段所在的位置和目标文字信息中的文字信息所在的位置进行对齐，利用时间戳信息-目标音频中的音频片段所在的位置-目标文字信息中的文字信息所在的位置的方式记录目标音频中的音频片段所在的位置与目标文字信息中的文字信息所在的位置之间的映射关系。需要说明的是，时间戳信息既可以是指一个时间戳对应的时刻，也可以是指两个时间戳构成的时间范围，本申请实施例对此不加以限定。

任一音频片段和该音频片段转换成的文字信息均具有相同的时间戳信息。根据时间戳信息能够将目标音频中的音频片段所在的位置和目标文字信息中的文字信息所在的位置进行对齐，从而得到时间戳信息-目标音频中的音频片段所在的位置-目标文字信息中的文字信息所在的位置的对应关系，根据时间戳信息-目标音频中的音频片段所在的位置-目标文字信息中的文字信息所在的位置的对应关系得到目标音频中的音频片段所在的位置与目标文字信息中的文字信息所在的位置之间的映射关系。

在一种可能实现方式中，对于与目标音频对应的目标文字信息由服务器获取的情况，服务器在获取目标文字信息后，还能够根据目标文字信息，将每个音频片段对应的文字信息在目标音频的对应时间戳处进行标记，进行标记的目标音频携带目标音频中的音频片段所在的位置与目标文字信息中的文字信息所在的位置之间的映射关系。然后服务器将目标文字信息以及进行标记的目标音频发送至终端。在此种情况下，终端获取目标音频中的音频片段所在的位置与目标文字信息中的文字信息所在的位置之间的映射关系的方式为：终端从进行标记的目标音频中解析出目标音频中的音频片段所在的位置与目标文字信息中的文字信息所在的位置之间的映射关系。

需要说明的是，一个音频片段对应一段文字信息，一段文字信息中既可能包括至少一个文字字符，也可能仅包括空字符，本申请实施例对此不加以限定。示例性地，一个录制音量低于音量阈值的音频片段对应的文字信息中仅包括空字符。音量阈值根据经验设置或者根据应用场景灵活调整，本申请实施例对此不加以限定。录制音量低于音频阈值的音频片段无法被转换成具体的文字，所以录制音量低于音量阈值的音频片段对应的文字信息中仅包括空字符。

在获取目标音频以及与目标音频对应的目标文字信息后，显示目标音频以及与目标音频对应的目标文字信息。本申请实施例对目标音频的显示方式不加以限定，示例性地，终端通过显示目标音频的波纹显示目标音频。目标音频的波纹由高度不同的线条构成，线条的高度用于表示线条对应时刻的音频音量的大小。目标音频的波纹能够使交互对象较为直观地获知目标音频的音频音量的大小变化。示例性地，在显示目标音频同时，还可以显示构成波纹的线条对应的时间戳。时间戳用于指示线条在整个目标音频中对应的播放时间戳。

本申请实施例对目标音频以及目标文字信息在显示页面中的布局也不加以限定，示例性地，在显示页面的上部区域显示目标音频，在显示页面的下部区域显示目标文字信息。需要说明的是，对于目标音频的时长较长的情况，显示页面可能仅能够显示部分音频以及部分文字信息，交互对象能够通过移动音频或者移动文字信息，调整显示在显示页面中的音频或者文字信息。

在一种可能实现方式中，在显示目标音频以及目标文字信息之前，先显示音频预处理页面。响应于音频预处理页面中的处理控件被触发，再显示目标音频以及目标文字信息。如图4所示，图4中的(1)为音频预处理页面，在音频预处理页面中，用波纹的形式显示目标音频，目标音频的波纹显示区域的中间位置显示有定位指针401。定位指针401的位置不可移动，用于定位当前播放的音频位置。

在图4中的(1)中，在目标音频的波纹下方，还对应显示有时间戳，时间戳用于标识波纹在整个目标音频中对应的播放时间戳。音频预处理页面显示有播放控件402，用于控制目标音频的播放。对于目标音频为实时录制的音频的情况，在音频预处理页面中，目标音频的波纹的初始状态为录制结束时的状态，目标音频的波纹可以拖动，以调整播放进度。在图4中的(1)中，默认勾选自动降噪选项，能够对目标音频进行自动降噪处理，以提高目标音频的质量。在图4中的(1)中，还显示有保存控件403，若交互对象在音频预处理页面触发保存控件403，则说明无需进行后续处理，终端对目标音频进行本地存储或者发送至服务器进行存储。

在图4中的(1)中的音频预处理页面还显示有处理控件404，响应于该处理控件404被触发，跳转至图4中的(2)所示的显示页面，在图4中的(2)所示的显示页面显示目标音频以及与目标音频对应的目标文字信息。

示例性地，在显示目标音频以及目标文字信息的过程中，交互对象、终端以及服务器的交互流程图如图5所示。1.交互对象触发音频录制控件并进行音频输入；2.终端对交互对象的音频进行录制；3.录制结束后，终端将录制的目标音频发送至服务器；4.服务器接收到目标音频后，对目标音频进行文字转换处理，并根据转换后得到的文字信息在目标音频的对应时间戳处进行标记，以得到目标音频中的音频片段所在的位置与目标文字信息中的文字信息所在的位置之间的映射关系；5.服务器将转换后的目标文字信息以及进行标记的目标音频发送至终端；6.终端显示目标音频以及目标文字信息。

在步骤202中，响应于获取到目标文字信息的位置选择指令，将目标文字信息中与位置选择指令匹配的文字信息所在的位置作为待处理文字位置，将与待处理文字位置具有映射关系的音频片段所在的位置作为待处理音频位置。

在显示目标音频以及目标文字信息后，交互对象能够对目标音频进行处理。对目标音频进行处理的任务可以分为两个过程，第一个过程为确定待处理音频位置；第二个过程为对待处理音频位置执行处理操作。在步骤202中介绍确定待处理音频位置的过程，在步骤203中介绍对待处理音频位置执行处理操作的过程。

在确定待处理音频位置的过程中，由于目标文字信息具有与目标音频更高的辨识度，交互对象能够通过对目标文字信息中的文字信息的快速识别来确定需要处理的文字信息所在的位置。由于目标文字信息中的文字信息所在的位置与目标音频中的音频片段所在的位置之间具有映射关系，因此，在确定待处理文字位置后，能够快速地确定待处理音频位置。在本申请实施例中，先确定待处理文字位置，然后根据待处理文字位置确定待处理音频位置，能够提高待处理音频位置确定的准确率以及效率，进而提高音频处理效果。

在本申请实施例中，确定待处理文字位置和待处理音频位置的过程为：响应于获取到目标文字信息的位置选择指令，将目标文字信息中与位置选择指令匹配的文字信息所在的位置作为待处理文字位置，将与待处理文字位置具有映射关系的音频片段所在的位置作为待处理音频位置。

在将与待处理文字位置具有映射关系的音频片段所在的位置作为待处理音频位置之前，需要先确定与待处理文字位置具有映射关系的音频片段所在的位置。在一种可能实现方式中，确定与待处理文字位置具有映射关系的音频片段所在的位置的方式为：在映射关系中查找与待处理文字位置对应的时间戳信息，进而确定目标音频中与该时间戳信息对应音频片段，将该音频片段所在的位置作为与待处理文字位置具有映射关系的音频片段所在的位置。

在一种可能实现方式中，在显示目标音频时，显示目标音频对应的时间戳，以便于根据显示的时间戳快速定位至待处理音频位置。在一种可能实现方式中，对于时间戳处包含映射关系标记的情况，根据标记即可快速查询文字位置和音频位置的对应关系，进而快速确定与待处理文字位置具有映射关系的音频片段所在的位置。

在一种可能实现方式中，位置选择指令包括删除选择指令或者***选择指令。删除选择指令用于确定待删除位置，***选择指令用于确定待***位置。

接下来，分别介绍两种情况：

情况一：位置选择指令包括删除选择指令。

当位置选择指令包括删除选择指令时，响应于获取到目标文字信息的位置选择指令，将目标文字信息中与位置选择指令匹配的文字信息所在的位置作为待处理文字位置，将与待处理文字位置具有映射关系的音频片段所在的位置作为待处理音频位置的实现过程为：响应于获取到目标文字信息的删除选择指令，将目标文字信息中确定与删除选择指令匹配的文字信息所在的位置作为待删除文字位置，将与待删除文字位置具有映射关系的音频片段所在的位置作为待删除音频位置。在此种情况下，待处理文字位置包括待删除文字位置，待处理音频位置包括待删除音频位置。

在显示目标音频以及目标文字信息的显示页面中，还显示有删除控件和***控件。其中，删除控件用于实现删除过程，***控件用于实现***过程。如图4中的(2)所示，删除控件405和***控件406显示在目标音频和目标文字信息之间的区域处。

在一种可能实现方式中，在显示目标音频以及目标文字信息的显示页面中，删除控件默认为选中状态，如图4中的(2)所示，删除控件405为选中状态。当然，在示例性实施例中，在显示页面中删除控件也可以默认为非选中状态，本申请实施例对此不加以限定。

在选中删除控件的状态下，交互对象能够在目标文字信息中选择需要删除的文字信息。需要说明的是，选中删除控件的状态可以是指默认的状态，也可以是指交互对象主动触发删除控件后的状态。

需要删除的文字信息可能是指由于录制音频的过程中发声不标准而导致转换后的文字存在错误的文字信息，也可能是指由于发声音量较小而导致未准确转换成文字的文字信息(此时的文字信息可能是指空文字信息)。

本申请实施例对交互对象在目标文字信息中选择需要删除的文字信息的操作不加以限定。示例性地，交互对象通过点击某个或某些文字选择需要删除的文字信息，或者，交互对象通过长按的方式选择某个连续的文字块，将选择的文字块对应的文字信息作为需要删除的文字信息。

当在删除控件选中的状态下检测到交互对象选中目标文字信息中的某文字信息时，终端获取到目标文字信息的删除选择指令。响应于获取到目标文字信息的删除选择指令，终端在目标文字信息中确定与删除选择指令匹配的文字信息，将与删除选择指令匹配的文字信息所在的位置作为待删除文字位置。删除选择指令用于指示交互对象选择的需要删除的文字信息所在的位置。与删除选择指令匹配的文字信息即为交互对象选择的需要删除的文字信息。

待删除文字位置可能是指用至少一个文字和至少一个间隔构成的文字信息所在的位置，也可以是指空字符构成的文字信息所在的位置，本申请实施例对比不加以限定。在确定待删除文字位置后，由于目标音频中的音频片段所在的位置和目标文字信息中的文字信息所在的位置之间具有映射关系，所以能够确定与待删除文字位置具有映射关系的音频片段所在的位置，将与待删除文字位置具有映射关系的音频片段所在的位置作为待删除音频位置。通常情况下，待删除音频位置对应一个音频片段，该音频片段转换后的文字信息即为待删除文字位置对应的文字信息。

示例性地，如图4中的(2)所示，当交互对象在目标文字信息中选中“邪鬼恶灵是乘风而来的”时，终端获取到目标文字信息的删除选择指令，此时，终端确定的待删除文字位置即为文字信息“邪鬼恶灵是乘风而来的”所在的位置。根据目标音频中的音频片段所在的位置和目标文字信息中的文字信息所在的位置之间的映射关系，确定与文字信息“邪鬼恶灵是乘风而来的”所在的位置具有映射关系的待删除音频位置。待删除音频位置即为待删除音频片段所在的位置。

在一种可能实现方式中，在交互对象选中需要删除的文字信息之前，在显示页面默认选中目标文字信息中的参考位置对应的文字信息。在此种情况下，交互对象可以将默认选中的文字信息作为需要删除的文字信息，也可以主动选择其他文字信息作为需要删除的文字信息。需要说明的是，参考位置根据经验设置，例如，参考位置为最后一句话对应的位置。

在一种可能实现方式中，在确定待删除音频位置后，利用起始指针和终止指针定位待删除音频位置。如图4中的(2)所示，起始指针407和终止指针408之间的位置即为待删除音频位置。需要说明的是，起始指针407和终止指针408的位置随着波纹的拖动而移动，以保持起始指针407和终止指针408之间的位置始终为与待删除文字位置具有映射关系的待删除音频位置。

在一种可能实现方式中，将目标文字信息中与待删除文字位置对应的文字信息作为第一文字信息，将目标音频中与待删除音频位置对应的音频片段作为第一音频片段。在一种可能实现方式中，在确定第一文字信息以及第一音频片段后，将目标文字信息中的第一文字信息进行突出显示，将目标音频中的第一音频片段进行突出显示。

将第一文字信息以及第一音频片段进行突出显示，能够便于交互对象直观看到自己选择的待删除位置对应的文字信息以及音频片段，从而直观地判断是否更换选择的待删除位置。将第一文字信息进行突出显示能够将第一文字信息与其他文字信息进行区分，本申请实施例对将第一文字信息进行突出显示的方式不加以限定，只要能够与其他文字信息进行区分即可，示例性地，将第一文字信息进行突出显示的方式包括以下至少一种：将第一文字信息进行加粗显示、将第一文字信息用斜体进行显示、将第一文字信息以不同于其他文字信息的颜色进行显示等。

将第一音频片段进行突出显示能够将第一音频片段与其他音频片段进行区分，本申请实施例对将第一音频片段进行突出显示的方式不加以限定，只要能够与其他音频片段进行区分即可，示例性地，将第一音频片段进行突出显示的方式包括以下至少一种：将第一音频片段的波纹进行加粗显示、将第一音频片段的波纹用不同于其他音频片段的波纹的颜色进行显示等。示例性地，突出显示后的第一文字信息以及第一音频片段如图4中的(2)所示。

在示例性实施例中，在选中删除控件的状态下，交互对象还能够选择目标文字信息中空字符构成的文字信息，空字符构成的文字信息是指与目标音频中未发出声音或者声音极其微弱的音频片段对应的文字信息。在此种情况下，待删除文字位置即为空字符所在的位置，待删除音频位置即为不存在波纹或者波纹高度极小的音频片段所在的位置。示例性地，此种情况下的显示页面如图4中的(3)所示。

情况二：位置选择指令包括***选择指令。

当位置选择指令包括***选择指令时，响应于获取到目标文字信息的位置选择指令，将目标文字信息中与位置选择指令匹配的文字信息所在的位置作为待处理文字位置，将与待处理文字位置具有映射关系的音频片段所在的位置作为待处理音频位置的实现过程为：响应于获取到目标文字信息的***选择指令，将目标文字信息中与***选择指令匹配的文字信息所在的位置作为待***文字位置，将与待***文字位置具有映射关系的音频片段所在的位置作为待***音频位置。在此种情况下，待处理文字位置包括待***文字位置，待处理音频位置包括待***音频位置。

在一种可能实现方式中，目标文字信息包括文字构成的间隔。文字构成的间隔包括第一个文字之前的间隔、任两个文字之间的间隔、最后一个文字之后的间隔。获取目标文字信息的***选择指令的过程包括：在显示目标音频以及目标文字信息的显示页面显示***控件；基于交互对象对目标文字信息中的任一间隔的触发操作，在任一间隔所在的位置处显示具有默认属性的光标；响应于检测到交互对象对具有默认属性的光标的定位操作以及对***控件的触发操作，得到目标文字信息的***选择指令。

***控件用于实现音频***过程，当检测到交互对象对目标文字信息中的任一间隔的触发操作时，在任一间隔所在的位置处显示具有默认属性的光标。本申请实施例对光标的默认属性不加以限定，示例性地，具有默认属性的光标为白色的光标。

在显示光标后，交互对象能够对具有默认属性的光标进行移动，以将具有默认属性的光标定位至需要***新音频片段对应的文字信息的间隔所在的位置。当交互对象将光标移动定位至需要***新音频片段对应的文字信息的间隔所在的位置时，终端检测到交互对象对具有默认属性的光标的定位操作。在将光标移动定位至需要***新音频片段对应的文字信息的间隔所在的位置后，交互对象触发***控件，以表明需要执行音频***操作，此时，终端检测到交互对象对***控件的触发操作。响应于检测到交互对象对具有默认属性的光标的定位操作以及对***控件的触发操作后，终端得到目标文字信息的***选择指令。

本申请实施例对交互对象在将光标移动定位至需要***新音频片段对应的文字信息的间隔所在的位置的操作不加以限定。示例性地，交互对象通过直接拖动光标，将光标移动定位至需要***新音频片段对应的文字信息的间隔所在的位置；或者，交互对象通过拖动目标音频的波纹拖动光标，进而将光标移动定位至需要***新音频片段对应的文字信息的间隔所在的位置。

响应于获取到目标文字信息的***选择指令，终端在目标文字信息中确定与***选择指令匹配的文字信息，将与***选择指令匹配的文字信息所在的位置作为待***文字位置。***选择指令用于指示交互对象选择的需要***新音频片段对应的文字信息的间隔所在的位置。与***选择指令匹配的文字信息即为交互对象选择的需要***新音频片段对应的文字信息的间隔。

在确定待***文字位置后，由于目标音频中的音频片段所在的位置和目标文字信息中的文字信息所在的位置之间具有映射关系，所以能够确定与待***位置具有映射关系的音频片段所在的位置，将与待***位置具有映射关系的音频片段所在的位置作为待***音频位置。

在一种可能实现方式中，在确定待***文字位置以及待***音频位置后，在待***文字位置处显示具有目标属性的光标，将待***音频位置移动至定位指针处。此种方式能够将待***位置(待***文字位置和待***音频位置)进行可视化，以便于交互对象快速判断选择的待***位置是否需要调整。目标属性与默认属性不同，具有目标属性的光标能够与具有默认属性的光标进行区分，以提高视觉效果。示例性地，当具有默认属性的光标为白色的光标时，具有目标属性的光标是指黄色的光标。

示例性地，位置选择指令包括***选择指令的情况下的显示页面如图6所示。在图6中的(1)中，显示有删除控件601和***控件602，***控件602为触发状态。交互对象选择的待***文字位置为文字“邪”之前的间隔所在的位置，则在该待***文字位置处显示具有目标属性的光标603。将与该待***文字位置具有映射关系的待***音频位置移动至定位指针604处。

在示例性实施例中，当待***文字位置为目标文字信息中的最后一个文字之后的间隔所在的位置时，如图6中的(2)所示，在最后一个文字之后的间隔所在的位置处显示具有目标属性的光标603。目标音频中与目标文字信息中的最后一个文字之后的间隔所在的位置具有映射关系的位置为目标音频的末尾位置，如图6中的(2)所示，将目标音频中的末尾位置移动至定位指针604处。

在步骤203中，基于处理指令，根据待处理音频位置对目标音频进行处理，根据待处理文字位置对目标文字信息进行处理，以对显示的目标音频以及目标文字信息进行更新。

无论步骤202中的情况一还是情况二，均可以确定待处理文字位置和待处理音频位置。然后终端能够根据交互对象的处理操作，获取处理指令，进而基于处理指令，根据待处理音频位置对目标音频进行处理，根据待处理文字位置对目标文字信息进行处理，以对显示的目标音频以及目标文字信息进行更新。

在一种可能实现方式中，对应于位置选择指令的两种情况，处理指令也具有两种情况，接下来分别介绍两种情况下的处理过程。

情况1：处理指令包括待删除文字位置的删除确认指令。

此种情况1发生在位置选择指令为删除选择指令的情况下。在此种情况1下，待处理文字位置包括待删除文字位置，待处理音频位置包括待删除音频位置。基于处理指令，根据待处理音频位置对目标音频进行处理，根据待处理文字位置对目标文字信息进行处理，以对显示的目标音频以及目标文字信息进行更新的实现过程包括以下两个步骤：

步骤1：基于待删除文字位置的删除确认指令，将目标文字信息中的第一文字信息进行删除，将目标音频中的第一音频片段进行删除。

其中，第一文字信息为目标文字信息中与待删除文字位置对应的文字信息，第一音频片段为目标音频中与待删除音频位置对应的音频片段。

在执行步骤1之前，需要先获取待删除文字位置的删除确认指令。在一种可能实现方式中，获取待删除文字位置的删除确认指令的方式包括但不限于以下两种：

1、选中状态的删除控件能够被触发，响应于交互对象触发选中状态的删除控件，终端获取待删除文字位置的删除确认指令。

2、在待删除文字位置的旁边显示删除按钮，响应于删除按钮被触发，终端获取待删除文字位置的删除确认指令。

待删除文字位置的删除确认指令用于指示对待删除文字位置的文字信息进行删除。在获取待删除文字位置的删除确认指令后，基于待删除文字位置的删除确认指令，将目标文字信息中的第一文字信息进行删除。由于目标音频中的第一音频片段为与第一文字信息对应的音频片段，所以在将目标文字信息中的第一文字信息进行删除后，同样需要将目标音频中的第一音频片段进行删除。也就是说，将图4中的(2)中突出显示的第一文字信息以及第一音频片段分别从目标文字信息以及目标音频中进行删除。

在一种可能实现方式中，在将第一文字信息以及第一音频片段分别从目标文字信息以及目标音频中进行删除后，位于第一文字信息之后的文字信息自动填充第一文字信息所处位置(即待删除文字位置)，位于第一音频片段之后的音频片段自动填充第一音频片段所处位置(即待删除音频位置)。在示例性实施例中，终端自动突出显示位于第一文字信息下一句的文字信息，以及自动突出显示与位于第一文字信息下一句的文字信息对应的音频片段。若不存在位于第一文字信息下一句的文字信息，则自动突出显示位于第一文字信息上一句的文字信息，以及自动突出显示与位于第一文字信息上一句的文字信息对应的音频片段。

步骤2：基于删除第一文字信息后得到的文字信息，确定更新后的文字信息，显示更新后的文字信息；基于删除第一音频片段后得到的音频，确定更新后的音频，显示更新后的音频。

在将目标文字信息中的第一文字信息进行删除后，基于删除第一文字信息后得到的文字信息，确定更新后的文字信息。在一种可能实现方式中，删除第一文字信息后得到的文字信息包括第二文字信息和第三文字信息，第二文字信息为目标文字信息中位于第一文字信息之前的文字信息，第三文字信息为目标文字信息中位于第一文字信息之后的文字信息。此种情况下，基于删除第一文字信息后得到的文字信息，确定更新后的文字信息的过程为：将第二文字信息和第三文字信息进行拼接处理，将拼接处理后得到的文字信息作为更新后的文字信息。拼接处理是指将第二文字信息中的最后一个文字和第三文字信息中的第一个文字进行拼接，以使第二文字信息和第三文字信息连贯起来。

在一种可能实现方式中，对于第一文字信息为目标文字信息中的起始文字信息或者末尾文字信息的情况，在删除第一文字信息中，仅剩余一个完整的文字信息，无需进行额外的拼接处理，将剩余的文字信息作为更新后的文字信息。

在得到更新后的文字信息后，显示更新后的文字信息。此时，显示页面中显示的为更新后的文字信息。

在将目标音频中的第一音频片段进行删除后，基于删除第一音频片段得到的音频，确定更新后的音频。在一种可能实现方式中，删除第一音频片段后得到的音频包括第二音频片段和第三音频片段，第二音频片段为目标音频中位于第一音频片段之前的音频片段，第三音频片段为目标音频中位于第一音频片段之后的音频片段。此种情况下，基于删除第一音频片段后得到的音频，确定更新后的音频的过程为：将第二音频片段和第三音频片段进行合成处理，将合成处理后得到的音频作为更新后的音频。

需要说明的是，在合成处理的过程中，对音频的时间戳同步进行更新，也就是说，更新后的音频中具有更新后的时间戳。将第二音频片段和第三音频片段进行合成处理的过程可以由终端执行，也可以由服务器执行，本申请实施例对此不加以限定。本申请实施例以将第二音频片段和第三音频片段进行合成处理的过程由终端执行为例进行说明。本申请实施例对将第二音频片段和第三音频片段进行合成处理的方式不加以限定，任何一种能够实现音频合成的方式均可。

在一种可能实现方式中，对于第一音频片段为目标音频中起始音频片段或者末尾音频片段的情况，在删除第一音频片段后，仅剩余一个完整的音频片段，无需进行额外的合成处理。但是需要对剩余的音频片段的时间戳进行更新，得到更新后的音频。

在确定更新后的音频后，显示更新后的音频。此时，显示页面中显示的为更新后的音频的波纹。

经过上述步骤1和步骤2，即可完成对目标音频中的某个音频片段的删除操作。示例性地，在删除目标音频中的某个音频片段的处理过程中，交互对象和终端的交互流程图如图7所示。1.交互对象选择需要删除的文字信息；2.终端获取目标文字信息的删除选择指令，将目标文字信息中与删除选择指令匹配的文字信息所在的位置作为待删除文字位置，根据待删除文字位置以及位置之间的映射关系，映射得到待删除音频位置，将待删除文字位置对应的文字信息以及待删除音频位置对应的音频片段进行突出显示；3.交互对象触发删除确认操作；4.终端获取待删除文字位置的删除确认指令，基于待删除文字位置的删除确认指令，将目标文字信息中的第一文字信息进行删除，将目标音频中的第一音频片段进行删除；5.终端将删除处理后的音频进行合成处理，得到更新后的音频；将删除处理后的文字信息进行拼接处理，得到更新后的文字信息；6.终端显示更新后的音频和更新后的文字信息。根据上述步骤，完成在目标音频中删除某个音频片段的过程。

示例性地，在图4中的(2)以及(3)所示的显示页面中，还显示有完成控件409，当检测到该完成控件409的触发操作时，退出对目标音频的处理流程。

情况2：处理指令包括待***音频位置的音频***指令。

此种情况2发生在位置选择指令为***选择指令的情况下。在此种情况2下，待处理文字位置包括待***文字位置，待处理音频位置包括待***音频位置。基于处理指令，根据待处理音频位置对目标音频进行处理，根据待处理文字位置对目标文字信息进行处理，以对显示的目标音频以及目标文字信息进行更新的实现过程包括以下两个步骤：

步骤A：基于待***音频位置的音频***指令，获取待***音频片段以及与待***音频片段对应的待***文字信息。

待***音频位置的音频***指令用于指示需要在待***音频位置***新的音频片段。在执行步骤A之前，需要先获取待***音频位置的音频***指令。在一种可能实现方式中，获取待***音频位置的音频***指令的过程包括步骤a和步骤b：

步骤a：响应于获取到目标文字信息的***选择指令，显示音频录制控件。

当获取到目标文字信息的***选择指令时，说明需要***新的音频片段，此时，终端显示音频录制控件。音频录制控件用于控制新音频片段的录制过程。示例性地，音频录制控件如图6中的(1)中的605所示。

步骤b：基于交互对象对音频录制控件的触发操作，得到待***音频位置的音频***指令。

由于在获取到目标文字信息的***选择指令后，已经确定了待***音频位置以及待***文字位置，当交互对象触发音频录制控件时，说明需要在待***音频位置***新音频片段，需要在待***文字位置***新音频片段对应的文字信息。

音频录制控件用于控制新音频片段的录制过程，当检测到交互对象触发音频录制控件时，终端基于交互对象对音频录制控件的触发操作，得到待***音频位置的音频***指令。

在获取待***音频位置的音频***指令后，终端基于待***音频位置的音频***指令，获取待***音频片段以及与待***音频片段对应的待***文字信息。

待***音频位置的音频***指令是根据交互对象对当前显示页面中的音频录制控件的触发操作获取的，交互对象对当前显示页面中的音频录制控件进行触发操作后，音频录制控件转变成录制过程中的表现形式(如图6中的(3)中的音频录制控件605)。此时，交互对象输入需要录制的声音，终端进行音频录制。在录制结束后，终端获取待***音频片段。获取与待***音频片段对应的待***文字信息的方式包括：1、终端直接对待***音频片段进行文字转换处理，得到待***文字信息；2、终端将待***音频片段发送至服务器，由服务器对待***音频片段进行文字转换处理，然后由服务器将待***文字信息发送至终端，由此，终端获取与待***音频片段对应的待***文字信息。

在一种可能实现方式中，在获取与待***音频片段对应的待***文字信息之后，还可以获取待***音频片段中的音频片段所在的位置与待***文字信息中的文字信息所在的位置之间的映射关系。

步骤B：基于待***音频片段、目标音频以及待***音频位置，确定更新后的音频，显示更新后的音频；基于待***文字信息、目标文字信息以及待***文字位置，确定更新后的文字信息，显示更新后的文字信息。

在一种可能实现方式中，基于待***音频片段、目标音频以及待***音频位置，确定更新后的音频的过程为：将目标音频中位于待***音频位置之前的音频片段作为第四音频片段，将目标音频信息中位于待***音频位置之后的音频片段作为第五音频片段；将待***音频片段置于第四音频片段和第五音频片段之间，按照排列顺序对第四音频片段、待***音频片段以及第五音频片段进行合成处理，将合成后得到的音频作为更新后的音频。

对于待***音频位置位于目标音频的起始位置的情况，将待***音频片段置于目标音频的起始位置，按照排列顺序对待***音频片段以及目标音频进行合成处理，将合成后得到的音频作为更新后的音频。对于待***音频位置位于目标音频的末尾位置的情况，将待***音频片段置于目标音频的末尾位置，按照排列顺序对目标音频以及待***音频片段进行合成处理，将合成后得到的音频作为更新后的音频。需要说明的是，在合成处理过程中，对音频的时间戳进行更新。

在确定更新后的音频后，显示更新后的音频。

在一种可能实现方式中，基于待***文字信息、目标文字信息以及待***文字位置，确定更新后的文字信息的过程为：将目标文字信息中位于待***文字位置之前的文字信息作为第四文字信息，将目标文字信息中位于待***文字位置之后的文字信息作为第五文字信息；将待***文字信息置于第四文字信息和第五文字信息之间，按照排列顺序对第四文字信息、待***文字信息以及第五文字信息进行拼接处理，将拼接处理后得到的文字信息作为更新后的文字信息。

对于待***文字位置位于目标文字信息的起始位置的情况，将待***文字信息置于目标文字信息的起始位置，按照排列顺序对待***文字信息以及目标文字信息进行拼接处理，将拼接后得到的文字信息作为更新后的文字信息。对于待***文字位置位于目标文字信息的末尾位置的情况，将待***文字信息置于目标音频的末尾位置，按照排列顺序对目标文字信息以及待***文字信息进行拼接处理，将拼接后得到的文字信息作为更新后的文字信息。

在确定更新后的文字信息后，显示更新后的文字信息。

在一种可能实现方式中，在确定更新后的文字信息以及更新后的音频后，根据最新的时间戳信息对位置之间的映射关系进行更新，以得到更新后的文字信息中的文字信息所在的位置与更新后的音频中的音频片段所在的位置之间的映射关系，从而便于实现对更新后的音频的进一步处理过程。

在一种可能实现方式中，在获取待***音频片段的过程中，可以每隔参考时间间隔根据已经获取的待***音频子片段，对显示页面中显示的音频以及文字信息进行一次更新。通过缩小参考时间间隔，能够达到在获取待***音频片段的过程中，实时更新显示的音频以及文字信息的效果。在一种可能实现方式中，在实时更新显示的过程中，对新***的音频子片段以及新***的文字信息进行突出显示，以提高视觉效果。如图6中的(3)所示，对新***的文字信息“我给你力量”进行突出显示。对新***的文字信息进行突出显示的方式可以为利用与其他文字信息不同的颜色进行显示。例如，当其他文字信息的显示颜色为白色时，利用绿色对新***的文字信息进行突出显示。如图6中的(3)所示，对定位指针左侧新***的音频子片段的波纹进行突出显示。对新***的音频子片段的波纹进行突出显示的方式可以为利用与波纹不同的粗细进行显示。例如，利用加粗波纹的方式对新***的音频子片段的波纹进行突出显示。

需要说明的是，除实时更新显示外，还可以在获取整个待***音频片段以及整个待***文字信息后，再进行更新显示，本申请实施例对此不加以限定。

在一种可能实现方式中，在录制待***音频的过程中，将***控件以及删除控件调整为不可触发状态，如图6中的(3)中的删除控件601和***控件602所示，以避免对新音频片段的录制过程产生干扰。

在一种可能实现方式中，在显示更新后的音频以及显示更新后的文字信息之后，还包括：基于播放控件的触发指令，播放更新后的音频。播放控件如图6中的606所示，播放控件606触发之前的表现形式如图6中的(1)至(3)所示，播放控件606触发之后的表现形式如图6中的(4)所示。当交互对象触发播放控件时，播放控件转换为图6中的(4)所示的表现形式，与此同时，终端播放更新后的音频。

在一种可能实现方式中，在终端播放更新后的音频的过程中，对更新后的文字信息进行滚动显示，以将与当前播放的音频对应的文字信息显示在文字信息显示区域的中间区域，便于交互对象进行查看。在示例性实施例中，在终端播放更新后的音频的过程中，还可以不改变更新后的文字信息的显示方式，本申请实施例对此不加以限定。

根据上述步骤A和步骤B，完成在目标音频中***新音频片段的处理过程。

示例性地，在目标音频中***音频片段的处理过程中，交互对象、终端和服务器的交互流程图如图8所示。1.交互对象在目标文字信息中选择需要***新音频片段对应的文字信息的间隔所在的位置；2.终端获取目标文字信息的***选择指令，基于目标文字的***选择指令，将目标文字信息中与***选择指令匹配的文字信息所在的位置作为待***文字位置，在待***文字位置处显示具有目标属性的光标；根据映射关系，确定待***音频位置，将待***音频位置移动至定位指针处；3.交互对象触发音频录制控件并且输入音频；4.终端对交互对象输入的音频进行录制；5.录制结束后，终端获取待***音频片段，将待***音频片段发送至服务器；6.服务器接收到待***音频片段后，对待***音频片段进行文字转换处理，并根据转换后得到的待***文字信息在待***音频片段的对应时间戳处进行打标记，以得到待***音频片段中的音频片段所在的位置与待***文字信息中的文字信息所在的位置之间的映射关系；7.服务器将转换后的待***文字信息以及进行标记的待***音频片段发送至终端；8.终端将接收到的待***文字信息置于目标文字信息中的待***文字位置处，通过拼接处理得到更新后的文字信息；将接收到的待***音频置于目标音频中的待***音频位置处，通过合成处理得到更新后的音频；9.终端显示更新后的音频和更新后的文字信息。根据上述步骤，完成在目标音频中***新音频片段的过程。

目标音频能够进行一次处理或多次连续处理，每次处理均是在上一次处理后得到的更新后的音频以及更新后的文字信息的基础上进行的。每次处理过程均可以是指删除某个音频片段或者***新的音频片段的过程。

示例性地，音频处理过程如图9所示。交互对象通过终端打开支持音频录制以及音频处理的应用程序。本申请实施例对应用程序的类型不加以限定，只要能够支持音频录制以及音频处理即可。示例性地，交互对象打开的应用程序为用于管理订阅号的应用程序，该应用程序能够将手机等移动终端变成一个随身的公众号工作室，交互对象利用该应用程序随时发表内容、与读者互动。该应用程序具有简洁的编辑工具，能够让交互对象轻松变身为作者，从而留住即刻的灵感，尽享内容创作的乐趣。

如图9所示，交互对象在应用程序中录制音频，在录制结束后，对音频进行文字转换处理，得到音频对应的文字信息。在显示页面显示音频以及与音频对应的文字信息，进而基于文字信息实现对音频的处理。在基于文字信息实现对音频的处理的过程中，若交互对象在显示页面发现有不在预期内的录制结果，可以通过删除目标文字信息中的文字信息来删除对应的音频片段；若交互对象认为需要***新音频片段，则可以通过根据目标文字信息确定待***文字位置来进一步待***音频位置，进而在待***音频位置***新音频片段。在对音频的处理结束后，得到更新后的音频，该更新后的音频为交互对象比较满意的音频。

需要说明的是，除本申请实施例涉及的删除目标音频中的某个音频片段的处理过程以及在目标音频中***新音频片段的处理过程外，本申请实施例还可以应用于其他类似的处理过程中，也就是说，本申请实施例不局限于删除目标音频中的某个音频片段以及在目标音频中***新音频片段这两个处理过程。示例性地，本申请实施例还可以应用于用新音频片段替换目标音频中的某个音频片段的过程中。其他类似的处理过程均可以参照本申请实施例中介绍的两种处理过程，此处不再赘述。

在本申请实施例中，对音频进行可视化，可视化是指将抽象信息用具象信息进行呈现。通过将音频可视化为文字信息，对文字信息所在的位置和音频片段所在的位置进行映射关系的处理，利用编辑(如，删除等)文字来编辑对应的音频，能够提高音频的处理效率和准确度。在应用程序内直接录音，能够同步将音频转换成文字信息。录音完成后，能够通过编辑(如，删除等)文字信息快速编辑某个音频片段，大大降低音频编辑的成本；此外，结合音频转文字功能，还能够根据待***文字位置快速的确定需要***新音频片段的待***音频位置，从而快速实现新音频片段的***过程。

在本申请实施例中，先根据目标文字信息中的文字信息所在的位置确定待处理文字位置，然后将与待处理文字位置具有映射关系的音频片段所在的位置作为待处理音频位置，进而根据处理指令，实现对目标音频的处理过程。在此种音频处理过程中，通过确定待处理文字位置来进一步确定需要处理的音频位置，文字信息的辨识度较高，根据目标文字信息中的文字信息所在的位置确定待处理文字位置的效率和准确率较高，有利于提高确定待处理音频位置的效率和准确率，从而提高音频处理效率和音频处理效果。

参见图10，本申请实施例提供了一种音频处理装置，该装置包括：

显示模块1001，用于基于目标音频的处理请求，显示目标音频以及与目标音频对应的目标文字信息，目标音频中的音频片段所在的位置和目标文字信息中的文字信息所在的位置之间具有映射关系；

确定模块1002，用于响应于获取到目标文字信息的位置选择指令，将目标文字信息中与位置选择指令匹配的文字信息所在的位置作为待处理文字位置，将与待处理文字位置具有映射关系的音频片段所在的位置作为待处理音频位置；

处理模块1003，用于基于处理指令，根据待处理音频位置对目标音频进行处理，根据待处理文字位置对目标文字信息进行处理，以对显示的目标音频以及目标文字信息进行更新。

在一种可能实现方式中，待处理文字位置包括待删除文字位置，待处理音频位置包括待删除音频位置，处理指令包括待删除文字位置的删除确认指令；处理模块1003，用于基于待删除文字位置的删除确认指令，将目标文字信息中的第一文字信息进行删除，将目标音频中的第一音频片段进行删除，第一文字信息为目标文字信息中与待删除文字位置对应的文字信息，第一音频片段为目标音频中与待删除音频位置对应的音频片段；基于删除第一文字信息后得到的文字信息，确定更新后的文字信息，显示更新后的文字信息；基于删除第一音频片段后得到的音频，确定更新后的音频，显示更新后的音频。

在一种可能实现方式中，删除第一文字信息后得到的文字信息包括第二文字信息和第三文字信息，第二文字信息为目标文字信息中位于第一文字信息之前的文字信息，第三文字信息为目标文字信息中位于第一文字信息之后的文字信息；处理模块1003，还用于将第二文字信息和第三文字信息进行拼接处理，将拼接处理后得到的文字信息作为更新后的文字信息；

删除第一音频片段后得到的音频包括第二音频片段和第三音频片段，第二音频片段为目标音频中位于第一音频片段之前的音频片段，第三音频片段为目标音频中位于第一音频片段之后的音频片段；处理模块1003，还用于将第二音频片段和第三音频片段进行合成处理，将合成处理后得到的音频作为更新后的音频。

在一种可能实现方式中，显示模块1001，还用于将目标文字信息中的第一文字信息进行突出显示，将目标音频中的第一音频片段进行突出显示。

在一种可能实现方式中，待处理文字位置包括待***文字位置，待处理音频位置包括待***音频位置，处理指令包括待***音频位置的音频***指令；处理模块1003，用于基于待***音频位置的音频***指令，获取待***音频片段以及与待***音频片段对应的待***文字信息；基于待***音频片段、目标音频以及待***音频位置，确定更新后的音频，显示更新后的音频；基于待***文字信息、目标文字信息以及待***文字位置，确定更新后的文字信息，显示更新后的文字信息。

在一种可能实现方式中，处理模块1003，还用于将目标音频中位于待***音频位置之前的音频片段作为第四音频片段，将目标音频中位于待***音频位置之后的音频片段作为第五音频片段；将待***音频片段置于第四音频片段和第五音频片段之间，按照排列顺序对第四音频片段、待***音频片段以及第五音频片段进行合成处理，将合成处理后得到的音频作为更新后的音频；

将目标文字信息中位于待***文字位置之前的文字信息作为第四文字信息，将目标文字信息中位于待***文字位置之后的文字信息作为第五文字信息；将待***文字信息置于第四文字信息和第五文字信息之间，按照排列顺序对第四文字信息、待***文字信息以及第五文字信息进行拼接处理，将拼接处理后得到的文字信息作为更新后的文字信息。

在一种可能实现方式中，显示模块1001，还用于在待***文字位置处显示具有目标属性的光标；

参见图11，该装置还包括：

移动模块1004，用于将待***音频位置移动至定位指针处。

在一种可能实现方式中，位置选择指令包括***选择指令；显示模块1001，还用于响应于获取到目标文字信息的***选择指令，显示音频录制控件；

确定模块1002，还用于基于交互对象对音频录制控件的触发操作，得到待***音频位置的音频***指令。

在一种可能实现方式中，目标文字信息包括文字构成的间隔，显示模块1001，还用于在显示目标音频以及目标文字信息的显示页面显示***控件；基于交互对象对目标文字信息中的任一间隔的触发操作，在任一间隔所在的位置处显示具有默认属性的光标；

确定模块1002，还用于响应于检测到交互对象对具有默认属性的光标的定位操作以及对***控件的触发操作，得到目标文字信息的***选择指令。

在一种可能实现方式中，参见图11，该装置还包括：

获取模块1005，用于基于目标音频的处理请求，获取目标音频；

转换模块1006，用于对目标音频进行文字转换处理，得到与目标音频对应的目标文字信息；

确定模块1002，还用于基于目标音频和目标文字信息，确定目标音频中的音频片段所在的位置和目标文字信息中的文字信息所在的位置之间的映射关系。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图12是本申请实施例提供的一种音频处理设备的结构示意图。该设备可以为终端，例如可以是：智能手机、平板电脑、笔记本电脑或台式电脑。终端还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端包括有：处理器1201和存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1201可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1201所执行以实现本申请中方法实施例提供的音频处理方法。

在一些实施例中，终端还可选包括有：***设备接口1203和至少一个***设备。处理器1201、存储器1202和***设备接口1203之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1203相连。具体地，***设备包括：射频电路1204、触摸显示屏1205、摄像头组件1206、音频电路1207、定位组件1208和电源1209中的至少一种。

***设备接口1203可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和***设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和***设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1204用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1204包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1204还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1205用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时，显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时，显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1205可以为一个，设置在终端的前面板；在另一些实施例中，显示屏1205可以为至少两个，分别设置在终端的不同表面或呈折叠设计；在再一些实施例中，显示屏1205可以是柔性显示屏，设置在终端的弯曲表面上或折叠面上。甚至，显示屏1205还可以设置成非矩形的不规则图形，也即异形屏。显示屏1205可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件1206用于采集图像或视频。可选地，摄像头组件1206包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1201进行处理，或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1207还可以包括耳机插孔。

定位组件1208用于定位终端的当前地理位置，以实现导航或LBS(Location BasedService，基于位置的服务)。定位组件1208可以是基于美国的GPS(Global PositioningSystem，全球定位***)、中国的北斗***、格雷纳斯***或欧盟的伽利略***的定位组件。

电源1209用于为终端中的各个组件进行供电。电源1209可以是交流电、直流电、一次性电池或可充电电池。当电源1209包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于：加速度传感器1211、陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接近传感器1216。

加速度传感器1211可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1211可以用于检测重力加速度在三个坐标轴上的分量。处理器1201可以根据加速度传感器1211采集的重力加速度信号，控制触摸显示屏1205以横向视图或纵向视图进行用户界面的显示。加速度传感器1211还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1212可以检测终端的机体方向及转动角度，陀螺仪传感器1212可以与加速度传感器1211协同采集用户对终端的3D动作。处理器1201根据陀螺仪传感器1212采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1213可以设置在终端的侧边框和/或触摸显示屏1205的下层。当压力传感器1213设置在终端的侧边框时，可以检测用户对终端的握持信号，由处理器1201根据压力传感器1213采集的握持信号进行左右手识别或快捷操作。当压力传感器1213设置在触摸显示屏1205的下层时，由处理器1201根据用户对触摸显示屏1205的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1214用于采集用户的指纹，由处理器1201根据指纹传感器1214采集到的指纹识别用户的身份，或者，由指纹传感器1214根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1201授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1214可以被设置在终端的正面、背面或侧面。当终端上设置有物理按键或厂商Logo时，指纹传感器1214可以与物理按键或厂商Logo集成在一起。

光学传感器1215用于采集环境光强度。在一个实施例中，处理器1201可以根据光学传感器1215采集的环境光强度，控制触摸显示屏1205的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1205的显示亮度；当环境光强度较低时，调低触摸显示屏1205的显示亮度。在另一个实施例中，处理器1201还可以根据光学传感器1215采集的环境光强度，动态调整摄像头组件1206的拍摄参数。

接近传感器1216，也称距离传感器，通常设置在终端的前面板。接近传感器1216用于采集用户与终端的正面之间的距离。在一个实施例中，当接近传感器1216检测到用户与终端的正面之间的距离逐渐变小时，由处理器1201控制触摸显示屏1205从亮屏状态切换为息屏状态；当接近传感器1216检测到用户与终端的正面之间的距离逐渐变大时，由处理器1201控制触摸显示屏1205从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图12中示出的结构并不构成对终端的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条程序代码。该至少一条程序代码由一个或者一个以上处理器加载并执行，以实现上述任一种音频处理方法。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由计算机设备的处理器加载并执行，以实现上述任一种音频处理方法。

在一种可能实现方式中，上述计算机可读存储介质可以是只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact DiscRead-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一种音频处理方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

在音频录制页面显示处理控件和第一表现形式的音频录制控件，所述第一表现形式为所述音频录制控件在非录制过程中的表现形式；

若检测到所述第一表现形式的音频录制控件的触发操作，开始录制音频，所述音频录制控件切换为第二表现形式，所述第二表现形式为所述音频录制控件在录制过程中的表现形式；

在所述录制过程中，不显示所述处理控件或者将所述处理控件设置为不可触发状态；

若检测到所述第二表现形式的音频录制控件的触发操作，停止录制音频，所述音频录制控件恢复为所述第一表现形式；

若检测到所述处理控件被触发，将在所述音频录制页面录制的音频作为目标音频，获取到所述目标音频的处理请求；

基于所述目标音频的处理请求，显示所述目标音频以及与所述目标音频对应的目标文字信息，所述目标音频中的音频片段所在的位置和所述目标文字信息中的文字信息所在的位置之间具有映射关系；

基于处理指令，根据所述待处理音频位置对所述目标音频进行处理，根据所述待处理文字位置对所述目标文字信息进行处理，以对显示的所述目标音频以及所述目标文字信息进行更新，得到更新后的音频和更新后的文字信息，所述更新后的音频具有更新后的时间戳；

根据所述更新后的时间戳对所述映射关系进行更新，得到更新后的音频中的音频片段所在的位置与更新后的文字信息中的文字信息所在的位置之间的映射关系；

显示所述更新后的音频和所述更新后的文字信息，显示播放控件；

基于所述播放控件的触发指令，播放更新后的音频，根据所述更新后的音频中的音频片段所在的位置与更新后的文字信息中的文字信息所在的位置之间的映射关系对所述更新后的文字信息进行滚动显示，以将与当前播放的音频对应的文字信息显示在文字信息显示区域的中间区域。

2.根据权利要求1所述的方法，其特征在于，所述待处理文字位置包括待删除文字位置，所述待处理音频位置包括待删除音频位置，所述处理指令包括所述待删除文字位置的删除确认指令；

所述基于处理指令，根据所述待处理音频位置对所述目标音频进行处理，根据所述待处理文字位置对所述目标文字信息进行处理，以对显示的所述目标音频以及所述目标文字信息进行更新，得到更新后的音频和更新后的文字信息，包括：

基于所述待删除文字位置的删除确认指令，将所述目标文字信息中的第一文字信息进行删除，将所述目标音频中的第一音频片段进行删除，所述第一文字信息为所述目标文字信息中与所述待删除文字位置对应的文字信息，所述第一音频片段为所述目标音频中与所述待删除音频位置对应的音频片段；

基于删除所述第一文字信息后得到的文字信息，确定所述更新后的文字信息；

基于删除所述第一音频片段后得到的音频，确定所述更新后的音频。

3.根据权利要求2所述的方法，其特征在于，所述删除所述第一文字信息后得到的文字信息包括第二文字信息和第三文字信息，所述第二文字信息为所述目标文字信息中位于所述第一文字信息之前的文字信息，所述第三文字信息为所述目标文字信息中位于所述第一文字信息之后的文字信息；

所述基于删除所述第一文字信息后得到的文字信息，确定所述更新后的文字信息，包括：

将所述第二文字信息和所述第三文字信息进行拼接处理，将拼接处理后得到的文字信息作为更新后的文字信息；

所述删除所述第一音频片段后得到的音频包括第二音频片段和第三音频片段，所述第二音频片段为所述目标音频中位于所述第一音频片段之前的音频片段，所述第三音频片段为所述目标音频中位于所述第一音频片段之后的音频片段；

所述基于删除所述第一音频片段后得到的音频，确定所述更新后的音频，包括：

将所述第二音频片段和所述第三音频片段进行合成处理，将合成处理后得到的音频作为更新后的音频。

4.根据权利要求2或3所述的方法，其特征在于，所述基于所述待删除文字位置的删除确认指令，将所述目标文字信息中的第一文字信息进行删除，将所述目标音频中的第一音频片段进行删除之前，所述方法还包括：

将所述目标文字信息中的第一文字信息进行突出显示，将所述目标音频中的第一音频片段进行突出显示。

5.根据权利要求1所述的方法，其特征在于，所述待处理文字位置包括待***文字位置，所述待处理音频位置包括待***音频位置，所述处理指令包括所述待***音频位置的音频***指令；

基于所述待***音频位置的音频***指令，获取待***音频片段以及与所述待***音频片段对应的待***文字信息；

基于所述待***音频片段、所述目标音频以及所述待***音频位置，确定所述更新后的音频；

基于所述待***文字信息、所述目标文字信息以及所述待***文字位置，确定所述更新后的文字信息。

6.根据权利要求5所述的方法，其特征在于，所述基于所述待***音频片段、所述目标音频以及所述待***音频位置，确定所述更新后的音频，包括：

将所述目标音频中位于所述待***音频位置之前的音频片段作为第四音频片段，将所述目标音频中位于所述待***音频位置之后的音频片段作为第五音频片段；

将所述待***音频片段置于所述第四音频片段和所述第五音频片段之间，按照排列顺序对所述第四音频片段、所述待***音频片段以及所述第五音频片段进行合成处理，将合成处理后得到的音频作为更新后的音频；

所述基于所述待***文字信息、所述目标文字信息以及所述待***文字位置，确定所述更新后的文字信息，包括：

将所述目标文字信息中位于所述待***文字位置之前的文字信息作为第四文字信息，将所述目标文字信息中位于所述待***文字位置之后的文字信息作为第五文字信息；

将所述待***文字信息置于所述第四文字信息和所述第五文字信息之间，按照排列顺序对所述第四文字信息、所述待***文字信息以及所述第五文字信息进行拼接处理，将拼接处理后得到的文字信息作为更新后的文字信息。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在所述待***文字位置处显示具有目标属性的光标；将所述待***音频位置移动至定位指针处。

8.根据权利要求5-7任一所述的方法，其特征在于，所述位置选择指令包括***选择指令；

所述基于所述待***音频位置的音频***指令，获取待***音频片段以及与所述待***音频片段对应的待***文字信息之前，所述方法还包括：

响应于获取到所述目标文字信息的***选择指令，显示音频录制控件；

基于交互对象对所述音频录制控件的触发操作，得到所述待***音频位置的音频***指令。

9.根据权利要求8所述的方法，其特征在于，所述目标文字信息包括文字构成的间隔；

所述响应于获取到所述目标文字信息的***选择指令，显示音频录制控件之前，所述方法还包括：

在显示所述目标音频以及所述目标文字信息的显示页面显示***控件；

基于交互对象对所述目标文字信息中的任一间隔的触发操作，在所述任一间隔所在的位置处显示具有默认属性的光标；

响应于检测到交互对象对所述具有默认属性的光标的定位操作以及对所述***控件的触发操作，得到所述目标文字信息的***选择指令。

10.根据权利要求1所述的方法，其特征在于，所述基于所述目标音频的处理请求，显示所述目标音频以及与所述目标音频对应的目标文字信息之前，所述方法还包括：

基于目标音频的处理请求，获取所述目标音频；

对所述目标音频进行文字转换处理，得到与所述目标音频对应的目标文字信息；

基于所述目标音频和所述目标文字信息，确定所述目标音频中的音频片段所在的位置和所述目标文字信息中的文字信息所在的位置之间的映射关系。

11.一种音频处理装置，其特征在于，所述装置包括：

显示模块，用于在音频录制页面显示处理控件和第一表现形式的音频录制控件，所述第一表现形式为所述音频录制控件在非录制过程中的表现形式；若检测到所述第一表现形式的音频录制控件的触发操作，开始录制音频，所述音频录制控件切换为第二表现形式，所述第二表现形式为所述音频录制控件在录制过程中的表现形式；在所述录制过程中，不显示所述处理控件或者将所述处理控件设置为不可触发状态；若检测到所述第二表现形式的音频录制控件的触发操作，停止录制音频，所述音频录制控件恢复为所述第一表现形式；若检测到所述处理控件被触发，将在所述音频录制页面录制的音频作为目标音频，获取到所述目标音频的处理请求；

所述显示模块，还用于基于所述目标音频的处理请求，显示所述目标音频以及与所述目标音频对应的目标文字信息，所述目标音频中的音频片段所在的位置和所述目标文字信息中的文字信息所在的位置之间具有映射关系；

处理模块，用于基于处理指令，根据所述待处理音频位置对所述目标音频进行处理，根据所述待处理文字位置对所述目标文字信息进行处理，以对显示的所述目标音频以及所述目标文字信息进行更新，得到更新后的音频和更新后的文字信息，所述更新后的音频具有更新后的时间戳；根据所述更新后的时间戳对所述映射关系进行更新，得到更新后的音频中的音频片段所在的位置与更新后的文字信息中的文字信息所在的位置之间的映射关系；显示所述更新后的音频和所述更新后的文字信息，显示播放控件；基于所述播放控件的触发指令，播放更新后的音频，根据所述更新后的音频中的音频片段所在的位置与更新后的文字信息中的文字信息所在的位置之间的映射关系对所述更新后的文字信息进行滚动显示，以将与当前播放的音频对应的文字信息显示在文字信息显示区域的中间区域。

12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1至10任一所述的音频处理方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至10任一所述的音频处理方法。