CN111768782A

CN111768782A - 音频识别方法、装置、终端及存储介质

Info

Publication number: CN111768782A
Application number: CN202010615325.6A
Authority: CN
Inventors: 陈土亮; 何越
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-13

Abstract

本申请提供了一种音频识别方法、装置、终端及存储介质，属于计算机技术领域。所述方法包括：当接收到音频识别指令时，启动屏幕录制；获得在屏幕录制的过程中所述终端的音频转换单元接收到的音频数据；对所述音频数据进行识别，得到所述音频数据对应的音频信息。本申请基于屏幕录制过程中的数据调用权限，从本地获取需要识别的音频数据，进行音频识别，实现了终端未处于音频外放模式时对本地播放的音频的识别，扩展了音频识别的使用场景。

Description

音频识别方法、装置、终端及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种音频识别方法、装置、终端及存储介质。

背景技术

音频识别为用户提供了一种快速便捷的音乐搜索方式。用户在听到自己喜欢的音乐时，可以应用终端的音频识别功能，来快速获知音乐的相关信息。当前，终端只能对外部环境中采集到的音频，进行识别，将识别出的音频相关信息展示给用户。

当用户想要了解终端正在播放的音频的相关信息时，只有将终端调整为音频外放模式，才能使终端在外部环境中采集到正在播放的音频，进行音频识别。若终端通过耳机播放音频，也即未处于音频外放模式时，则无法在外部环境中采集到本地正在播放的音频，进而也无法进行音频识别。因此，亟需一种在终端未处于音频外放模式时对本地播放的音频进行识别的方法。

发明内容

本申请实施例提供了一种音频识别方法、装置、终端及存储介质，能够在终端未处于音频外放模式时，实现对本地播放的音频的识别。所述技术方案如下：

一方面，提供了一种音频识别方法，所述方法包括：

当接收到音频识别指令时，启动屏幕录制；

获得在屏幕录制的过程中所述终端的音频转换单元接收到的音频数据；

对所述音频数据进行识别，得到所述音频数据对应的音频信息。

在一种可能的实现方式中，所述当接收到音频识别指令时，启动屏幕录制，包括：

当接收到音频识别指令且音频播放模式为耳机播放模式时，启动屏幕录制。

在另一种可能的实现方式中，所述获得在屏幕录制的过程中所述终端的音频转换单元接收到的音频数据，包括：

获得所述终端的音频扩展程序接收到的音频数据；其中，所述音频扩展程序在屏幕录制的过程中具有对所述终端的音频转换单元接收到的音频数据的数据调用权限。

在另一种可能的实现方式中，所述当接收到音频识别指令时，启动屏幕录制之前，所述方法还包括：

显示目标客户端的音频识别界面，所述目标客户端为具有音频识别功能的客户端，所述音频识别界面包括音频识别控件，所述音频识别控件用于指示基于屏幕录制进行音频识别；

响应于对所述音频识别控件的交互操作，触发音频识别指令。

显示***功能界面，所述***功能界面包括屏幕录制控件；

响应于对所述屏幕录制控件的交互操作，显示录制选项窗口，所述录制选项窗口包括音频扩展选项，所述音频扩展选项用于指示基于屏幕录制进行音频识别；

响应于对所述音频扩展选项的交互操作，触发音频识别指令。

在另一种可能的实现方式中，所述对所述音频数据进行识别，得到所述音频数据对应的音频信息，包括：

生成所述音频数据的声纹数据；

向服务器发送携带所述声纹数据的音频识别请求；

接收服务器基于所述声纹数据返回的所述音频数据对应的音频信息。

在另一种可能的实现方式中，所述生成所述音频数据的声纹数据，包括：

将所述音频数据转换为目标格式的编码数据；

对所述目标格式的编码数据进行特征提取处理，生成所述音频数据的声纹数据。

在另一种可能的实现方式中，所述声纹数据由音频扩展程序基于所获得的音频数据生成，所述音频扩展程序具有所述音频数据的数据调用权限；

或者，

所述声纹数据由目标客户端基于音频扩展程序发送的音频数据生成，所述目标客户端为具有音频识别功能的客户端，所述音频扩展程序为所述目标客户端的扩展程序，且具有所述音频数据的数据调用权限。

另一方面，提供了一种音频识别装置，所述装置包括：

屏幕录制模块，用于当接收到音频识别指令时，启动屏幕录制；

音频数据获取模块，用于获得在屏幕录制的过程中所述终端的音频转换单元接收到的音频数据；

音频识别模块，用于对所述音频数据进行识别，得到所述音频数据对应的音频信息。

在一种可能的实现方式中，所述音频数据获取模块，用于获得所述终端的音频扩展程序接收到的音频数据；其中，所述音频扩展程序在屏幕录制的过程中具有对所述终端的音频转换单元接收到的音频数据的数据调用权限。

在另一种可能的实现方式中，所述屏幕录制模块，用于当接收到音频识别指令且音频播放模式为耳机播放模式时，启动屏幕录制。

在另一种可能的实现方式中，所述装置还包括：

第一显示模块，用于显示目标客户端的音频识别界面，所述目标客户端为具有音频识别功能的客户端，所述音频识别界面包括音频识别控件，所述音频识别控件用于指示基于屏幕录制进行音频识别；

第一指令触发模块，用于响应于对所述音频识别控件的交互操作，触发音频识别指令。

在另一种可能的实现方式中，所述装置还包括：

第二显示模块，用于显示***功能界面，所述***功能界面包括屏幕录制控件；

第二显示模块，还用于响应于对所述屏幕录制控件的交互操作，显示录制选项窗口，所述录制选项窗口包括音频扩展选项，所述音频扩展选项用于指示基于屏幕录制进行音频识别；

第二指令触发模块，用于响应于对所述音频扩展选项的交互操作，触发音频识别指令。

在另一种可能的实现方式中，所述音频识别模块，包括：

声纹数据生成子模块，用于生成所述音频数据的声纹数据；

发送子模块，用于向服务器发送携带所述声纹数据的音频识别请求；

接收子模块，用于接收服务器基于所述声纹数据返回的所述音频数据对应的音频信息。

在另一种可能的实现方式中，所述声纹数据生成子模块，用于：

将所述音频数据转换为目标格式的编码数据；

或者，

另一方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现上述任一可能实现方式所述的音频识别方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行，以实现上述任一可能实现方式所述的音频识别方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，终端的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该终端执行上述任一可能实现方式所述的音频识别方法。

本申请实施例提供的技术方案，基于屏幕录制过程中的数据调用权限，获得终端的音频转换单元接收到的音频数据，进而基于获得的音频数据，进行音频识别，即使音频数据未在外部环境中进行播放，也即在终端未处于音频外放模式时，也能够从终端本地获取到需要识别的音频数据，进行音频识别，实现了终端未处于音频外放模式时对本地播放的音频的识别，扩展了音频识别的使用场景。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种音频识别方法的流程图；

图3是本申请实施例提供的一种音频识别方法的交互流程图；

图4是本申请实施例提供的一种音频识别方法的交互流程图；

图5是本申请实施例提供的一种音频识别界面的示意图；

图6是本申请实施例提供的一种音频识别界面的示意图；

图7是本申请实施例提供的一种音频识别方法的交互流程图；

图8是本申请实施例提供的一种录制选项窗口的示意图；

图9是本申请实施例提供的一种音频识别装置的框图；

图10是本申请实施例提供的一种终端的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任意变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

图1是本申请实施例提供的一种实施环境的示意图。参见图1，该实施环境中包括终端101和服务器102。

终端101可以是智能手机、平板电脑、智能音箱、智能手表、笔记本电脑、台式计算机等，但并不局限于此。终端101上安装有至少一个客户端，如视频播放类客户端、音乐播放类客户端、社交类客户端、音频识别客户端等。

终端101具有音频识别功能，该音频识别功能能够通过运行终端101上的目标客户端实现，可选地，该目标客户端为音频识别客户端。在一种可能的实现方式中，音频识别客户端只具有音频识别功能。在另一种可能的实现方式中，音频识别客户端除具有音频识别功能之外，还具有其他功能，例如音频播放功能、视频播放功能、直播功能等。

终端101和服务器102之间通过无线或者有线网络连接，服务器102为终端101提供音频识别的后台服务。用户在使用任一具有音频播放功能的客户端时，如果听到自己喜欢的音频，想要了解音频的相关信息，可以通过执行界面交互操作，启动终端101的音频识别功能。终端101响应于检测到用于启动音频识别功能的交互操作，获取待识别的音频数据；基于待识别的音频数据，向服务器102发送音频识别请求；接收服务器102返回的音频信息，向用户输出该音频信息。

图2是本申请实施例提供的一种音频识别方法的流程图。参见图2，该音频识别方法应用于终端，该音频识别方法包括：

201、当接收到音频识别指令时，启动屏幕录制。

202、获得在屏幕录制的过程中终端的音频转换单元接收到的音频数据。

203、对音频数据进行识别，得到音频数据对应的音频信息。

图3是本申请实施例提供的一种音频识别方法的交互流程图。参见图3，该音频识别方法包括：

301、终端响应于交互操作，触发音频识别指令，该交互操作用于指示基于屏幕录制进行音频识别。

用户在使用终端上具有音频播放功能的客户端时，如果听到自己喜欢的音频，想要了解终端正在播放的音频的相关信息，可以通过执行交互操作，启用终端基于屏幕录制进行音频识别的功能。例如，用户使用终端上的短视频客户端浏览短视频，并且，通过与终端连接的耳机，来收听正在播放的短视频的音频，如果想要了解正在播放的音频的相关信息，可以通过执行交互操作，启用终端基于屏幕录制进行音频识别的功能，对终端正在播放的音频进行识别。

在第一种可能的实现方式中，用户可以在具有音频识别功能的目标客户端的界面上，对音频识别控件执行交互操作，启用基于屏幕录制进行音频识别的功能。相应的，参见图4，终端响应于交互操作，触发音频识别指令包括下述步骤30101至步骤30102：

步骤30101、终端显示目标客户端的音频识别界面，其中，目标客户端为具有音频识别功能的客户端，音频识别界面包括音频识别控件，音频识别控件用于指示基于屏幕录制进行音频识别。

其中，目标客户端具有音频识别功能，可选地，终端通过运行目标客户端，来实现基于屏幕录制进行音频识别的功能。

在一种可能的实现方式中，音频识别界面为目标客户端的一个子界面，参见图5，该音频识别界面能够在终端上进行全屏显示。

在另一种可能的实现方式中，音频识别界面为目标客户端的悬浮窗界面，参见图6，该音频识别界面能够悬浮在其他客户端的界面的上层。

步骤30102、终端响应于对音频识别控件的交互操作，触发音频识别指令。

可选地，交互操作为点击操作、隔空手势操作或者语音输入操作等，在本申请中，对交互操作的具体执行方式，不加以限定。

在一种可能的实现方式中，音频识别控件用于指示基于屏幕录制进行音频识别，则终端响应于对该音频识别控件的交互操作，触发用于指示基于屏幕录制进行音频识别的音频识别指令。

在另一种可能的实现方式中，音频识别控件仅用于指示开始进行音频识别，则终端响应于对该音频识别控件的交互操作，触发用于指示开始进行音频识别的音频识别指令，该音频识别指令未指示基于屏幕录制进行音频识别。

基于上述步骤30101至步骤30102的技术方案，在目标客户端的音频识别界面中提供了音频识别控件，且该音频识别控件能够触发音频识别指令，为用户启用基于屏幕录制进行音频识别的功能提供了接口，进而基于音频识别控件，触发音频识别指令，实现终端未处于音频外放模式时对本地播放的音频的识别，扩展了音频识别的使用场景。

在第二种可能的实现方式中，用户可以通过屏幕录制功能的录制选项窗口，启用基于屏幕录制进行音频识别的功能。相应的，参见图7，终端响应于交互操作，触发音频识别指令包括下述步骤30111至步骤30113：

步骤30111、终端显示***功能界面，***功能界面包括屏幕录制控件。

在该步骤30111中，***功能界面用于提供快捷启动***功能的控件，例如，***功能界面包括网络连接方式切换控件、蓝牙连接控件、手电筒控件、屏幕录制控件等。

步骤30112、终端响应于对屏幕录制控件的交互操作，显示录制选项窗口，其中，录制选项窗口包括音频扩展选项，音频扩展选项用于指示基于屏幕录制进行音频识别。

图8是本申请实施例提供的一种录制选项窗口的示意图，参见图8，录制选项窗口中包括音频扩展选项。

步骤30113、终端响应于对音频扩展选项的交互操作，触发音频识别指令。

基于上述步骤30111至步骤30113的技术方案，在录制选项窗口中提供了音频扩展选项，用户通过对该音频扩展选项执行交互操作，即可启用基于屏幕录制进行音频识别的功能，无需启动目标客户端，也能够触发音频识别指令，进行音频识别，提高了人机交互的效率。

302、当终端接收到音频识别指令时，启动屏幕录制。

在一种可能的实现方式中，终端接收到音频识别指令，就对该音频识别指令做出响应，开始执行基于屏幕录制进行音频识别的过程，也即，当终端接收到音频识别指令时，就开始进行屏幕录制。

在另一种可能的实现方式中，终端仅在音频未外放时，才对该音频识别指令做出响应。可选地，终端仅在音频播放模式为耳机播放模式时，才对该音频识别指令做出响应。相应的，上述步骤302可以为：当终端接收到音频识别指令且音频播放模式为耳机播放模式时，启动屏幕录制。

其中，音频播放模式包括音频外放模式和耳机播放模式。音频外放模式为通过音频外放单元进行音频播放的模式。可选的，音频外放单元为终端上的扬声器或者与终端连接的音箱等。终端在处于音频外放模式时，将音频数据传输至音频外放单元，由音频外放单元将音频数据转换为声波，将声波输出至至外部环境，实现音频外放。终端在未处于音频外放模式时，也即处于耳机播放模式时，将音频数据传输至与终端连接的耳机，由耳机将音频数据转换为声波，将声波输出至耳机所在的人耳。

上述技术方案，终端的音频播放模式为耳机播放模式时，才响应于音频识别指令，启动屏幕录制，基于屏幕录制过程中的音频数据，进行音频识别，实现终端处于耳机播放模式时对本地播放的音频的识别，扩展了音频识别的使用场景。

需要说明的一点是，终端响应于接收到音频识别指令，且未处于音频外放模式，进行屏幕录制之前，还对当前所处的音频播放模式进行检测，确定当前是否处于音频外放模式。相应的，终端确定当前是否处于音频外放模式的步骤可以为：终端响应于当前连接的音频转换单元为耳机，确定当前的音频播放模式为耳机播放模式；响应于当前未连接音频转换单元，且终端上的扬声器的音量为0，确定当前未处于音频外放模式；响应于当前未连接音频转换单元，且终端上的扬声器的音量大于0，确定当前处于音频外放模式；响应于当前连接的音频转换单元为音频外放单元，确定当前处于音频外放模式。

需要说明的另一点是，终端在处于音频外放模式时，可以不进行屏幕录制，直接对外部环境中的音频数据进行采集和识别。由于屏幕录制会产生音频数据和视频数据，而音频识别仅需要获取屏幕录制时产生的音频数据，在终端处于音频外放模式时，直接对外部环境中的音频数据进行采集和识别，能够减少终端获取不必要的视频数据所消耗的资源，提高终端的资源利用率。

需要说明的另一点是，若音频识别指令仅用于指示开始进行音频识别，而未指示基于屏幕录制进行音频识别，则终端能够在未处于音频外放模式时，响应于该音频识别指令，进行屏幕录制，进而基于屏幕录制过程中的音频数据，进行音频识别。

303、终端获得在屏幕录制的过程中终端的音频转换单元接收到的音频数据。

终端上安装有具有音频播放功能的客户端，该客户端通过向音频转换单元输出音频数据，来实现音频播放。例如，该客户端为视频播放类客户端、音频播放类客户端或者社交类客户端等。音频转换单元用于将接收到的音频数据转换为声波，通过输出声波实现音频播放。例如，音频转换单元为与终端连接的耳机、终端上的扬声器或者与终端连接的音箱等。在本申请实施例中，以终端的音频播放模式为耳机播放模式，音频转换单元为与终端连接的耳机为例进行说明。

终端能够通过音频扩展程序，获得音频转换单元接收到的音频数据。相应的，上述步骤303可以为：获得终端的音频扩展程序接收到的音频数据，该音频扩展程序在屏幕录制的过程中具有对终端的音频转换单元接收到的音频数据的数据调用权限。例如，在应用iOS(iPhone Operating System，一种终端操作***)***的终端上，音频扩展程序为广播上传扩展(也称为Broadcast Upload Extension)，该音频扩展程序在屏幕录制过程中，通过SampleHandler(样本处理程序)的处理函数，回调音频转换单元接收到的音频数据。

需要说明的一点是，终端能够通过音频扩展程序，从缓冲区中获取音频转换单元接收到的音频数据，该缓冲区用于存储屏幕录制过程中产生的音频数据和视频数据，其中，缓冲区中存储的音频数据为音频转换单元接收到的音频数据。终端将所录制的任一客户端的音频数据和视频数据存储在缓冲区，以使其他具有数据调用权限的程序能够从缓冲区中调用数据进行处理。

304、终端生成所获得的音频数据的声纹数据。

声纹数据为用于标识对应的音频数据的数字特征，也可以称为音频指纹。终端能够通过预设的声纹生成算法，生成音频数据的声纹数据，可选地，该声纹数据为用于标识音频数据的二进制数据，包括从语谱图中提取的能量峰值点的信息。

终端将音频数据转换为适用于声纹生成算法的编码数据，基于该编码数据进行声纹数据的生成。相应的，上述步骤304可以为：终端将音频数据转换为目标格式的编码数据；对目标格式的编码数据进行特征提取处理，生成该音频数据的声纹数据。例如，目标格式的编码数据可以为采样率8000，声道数1，位深16的PCM(Pulse Code Modulation，脉冲编码调制)数据。

在一种可能的实现方式中，音频数据的声纹数据由音频扩展程序基于所获得的音频数据生成，该音频扩展程序集成有声纹数据的生成功能。其中，音频扩展程序为目标客户端的应用扩展，该音频扩展程序添加在目标客户端的安装包中，终端在安装目标客户端的同时，安装该音频扩展程序。音频扩展程序和目标客户端分别在不同的进程中运行，音频扩展程序可以在目标客户端运行时运行，也可以在目标客户端未运行时独立运行。

上述技术方案，通过音频扩展程序进行声纹数据的生成，进而进行音频的识别，即使不启动目标客户端，也能够实现音频识别，减少终端启动目标客户端所消耗的资源，提高终端的资源利用率。

在另一种可能的实现方式中，音频数据的声纹数据由目标客户端基于音频扩展程序发送的音频数据生成，该目标客户端具有声纹数据的生成功能。音频扩展程序能够与目标客户端进行通信，将所获得的音频数据发送给目标客户端，由目标客户端进行声纹数据的生成。

上述技术方案，基于目标客户端已有的声纹数据生成功能，进行声纹数据的生成，无需在音频扩展程序中再添加声纹数据的生成功能，减少了重复功能的实现对终端资源的占用，提高了终端的资源利用率。

305、终端向服务器发送携带该音频数据的声纹数据的音频识别请求。

终端向服务器发送携带声纹数据的音频识别请求，以请求服务器基于该声纹数据，进行音频识别。

306、服务器基于该音频数据的声纹数据，确定该音频数据对应的音频信息。

可选地，音频数据为歌曲，音频信息包括歌曲名称、歌曲作者、歌曲所属专辑的名称等。

服务器将与该音频数据匹配的参考音频数据的音频信息确定为该音频数据对应的音频信息。具体地，服务器关联有音频数据库，该音频数据库包括多个参考音频数据的声纹数据。服务器确定该音频数据的声纹数据与多个参考音频数据的声纹数据的相似度，将满足相似度条件的参考音频数据的音频信息确定为该音频数据对应的音频信息。例如，相似度条件为与音频数据的声纹数据的相似度大于相似度阈值，该相似度阈值为98％，服务器将与音频数据的声纹数据的相似度大于98％的参考音频数据的音频信息确定为该音频数据对应的音频信息。

307、服务器向终端返回该音频数据对应的音频信息。

服务器向终端返回该音频数据对应的音频信息，用于对终端的音频识别请求做出反馈。

308、终端接收到该音频数据对应的音频信息后，输出该音频数据对应的音频信息。

终端接收到服务器返回的该音频数据对应的音频信息，向用户输出该音频数据对应的音频信息。例如，终端可以将该音频数据对应的音频信息显示在音频识别界面中；或者，终端也可以将该音频数据对应的音频信息转换为语音形式输出。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图9是本申请实施例提供的一种音频识别装置的框图。参见图9，该装置包括：

屏幕录制模块901，用于当接收到音频识别指令时，启动屏幕录制；

音频数据获取模块902，用于获得在屏幕录制的过程中终端的音频转换单元接收到的音频数据；

音频识别模块903，用于对音频数据进行识别，得到音频数据对应的音频信息。

在一种可能的实现方式中，音频数据获取模块902，用于获得终端的音频扩展程序接收到的音频数据；其中，音频扩展程序在屏幕录制的过程中具有对终端的音频转换单元接收到的音频数据的数据调用权限。

在另一种可能的实现方式中，屏幕录制模块901，用于当接收到音频识别指令且音频播放模式为耳机播放模式时，启动屏幕录制。

在另一种可能的实现方式中，该装置还包括：

第一显示模块，用于显示目标客户端的音频识别界面，目标客户端为具有音频识别功能的客户端，音频识别界面包括音频识别控件，音频识别控件用于指示基于屏幕录制进行音频识别；

第一指令触发模块，用于响应于对音频识别控件的交互操作，触发音频识别指令。

在另一种可能的实现方式中，该装置还包括：

第二显示模块，用于显示***功能界面，***功能界面包括屏幕录制控件；

第二显示模块，还用于响应于对屏幕录制控件的交互操作，显示录制选项窗口，录制选项窗口包括音频扩展选项，音频扩展选项用于指示基于屏幕录制进行音频识别；

第二指令触发模块，用于响应于对音频扩展选项的交互操作，触发音频识别指令。

在另一种可能的实现方式中，音频识别模块903，包括：

声纹数据生成子模块，用于生成音频数据的声纹数据；

发送子模块，用于向服务器发送携带声纹数据的音频识别请求；

接收子模块，用于接收服务器基于声纹数据返回的音频数据对应的音频信息。

在另一种可能的实现方式中，声纹数据生成子模块，用于：

将音频数据转换为目标格式的编码数据；

对目标格式的编码数据进行特征提取处理，生成音频数据的声纹数据。

在另一种可能的实现方式中，声纹数据由音频扩展程序基于所获得的音频数据生成，音频扩展程序具有音频数据的数据调用权限；

或者，

声纹数据由目标客户端基于音频扩展程序发送的音频数据生成，目标客户端为具有音频识别功能的客户端，音频扩展程序为目标客户端的扩展程序，且具有音频数据的数据调用权限。

需要说明的是：上述实施例提供的音频识别装置在进行音频识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频识别装置与音频识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10示出了本申请一个示例性实施例提供的终端1000的结构框图。该终端1000可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1000包括有：处理器1001和存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1001所执行以实现本申请中方法实施例提供的音频识别方法。

在一些实施例中，终端1000还可选包括有：***设备接口1003和至少一个***设备。处理器1001、存储器1002和***设备接口1003之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1003相连。具体地，***设备包括：射频电路1004、显示屏1005、摄像头组件1006、音频电路1007、定位组件1008和电源1009中的至少一种。

***设备接口1003可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器1001和存储器1002。在一些实施例中，处理器1001、存储器1002和***设备接口1003被集成在同一芯片或电路板上；在一些其他实施例中，处理器1001、存储器1002和***设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1004用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1004包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1004还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1005用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时，显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时，显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1005可以为一个，设置在终端1000的前面板；在另一些实施例中，显示屏1005可以为至少两个，分别设置在终端1000的不同表面或呈折叠设计；在另一些实施例中，显示屏1005可以是柔性显示屏，设置在终端1000的弯曲表面上或折叠面上。甚至，显示屏1005还可以设置成非矩形的不规则图形，也即异形屏。显示屏1005可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。

摄像头组件1006用于采集图像或视频。可选地，摄像头组件1006包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1001进行处理，或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1007还可以包括耳机插孔。

定位组件1008用于定位终端1000的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1008可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。

电源1009用于为终端1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于：加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。

加速度传感器1011可以检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号，控制显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1012可以检测终端1000的机体方向及转动角度，陀螺仪传感器1012可以与加速度传感器1011协同采集用户对终端1000的3D动作。处理器1001根据陀螺仪传感器1012采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1013可以设置在终端1000的侧边框和/或显示屏1005的下层。当压力传感器1013设置在终端1000的侧边框时，可以检测用户对终端1000的握持信号，由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在显示屏1005的下层时，由处理器1001根据用户对显示屏1005的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1014用于采集用户的指纹，由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份，或者，由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1001授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置在终端1000的正面、背面或侧面。当终端1000上设置有物理按键或厂商Logo时，指纹传感器1014可以与物理按键或厂商Logo集成在一起。

光学传感器1015用于采集环境光强度。在一个实施例中，处理器1001可以根据光学传感器1015采集的环境光强度，控制显示屏1005的显示亮度。具体地，当环境光强度较高时，调高显示屏1005的显示亮度；当环境光强度较低时，调低显示屏1005的显示亮度。在另一个实施例中，处理器1001还可以根据光学传感器1015采集的环境光强度，动态调整摄像头组件1006的拍摄参数。

接近传感器1016，也称距离传感器，通常设置在终端1000的前面板。接近传感器1016用于采集用户与终端1000的正面之间的距离。在一个实施例中，当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变小时，由处理器1001控制显示屏1005从亮屏状态切换为息屏状态；当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变大时，由处理器1001控制显示屏1005从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图10中示出的结构并不构成对终端1000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令，上述至少一条指令可由终端的处理器执行以完成上述实施例中的音频识别方法。例如，计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-OnlyMemory，只读光盘)、磁带、软盘和光数据存储设备等。

本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，终端的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该终端实现上述各个方法实施例提供的音频识别方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频识别方法，其特征在于，所述方法应用于终端，包括：

当接收到音频识别指令时，启动屏幕录制；

2.根据权利要求1所述的方法，其特征在于，所述当接收到音频识别指令时，启动屏幕录制，包括：

3.根据权利要求1所述的方法，其特征在于，所述获得在屏幕录制的过程中所述终端的音频转换单元接收到的音频数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述当接收到音频识别指令时，启动屏幕录制之前，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述当接收到音频识别指令时，启动屏幕录制之前，所述方法还包括：

显示***功能界面，所述***功能界面包括屏幕录制控件；

6.根据权利要求1所述的方法，其特征在于，所述对所述音频数据进行识别，得到所述音频数据对应的音频信息，包括：

生成所述音频数据的声纹数据；

向服务器发送携带所述声纹数据的音频识别请求；

7.根据权利要求6所述的方法，其特征在于，所述生成所述音频数据的声纹数据，包括：

将所述音频数据转换为目标格式的编码数据；

8.根据权利要求6所述的方法，其特征在于，所述声纹数据由音频扩展程序基于所获得的音频数据生成，所述音频扩展程序具有所述音频数据的数据调用权限；

或者，

9.一种音频识别装置，其特征在于，所述装置包括：

10.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现如权利要求1-8任一项所述的音频识别方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行，以实现如权利要求1-8任一项所述的音频识别方法。