WO2019085914A1

WO2019085914A1 - 终端及其优化语音命令的方法、存储装置

Info

Publication number: WO2019085914A1
Application number: PCT/CN2018/112804
Authority: WO
Inventors: 陈琼
Original assignee: 捷开通讯(深圳)有限公司
Priority date: 2017-10-30
Filing date: 2018-10-30
Publication date: 2019-05-09
Also published as: CN107886966A

Abstract

一种终端优化语音命令的方法，包括：终端接收或者从当前环境中采集音频信号（S11）；终端解析音频信号并获取音频信号的文件头信息（S12）；终端根据文件头信息选取音频处理算法（S13）；终端通过选取的音频处理算法对音频信号的带宽进行扩充，并对扩充后的音频信号的频段进行频段补偿（S14）。能够在确保语音命令识别率的同时降低硬件要求，成本低且通用性强。

Description

终端及其优化语音命令的方法、存储装置

本申请要求于2017年10月30日提交中国专利局，申请号为201711038813.X，发明名称为“终端及其优化语音命令的方法、存储装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及电子设备和音频技术领域，具体涉及一种终端及其优化语音命令的方法、存储装置。

背景技术

随着各种电子产品的快速普及，用户对终端的智能化、人性化要求越来越高，如何使终端更加智能化、专业化、多样化，以及更加高效的使用于日常生活中，已经成为当前研究方向之一。以基于语音识别技术的AI（Artificial Intelligence, 人工智能）功能为例，为了提高语音命令的识别率，当前很多厂家只限于在终端产品上使用更好的语音采集器件，但是这种很高的硬件要求，不仅会增加成本，而且为了实现兼容需要对整个硬件***进行重新设计，通用性较差。

技术问题

本申请提供一种终端及其优化语音命令的方法、存储装置，能够在确保语音命令识别率的同时降低硬件要求，成本低且通用性强。

技术解决方案

第一方面，本申请一实施例的终端优化语音命令的方法，包括：

终端接收或者从当前环境中采集音频信号；

终端解析音频信号并获取所述音频信号的文件头信息；

终端根据所述文件头信息选取音频处理算法；

终端通过选取的音频处理算法对音频信号的带宽进行扩充，并对扩充后的音频信号的频段进行频段补偿。

所述的方法，其中，所述文件头信息包括采样率、比特率、带宽、以及数据字节位数中的至少一种。

所述的方法，其中，所述对扩充后的音频信号的频段进行频段补偿之后，所述方法还包括：所述终端将经过频段补偿后的音频信号上传至云端，或者基于语音识别技术将经过频段补偿后的音频信号转换为字符指令。

所述的方法，其中，所述终端通过拾音器采集音频信号，所述拾音器包括模拟麦克风和数字麦克风中的一个，所述模拟麦克风从当前环境中采集模拟音频信号，所述终端对所述模拟音频信号进行模数转换并得到所述音频信号。

所述的方法，其中，所述终端通过选取的音频处理算法将所述音频信号的带宽从8kHz扩充为16kHz。

第二方面，本申请一实施例的具有音频处理功能的终端，包括处理器，与所述处理器连接的数字信号处理器DSP、无线通信器和存储器，以及与所述DSP连接的拾音器，其中，

无线通信器和拾音器分别用于接收或者从当前环境中采集音频信号；

处理器用于解析音频信号并获取其文件头信息，以及根据所述文件头信息从存储器中选取音频处理算法；

DSP用于通过选取的音频处理算法对音频信号的带宽进行扩充，并对扩充后的音频信号的频段进行频段补偿。

第三方面，本申请一实施例的存储装置，存储有程序数据，所述程序数据能够被执行方法：

在目标声源的出声方向上，终端的拾音器沿网状路线移动并采集当前环境中的音频信号；

解析所述音频信号并获取所述音频信号的文件头信息；

根据所述文件头信息选取音频处理算法；

通过选取的音频处理算法对所述音频信号的带宽进行扩充，并对扩充后的音频信号的频段进行频段补偿。

所述的存储装置，其中，所述文件头信息包括采样率、比特率、带宽、以及数据字节位数中的至少一种。

所述的存储装置，其中，所述对扩充后的音频信号的频段进行频段补偿之后，所述方法还包括：所述终端将经过频段补偿后的音频信号上传至云端，或者基于语音识别技术将经过频段补偿后的音频信号转换为字符指令。

所述的存储装置，其中，所述终端通过拾音器采集音频信号，所述拾音器包括模拟麦克风和数字麦克风中的一个，所述模拟麦克风从当前环境中采集模拟音频信号，所述终端对所述模拟音频信号进行模数转换并得到所述音频信号。

所述的存储装置，其中，所述终端通过选取的音频处理算法将所述音频信号的带宽从8kHz扩充为16kHz。

有益效果

本申请通过解析获取音频信号的文件头信息，并据此选取合适的音频处理算法，继而通过选取的音频处理算法对音频信号进行带宽扩充及频段补偿，这种纯算法的处理方式对硬件要求较低，因此能够在确保语音命令识别率的同时降低硬件要求，成本低且通用性强。

附图说明

图1是本申请优化语音命令的方法的第一实施例的流程示意图；

图2是本申请一实施例的拾音器采集音频信号的线路示意图；

图3是本申请一实施例的终端的结构示意图；

图4是本申请优化语音命令的第二实施例的方法的流程示意图。

本发明的实施方式

本申请所适用的终端可以为电子消费装置、智能手机、便携式通信装置、PDA（Personal Digital Assistant，个人数字助理或平板电脑）、笔记本电脑等移动终端，也可以是佩戴于肢体或者嵌入于衣物、首饰、配件中的可穿戴设备，还可以是其他具有音频处理功能的电子设备。

下面将结合本申请实施例中的附图，对本申请所提供的各个示例性的实施例的技术方案进行清楚、完整地描述。在不冲突的情况下，下述各个实施例及其技术特征可以相互组合。

图1是本申请第一实施例的优化语音命令的方法的流程示意图。请参阅图1，本实施例的优化语音命令方法可以包括步骤S11~S14。

S11：终端接收或者从当前环境中采集音频信号。

在本实施例中，终端可以通过两种方式获取音频信号：

第一种方式，终端从网络及云端下载，或者从与终端建立连接关系的其他设备接收。例如，终端可以通过自身的蓝牙、Wi-Fi以及网络等模块接入网络及云端，或者与其他设备建立连接关系，并由此获取音频信号。此时，终端获取的该音频信号为数字音频信号。

第二种方式，终端通过麦克风等拾音器从当前环境中采集音频信号。在本实施例中，该拾音器可以为模拟麦克风，拾音器采集到的音频信号是模拟音频信号，其输出的也是模拟音频信号，为了便于后续对音频信号进行各种数字处理，终端可以将拾音器与模数转换器（Analog-to-Digital Converter, ADC）连接，模拟音频信号通过模数转换器的模数转换后变为数字音频信号，并继续传输给终端的后续电路以进行各种数字处理。当然，本实施例的拾音器还可以为数字麦克风，数字麦克风的最大优点是抗干扰能力强，无需像传统传声器那样内置高频滤波电容以及滤波器电路，并且，由于数字麦克风输出的是数字音频信号，因此终端可以直接将拾音器与后续电路连接并进行各种数字处理。

应理解，本实施例的拾音器包括但不限于上述。例如，终端还可以通过振动电机并基于反电动势原理从当前环境中采集音频信号。具体地：基于法拉第电磁感应定律，振动电机中的AC（Alternating Current, 交流电）信号在线圈上产生变化的磁场，产生电磁感应电动势，与此同时，人说话产生的音频信号使空气压力发生变化，通过振动周围空气而引起振动电机的膜片振动。基于伦兹定律，当音频信号引起的振动和电磁感应引起的振动撞击在同一膜片时，膜片受到的外力方向相反，振动电机会产生与电磁感应电动势相反的电动势，即反电动势。通过监测反电动势产生的电流，并经过电声转换即可得到数字音频信号。相比较于麦克风，振动电机的膜片有效区域（适合声音撞击的区域）更大，能够捕捉到更广频段的音频信号，更加有利于提高语音命令识别率。

在本实施例中，位于当前环境中的目标声源（例如人类）可以播放20Hz-20kHz的正弦波信号，终端的拾音器可以沿网状路线移动并采集当前环境中的音频模拟信号。具体地，如图2所示，在目标声源的出声方向上，拾音器可以沿逐行或者逐列移动，并采集音频信号。

S12：终端解析音频信号并获取所述音频信号的文件头信息。

被解析的音频信号为数字音频信号，获取的文件头信息包括但不限于采样率、比特率、带宽以及数据字节位数中的至少一种。

S13：终端根据文件头信息选取音频处理算法。

终端选取得到的是与文件头信息所包含的各种数据最匹配的音频处理算法，该音频处理算法处理音频信号的效率和质量最佳，例如带宽扩充及频段补偿的效率和质量最佳。基于此，本实施例并不限制音频处理算法的类型及其进行带宽扩充和频段补偿的原理和过程。

S14：终端通过选取的音频处理算法对音频信号的带宽进行扩充，并对扩充后的音频信号的频段进行频段补偿。

在一种应用场景中，音频处理算法可以将音频信号（人声）在20 Hz -20kHz的频段内进行频点修改以改变其音频曲线。例如，音频处理算法首先将采集到的音频信号从8 kHz带宽扩充为16kHz，弥补损失的那部分人声，然后对其中低采样率的频段进行频段补偿，即对扩充后的音频信号进行修复，使得弥补的那部分人声更加符合实际人声特点。

由上述可知，本实施例实质上是通过纯算法处理音频信号，对硬件的依赖程度较低，相比较于现有技术采用性能高的语音采集器件，本实施例能够在确保语音命令识别率的同时降低硬件要求，成本低，而且无需为了实现兼容对整个硬件***进行重新设计，通用性强。

在前述基础上，终端可基于语音识别（Automatic Speech Recognition, ASR）技术将算法处理后的音频信号转换为字符指令。语音识别技术即是将语音信号转换为文字等字符的技术，其主要依赖于声学模型、发音字库和语言类型库。其中，声学模型是经过训练有素的统计模型，其通过识别算法处理后的音频信号的音素而得到对应的音素序列，然后本申请将这些音素在发音字库中进行比对，列出候选字以及这些候选字可能的发音，基于匹配的音素序列，从这些候选字中选出最有可能的文字，再结合语言模型所包括的语法为参照，得出字符指令。

当然，终端也可以将算法处理后的音频信号上传至云端。

应该理解到，上述功能如果以软件功能的形式实现并作为独立产品销售或使用时，可存储在一个电子设备可读取存储介质中，即，本申请还提供一种存储有程序数据的存储装置，所述程序数据能够被执行以实现上述实施例的方法，该存储装置可以为如U盘、光盘、服务器等。也就是说，上述实施例可以以软件产品的形式体现出来，其包括若干指令用以使得一台终端执行所述方法的全部或部分步骤。

在实际应用场景中，鉴于终端的结构设计不同，执行上述各个步骤的结构器件也不相同。下面以图3所示的终端30为例进行描述。

请参阅图3，终端30可以包括拾音器31、音频解码器32、DSP（Digital Signal Processing, 数字信号处理器）33、处理器34、存储器35以及无线通信器36，拾音器31与DSP 33连接，DSP 33、存储器35以及无线通信器36与处理器34连接。当然，终端30还可以包括电源管理单元，该电源管理单元与拾音器31、音频解码器32、DSP 33、处理器34以及无线通信器36连接，并用于管理对各个结构元件的供电。

处理器34用于运行终端30的操作***，并对各个结构元件进行任务管理，例如结构元件的上电、硬件初始化之后、以及在适当时间启动播放线程、解码线程、创造音轨、混音等操作。

音频解码器32用于提供至少一个接口以支持输入/输出设备的接入，并保证所接入的输入/输出设备的正常工作，例如音频解码器32的接口包括喇叭功放、数字/模拟麦克风的接口。拾音器31作为一个输入/输出设备，用于从当前环境中采集音频信号。该拾音器31可以为模拟麦克风，此时音频信号是模拟音频信号，音频解码器32内置有模数转换器（Analog-to-Digital Converter, ADC），模拟音频信号通过模数转换器的模数转换后变为数字音频信号，并继续传输给DSP 33。当然，该拾音器31还可以为数字麦克风，其直接输出数字音频信号。

DSP 33对模拟音频信号进行模数转换后会将数字音频信号发送给处理器34，处理器34用于解析所述数字音频信号并获取其文件头信息，以及根据所述文件头信息从存储器35中选取合适的音频处理算法。其中，文件头信息包括但不限于采样率、比特率、带宽以及数据字节位数中的至少一种。处理器34将选取的音频处理算法的消息通过I2C（Inter－Integrated Circuit, 两线式串行总线）烧录入DSP 33中。

DSP 33通过音频处理算法对音频信号的带宽进行扩充，并对扩充后的音频信号的频段进行频段补偿。该DSP 33具有内存缓冲池，用来避免在音频处理算法处理音频信号的过程中出现资源抢占的问题。此音频处理算法的主要作用是将采集到的音频信号从8 kHz带宽扩充为16kHz，弥补损失的那部分人声，然后对其中低采样率的频段进行频段补偿，即对扩充后的音频信号进行修复，使得弥补的那部分人声更加符合实际人声特点。在本实施例中，鉴于该DSP 33处理后的音频信号为PCM（脉冲编码调制, Pulse Code Modulation）格式数据，因此处理器34无需对算法处理后的音频信号进行编码处理。

存储器35用于保存各种类型的音频处理算法以及音频信号，以及作为缓存将各步骤处理完成的数据进行临时存放，以便于处理器34的调用。例如，处理器34可调用处理完成后的音频信号，并将其转换为字符指令，继而通过无线通信器36上传至云端，或者处理器34调用处理完成后的音频信号并将其直接上传至云端。

无线通信器36用于发送和接收从本地传送至云端的数据，或者接收由于本地发送的命令而从云端反馈回来的音频数据。例如，该无线通信器36可以自身的蓝牙、Wi-Fi以及网络等模块接入网络及云端下载，或者与其他设备建立连接关系，并由此获取音频信号，此时获取的音频信号为数字音频信号。为了保证数据的完整以及高效率的本地处理，无线通信器36先将接收的数据缓存至存储器35中。

请参阅图4，为终端30执行优化语音命令的方法一具体应用例。该实施例用以实现本申请前述实施例的整个过程，在此不作赘述。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，例如各实施例之间技术特征的相互结合，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种终端优化语音命令的方法，其中，所述方法包括：

终端接收或者从当前环境中采集音频信号；

所述终端解析所述音频信号并获取所述音频信号的文件头信息；

所述终端根据所述文件头信息选取音频处理算法；

所述终端通过选取的音频处理算法对所述音频信号的带宽进行扩充，并对扩充后的音频信号的频段进行频段补偿。
根据权利要求1所述的方法，其中，所述文件头信息包括采样率、比特率、带宽、以及数据字节位数中的至少一种。
根据权利要求1所述的方法，其中，所述对扩充后的音频信号的频段进行频段补偿之后，所述方法还包括：

所述终端将经过频段补偿后的音频信号上传至云端，或者基于语音识别技术将经过频段补偿后的音频信号转换为字符指令。
根据权利要求1所述的方法，其中，所述终端通过拾音器采集音频信号，所述拾音器包括模拟麦克风和数字麦克风中的一个，所述模拟麦克风从当前环境中采集模拟音频信号，所述终端对所述模拟音频信号进行模数转换并得到所述音频信号。
根据权利要求1所述的方法，其中，所述终端通过选取的音频处理算法将所述音频信号的带宽从8kHz扩充为16kHz。
一种具有音频处理功能的终端，其中，所述终端包括处理器，与所述处理器连接的数字信号处理器DSP、无线通信器和存储器，以及与所述DSP连接的拾音器，其中，

所述无线通信器和所述拾音器分别用于接收或者从当前环境中采集音频信号；

所述处理器用于解析所述音频信号并获取其文件头信息，以及根据所述文件头信息从所述存储器中选取音频处理算法；

所述DSP用于通过选取的音频处理算法对所述音频信号的带宽进行扩充，并对扩充后的音频信号的频段进行频段补偿。
根据权利要求6所述的终端，其中，所述文件头信息包括采样率、比特率、带宽、以及数据字节位数中的至少一种。
根据权利要求6所述的终端，其中，所述处理器还用于将经过频段补偿后的音频信号上传至云端，或者基于语音识别技术将经过频段补偿后的音频信号转换为字符指令。
根据权利要求6所述的终端，其中，所述拾音器包括模拟麦克风和数字麦克风中的一个，所述模拟麦克风用于从当前环境中采集模拟音频信号，所述终端还包括模数转换器，所述模数转换器用于对所述模拟音频信号进行模数转换并得到所述音频信号。
一种存储装置，其中，所述存储装置存储有程序数据，所述程序数据能够被执行方法：

在目标声源的出声方向上，终端的拾音器沿网状路线移动并采集当前环境中的音频信号；

解析所述音频信号并获取所述音频信号的文件头信息；

根据所述文件头信息选取音频处理算法；

通过选取的音频处理算法对所述音频信号的带宽进行扩充，并对扩充后的音频信号的频段进行频段补偿。
根据权利要求10所述的存储装置，其中，所述文件头信息包括采样率、比特率、带宽、以及数据字节位数中的至少一种。
根据权利要求10所述的存储装置，其中，所述对扩充后的音频信号的频段进行频段补偿之后，所述方法还包括：

所述终端将经过频段补偿后的音频信号上传至云端，或者基于语音识别技术将经过频段补偿后的音频信号转换为字符指令。
根据权利要求10所述的存储装置，其中，所述终端通过拾音器采集音频信号，所述拾音器包括模拟麦克风和数字麦克风中的一个，所述模拟麦克风从当前环境中采集模拟音频信号，所述终端对所述模拟音频信号进行模数转换并得到所述音频信号。
根据权利要求10所述的存储装置，其中，所述终端通过选取的音频处理算法将所述音频信号的带宽从8kHz扩充为16kHz。