CN113259793A

CN113259793A - 智能麦克风及其信号处理方法

Info

Publication number: CN113259793A
Application number: CN202010082783.8A
Authority: CN
Inventors: 张钟宣; 顾渝骢; 傅仁杰
Original assignee: Hangzhou Zhixinke Microelectronics Technology Co ltd
Current assignee: Hangzhou Zhixinke Microelectronics Technology Co ltd
Priority date: 2020-02-07
Filing date: 2020-02-07
Publication date: 2021-08-13
Anticipated expiration: 2040-02-07
Also published as: CN113259793B

Abstract

本发明涉及一种智能麦克风及其信号处理方法，智能麦克风包括声音传感器和AI专用声音处理器，声音传感器采集声音信号，将其转化为音频信号，AI专用声音处理器对音频信号进行识别处理，从音频信号中提取音频特征，根据音频特征判断是否输出控制信号，该控制信号用于唤醒后端处理器，后端处理器唤醒后可以响应智能麦克风采集的声音信号，智能麦克风设置在半导体封装体中，声音传感器、AI专用声音处理器设置在半导体封装体的裸片中；本方案中，智能麦克风本身设置AI专用声音处理器对声音信号进行识别处理，后端处理器无需对声音信号进行唤醒识别处理，降低了后端处理器的功耗。

Description

智能麦克风及其信号处理方法

技术领域

本发明涉及音频信号处理技术领域，特别是涉及一种智能麦克风及其信号处理方法。

背景技术

目前，市面上的麦克风一般是用作采集语音信息的接口，将采集的语音信息转换成电信号，发送至后端的处理器进行数据处理。

现在对声控技术的要求越来越高，需要对麦克风接收的语音信号进行实时响应，为了达到这一目的，麦克风需要持续处于唤醒状态，如此就增加了麦克风本身的功耗。而现有的大多数终端上配置的麦克风都存在功耗高这一问题，还有少数的终端上配置有语音唤醒功能，终端的处理器通过麦克风接收语音，通过语音唤醒算法对语音信号进行处理，进而对终端进行操作唤醒；而终端的处理器执行语音唤醒算法时的电流较大，增加终端处理器的功耗。

发明内容

基于此，有必要针对传统的麦克风持续处于唤醒状态功耗较高，通过终端的处理器执行语音唤醒算法功耗较高的问题，提供一种智能麦克风及其信号处理方法。

一种智能麦克风，包括相互连接的声音传感器和AI专用声音处理器；

声音传感器用于采集声音信号，并将声音信号转化为音频信号，并将音频信号传输至AI专用声音处理器；

AI专用声音处理器用于接收音频信号，从音频信号中提取音频特征，并根据音频特征判断是否输出控制信号，控制信号用于唤醒后端处理器，后端处理器用于响应智能麦克风采集的声音信号；

智能麦克风设置在半导体封装体中，声音传感器和AI专用声音处理器设置在半导体封装体的裸片中。

根据上述的智能麦克风，其包括相互连接的声音传感器和AI专用声音处理器，声音传感器可以感受声音信号并对其进行采集，并转化为音频信号，AI专用声音处理器采用AI智能识别技术对音频信号进行识别处理，从音频信号中提取音频特征，并判断音频特征是否符合预设要求，以判断结果确定是否输出控制信号，该控制信号用于唤醒后端处理器，后端处理器唤醒后可以响应智能麦克风采集的声音信号；本方案中，智能麦克风本身设置AI专用声音处理器对声音信号进行识别处理，输出控制信号唤醒后端处理器，由后端处理器对声音信号进行响应，后端处理器无需对声音信号进行唤醒识别处理，降低了后端处理器的功耗，而且AI专用声音处理器的作用针对于声音唤醒，不如结构复杂的后端处理器在执行语音唤醒算法的功耗高，在没有声音信号的时候，智能麦克风处于低功耗状态，AI专用声音处理器用较小的功率跟踪接收的声音信号，后端处理器可以处于休眠状态，当有声音信号，并根据音频特征判定输出控制信号时，可以将后端处理器唤醒，使智能麦克风进入唤醒状态，与传统的麦克风持续处于唤醒状态相比，降低了功耗；另外，将智能麦克风设置在半导体封装体中，声音传感器和AI专用声音处理器设置在半导体封装体的裸片中，通过裸片和半导体封装体可以将智能麦克风集成微型化，便于将其应用在不同的场景中。

在其中一个实施例中，智能麦克风还包括连接在声音传感器和AI专用声音处理器之间的音频处理器，音频处理器设置在半导体封装体的裸片中；

声音传感器用于将声音信号转化为电信号，并将电信号传输至音频处理器；

音频处理器用于接收电信号，将电信号转换为音频信号，并将音频信号传输至AI专用声音处理器。

在其中一个实施例中，AI专用声音处理器包括神经元网络，通过神经元网络对音频特征进行判断，若音频特征与预设的唤醒特征相匹配，输出控制信号。

在其中一个实施例中，AI专用声音处理器还包括数字IO接口，通过数字IO接口获取神经元网络数据，神经元网络数据是经机器学习重组后得到的。

在其中一个实施例中，AI专用声音处理器包括骨传导识别模块、声纹识别模块、关键词识别模块、命令词识别模块中的至少一种；

骨传导识别模块用于通过神经元网络识别音频特征中的骨传导声纹，若骨传导声纹与预设骨传导声纹相匹配，输出与骨传导声纹对应的控制信号；

或者，声纹识别模块用于通过神经元网络识别音频特征中的声纹，若声纹与预设声纹相匹配，输出控制信号；

或者，关键词识别模块用于通过神经元网络识别音频特征中的关键词，若关键词与预设关键词相匹配，输出与关键词对应的控制信号；

或者，命令词识别模块用于通过神经元网络识别音频特征中的命令词，若命令词与预设命令词相匹配，输出与命令词对应的控制信号。

在其中一个实施例中，音频处理器包括音频放大器和模数转换器；

音频放大器用于对声音信号进行模拟放大，获得模拟音频信号；

模数转换器用于对模拟音频信号进行模数转换，获得数字音频信号，并将数字音频信号传输至AI专用声音处理器。

在其中一个实施例中，AI专用声音处理器还包括语音检测模块；

若语音检测模块为模拟语音检测模块，模拟语音检测模块用于从音频放大器输出的模拟音频信号中提取第一音频特征，并将第一音频特征传输至神经元网络；

若语音检测模块为数字语音检测模块，数字语音检测模块用于从模数转换器输出的数字音频信号中提取第二音频特征，并将第二音频特征传输至神经元网络；

若语音检测模块为混合语音检测模块，混合语音检测模块用于从音频放大器输出的模拟音频信号和模数转换器输出的数字音频信号中提取第三音频特征，并将第三音频特征传输至神经元网络。

在其中一个实施例中，半导体封装体包括第一裸片、第二裸片和第三裸片，声音传感器设置在第一裸片中，音频放大器和模数转换器设置在第二裸片中，AI专用声音处理器设置在第三裸片中，第一裸片、第二裸片和第三裸片依次连接；

在其中一个实施例中，半导体封装体包括第一裸片、第四裸片和第五裸片，声音传感器设置在第一裸片中，音频放大器设置在第四裸片中，模数转换器和AI专用声音处理器设置在第五裸片中，第一裸片、第四裸片和第五裸片依次连接；

在其中一个实施例中，半导体封装体包括第一裸片和第六裸片，声音传感器设置在第一裸片中，音频处理器和AI专用声音处理器设置在第六裸片中，第一裸片和第六裸片相互连接。

在其中一个实施例中，智能麦克风还包括无线传输器，无线传输器与AI专用声音处理器连接，并设置在同一裸片中；或者无线传输器与AI专用声音处理器分别设置在不同的裸片中，无线传输器与AI专用声音处理器所在的两个裸片相互连接；

无线传输器用于将控制信号通过无线方式发送出去。

在其中一个实施例中，智能麦克风还包括语音数字接口；

语音数字接口与模数转换器的输出端连接，用于输出数字音频信号至后端处理器；

或者，语音数字接口与自动增益控制器的输出端连接，用于输出数字音频信号至后端处理器，其中，自动增益控制器与模数转换器连接。

在其中一个实施例中，智能麦克风还包括与AI专用声音处理器连接的时钟管理电路，时钟管理电路包括晶振接口，用于接收外部时钟信号。

一种应用上述的智能麦克风的信号处理方法，包括以下步骤：

通过声音传感器采集声音信号，并将声音信号转化为音频信号，并将音频信号传输至AI专用声音处理器；

通过AI专用声音处理器接收音频信号，从音频信号中提取音频特征，并根据音频特征判断是否输出控制信号，控制信号用于唤醒后端处理器，后端处理器用于响应智能麦克风采集的声音信号。

根据上述的应用智能麦克风的信号处理方法，其是通过声音传感器感受声音信号并对其进行采集，并转化为音频信号，通过AI专用声音处理器对音频信号进行识别处理，从音频信号中提取音频特征，并判断音频特征是否符合预设要求，以判断结果确定是否输出控制信号，该控制信号用于唤醒后端处理器，后端处理器唤醒后可以响应智能麦克风采集的声音信号；本方案中，后端处理器无需对声音信号进行唤醒识别处理，降低了后端处理器的功耗，而且AI专用声音处理器的作用针对于声音唤醒，不如结构复杂的后端处理器在执行语音唤醒算法的功耗高，在没有声音信号的时候，智能麦克风处于低功耗状态，AI专用声音处理器用较小的功率跟踪接收的声音信号，后端处理器可以处于休眠状态，当有声音信号，并根据音频特征判定输出控制信号时，可以将后端处理器唤醒，使智能麦克风进入唤醒状态，与传统的麦克风持续处于唤醒状态相比，降低了功耗。

在其中一个实施例中，信号处理方法还包括以下步骤：

在通过控制信号唤醒后端处理器后，通过声音传感器采集语音信号，并将语音信号转换为语音音频信号，并将语音音频信号传输至AI专用声音处理器；

通过AI专用声音处理器接收语音音频信号，从语音音频信号中提取语音特征，并根据语音特征判断是否输出指令信号，指令信号用于指示后端处理器执行相应的操作。

附图说明

图1为一个实施例中的智能麦克风的结构示意图；

图2为另一个实施例中的智能麦克风的结构示意图；

图3为又一个实施例中的智能麦克风的结构示意图；

图4为一个实施例中的智能麦克风中音频处理器的结构示意图；

图5为另一个实施例中的智能麦克风中音频处理器的结构示意图；

图6为又一个实施例中的智能麦克风中音频处理器的结构示意图；

图7-9为一个实施例中的智能麦克风的AI专用声音处理器中语音检测模块的连接示意图；

图10-12为一个实施例中的声音传感器、音频放大器、模数转换器和AI专用声音处理器的裸片形式示意图；

图13-14为一个实施例中的无线传输器的裸片连接示意图；

图15-18为一个实施例中的红外遥控发射器的连接示意图；

图19-20为一个实施例中的语音数字接口的连接示意图；

图21为一个实施例中的智能麦克风的时钟管理电路的结构连接示意图；

图22为一个实施例中的智能麦克风的信号处理方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

需要说明的是，本发明实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换，以使这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本申请提供的智能麦克风，可以应用于各种智能设备终端中，用于音频控制终端。带有智能麦克风的智能设备可以通过声音控制执行各种命令和操作。

参见图1所示，为一个实施例的智能麦克风的结构示意图。该实施例中的智能麦克风包括相互连接的声音传感器100和AI专用声音处理器200；

声音传感器(mic sensor)100用于采集声音信号，并将声音信号转化为音频信号，并将音频信号传输至AI专用声音处理器200；

AI专用声音处理器(AI voice processor)200用于接收音频信号，从音频信号中提取音频特征，并根据音频特征判断是否输出控制信号，控制信号用于唤醒后端处理器，后端处理器用于响应智能麦克风采集的声音信号；

智能麦克风设置在半导体封装体中，声音传感器100和AI专用声音处理器200设置在半导体封装体的裸片中。

在本实施例中，智能麦克风包括相互连接的声音传感器100和AI专用声音处理器200，声音传感器100可以感受声音信号并对其进行采集，并转化为音频信号，AI专用声音处理器200采用AI智能识别技术对音频信号进行识别处理，从音频信号中提取音频特征，并判断音频特征是否符合预设要求，以判断结果确定是否输出控制信号，该控制信号用于唤醒后端处理器，后端处理器唤醒后可以响应智能麦克风采集的声音信号；本方案中，智能麦克风本身设置AI专用声音处理器200对声音信号进行识别处理，输出控制信号唤醒后端处理器，由后端处理器对声音信号进行响应，后端处理器无需对声音信号进行唤醒识别处理，降低了后端处理器的功耗，而且AI专用声音处理器200的作用针对于声音唤醒，不如结构复杂的后端处理器在执行语音唤醒算法的功耗高，在没有声音信号的时候，智能麦克风处于低功耗状态，AI专用声音处理器200用较小的功率跟踪接收的声音信号，后端处理器可以处于休眠状态，当有声音信号，并根据音频特征判定输出控制信号时，可以将后端处理器唤醒，使智能麦克风进入唤醒状态，与传统的麦克风持续处于唤醒状态相比，降低了功耗；另外，将智能麦克风设置在半导体封装体中，声音传感器100和AI专用声音处理器200设置在半导体封装体的裸片中，通过裸片和半导体封装体可以将智能麦克风集成微型化，便于将其应用在不同的场景中。

进一步的，智能麦克风与后端处理器可以分离，AI专用声音处理器200中可以集成无线传输模块，通过无线传输的方式将控制信号传输至后端处理器。

进一步的，声音传感器100可以采用声音传感的方式，或骨传导的方式，或者声音传感和骨传导相结合的方式，通过不同的方式对声音进行检测，音频信号可以是骨传导信号。

在一个实施例中，如图2所示，智能麦克风还包括连接在声音传感器100和AI专用声音处理器200之间的音频处理器300，音频处理器200设置在半导体封装体的裸片中；

声音传感器100用于将声音信号转化为电信号，并将电信号传输至音频处理器300；

音频处理器300用于接收电信号，将电信号转换为音频信号，并将音频信号传输至AI专用声音处理器200。

在本实施例中，在声音传感器100和AI专用声音处理器200之间设置了音频处理器300；音频处理器300可以对声音传感器100转化的电信号作初步的处理，将其转换为便于识别和处理的音频信号。

进一步的，声音传感器100可以同时连接AI专用声音处理器200和音频处理器300，以便在音频处理器300故障时，声音传感器100可以将信号直接传输至AI专用声音处理器200。

在一个实施例中，AI专用声音处理器200包括神经元网络，通过神经元网络对音频特征进行判断，若音频特征与预设的唤醒特征相匹配，输出控制信号。

在本实施例中，AI专用声音处理器200中存有神经元网络，神经元网络是由大量类似于神经元的处理单元相互连结而成的非线性复杂网络***，它通过模拟大脑神经元网络处理、记忆信息的方式，完成人脑那样的信息处理功能，是非线性的并行结构，当神经元网络接收到音频特征时，能够作出迅速、准确地判断和识别，AI专用声音处理器200中存有预设的唤醒特征，通过神经元网络的分析进行判断，音频特征是否与预设的唤醒特征相符合，如果符合，将控制信号输出，神经元网络可以减小犯错的可能性，提高音频特征识别的准确性，而且神经元网络的工作模式产生的功耗较低。

进一步的，如图3所示，AI专用声音处理器200还包括数字IO接口210，通过数字IO接口获取神经元网络数据，神经元网络数据是经机器学习重组后得到的。通过机器学习和训练，可以将音频特征分布式地记忆在神经元网络的连接节点权重中，使神经元网络能准确识别音频特征。

进一步的，AI专用声音处理器200可以通过数字IO接口从云端服务器中获取神经元网络数据，机器学习重组神经元网络数据的过程可以在云端服务器中实现。

进一步的，AI专用声音处理器可以包括骨传导识别模块、声纹识别(voice print)模块、关键词识别(keywords spotting)模块、命令词识别(command spotting)模块中的至少一种，AI专用声音处理器在接收到音频特征后，骨传导识别模块可以通过神经元网络识别音频特征中的骨传导声纹，将音频特征中的骨传导声纹与预设的骨传导声纹信息进行比较，若两者相匹配，表明当前的骨传导信号是合法用户所发出的，可以输出控制信号或对音频特征进行进一步的识别；声纹识别模块可以通过神经元网络识别音频特征中的声纹信息，将音频特征中的声纹信息与预设的声纹信息进行比较，若两者相匹配，表明当前的声音是合法用户所发出的，可以输出控制信号或对音频特征进行进一步的识别，若不匹配，则不对该音频特征进行响应；关键词识别模块可以通过神经元网络识别音频特征中的关键词，将音频特征中的关键词与预设的关键词进行比较，若两者相匹配，则可以输出与关键词对应的控制信号，具体的，关键词对应的控制信号可以是用于唤醒或休眠后端处理器的信号；命令词识别模块可以通过神经元网络识别音频特征中的命令词，将音频特征中的命令词与预设的命令词进行比较，若两者相匹配，则可以输出与命令词对应的控制信号，具体的，命令词对应的控制信号可以是用于对后端处理器进行具体功能控制的信号，如“播放音乐”、“调高音量”、“调低音量”、“下一首”、“上一首”等等；AI专用声音处理器可以包括声纹识别模块和关键词识别模块，在通过声纹识别确认用户合法后再进行关键词识别，在识别出关键词后才输出控制信号，或者，AI专用声音处理器可以包括声纹识别模块和命令词识别模块，在通过声纹识别确认用户合法后再进行命令词识别，在识别出命令词后才输出控制信号，或者，AI专用声音处理器可以包括关键词识别模块和命令词识别模块，同时对关键词和命令词进行识别，在识别出关键词或命令词后才输出控制信号，或者，AI专用声音处理器可以包括声纹识别模块、关键词识别模块和命令词识别模块，通过声纹识别确认用户合法后再进行关键词和命令词识别，在识别出关键词或命令词后才输出控制信号。

在一个实施例中，如图4所示，音频处理器300包括音频放大器310和模数转换器320；

音频放大器310用于对声音信号进行模拟放大，获得模拟音频信号；

模数转换器320用于对模拟音频信号进行模数转换，获得数字音频信号，并将数字音频信号传输至AI专用声音处理器200。

在本实施例中，音频处理器300主要包括两种部件，音频放大器310可以对声音信号进行模拟放大，获得模拟音频信号；采集的声音信号强度较弱，将其进行模拟放大，便于后续进行识别；模数转换器320可以对模拟音频信号进行模数转换，获得数字音频信号，数字音频信号是二进制代码，便于对其进行存储、处理和交换。

在一个实施例中，如图5所示，音频处理器300包括音频放大器310、模数转换器320和自动增益控制器330；

音频放大器(audio amplifier)310用于对声音信号进行模拟放大，获得模拟音频信号；

模数转换器(analog to digital converter，ADC)320用于对模拟音频信号进行模数转换，获得数字音频信号；

自动增益控制器(automatic gain control，AGC)330用于根据模拟音频信号的强度调节音频放大器310的增益幅度，并将增益放大后的模拟音频信号传输至AI专用声音处理器200；或者，根据数字音频信号的强度调节音频放大器310的增益幅度，并将增益放大后的数字音频信号传输至AI专用声音处理器200。

在本实施例中，音频处理器300主要包括三种部件，音频放大器310可以对声音信号进行模拟放大，获得模拟音频信号；采集的声音信号强度较弱，将其进行模拟放大，便于后续进行识别；模数转换器320可以对模拟音频信号进行模数转换，获得数字音频信号，数字音频信号是二进制代码，便于对其进行存储、处理和交换；自动增益控制器330可以根据模拟音频信号的强度或数字音频信号的强度调节音频放大器310的增益幅度，实现对音频信号幅度的平稳调节，防止音频信号出现大幅度的波动，可以将模拟音频信号或数字音频信号稳定地传输至AI专用声音处理器200。

进一步的，自动增益控制器330可以替换成固定增益控制器，通过固定增益对模拟音频信号或数字音频信号进行放大，自动增益控制器330或固定增益控制器还可以集成在音频放大器310或模数转换器320中。

在一个实施例中，如图6所示，音频处理器300还包括与音频放大器310连接的电荷泵340，电荷泵340用于提高声音传感器100输入至音频放大器310的电压。

在一个实施例中，如图7-9所示，AI专用声音处理器200还包括语音检测模块(voice activity detection，VAD)；

若语音检测模块为模拟语音检测模块220，模拟语音检测模块220用于从音频放大器310输出的模拟音频信号中提取第一音频特征，并将第一音频特征传输至神经元网络；

若语音检测模块为数字语音检测模块230，数字语音检测模块230用于从模数转换器320输出的数字音频信号中提取第二音频特征，并将第二音频特征传输至神经元网络；

若语音检测模块为混合语音检测模块240，混合语音检测模块240用于从音频放大器310输出的模拟音频信号和模数转换器320输出的数字音频信号中提取第三音频特征，并将第三音频特征传输至神经元网络。

在本实施例中，语音检测模块可以是模拟语音检测模块220、数字语音检测模块230或混合语音检测模块240，可以从音频放大器310输出的模拟音频信号和/或模数转换器320输出的数字音频信号中提取音频特征，一般可以采用数字语音检测模块230，也可以采用其他两种语音检测模块，以适应不同的场景和参数需求。

进一步的，音频特征是模拟特征或数字特征，若声音信号是语音信号，音频特征可以是语音中的关键词或关键词组，还可以包括关键词或关键词组的语调等，相应的唤醒特征可以是唤醒词或唤醒词组，包括唤醒词或唤醒词组的语调等，唤醒词或唤醒词组是可编辑的，个数可以在1至128个之间。

进一步的，语音检测模块可以检测骨传导形式以及其他形式的声音信号的音频特征。

在一个实施例中，如图10-12所示，半导体封装体包括第一裸片、第二裸片和第三裸片，声音传感器100设置在第一裸片中，音频放大器310和模数转换器320设置在第二裸片中，AI专用声音处理器200设置在第三裸片中，第一裸片、第二裸片和第三裸片依次连接；

或者，半导体封装体包括第一裸片、第四裸片和第五裸片，声音传感器100设置在第一裸片中，音频放大器310设置在第四裸片中，模数转换器320和AI专用声音处理器200设置在第五裸片中，第一裸片、第四裸片和第五裸片依次连接；

或者，半导体封装体包括第一裸片和第六裸片，声音传感器100设置在第一裸片中，音频处理器300和AI专用声音处理器200设置在第六裸片中，第一裸片和第六裸片相互连接。

在本实施例中，声音传感器100是接收声音信号的主要传感器，为了能减少其他电路的干扰影响，将声音传感器100独立设置在第一裸片中，音频放大器310、模数转换器320和AI专用声音处理器200可以有不同的裸片设置模式，如音频放大器310和模数转换器320设置在第二裸片中，AI专用声音处理器200设置在第三裸片中，适应于有生产第二裸片和第三裸片的场景，第一裸片、第二裸片和第三裸片通过依次连接可以使声音传感器100、音频放大器310、模数转换器320和AI专用声音处理器200依次连接；或者，音频放大器310设置在第四裸片中，模数转换器320和AI专用声音处理器200设置在第五裸片中，适应于有生产第四裸片和第五裸片的场景，第一裸片、第四裸片和第五裸片通过依次连接可以使声音传感器100、音频放大器310、模数转换器320和AI专用声音处理器200依次连接；或者，音频处理器300和AI专用声音处理器200设置在第六裸片中，适应于有生产第六裸片的场景，第一裸片和第六裸片相互连接可以使声音传感器100、音频放大器310、模数转换器320和AI专用声音处理器200依次连接；如此在实际组装时，可以根据实际生产情况来设置智能麦克风的组成，实现多样化的组装。

进一步的，若智能麦克风包括自动增益控制器330，自动增益控制器330可以与音频放大器310设置在同一裸片中，或与模数转换器320设置在同一裸片中；另外，若智能麦克风包括电荷泵340，电荷泵340可以与音频放大器310设置在同一裸片中。

在一个实施例中，如图13-14所示，智能麦克风还包括无线传输器400，无线传输器400与AI专用声音处理器200连接，并设置在同一裸片中；或者无线传输器400与AI专用声音处理器200分别设置在不同的裸片中，无线传输器400与AI专用声音处理器200所在的两个裸片相互连接；

无线传输器400用于将控制信号通过无线方式发送出去。

在本实施例中，在智能麦克风实际应用中，智能麦克风与后端处理器可以分离，因此可以设置无线传输器，其可以将AI专用声音处理器200输出的控制信号以无线方式发送出去，该控制信号可以被无线接收器接收并进行进一步的处理，如存储，利用处理器对其进行解析实现功能控制等等。

进一步的，无线传输器的传输方式可以是红外、蓝牙、Wifi、近场通信、Zigbee等各种无线通信方式。

如图15-18所示，以红外遥控发射器为例，红外遥控发射器可以与AI专用声音处理器200连接，并设置在同一裸片中；或者红外遥控发射器与AI专用声音处理器200分别设置在不同的裸片中，红外遥控发射器与AI专用声音处理器200所在的两个裸片相互连接；另外，若采用两种以上的无线传输器，如红外遥控发射器和蓝牙发射器，可以分别与AI专用声音处理器200连接。在一个实施例中，如图19-20所示，智能麦克风还包括语音数字接口500；

语音数字接口500与模数转换器320的输出端连接，用于输出数字音频信号至后端处理器；

或者，语音数字接口500与自动增益控制器330的输出端连接，用于输出数字音频信号至后端处理器，其中，自动增益控制器330与模数转换器320连接。

在本实施例中，AI专用声音处理器200的作用主要是对声音信号进行识别，输出控制信号，在智能麦克风实际应用中，还需要对采集的声音信号进行记录和播放，因此可以设置语音数字接口500，从模数转换器320或自动增益控制器330中将数字音频信号传输至后端处理器，后端处理器可以对数字音频信号进行进一步的处理，如存储，利用扬声器对数字音频信号进行播放等等。

进一步的，语音数字接口可以是I²S(集成电路内置音频总线)、PDM(PulseDensity Modulation，脉冲密度调制)、TDM(时分复用)、mipi sound wire等类型接口。

在一个实施例中，如图21所示，智能麦克风还包括与AI专用声音处理器200连接的时钟管理电路600，时钟管理电路600包括晶振接口610，用于接收外部时钟信号；

时钟管理电路600还包括时间处理器620和时间寄存器630，时间寄存器630用于在AI专用声音处理器200根据音频特征识别到时间信息时，保存时间信息；

时间处理器620用于在到达时间信息对应的晶振时间时，输出中断信号至AI专用声音处理器200，中断信号用于指示AI专用声音处理器200输出控制信号。

在本实施例中，智能麦克风还包括与AI专用声音处理器200连接的时钟管理电路600，时钟管理电路600包括晶振接口610，用于接收外部时钟信号，如后端处理器的时钟信号，实现与后端处理器的信号同步；AI专用声音处理器200在根据音频信号判断是否输出控制信号时，还可以识别音频信号中是否包含时间信息，若其中有时间信息，通过时间管理电路600中的时间寄存器630对时间信息进行保存，在到达时间信息对应的晶振时间时，通过时间管理电路600中的时间处理器620输出中断信号至AI专用声音处理器200，用于指示AI专用声音处理器200输出控制信号，通过时间管理电路600的时间信息处理，可以实现对控制信号的定时控制。

进一步的，智能麦克风的AI专用声音处理器200还可以包括微处理器、非易失性存储器等；时间管理电路600可以包括RTC(实时时钟)电路，可以实现周期性中断输出，以及32KHz时钟输出；时间管理电路600还可以集成在AI专用声音处理器200内部。

根据上述的智能麦克风，本发明实施例还提供一种应用上述智能麦克风的信号处理方法，以下就应用智能麦克风的信号处理方法的实施例进行详细说明。

参见图22所示，为一个实施例的应用智能麦克风的信号处理方法的流程示意图。该实施例中的应用智能麦克风的信号处理方法包括以下步骤：

步骤S710：通过声音传感器采集声音信号，并将声音信号转化为音频信号，并将音频信号传输至AI专用声音处理器步骤S720：通过AI专用声音处理器接收音频信号，从音频信号中提取音频特征，并根据音频特征判断是否输出控制信号，控制信号用于唤醒后端处理器，后端处理器用于响应智能麦克风采集的声音信号。

在本实施例中，通过声音传感器感受声音信号并对其进行采集，并转化为音频信号，通过AI专用声音处理器对音频信号进行识别处理，从音频信号中提取音频特征，并判断音频特征是否符合预设要求，以判断结果确定是否输出控制信号，该控制信号用于唤醒后端处理器，后端处理器唤醒后可以响应智能麦克风采集的声音信号；后端处理器无需对声音信号进行唤醒识别处理，降低了后端处理器的功耗，而且AI专用声音处理器的作用针对于声音唤醒，不如结构复杂的后端处理器在执行语音唤醒算法的功耗高，在没有声音信号的时候，智能麦克风处于低功耗状态，AI专用声音处理器用较小的功率跟踪接收的声音信号，后端处理器可以处于休眠状态，当有声音信号，并根据音频特征判定输出控制信号时，可以将后端处理器唤醒，使智能麦克风进入唤醒状态，与传统的麦克风持续处于唤醒状态相比，降低了功耗。

在一个实施例中，信号处理方法还包括以下步骤：

在本实施例中，在唤醒后端处理器、智能麦克风处于唤醒状态后，智能麦克风还可以继续接收语音信号，将语音信号转换为语音音频信号，AI专用声音处理器可以对语音音频信号进行识别处理，从语音音频信号中提取语音特征，在识别之后可以确定是否输出指令信号，用于指示后端处理器执行相应的操作；这一过程通过语音进行控制，与唤醒的过程有所不同，指令信号相当于动作命令，可以让后端处理器执行与音频相关的动作，如拨打电话、播放音乐、视频等，若后端处理器与其他智能设备互联，还可以控制其他智能设备，实现语音智能控制。

本发明实施例的应用智能麦克风的信号处理方法与上述智能麦克风相对应，在上述智能麦克风的实施例阐述的技术特征及其有益效果均适用于应用智能麦克风的信号处理方法的实施例中。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种智能麦克风，其特征在于，包括相互连接的声音传感器和AI专用声音处理器；

所述声音传感器用于采集声音信号，将所述声音信号转化为音频信号，并将所述音频信号传输至所述AI专用声音处理器；

所述AI专用声音处理器用于接收所述音频信号，从所述音频信号中提取音频特征，并根据所述音频特征判断是否输出控制信号，所述控制信号用于唤醒后端处理器，所述后端处理器用于响应智能麦克风采集的声音信号；

所述智能麦克风设置在半导体封装体中，所述声音传感器和所述AI专用声音处理器设置在所述半导体封装体的裸片中。

2.根据权利要求1所述的智能麦克风，其特征在于，还包括连接在声音传感器和AI专用声音处理器之间的音频处理器，所述音频处理器设置在所述半导体封装体的裸片中；

所述声音传感器用于将所述声音信号转化为电信号，并将所述电信号传输至所述音频处理器；

所述音频处理器用于接收所述电信号，将所述电信号转换为所述音频信号，并将所述音频信号传输至所述AI专用声音处理器。

3.根据权利要求2所述的智能麦克风，其特征在于，所述音频处理器包括音频放大器和模数转换器；

所述音频放大器用于对所述电信号进行模拟放大，获得模拟音频信号；

所述模数转换器用于对所述模拟音频信号进行模数转换，获得数字音频信号，并将所述数字音频信号传输至所述AI专用声音处理器；

所述半导体封装体包括第一裸片、第二裸片和第三裸片，所述声音传感器设置在所述第一裸片中，所述音频放大器和所述模数转换器设置在所述第二裸片中，所述AI专用声音处理器设置在所述第三裸片中，所述第一裸片、所述第二裸片和所述第三裸片依次连接。

4.根据权利要求2所述的智能麦克风，其特征在于，所述音频处理器包括音频放大器和模数转换器；

所述半导体封装体包括第一裸片、第四裸片和第五裸片，所述声音传感器设置在所述第一裸片中，所述音频放大器设置在所述第四裸片中，所述模数转换器和所述AI专用声音处理器设置在所述第五裸片中，所述第一裸片、所述第四裸片和所述第五裸片依次连接。

5.根据权利要求2所述的智能麦克风，其特征在于，所述半导体封装体包括第一裸片和第六裸片，所述声音传感器设置在所述第一裸片中，所述音频处理器和所述AI专用声音处理器设置在所述第六裸片中，所述第一裸片和所述第六裸片相互连接。

6.根据权利要求1至5中任意一项所述的智能麦克风，其特征在于，还包括无线传输器，所述无线传输器与所述AI专用声音处理器连接，并设置在同一裸片中；或者所述无线传输器与所述AI专用声音处理器分别设置在不同的裸片中，所述无线传输器与所述AI专用声音处理器所在的两个裸片相互连接；

所述无线传输器用于将所述控制信号通过无线方式发送出去。

7.根据权利要求1所述的智能麦克风，其特征在于，所述AI专用声音处理器包括神经元网络，通过神经元网络对所述音频特征进行判断，若所述音频特征与预设的唤醒特征相匹配，输出所述控制信号。

8.根据权利要求7所述的智能麦克风，其特征在于，所述AI专用声音处理器还包括数字IO接口，通过所述数字IO接口获取神经元网络数据，所述神经元网络数据是经机器学习重组后得到的，其中，神经元网络数据包括针对音频特征的可调权重参数。

9.根据权利要求7所述的智能麦克风，其特征在于，所述AI专用声音处理器包括骨传导识别模块、声纹识别模块、关键词识别模块、命令词识别模块中的至少一种；

所述骨传导识别模块用于通过所述神经元网络识别所述音频特征中的骨传导声纹，若所述骨传导声纹与预设骨传导声纹相匹配，输出与所述骨传导声纹对应的控制信号；

或者，所述声纹识别模块用于通过所述神经元网络识别所述音频特征中的声纹，若所述声纹与预设声纹相匹配，输出所述控制信号；

或者，所述关键词识别模块用于通过所述神经元网络识别所述音频特征中的关键词，若所述关键词与预设关键词相匹配，输出与所述关键词对应的控制信号；

或者，所述命令词识别模块用于通过所述神经元网络识别所述音频特征中的命令词，若所述命令词与预设命令词相匹配，输出与所述命令词对应的控制信号。

10.根据权利要求2所述的智能麦克风，其特征在于，所述音频处理器包括音频放大器和模数转换器；

所述AI专用声音处理器还包括语音检测模块；

若所述语音检测模块为模拟语音检测模块，所述模拟语音检测模块用于从所述音频放大器输出的模拟音频信号中提取第一音频特征，并将所述第一音频特征传输至所述神经元网络；

若所述语音检测模块为数字语音检测模块，所述数字语音检测模块用于从所述模数转换器输出的数字音频信号中提取第二音频特征，并将所述第二音频特征传输至所述神经元网络；

若所述语音检测模块为混合语音检测模块，所述混合语音检测模块用于从所述音频放大器输出的模拟音频信号和所述模数转换器输出的数字音频信号中提取第三音频特征，并将所述第三音频特征传输至所述神经元网络。

11.根据权利要求10所述的智能麦克风，其特征在于，还包括语音数字接口；

所述语音数字接口与所述模数转换器的输出端连接，用于输出所述数字音频信号至所述后端处理器；

或者，所述语音数字接口与自动增益控制器的输出端连接，用于输出所述数字音频信号至所述后端处理器，其中，所述自动增益控制器与所述模数转换器连接。

12.根据权利要求1至5、7至11中任意一项所述的智能麦克风，其特征在于，还包括与所述AI专用声音处理器连接的时钟管理电路，所述时钟管理电路包括晶振接口，用于接收外部时钟信号；

所述时钟管理电路还包括时间处理器和时间寄存器，所述时间寄存器用于在所述AI专用声音处理器根据所述音频特征识别到时间信息时，保存所述时间信息；

所述时间处理器用于在到达所述时间信息对应的晶振时间时，输出中断信号至所述AI专用声音处理器，所述中断信号用于指示所述AI专用声音处理器输出所述控制信号。

13.一种应用如权利要求1至12中任意一项所述的智能麦克风的信号处理方法，其特征在于，包括以下步骤：

通过所述声音传感器采集声音信号，将所述声音信号转化为音频信号，并将所述音频信号传输至所述AI专用声音处理器；

通过所述AI专用声音处理器接收所述音频信号，从所述音频信号中提取音频特征，并根据所述音频特征判断是否输出控制信号，所述控制信号用于唤醒后端处理器，所述后端处理器用于响应智能麦克风采集的声音信号。

14.根据权利要求13所述的信号处理方法，其特征在于，还包括以下步骤：

在通过所述控制信号唤醒所述后端处理器后，通过所述声音传感器采集语音信号，并将所述语音信号转换为语音音频信号，并将所述语音音频信号传输至所述AI专用声音处理器；

通过所述AI专用声音处理器接收所述语音音频信号，从所述语音音频信号中提取语音特征，并根据所述语音特征判断是否输出指令信号，所述指令信号用于指示后端处理器执行相应的操作。