CN114205725A

CN114205725A - 一种无线扩音设备、方法、装置、终端设备及存储介质

Info

Publication number: CN114205725A
Application number: CN202111459101.1A
Authority: CN
Inventors: 王鸣; 李鹏; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2022-03-18

Abstract

本发明涉及一种无线扩音设备、方法、装置、终端设备及存储介质，该设备包括麦克风阵列、扩音器、摄像头、主控芯片，主控芯片与麦克风阵列、摄像头以及扩音器信号连接，该无线扩音方法包括：根据摄像头采集到的实时图像，通过目标跟踪算法实时确定目标说话人的位置信息；根据麦克风阵列采集的语音信号、扩音器的回采信号以及所述目标说话人的位置信息进行语音信号处理；通过扩音器播放经过处理后的语音信号。本发明提供的技术方案，通过摄像头跟踪目标说话人并对其发出的语音信号进行处理后播放，能够解决随身佩戴设备的各种问题，且同样可以达到对特定目标人进行声音放大的目的。

Description

一种无线扩音设备、方法、装置、终端设备及存储介质

技术领域

本发明涉及语音信号处理领域，具体涉及一种无线扩音设备、方法、装置、终端设备及存储介质。

背景技术

现有技术采用讲师随身佩戴扩音设备的方式来实现对特定目标人扩音的需求。这种随身佩戴扩音设备的方式存在美观的问题，且需要考虑佩戴的舒适性和便捷性，以及长时间使用的电池电量问题。

发明内容

本发明提供一种无线扩音设备、方法、装置、终端设备及存储介质，能够解决随身佩戴设备的各种问题，且同样可以达到对特定目标人进行声音放大的目的。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明提供一种无线扩音设备，包括：

麦克风阵列，用于拾音；

扩音器，用于扩音；

摄像头，用于跟踪目标说话人；

主控芯片，用于控制硬件以及运行算法；

所述主控芯片与所述麦克风阵列、所述摄像头以及所述扩音器信号连接。

第二方面，本发明提供一种无线扩音方法，包括：

根据摄像头采集到的实时图像，通过目标跟踪算法实时确定目标说话人的位置信息；

根据麦克风阵列采集的语音信号、扩音器的回采信号以及所述目标说话人的位置信息进行语音信号处理；

通过扩音器播放经过处理后的语音信号。

进一步，在通过目标跟踪算法实时确定目标说话人的位置信息之前，该方法还包括：确定目标说话人的步骤，所述确定目标说话人，具体包括：

提前注册说话人人脸信息，在摄像头检测到说话人的人脸时，自动将其确认为目标说话人，或，

提前设置特定的指令词，通过在主控芯片上运行的语音关键词检测算法检测该指令词；根据麦克风阵列采集的语音信号，通过声源定位算法确定包含该指令词的语音信号的声源方位，控制摄像头在所述声源方位附近检索，找到与所述声源方位最相近的人脸作为目标说话人，或，

将摄像头最先采集到的最大人脸作为目标说话人。

进一步，所述根据麦克风阵列采集的语音信号、扩音器的回采信号以及所述目标说话人的位置信息进行语音信号处理，具体包括：

利用扩音器的回采信号，对麦克风阵列采集到的语音进行回声消除处理，消除扩音器中播放的语音信号信息，防止设备出现啸叫现象；

根据所述目标说话人的位置信息，通过声音定向增强算法对特定方位的人声进行增强，对于非人声噪声以及有效范围外的声音进行抑制，并输出一路增强后的语音信号；

将增强后的语音信号通过自动增益控制算法规整音量大小，并输出给扩音器。

第三方面，本发明提供一种无线扩音装置，包括：

位置确定模块，用于根据摄像头采集到的实时图像，通过目标跟踪算法实时确定目标说话人的位置信息；

语音处理模块，用于根据麦克风阵列采集的语音信号、扩音器的回采信号以及所述目标说话人的位置信息进行语音信号处理；

播放模块，用于通过扩音器播放经过处理后的语音信号。

进一步，该装置还包括：目标说话人确定模块，用于在所述位置确定模块通过目标跟踪算法实时确定目标说话人的位置信息之前，确定目标说话人，所述目标说话人确定模块，具体用于：

将摄像头最先采集到的最大人脸作为目标说话人。

进一步，所述语音处理模块，具体包括：

回声消除单元，用于利用扩音器的回采信号，对麦克风阵列采集到的语音进行回声消除处理，消除扩音器中播放的语音信号信息，防止设备出现啸叫现象；

语音增强单元，用于根据所述目标说话人的位置信息，通过声音定向增强算法对特定方位的人声进行增强，对于非人声噪声以及有效范围外的声音进行抑制，并输出一路增强后的语音信号；

自动增益单元，用于将增强后的语音信号通过自动增益控制算法规整音量大小，并输出给扩音器。

第四方面，本发明提供一种终端设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

第五方面，本发明提供一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上所述的方法。

本发明的有益效果是：

通过摄像头跟踪目标说话人并对其发出的语音信号进行处理后播放，能够解决随身佩戴设备的各种问题，且同样可以达到对特定目标人进行声音放大的目的。

附图说明

图1为本发明实施例提供的一种无线扩音设备的连接结构示意图；

图2为本发明实施例提供的一种无线扩音设备的布置示意图；

图3为本发明实施例提供一种无线扩音方法的完整步骤流程框图；

图4为本发明实施例提供一种无线扩音方法的流程图；

图5是本发明实施例示出的一种计算设备的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的一种无线扩音设备的连接结构示意图，如图1所示，该装置包括：

麦克风阵列，用于拾音；

扩音器，用于扩音；

摄像头，用于跟踪目标说话人；

主控芯片，用于控制硬件以及运行算法；

具体的，该设备适用于目标说话人在有限区域内活动的场景。如图2所示，该设备可安装于演讲台的前上方，可以针对图2中灰色区域空间的目标说话人声音进行增强。

图4为本发明实施例提供一种无线扩音方法的步骤流程图，如图4所示，该方法包括：

401、根据摄像头采集到的实时图像，通过目标跟踪算法实时确定目标说话人的位置信息；

该步骤中采用目标跟踪算法为现有技术，本实施例对其具体原理不作具体说明。

402、根据麦克风阵列采集的语音信号、扩音器的回采信号以及所述目标说话人的位置信息进行语音信号处理；

具体的，在该实施例中，该步骤具体可通过以下具体步骤实现：

4021、利用扩音器的回采信号，对麦克风阵列采集到的语音进行回声消除(AEC)处理，消除扩音器中播放的语音信号信息，防止设备出现啸叫现象；

4022、根据目标说话人的位置信息，通过声音定向增强算法对特定方位的人声进行增强，对于非人声噪声以及有效范围外的声音进行抑制，并输出一路增强后的语音信号；

4023、将增强后的语音信号通过自动增益控制(AGC)算法规整音量大小，并输出给扩音器。

403、通过扩音器播放经过处理后的语音信号。

本发明实施例提供的一种无线扩音方法，通过摄像头跟踪目标说话人并对其发出的语音信号进行处理后播放，能够解决随身佩戴设备的各种问题，且同样可以达到对特定目标人进行声音放大的目的。

可选地，在该实施例中，在通过目标跟踪算法实时确定目标说话人的位置信息之前，该方法还包括：

400、确定目标说话人。

步骤400具体包括：

4001、提前注册说话人人脸信息，在摄像头检测到说话人的人脸时，自动将其确认为目标说话人，或，

4002、提前设置特定的指令词，通过在主控芯片上运行的语音关键词检测算法检测该指令词；根据麦克风阵列采集的语音信号，通过声源定位算法确定包含该指令词的语音信号的声源方位，控制摄像头在所述声源方位附近检索，找到与所述声源方位最相近的人脸作为目标说话人，或，

4003、将摄像头最先采集到的最大人脸作为目标说话人。

具体的，步骤4001采用的是人脸识别的原理来确定目标说话人，步骤4002中的指令词可以是“开始演讲”等，进而采用的是语音关键词检测指令词，并采用声源定位算法寻找声源方位，以便通过摄像头寻找该方位上最相近的人脸；步骤4003所采用的方法是直接采集最大的人脸作为目标说话人的人脸进行人脸注册，采用该步骤的方法时，讲师可在设备开机时，将人脸对准摄像头进行人脸采集。

本发明实施例提供的无线扩音方法的完整步骤流程如图3所示。

与上述方法对应地，本发明实施例提供一种无线扩音装置，该装置中各个功能模块的原理参考上述方法实施例的内容，以下不再赘述，该装置包括：

播放模块，用于通过扩音器播放经过处理后的语音信号。

可选地，在该实施例中，该装置还包括：目标说话人确定模块，用于在所述位置确定模块通过目标跟踪算法实时确定目标说话人的位置信息之前，确定目标说话人，所述目标说话人确定模块，具体用于：

将摄像头最先采集到的最大人脸作为目标说话人。

可选地，在该实施例中，所述语音处理模块，具体包括：

本发明一示例性实施例示出的一种计算设备的结构示意图。

参见图5，计算设备500包括存储器510和处理器520。

处理器520可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器510可以包括各种类型的存储单元，例如***内存、只读存储器(ROM)和永久存储装置。其中，ROM可以存储处理器520或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。***内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。***内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器510可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器510可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器510上存储有可执行代码，当可执行代码被处理器520处理时，可以使处理器520执行上文述及的方法中的部分或全部。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中部分或全部步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤的部分或全部。

上文中已经参考附图详细描述了本发明的方案。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。本领域技术人员也应该知悉，说明书中所涉及的动作和模块并不一定是本发明所必须的。另外，可以理解，本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，本发明实施例装置中的模块可以根据实际需要进行合并、划分和删减。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的***和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种无线扩音设备，其特征在于，包括：

麦克风阵列，用于拾音；

扩音器，用于扩音；

摄像头，用于跟踪目标说话人；

主控芯片，用于控制硬件以及运行算法；

2.一种无线扩音方法，其特征在于，包括：

通过扩音器播放经过处理后的语音信号。

3.根据权利要求2所述的方法，其特征在于，在通过目标跟踪算法实时确定目标说话人的位置信息之前，该方法还包括：确定目标说话人的步骤，所述确定目标说话人，具体包括：

将摄像头最先采集到的最大人脸作为目标说话人。

4.根据权利要求2所述的方法，其特征在于，所述根据麦克风阵列采集的语音信号、扩音器的回采信号以及所述目标说话人的位置信息进行语音信号处理，具体包括：

5.一种无线扩音装置，其特征在于，包括：

播放模块，用于通过扩音器播放经过处理后的语音信号。

6.根据权利要求5所述的装置，其特征在于，还包括：目标说话人选定模块，用于在所述位置确定模块通过目标跟踪算法实时确定目标说话人的位置信息之前，确定目标说话人，所述目标说话人确定模块，具体用于：

将摄像头最先采集到的最大人脸作为目标说话人。

7.根据权利要求5所述的装置，其特征在于，所述语音处理模块，具体包括：

8.一种终端设备，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求2-4中任一项所述的方法。

9.一种非暂时性机器可读存储介质，其上存储有可执行代码，其特征在于，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求2-4中任一项所述的方法。