CN110351690A

CN110351690A - 一种智能语音***及其语音处理方法

Info

Publication number: CN110351690A
Application number: CN201810300017.7A
Authority: CN
Inventors: 陶永耀; 肖凯平
Original assignee: Torch Core (zhuhai) Technology Co Ltd
Current assignee: Torch Core (zhuhai) Technology Co Ltd
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2019-10-18
Anticipated expiration: 2038-04-04
Also published as: CN110351690B

Abstract

本发明实施例提出一种智能语音***，包括蓝牙终端和智能设备；所述蓝牙终端包括麦克风阵列、语音预处理装置、第一传输装置和回放装置；所述智能设备包括第二传输装置和智能处理器；所述第一传输装置包括第一BLE通信装置和第一A2DP通信装置，所述第二传输装置包括第二BLE通信装置和第二A2DP通信装置；所述语音预处理装置和所述麦克风阵列相连，用于对所述麦克风阵列获取的第一音频信号进行预处理后通过所述第一BLE通信装置发送给所述第二BLE通信装置；所述回放装置与所述第一A2DP通信装置相连，用于通过所述第一A2DP通信装置接收所述第二A2DP通信装置发送的第二音频信号。可实现无延迟语音采集。

Description

一种智能语音***及其语音处理方法

技术领域

本发明涉及多媒体技术领域，尤其涉及一种智能语音***及其语音处理方法。

背景技术

随着语音人机交互界面的出现，越来越多的产品需要智能语音的交互。目前市场上的智能语音交互产品都是基于wifi的产品，但wifi功耗大，便携性不好。而且智能手机的发展已经在形成了一个便携式的计算中心。所以依托蓝牙技术实现便携性的智能语音交互产品会是一个重要的发展趋势。而传统蓝牙和手机之间传语音采用的是经典蓝牙的方式，会存在手机经典蓝牙模式频繁切换的问题，导致体验不佳。

经典蓝牙的音频传输是通过HFP(Hands-free Profile，免提配置文件)，和A2DP(Advanced Audio Distribution Profile，蓝牙音频传输模型协定)两种蓝牙profile实现。HFP用在打电话场景，其特点是实时双向语音通信，而A2DP是用在听立体声音乐场景，其特点是单向音频推送。这两种蓝牙的音频通信占用了经典蓝牙的通道，而且在目前的实现中是根据场景相互切换的。所以目前有蓝牙音频产品的语音需求是通过将模式从听歌的A2DP场景切换到HFP的场景进行语音数据采集，这样会有两个问题，1，建立新的***链接需要时间，需要等待接近2秒时间，体验很差。2，采集语音的数据需要在发出采集指令后立即进行采集和传输，旧有的模式切换方式会导致前面的数据丢失。因为旧的手机的智能语音的接入模式是用经典蓝牙的HFP接入，而在播放音乐时候使用A2DP模式。当音乐播放时候发起智能语音输入需求时，需要从A2DP模式切换到HFP模式，这个手机和蓝牙终端建立HFP切换的时间需要接近2秒。而旧的实现方式在建立蓝牙连接时候无法采集语音和上传数据，等到2秒钟后链路建立好了，这2秒钟的语音数据没有被采集到，所以产生数据丢失，和体验不佳的情况。

亟待一种新的语音处理技术解决现有技术的缺陷。

发明内容

基于以上问题，本发明实施例提出一种智能语音***，在原有的A2DP的蓝牙音频通路上不做蓝牙服务的切换，直接实现语音的回传的功能，实现无延迟语音采集。

本发明实施例是这样实现的，一种智能语音***，包括蓝牙终端和智能设备；所述蓝牙终端包括麦克风阵列、语音预处理装置、第一传输装置和回放装置；所述智能设备包括第二传输装置和智能处理器；所述第一传输装置包括第一BLE(Bluetooth Low Energy，蓝牙低能耗)通信装置和第一A2DP通信装置，所述第二传输装置包括第二BLE通信装置和第二A2DP通信装置；所述语音预处理装置和所述麦克风阵列相连，用于对所述麦克风阵列获取的第一音频信号进行预处理后通过所述第一BLE通信装置发送给所述第二BLE通信装置；所述回放装置与所述第一A2DP通信装置相连，用于通过所述第一A2DP通信装置接收所述第二A2DP通信装置发送的第二音频信号。

进一步地，当所述第一A2DP通信装置与所述第二A2DP通信装置进行第二音频信号传输的同时，所述第一BLE通信装置与所述第二BLE通信装置进行第一音频信号传输。

进一步地，所述智能语音***进一步包括语音云服务器，所述语音云服务器与所述智能设备进行远程通信并获取智能设备发送的所述第一音频信号，用于对所述第一音频信号进行处理。

进一步地，所述语音云服务器和所述智能设备之间通过无线网络进行数据传输。

进一步地，所述麦克风阵列为模拟麦克风阵列或数字麦克风阵列，所述麦克风阵列包括1～8个麦克风。

进一步地，所述智能设备为智能手机、平板电脑、智能电视或智能机顶盒。

进一步地，所述语音预处理装置进一步包括：

唤醒装置，与所述麦克风阵列连接，用于唤醒所述语音预处理装置和第一传输装置；

降噪装置，连接在所述麦克风阵列和所述第一传输装置之间，用于对采集到的所述音频信号进行降噪处理；

波束形成装置，与所述麦克风阵列连接，用于加强特定方向的语音采集；

回声消除装置，连接在所述降噪装置和所述第一传输装置之间，用于对采集到的所述音频信号进行回声消除处理。

进一步地，所述智能设备进一步包括：

唤醒装置，用于唤醒所述语音预处理装置和第一传输装置；

降噪装置，用于对采集到的所述音频信号进行降噪处理；

波束形成装置，用于加强特定方向的语音采集。

进一步地，所述第一音频信号为语音控制信号。

根据本发明实施例的另一方面，本发明实施例还提出一种用于智能语音***中的语音处理方法，在原有的A2DP的蓝牙音频通路上不做蓝牙服务的切换，直接实现语音的回传的功能，实现无延迟语音采集。

本发明实施例是这样实现的，一种智能语音***中的语音处理方法，包括如下步骤：(1)蓝牙终端的麦克风阵列获取第一音频信号并发送给语音预处理装置；(2)所述语音预处理装置经过预处理后将所述第一音频信号通过BLE传输协议传输至智能设备；(3)智能设备对所述第一音频信号处理后返回控制信号到所述语音预处理装置。

进一步地，所述第一音频信号通过BLE传输协议传输至智能设备的同时，第二音频信号通过A2DP协议由智能设备传输至蓝牙终端。

采用上述技术方案，具有以下有益效果：本发明实施例提出一种基于ble的智能语音传送技术，和经典蓝牙不冲突，也不需要经典蓝牙旧有的体系切换工作模式来实现采集语音的功能。实现的产品形态是蓝牙音箱和蓝牙耳机等蓝牙音频设备，使其具有更流畅的交互体验。

附图说明

图1是根据本发明一个实施例提供的智能语音***的结构框图；

图2是根据本发明另一实施例提供的智能语音***的结构框图；

图3是根据本发明另一实施例提供的智能语音***中的语音处理方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提出一种智能语音***，参考图1，为本发明实施例提出的智能语音***的结构框图，一种智能语音***，包括蓝牙终端1和智能设备2；所述蓝牙终端1包括麦克风阵列101、语音预处理装置103、第一传输装置102和回放装置104；所述智能设备2包括第二传输装置201和智能处理器202；所述第一传输装置102包括第一BLE通信装置2021和第一A2DP通信装置1022，所述第二传输装置201包括第二BLE通信装置2011和第二A2DP通信装置2012；所述语音预处理装置103和所述麦克风阵列101相连，用于对所述麦克风阵列101获取的第一音频信号进行预处理后通过所述第一BLE通信装置1021发送给所述第二BLE通信装置2011；所述回放装置104与所述第一A2DP通信装置1022相连，用于通过所述第一A2DP通信装置1022接收所述第二A2DP通信装置2012发送的第二音频信号。当所述第一A2DP通信装置1022与所述第二A2DP通信装置2012进行第二音频信号传输的同时，所述第一BLE通信装置1021与所述第二BLE通信装置2011进行第一音频信号传输。

上述所述智能设备为智能手机、平板电脑、智能电视或智能机顶盒。下面以手机为例进行详细说明。

具体来说，当手机端正在利用A2DP模式与蓝牙终端(例如蓝牙音箱)进行连接并播放歌曲时，手机端通过第二A2DP通信装置与蓝牙终端的第一A2DP通信装置进行通信连接将手机端的歌曲(也就是本发明所述的第二音频信号)传输到蓝牙终端，并由蓝牙终端的回放装置进行播放，此时两者之间建立的连接是A2DP协议。当蓝牙终端接收到语音控制请求，也就是第一音频信号时，此时无需通过经典蓝牙传输将第一音频信号发送到手机端，而是通过BLE通道进行数据传输，蓝牙终端的第一BLE通信装置将第一音频信号进行预处理后与手机端的第二BLE通信装置进行连接，并将第一音频信号发送到手机端。由于BLE蓝牙模式与经典蓝牙传输不冲突，所以当多阵列麦克接收到第一音频信号时可直接通过BLE通道进行第一音频信号传输，而无需等待经典模式蓝牙传输协议的切换。

下面以一个具体的实例来对上述本发明实施例进行具体说明，当手机端与蓝牙终端进行连接，蓝牙终端播放手机中的歌曲时，此时两者之间通过A2DP传输装置建立了连接，进行了第二音频数据的传输，单向的由手机端发送到蓝牙终端，蓝牙终端的回放装置进行解码后进行播放。此时，当用户对蓝牙终端发出语音指令：“请播放邓丽君的歌曲”，该语音指令为本发明实施例所述的第一音频信号，此时蓝牙终端的多阵列麦克接收到该语音指令时，由于蓝牙终端的语音预处理装置无法进行识别，所以需要将语音指令传输到手机端或语音云服务器进行识别处理，这样蓝牙终端进行语音预处理后通过手机端与蓝牙终端之间建立的BLE协议立即由蓝牙终端的第一BLE通信装置发送到手机端的第二BLE通信装置，手机端的智能处理器对第一音频信号进行处理后，反馈指令给蓝牙终端，蓝牙终端接收指令开始播放邓丽君的歌曲。而在上述整个BLE传输及反馈指令的过程中，此时A2DP协议连接仍然建立，并未终止，也就是说歌曲仍在播放中。可以理解，如果语音指令为比较简单的指令，例如：播放，停止，增大音量，减小音量，下一首，上一首，接听电话，挂断电话类指令，则可以直接由蓝牙终端进行识别处理。只有语音命令较为复杂，例如：请帮我查找最近加油站在哪里？今天天气如何？等指令时，需要传输到手机端或者语音云服务器进行处理。

本发明提供另一实施例，当手机端智能处理器无法完成语音识别处理的要求时，需要进一步使用语音云服务器3的语音识别功能，本发明实施例在上述***的基础上还进一步包括语音云服务器，所述语音云服务器与所述智能设备进行远程通信并获取智能设备发送的所述第一音频信号，用于对所述第一音频信号进行处理。所述语音云服务器和所述智能设备之间通过无线网络进行数据传输。根据语音计算量的大小，通常简单的语音处理在手机端智能处理器可以完成，可以满足大部分前端设备的语音识别功能应用，但是在手机端智能处理器仍不能满足运算或处理的情况下，可以利用语音云服务器完成。

根据本发明实施例，所述麦克风阵列为模拟麦克风阵列或数字麦克风阵列，通常麦克风阵列包括1～8个麦克风，这是标准的远场语音采集的配置，通常状态下一般会使用2个麦克风组成麦克风阵列，在某些安静情况下的只使用1个麦克风也可以。

本发明还提供另一实施例，所述语音预处理装置进一步包括：

唤醒装置1031，与所述麦克风阵列连接，用于唤醒所述语音预处理装置和第一传输装置；

降噪装置1032，连接在所述麦克风阵列和所述第一传输装置之间，用于对采集到的所述音频信号进行降噪处理；

波束形成装置1033，与所述麦克风阵列连接，用于加强特定方向的语音采集；

回声消除装置1034，连接在所述降噪装置和所述第一传输装置之间，用于对采集到的所述音频信号进行回声消除处理。

本发明提供的实施例，为了提供更进一步的高级的语音处理，如图2所示，语音预处理装置103进一步包括唤醒装置1031，与所述麦克风阵列101连接，用于唤醒所述语音预处理装置103和第一传输装置102。所述语音预处理装置103进一步包括降噪装置1032，连接在所述麦克风阵列101和所述第一传输装置102之间，用于对采集到的所述音频信号进行降噪处理。所述语音预处理装置103进一步包括波束形成装置1033，与所述麦克风阵列101连接，用于麦克风阵列101加强特定方向的语音采集。所述语音预处理装置103进一步包括回声消除装置1034，连接在所述降噪装置1032和所述编码装置1035之间，用于对采集到的所述第一音频信号进行回声消除处理。上述唤醒装置用于麦克风阵列采集的语音信号，根据能量，或人声的特征(过零点检测，频谱分析等)，确定开启语音唤醒的算法，对比输入的语音和之前大批量训练序列的最大似然算法，确定语音输入是否为唤醒词，如果是则开启后续处理。上述波束形成装置1033，用于对有多麦克语音输入时候的各麦克的语音数据的时延和相位差，来判断声音信号相对麦克阵列的输入方向，并依据此信息，确定降噪装置的参数。上述降噪装置1032，根据波束形成算法的降噪参数，或预定的降噪方向图曲线，对不同方向上的信号做加强或减弱，突出最近一次方向上的信号强度。同时根据人声和环境音(周期噪声，音乐)的频谱差异，和时域相关性的差异，对信号做频域或时域的处理，将人声从背景音，或噪声中提取和加强出来。上述回声消除装置1034，当回放模块存在时，从回放解码出来的数据，加上预定，或预测的传递函数的处理，在麦克采集的数据中将喇叭放出的声音的反射部分消除掉，得到无回声的干净人声。

可以理解，当语音语音预处理装置的计算能力不足，不适于进行上述处理时，可以将唤醒装置、降噪装置、波束形成装置设置在智能设备中2进行处理，降低语音预处理装置103的运算量。智能设备进一步包括：唤醒装置，用于唤醒所述语音预处理装置和第一传输装置；降噪装置，用于对采集到的所述音频信号进行降噪处理；波束形成装置，用于加强特定方向的语音采集。上述装置可以设置在智能设备的智能处理器中。

本发明实施例是这样实现的，一种智能语音***中的语音处理方法，如图3所示，包括如下步骤：(S101)蓝牙终端的麦克风阵列获取第一音频信号并发送给语音预处理装置；(S102)所述语音预处理装置经过预处理后将所述第一音频信号通过BLE传输协议传输至智能设备；(S103)智能设备对所述第一音频信号处理后返回控制信号到所述语音预处理装置。

所述第一音频信号通过BLE传输协议传输至智能设备的同时，第二音频信号通过A2DP协议由智能设备传输至蓝牙终端。

下面以手机为例进行详细说明。

具体来说，当手机端正在利用A2DP模式与蓝牙终端进行连接并播放歌曲时，手机端通过第二A2DP通信装置与蓝牙终端的第一A2DP通信装置进行通信连接将手机端的歌曲(也就是本发明所述的第二音频信号)传输到蓝牙终端，并由蓝牙终端的回放装置进行播放，此时两者之间建立的连接是A2DP协议。蓝牙终端的麦克风阵列获取第一音频信号并发送给语音预处理装置；语音预处理装置经过预处理后将所述第一音频信号通过BLE传输协议传输至手机端；手机端智能处理器对所述第一音频信号进行识别后返回控制信号到所述语音预处理装置，语音预处理装置获得返回的控制信号后对蓝牙终端进行按照第一音频信号进行控制。当蓝牙终端接收到语音控制请求，也就是第一音频信号时，此时无需通过经典蓝牙传输将第一音频信号发送到手机端，而是通过BLE通道进行数据传输，蓝牙终端的第一BLE通信装置将第一音频信号进行预处理后与手机端的第二BLE通信装置进行连接，并将第一音频信号发送到手机端。由于BLE蓝牙模式与经典蓝牙传输不冲突，所以当多阵列麦克接收到第一音频信号时可直接通过BLE通道进行第一音频信号传输，而无需等待经典模式蓝牙传输协议的切换。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种智能语音***，其特征在于，包括蓝牙终端和智能设备；所述蓝牙终端包括麦克风阵列、语音预处理装置、第一传输装置和回放装置；所述智能设备包括第二传输装置和智能处理器；所述第一传输装置包括第一BLE通信装置和第一A2DP通信装置，所述第二传输装置包括第二BLE通信装置和第二A2DP通信装置；所述语音预处理装置和所述麦克风阵列相连，用于对所述麦克风阵列获取的第一音频信号进行预处理后通过所述第一BLE通信装置发送给所述第二BLE通信装置；所述回放装置与所述第一A2DP通信装置相连，用于通过所述第一A2DP通信装置接收所述第二A2DP通信装置发送的第二音频信号。

2.根据权利要求1所述的智能语音***，其特征在于，当所述第一A2DP通信装置与所述第二A2DP通信装置进行第二音频信号传输的同时，所述第一BLE通信装置与所述第二BLE通信装置进行第一音频信号传输。

3.根据权利要求2所述的智能语音***，其特征在于，所述智能语音***进一步包括语音云服务器，所述语音云服务器与所述智能设备进行远程通信并获取智能设备发送的所述第一音频信号，用于对所述第一音频信号进行处理。

4.根据权利要求3所述的智能语音***，所述语音云服务器和所述智能设备之间通过无线网络进行数据传输。

5.根据权利要求1所述的智能语音***，其特征在于，所述麦克风阵列为模拟麦克风阵列或数字麦克风阵列，所述麦克风阵列包括1～8个麦克风。

6.根据权利要求1所述的智能语音***，其特征在于，所述智能设备为智能手机、平板电脑、智能电视或智能机顶盒。

7.根据权利要求1～6任一所述的智能语音***，其特征在于，所述语音预处理装置进一步包括：

8.根据权利要求1～6任一所述的智能语音***，其特征在于，所述智能设备进一步包括：

唤醒装置，用于唤醒所述语音预处理装置和第一传输装置；

降噪装置，用于对采集到的所述音频信号进行降噪处理；

波束形成装置，用于加强特定方向的语音采集。

9.根据权利要求1～6任一所述的智能语音***，其特征在于，所述第一音频信号为语音控制信号。

10.一种用于智能语音***中的语音处理方法，其特征在于，包括如下步骤：

(1)蓝牙终端的麦克风阵列获取第一音频信号并发送给语音预处理装置；

(2)所述语音预处理装置经过预处理后将所述第一音频信号通过BLE传输协议传输至智能设备；

(3)智能设备对所述第一音频信号处理后返回控制信号到所述语音预处理装置。

11.根据权利要求10所述的语音处理方法，其特征在于，所述第一音频信号通过BLE传输协议传输至智能设备的同时，第二音频信号通过A2DP协议由智能设备传输至蓝牙终端。