CN111161749B

CN111161749B - 可变帧长的拾音方法、电子设备、计算机可读存储介质

Info

Publication number: CN111161749B
Application number: CN201911366399.4A
Authority: CN
Inventors: 陈洪太; 吴长凤; 闫荣辉
Original assignee: Cosonic Intelligent Technologies Co Ltd
Current assignee: Cosonic Intelligent Technologies Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2023-05-23
Anticipated expiration: 2039-12-26
Also published as: CN111161749A

Abstract

本发明涉及一种可变帧长的拾音方法、电子设备、计算机可读存储介质，用于动态选取合适的音频帧时长，使***既能保障语音识别成功率，又能满足信号处理及低时延的要求，其中方法包括：步骤A.从音频传输链路建立之刻起，每隔设定的音频帧时长，截取该时间段内所拾音的混合信号，并从中提取人声信号作为音频包进行音频传输；步骤B.在音频传输链路建立之后，实时检测人声停顿间隔；步骤C.每当检测到人声停顿间隔时，在该间隔内拾取音频更新至噪声样本，并判断噪声样本的幅值变化趋势，若新噪声样本的幅值比前一噪声样本大，则增大此后发送的音频包的音频帧时长，若新噪声样本的幅值比前一噪声样本小，则降低此后发送的音频包的音频帧时长。

Description

可变帧长的拾音方法、电子设备、计算机可读存储介质

技术领域

本发明涉及耳机播音领域，尤其涉及一种可变帧长的拾音方法、电子设备、计算机可读存储介质。

背景技术

见图1，智能语音交互类蓝牙产品，包括音箱、耳机等，需要拾取本地麦克风信号进行降噪处理，然后通过蓝牙将信号发送给移动设备，由移动设备将语音信号发送给远端设备进行语音识别。

传统的声音上行链路，为了保证通信的实时性，一般采用音频帧时长为20ms间隔的音频包，通过FIFO机制，不断对拾音信号进行接收并发送。

上述这种方式，对于信噪比较高的低噪声环境来说，由于人声信号相对于噪声信号较大，并没有太大问题，但对于高噪声环境而言，由于人声信号大部分被噪声信号湮没，仅通过20ms的时间间隔，所提取的人声信号的特征分析时长并不足以让远端设备进行准确地语音识别，导致远端设备的语音识别成功率较低。

上述问题可以通过增大音频帧时长来解决，但太长的音频帧时长，对应的编解码及信号处理时间就越长，***的通信时延就会越大，这是与实时语音交互相背离的。

因此，对于智能语音交互类蓝牙产品而言，如何选取合适的音频帧时长，使***(指智能语音交互类蓝牙产品、移动设备、远端设备构成的整体架构)既能保障语音识别成功率，又能满足信号处理及低时延的要求，是待需解决的问题。

发明内容

本发明为改善现有技术中的不足之处，而提供一种可变帧长的拾音方法、电子设备、计算机可读存储介质，旨在动态选取合适的音频帧时长，使***既能保障语音识别成功率，又能满足信号处理及低时延的要求。

为此，提供一种可变帧长的拾音方法，包括：

步骤A.从音频传输链路建立之刻起，每隔设定的音频帧时长，截取该时间段内所拾音的混合信号，并从中提取人声信号作为音频包进行音频传输；

步骤B.在音频传输链路建立之后，实时检测人声停顿间隔；

步骤C.每当检测到人声停顿间隔时，在该间隔内拾取音频更新至噪声样本，并判断噪声样本的幅值变化趋势，若新噪声样本的幅值比前一噪声样本大，则增大此后发送的音频包的音频帧时长，若新噪声样本的幅值比前一噪声样本小，则降低此后发送的音频包的音频帧时长。

进一步地，步骤A中，提取人声信号的方法包括：

拾取完音频包中的混合信号后，将此前更新的噪声样本与该混合信号分别转换至频域进行频谱相减，再将相减所得波形转换至时域，从而获得该音频包的人声信号。

进一步地，步骤A进一步包括：

在开始建立音频传输链路之刻到成功建立音频传输链路之刻的时间空挡内，拾取音频作为初始的噪声样本。

进一步地，在步骤C中，若新噪声样本的幅值比前一噪声样本大，还将人声信号进行信号幅度放大。

进一步地，在步骤B中，采用VAD算法来检测人声停顿间隔。

进一步地，所述人声停顿间隔包括思考时间、静默时间及语气词消耗时间中的一者或多者。

进一步地，在步骤A中，上传音频包时，将声停顿间隔从音频包中删除。

进一步地，以固定步进，对音频帧时长进行增大或降低。

还提供一种电子设备，其中，该电子设备包括：

控制器；以及，

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述控制器实现上述的方法。

还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被控制器执行时，实现上述的方法。

有益效果：

本发明根据噪声样本的幅值变化趋势，动态调整音频帧时长，从而在高噪声环境下使音频帧时长增大，人声信号的特征分析时长增多，以满足远端设备语音识别的分析要求，保障远端设备语音识别的成功率，而在低噪声环境下使音频帧时长降低，提高语音交互的实时性，实现既能保障语音识别成功率，又能满足信号处理及低时延的要求。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了现有技术中语音交互类蓝牙产品、移动设备、远端设备三者通信的***架构；

图2示出了本发明的拾音方法的流程图；

图3示出了实施例中示例的控制流程；

图4为本发明的电子设备的结构示意图；

图5为本发明的计算机可读存储介质的结构示意图。

具体实施方式

本实施例中，智能语音交互类蓝牙产品(如音箱、耳机等)的硬件架构与现有技术相同，均如图1所示，包括蓝牙控制器和电连接蓝牙控制器的麦克风阵列，其中：

麦克风阵列用于拾取本地音频信号；

蓝牙控制器一方面内置语音分析及消噪算法，用于对麦克风阵列所拾取的音频信号进行降噪处理，从而获得人声信号，另一方面与移动设备端通过BT建立SCO连接，从而实现语音交互时的上下行链路音频传输。

链路建立后，蓝牙控制器将降噪处理所获得的人声信号上传至移动设备，由移动设备通过WIFI/LTE方式将人声信号发送给远端设备，由远端设备进行语音识别。

蓝牙控制器实施降噪处理的过程中，执行存储在存储器中的计算机可执行指令，计算机可执行指令被执行时，实现如图2所示的可变帧长的拾音方法，具体地，所述拾音方法包括以下步骤：

步骤S11.由于在刚开始建立音频传输链路时，一般不会立即进行语音交互，此时若进行拾音，则可采集到无人声信号而只有噪声信号的音频，藉此，在步骤S11中，蓝牙控制器利用从开始建立音频传输链路之刻到成功建立音频传输链路之刻的这段时间空挡，在该时间空挡内进行拾音，并以所拾取音频为初始的噪声样本，分析噪声样本的时域幅值和频谱等特征。

步骤S12.音频传输链路建立之后，蓝牙控制器继续拾音，此时认为所拾取的音频为噪声信号加人声的混合信号，并从音频传输链路建立之刻起，以20ms为音频帧时长，每隔20ms，提取该时间段内所拾取的混合信号打包成音频包，然后利用噪声信号与人声信号在频域具有加性的特点，将噪声样本与音频包中的混合信号分别转换至频域进行频谱相减，再将相减所得波形转换至时域，使音频包中只留有人声信号，此后通过FIFO机制将音频包上传至移动设备，由移动设备发给远端设备进行语音识别。

为解决高噪声环境下远端设备的语音识别成功率问题，在步骤S12中进一步设置下述子步骤：

子步骤S121.在音频传输链路建立之后，直至语音交互结束为止，并行运行VAD算法来实时检测语音交互时的人声停顿间隔，其中人声停顿间隔包括但不限于思考时间、静默时间及语气词消耗时间等；

子步骤S122.检测到人声停顿间隔时，实时将该间隔内所拾取的音频更新为新噪声样本，接着对间隔所在的音频包，以新噪声样本进行频谱计算，从而保障相减后所得人声信号的准确率，此后，分析噪声样本的幅值变化趋势，根据幅值变化趋势进行音频帧时长及音频增益控制，具体为：

若新噪声样本的幅值较之前一噪声样本大，则意味着噪声信号变强，此时需要控制蓝牙控制器增大此后发送的音频包的音频帧时长，该步骤所具有的好处有两方面，一是使此后的音频包能更大概率地包含人声停顿间隔，从而在高噪声环境下频繁更新噪声样本，保障频谱相减所得的人声信号准确，二也是更重要的是，使此后的音频包中，相减所得的人声信号的特征分析时长增多，以满足远端设备语音识别的分析要求，保障远端设备语音识别的成功率，

音频帧时长增大后，还需要控制蓝牙控制器将频谱计算所得的人声信号进行信号幅度放大，以弥补高噪声环境下频谱相减所得的人声信号幅度较低的缺陷。

若新噪声样本的幅值较之前一噪声样本小，则意味着噪声变弱，人声信号所占比例升高，此时远端设备无需太长的音频帧时长也能容易识别语音，因此，控制蓝牙控制器降低此后发送的音频包的音频帧时长，从而提高语音交互的实时性。

进一步地，蓝牙控制器上传音频包时，可将思考时间、静默时间及语气词消耗时间等人声停顿间隔从音频包中进行裁剪删除，从而降低数据的收发及对通信带宽的要求，提高语音交互的效率。

示例：

见图3，假设开始建立音频传输链路之刻为A，成功建立音频传输链路之刻B，初始音频帧时长为20ms，使用时，蓝牙控制器拾取时间段A-B之间的噪声e1，以噪声e1为噪声样本。

B刻之后，蓝牙控制器继续拾取，同时并行运行VAD算法检测人声停顿间隔。

在C刻时，蓝牙控制器将时间段B-C之间(20ms)的混合信号打包成音频包O1，然后在频域进行O1-e1，获得人声进行上传。

在D刻时，蓝牙控制器将时间段C-D之间(20ms)的混合信号打包成音频包O2，假设在时间段C-D之间检测到人声停顿间隔d1，则将在间隔d1之间拾取的噪音e2更新为新噪声样本，然后在频域进行O2-e2，获得人声进行上传，此后，比较e1与e2的幅值，若e2>e1，则将音频帧时长修改为20+5＝25ms。

在E刻时，蓝牙控制器将时间段D-E之间(25ms)的混合信号打包成音频包O3，假设在时间段D-E之间检测到人声停顿间隔d2，则将在间隔d2之间拾取的噪音e3更新为新噪声样本，然后在频域进行O3-e3，获得人声进行上传，此后，比较e2与e3的幅值，若e3>e2，则将音频帧时长修改为25+5＝30ms。

在F刻时，蓝牙控制器将时间段E-F之间(30ms)的混合信号打包成音频包O4，假设在时间段E-F之间检测到人声停顿间隔d3，则将在间隔d3之间拾取的噪音e4更新为新噪声样本，然后在频域进行O4-e4，获得人声进行上传，此后，比较e3与e4的幅值，若e4<e3，则将音频帧时长修改为30-5＝25ms。

……

本实施例的方法根据噪声样本的幅值变化趋势，动态调整音频帧时长，从而在高噪声环境下使音频帧时长增大，人声信号的特征分析时长增多，以满足远端设备语音识别的分析要求，保障远端设备语音识别的成功率，而在低噪声环境下使音频帧时长降低，提高语音交互的实时性，实现既能保障语音识别成功率，又能满足信号处理及低时延的要求。

需要说明的是：

每次音频帧时长增大或降低的程度可以采用固定步进，如一次5ms增减；

步骤S12中的频谱相减也可放在移动设备上执行，不限定必须在智能语音交互类蓝牙产品上执行；

本实施例中，麦克风阵列可以是单麦、双麦或多麦克风。

本实施例所用的方法，可转化为可存储于计算机存储介质中的程序步骤及装置，通过被控制器调用执行的方式进行实施。

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的检测电子设备的佩戴状态的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图4示出了根据本发明一个实施例的电子设备的结构示意图。该电子设备传统上包括处理器41和被安排成存储计算机可执行指令(程序代码)的存储器42。存储器42可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器42具有存储用于执行实施例中的任何方法步骤的程序代码44的存储空间43。例如，用于程序代码的存储空间43可以包括分别用于实现上面的方法中的各种步骤的各个程序代码44。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图5所述的计算机可读存储介质。该计算机可读存储介质可以具有与图4的电子设备中的存储器42类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元存储有用于执行根据本发明的方法步骤的程序代码51，即可以由诸如41之类的处理器读取的程序代码，当这些程序代码由电子设备运行时，导致该电子设备执行上面所描述的方法中的各个步骤。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.可变帧长的拾音方法，其特征在于，包括：

步骤B.在音频传输链路建立之后，实时检测人声停顿间隔；

2.根据权利要求1所述的方法，其特征在于，步骤A中，提取人声信号的方法包括：

3.根据权利要求2所述的方法，其特征在于：步骤A进一步包括：

4.根据权利要求2所述的方法，其特征在于：在步骤C中，若新噪声样本的幅值比前一噪声样本大，还将人声信号进行信号幅度放大。

5.根据权利要求1所述的方法，其特征在于：在步骤B中，采用VAD算法来检测人声停顿间隔。

6.根据权利要求1所述的方法，其特征在于：所述人声停顿间隔包括思考时间、静默时间及语气词消耗时间中的一者或多者。

7.根据权利要求1所述的方法，其特征在于：在步骤A中，上传音频包时，将人声停顿间隔从音频包中删除。

8.根据权利要求1所述的方法，其特征在于：以固定步进，对音频帧时长进行增大或降低。

9.计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现如权利要求1-8任一项所述的方法。

10.电子设备，其中，该电子设备包括：

控制器；以及，

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述控制器实现如权利要求1-8任一项所述的方法。