CN103578468A

CN103578468A - 一种语音识别中置信度阈值的调整方法及电子设备

Info

Publication number: CN103578468A
Application number: CN201210272154.7A
Authority: CN
Inventors: 戴海生; 王茜莺; 汪浩
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2012-08-01
Filing date: 2012-08-01
Publication date: 2014-02-12
Anticipated expiration: 2032-08-01
Also published as: CN103578468B

Abstract

本发明提供一种语音识别中置信度阈值的调整方法及电子设备。该方法应用于一支持语音识别的电子设备中，所述语音识别当前的置信度阈值为第一值，所述方法包括：检测N个参数，获得N个检测结果，其中，N为大于等于1的整数；至少基于所述N个检测结果中的一个检测结果调整所述置信度阈值，使得所述置信度阈值从所述第一值变为第二值，其中，所述第二值为与所述第一值相同或不同的值。

Description

一种语音识别中置信度阈值的调整方法及电子设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音识别中置信度阈值的调整方法及电子设备。

背景技术

随着电子设备技术的发展，各种各样的电子设备进入了用户的生活，随着语音识别技术的发展，用户通过语音控制电子设备或者与电子设备进行语音交互的场景越来越多，给人们的生活带来了极大的便利。

在语音控制或者语音交互的情形下，语音识别是很重要的一步，在语音识别的过程中，需要对识别结果进行确认，即将识别结果的置信度得分与置信度阈值进行比较，决定是否接受识别结果，当确认识别结果的置信度得分大于置信度阈值时，就接受该识别结果，否则就拒绝该识别结果。

然而，本发明人在实现本发明实施例中的技术方案的过程中发现，现有技术中的置信度阈值不管在什么情况下都固定不变，例如在环境比较嘈杂时，由于语音信号受到噪声的污染，导致识别结果的置信度得分下降，所以如果还按照原本的高阈值来判定的话，就会增加漏报率，即错误拒绝的比例会增加；或者当前的置信度阈值设置的比较低，而环境比较安静，识别结果的置信度得分偏高，这时还按照低阈值来确认的话，就增加误报率，即错误接受的比例会增加，使得语音识别的性能下降。

发明内容

本发明提供一种语音识别中置信度阈值的调整方法及电子设备，用以解决现有技术中存在的语音识别的置信度阈值固定不变，使得语音识别的性能较低的技术问题。

本发明一方面提供了一种语音识别中置信度阈值的调整方法，应用于一支持语音识别的电子设备中，所述语音识别当前的置信度阈值为第一值，所述方法包括：检测N个参数，获得N个检测结果，其中，N为大于等于1的整数；至少基于所述N个检测结果中的一个检测结果调整所述置信度阈值，使得所述置信度阈值从所述第一值变为第二值，其中，所述第二值为与所述第一值相同或不同的值。

优选地，所述检测N个参数，具体为：检测所述电子设备所处的环境噪声参数；检测所述电子设备所处的工作场景复杂参数；和/或检测语音识别后的待确认语句的长度参数。

优选地，所述至少基于所述N个检测结果中的一个检测结果调整所述置信度阈值，具体包括：基于所述环境噪声参数、环境噪声参数和置信度阈值的对应关系进行调整；基于所述工作场景复杂参数、工作场景复杂参数和置信度阈值的对应关系进行调整；和/或基于所述长度参数、长度参数和置信度阈值的对应关系进行调整。

优选地，在所述检测N个参数之前，所述方法还包括：接收第一语音输入；识别所述第一语音输入，获得第一识别结果。

优选地，基于所述第二值判断是否接受所述第一识别结果。

本发明一实施例还提供一种电子设备，支持语音识别，所述语音识别当前的置信度阈值为第一值，所述电子设备包括：电路板；检测芯片，电性连接于所述电路板，用于检测N个参数，获得N个检测结果，其中，N为大于等于1的整数；处理芯片，设置在所述电路板上，用于至少基于所述N个检测结果中的一个检测结果调整所述置信度阈值，使得所述置信度阈值从所述第一值变为第二值，其中，所述第二值为与所述第一值相同或不同的值。

优选地，所述检测芯片具体用于检测所述电子设备所处的环境噪声参数；检测所述电子设备所处的工作场景复杂参数；和/或检测语音识别后的待确认语句的长度参数。

优选地，所述处理芯片具体用于基于所述环境噪声参数、环境噪声参数和置信度阈值的对应关系调整所述置信度阈值；基于所述工作场景复杂参数、工作场景复杂参数和置信度阈值的对应关系调整所述置信度阈值；和/或基于所述长度参数、长度参数和置信度阈值的对应关系调整所述置信度阈值。

优选地，所述电子设备还包括：一声音采集单元，用于在所述检测芯片检测N个参数之前，接收第一语音输入；语音识别芯片，用于识别所述第一语音输入，获得第一识别结果。

优选地，所述语音识别芯片具体还用于基于所述第二值判断是否接受所述第一识别结果。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明一实施例采用实时检测一个或多个参数（例如环境、场景、语句本身），获得一个或多个检测结果，然后根据这些结果中的一个或多个检测结果对置信度阈值进行调整，使得置信度阈值能够从第一值变为第二值，其中，第二值为与第一值相同或不同的值。如此一来，置信度阈值能够根据不同的环境、场景或者不同的语句变为适应环境、场景或者语句的置信度阈值，所以使得语音识别率更高，语音识别的性能更好。

进一步，本发明一实施例中还基于调整过的置信度阈值判断是否接受识别结果，即先实时调整置信度阈值，然后根据调整后的置信度阈值进行判断识别结果的是否可信，所以对识别结果的判断更合理，更准确。

附图说明

图1为本发明一实施例中的控制电子设备的方法流程图；

图2为本发明一实施例中的电子设备的功能框图。

具体实施方式

本发明实施例中的技术方案为解决上述的技术问题，总体思路如下：

通过实时检测一个或多个参数（例如环境、场景、语句本身），获得一个或多个检测结果，然后根据这些结果中的一个或多个检测结果对置信度阈值进行调整，使得置信度阈值能够从第一值变为第二值，其中，第二值为与第一值相同或不同的值。如此一来，置信度阈值能够根据不同的环境、场景或者不同的语句变为适应环境、场景或者语句的置信度阈值，所以使得语音识别率更高，语音识别的性能更好。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明一实施例提供一种语音识别中置信度阈值的调整方法，应用于一支持语音识别的电子设备上，该电子设备例如是手机、平板电脑、笔记本电脑等电子设备，该语音识别当前的置信度阈值为第一值，例如为80。

请参考图1，该方法包括：

步骤101：检测N个参数，获得N个检测结果，其中，N为大于等于1的整数；

步骤102：至少基于N个检测结果中的一个检测结果调整置信度阈值，使得置信度阈值从第一值变为第二值，其中，第二值为与第一值相同或不同的值。

其中，在步骤101中，检测N个参数，在具体实施过程中，N个参数的类别，即需要检测哪些参数，可以是用户通过一用户界面事先设置好的，例如对置信度得分影响比较大的环境噪声参数、工作场景复杂参数、和/或待确认语句的长度参数。在其他实施例中，也可以是其他影响置信度得分的参数，本领域技术人员可以根据实际需要进行设置。

在本实施例中，检测N个参数，具体可以是检测电子设备所处的环境噪声参数；检测电子设备所处的工作场景复杂参数；和/或测语音识别后的待确认语句的长度参数。即可以只检测其中一个参数，也可以检测上述所有参数。

其中，环境噪声参数可以是噪声的分贝，或者是当接收一语音输入时，检测该语音输入的信噪比，当信噪比或分贝比较大时，说明对该语音输入的识别结果的得分会比较低，所以这时需要检测环境噪声参数。

而工作场景复杂参数可以是事先对电子设备的每个工作场景复杂度进行评估，针对每个工作场景，都对应一个复杂系数，该复杂系数即可作为复杂参数，电子设备可以判断自己当前处于哪个工作场景，进而获得该工作场景下的复杂参数。

而待确认语句的长度参数，也可以事先进行训练，即训练词表中的每个语句的语句长度值，可以根据语句所包含的音素的个数来确定，或者根据包含的汉字的个数来确定。

进一步，还训练N个参数和置信度阈值之间的对应关系，在本实施例中，继续以N个参数为上述三个参数为例进行说明。

首先，当环境噪声参数为分贝或者信噪比的时候，对于噪声分贝而言，可以确定一个分贝范围出来，该分贝范围可以是该电子设备可能在的最安静的环境分贝到最嘈杂的环境的环境分贝，也可以是其他的分贝范围，然后在这个分贝范围内针对每个分贝作相同的或不同的语音识别训练，计算对应分贝下的语音识别的识别结果的置信度值，最后会获得在该分贝下的一系列置信度值，然后可以取这一系列置信度值的平均值，作为对应分贝的置信度阈值，最终会形成一个分贝与置信度值的对应关系表。当然，在实际应用时，也可以取这一系列置信度值的最低值，也可以取这一系列置信度值的最高值，或者可以取中间的某个值置信度值，而使得高于或等于该置信度值的置信度值的比例达到80%或者其他比例，例如，训练得到的一系列的置信度值为80、81、82、78、79，那这时取79，所以根据统计学分析来看，如果将置信度阈值设置为79，那么在该分贝下，将会有80%的识别结果都会被接受。

进一步，可以对该分贝与置信度值对应关系表进行进一步分析，会获得一个分贝与置信度阈值之间的函数关系式，当然也可以直接对分贝和置信度值进行多次训练，获得分贝与置信度阈值之间的函数关系式。

类似的，当环境噪声参数为信噪比的时候，可以训练0至1的信噪比的范围下的置信度阈值，针对范围内每个信噪比，都会获得一系列的置信度值，然后可以取这一系列置信度值的平均值，作为对应信噪比的置信度阈值，最终会形成一个分贝与置信度阈值的对应关系表。当然，也可以如分贝的情况，根据在该信噪比下置信度值的分布情况取其他的置信度阈值。

进一步，同样也可以获得信噪比与置信度阈值之间的函数关系式。

另外，环境噪声变大，即分贝变大，信噪比下降，导致正常语音的置信度得分下降，所以需要下调置信度阈值，避免错误拒绝增多，所以最后训练的结果会是置信度阈值随着分贝的增大、信噪比的下降而下降，进而可以减少错误拒绝，而具体下调的量可以通过上述的训练方法获得。

对于工作场景复杂参数和长度参数对应的置信度阈值也可以按照上述训练方式进行训练，例如语句的长度参数，对于具有同样长度参数的多个语句进行语音识别，并计算识别结果的置信度值，得到该长度参数下的置信度值分布情况，进而可以得到对应的置信度阈值或者是长度参数和置信度阈值的函数关系式。

另外，工作场景的变化，例如进入一个复杂的场景，语音识别的置信度得分可能会变高也可能会变低，所以置信度阈值可能会调高也可能会调低，以及调整的量可以通过上述的训练方式获得，使得置信度阈值和工作场景匹配，即使得错误拒绝和错误接受减少。对于待确认语句的长度的变化而言，与工作场景的变化情形类似，在此不再赘述。

上述介绍的各种训练方法，既可以是出厂前厂商训练好的模型，或者第三方厂商训练好的模型，也可以是电子设备根据具体使用情况，逐渐训练的过程，例如每次在语音识别时，电子设备可以检测N个参数，并记录N个检测结果，然后再对应记录在这些检测结果下，语音识别结果的置信度的得分，然后就会获得一系列置信度值，即获得一个置信度值分布，电子设备进行统计分析、或者计算，例如按照取这一系列置信度值的平均值的原则或者取中间的某个值置信度值，而使得高于或等于该置信度值的置信度值的比例达到80%或者其他比例的原则，或者其他原则，自动建立并更新参数与置信度阈值的对应关系表或者函数关系式。如此一来，电子设备可以通过学习、训练，自动更新对应关系表或者函数关系式，使得调整后的置信度阈值更加符合实际情况，从而也使得语音识别的性能得到提高。

上述分别介绍了不同的参数各自的训练方法，但是也可以将不同的参数综合起来一起训练，最后得到多个参数和置信度阈值的对应关系，包括对应表或者函数关系式。进一步，对于其他参数也可以按照上述训练方式进行训练，为了说明书的简洁，在此不再赘述。

当然，上述训练方式只为举例，并非用于限制本发明，在具体实施过程中，本领域技术还可以采用其他训练方式进行训练。

在步骤102中，至少基于N个检测结果中的一个检测结果调整置信度阈值，在一实施例中，步骤S102具体可以包括：

基于N个检测结果中的至少一个检测结果，查询N个参数中至少一个参数的参数和置信度阈值的对应关系表，其中，N个参数中至少一个参数与N个检测结果中的至少一个检测结果分别对应；

在参数和置信度阈值的对应关系表中确定出与至少一个检测结果对应的置信度阈值；

将与至少一个检测结果对应的置信度阈值设置为语音识别的置信度阈值。

具体来说，就是直接根据检测结果查询前述实例中所描述的对应关系表，因为每个参数或多个参数对应一个置信度阈值，只要将该对应关系表中的置信度阈值设为语音识别的置信度阈值即可。调整后的置信度阈值可能和调整前的相同，也可能不相同。

在另一实施例中，步骤S102具体可以包括：

基于N个检测结果中的至少一个检测结果，获取N个参数中至少一个参数的参数和置信度阈值之间的函数关系式，其中，N个参数中至少一个参数与N个检测结果中的至少一个检测结果分别对应；

将至少一个检测结果代入所述函数关系式进行计算，获得一计算置信度阈值；

将该计算置信度阈值设置为语音识别的置信度阈值。

具体来说，是通过上述实例中所描述的函数关系式，计算出该检测结果对应的置信度阈值，然后将该置信度阈值设置为语音识别的置信度阈值即可。调整后的置信度阈值可能和调整前的相同，也可能不相同。

在具体实施过程中，继续沿用上面的例子，具体可以是：基于环境噪声参数、环境噪声参数和置信度阈值的对应关系进行调整；基于工作场景复杂参数、工作场景复杂参数和置信度阈值的对应关系进行调整；和/或基于长度参数、长度参数和置信度阈值的对应关系进行调整。即可以只根据其中一个参数进行调整，也可以根据所有参数进行调整。

其中，对于环境参数（参数为分贝的情况）和工作场景复杂参数而言，因为是可以预先知道的，所以可以预先根据环境参数和工作场景复杂参数来调整置信度阈值，即将置信度阈值调整为与电子设备所处的环境和工作场景相适应，使得语音识别的误报率和漏报率都比较低，即错误接受和错误拒绝的情况发生的比例都比较低。

而对于环境参数（参数为待确认语句的信噪比的情况）和待确认语句的长度参数而言，因为是要分析待确认语句之后或者是识别待确认语句之后，再根据信噪比参数或者长度参数来调整置信度阈值。

当然，在实际运用时，也可以是在接收一语音输入之后，对该语音输入进行识别之后，再根据所有参数对置信度阈值进行调整。

进一步，可以根据调整后的置信度阈值，对识别结果进行确认，判断是否要接受该识别结果，因为判断的依据是根据各种参数调整后的置信度阈值，所以使得漏报率和误报率都降低了，所以提高了语音识别的性能。

具体来说，例如，环境参数是由分贝来表征的，而且当前分贝数是90，表示电子设备目前处于一个嘈杂的环境中，例如马路上，表示语音信息被噪声污染的比较严重，进而导致语音识别的置信度得分会比较低，例如，这时用户输入了一个语音信息“我是小明”，经过语音识别，得到的识别结果同样也是“我是小明”，但是为了进一步确认该识别结果是否可信，则计算该识别结果的置信度得分，计算之后得知识别结果的置信度得分为60分，如果是按照现有技术的方法，假如置信度阈值始终固定在80分，然后将识别结果的置信度得分60分与置信度阈值80进行比较，发现识别结果的置信度得分小于***设定的置信度阈值，所以判定该结果不可信，所以就不会进一步处理该语音信息，例如发送给别的电子终端，或者显示在显示单元上，但实际上这个识别结果是可信的，却因为置信度阈值设置太高，而导致错误拒绝该识别结果。

然而，通过本实施例中描述的置信度阈值调整方法，电子设备通过检测环境参数，根据环境参数自动的将置信度阈值调整为与环境相适应的阈值，例如，检测到分贝数是90，可以通过前述查表的方式或者将参数带入函数关系式中的方式，得到一个合理的置信度阈值，例如是59，然后将识别结果的置信度得分60分与置信度阈值59分进行比较，结果是识别结果的置信度得分大于置信度阈值，所以说明该识别结果是可信的，所以就会对该语音信息进行下一步处理。

通过以上具体实例看出，通过本实施例中的置信度阈值的调整方法调整后的置信度阈值更合理，在语音识别中降低了错误拒绝的比例，即降低了漏报率。同样的道理，也可以降低错误接受的比例，降低误报率。

因此，本实施例中的置信度阈值能够根据环境、工作场景、待确认语句的长度的变化而自适应调整，当然还包括其他对置信度得分影响比较大的其他参数，所以使得置信度阈值能够调整在一个合理的值上，减少错误接受和错误拒绝，使得语音识别的准确率更高，语音识别性能更好。

本发明一实施例中还提供一种电子设备，该电子设备例如是手机、平板电脑、笔记本电脑等电子设备，该电子设备支持语音识别，语音识别当前的置信度阈值为第一值。

如图2所示，该电子设备包括：电路板201；检测芯片202，电性连接于电路板201，用于检测N个参数，获得N个检测结果，其中，N为大于等于1的整数；处理芯片203，设置在电路板201上，用于至少基于N个检测结果中的一个检测结果调整置信度阈值，使得置信度阈值从第一值变为第二值，其中，第二值为与第一值相同或不同的值。

其中，检测芯片202例如是分贝仪，用于检测电子设备输出的环境噪声，分贝，或者是包括：备份子芯片、傅里叶变换子芯片、滤波子芯片、傅里叶反变换子芯片、计算子芯片的芯片，具体检测过程为：通过麦克风录入第一语音信号，然后先通过备份子芯片将第一语音信号进行备份，生成一第一备份语音信号；然后第一语音信号通过傅里叶变换子芯片变化，在频域通过滤波子芯片滤波，去除噪声，然后将消除噪声后的数据进行傅里叶反变换子芯片的处理，然后将第一备份语音信号和去除噪声的第一语音信号在计算子芯片进行计算，得出环境参数信噪比。

在另一实施例中，检测芯片202还可以直接检测电子设备所处的工作场景。

在另一实施例中，检测芯片202还可以是语音处理芯片，进而检测待确认语句的长度参数。

在另一实施例中，检测芯片202包括以上描述的各种芯片，可以检测以上描述的各种参数。

进一步，处理芯片203具体用于基于环境噪声参数、环境噪声参数和置信度阈值的对应关系调整置信度阈值；基于工作场景复杂参数、工作场景复杂参数和置信度阈值的对应关系调整置信度阈值；和/或基于长度参数、长度参数和置信度阈值的对应关系调整置信度阈值。

进一步，处理芯片303可以是单独的处理芯片，也可以是集成在电子设备的中央处理器中。

在一实施例中，电子设备还包括：一声音采集单元，用于在检测芯片202检测N个参数之前，接收第一语音输入；语音识别芯片，用于识别第一语音输入，获得第一识别结果。声音采集单元，例如麦克风；语音识别芯片可以与处理芯片203是相同的芯片，也可以是不同的芯片。

进一步，语音识别芯片具体还用于基于第二值判断是否接受第一识别结果。

以上各实施例可以单独实施，也可以结合实施，技术人员可根据实际需要进行选择。

前述图1实施例中的置信度阈值调整方法中的各种变化方式和具体实例同样适用于本实施例的电子设备，通过前述对置信度阈值调整方法的详细描述，本领域技术人员可以清楚的知道本实施例中电子设备的实施方法，所以为了说明书的简洁，在此不再详述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音识别中置信度阈值的调整方法，应用于一支持语音识别的电子设备中，所述语音识别当前的置信度阈值为第一值，其特征在于，所述方法包括：

检测N个参数，获得N个检测结果，其中，N为大于等于1的整数；

至少基于所述N个检测结果中的一个检测结果调整所述置信度阈值，使得所述置信度阈值从所述第一值变为第二值，其中，所述第二值为与所述第一值相同或不同的值。

2.如权利要求1所述的方法，其特征在于，所述检测N个参数，具体为：

检测所述电子设备所处的环境噪声参数；

检测所述电子设备所处的工作场景复杂参数；和/或

检测语音识别后的待确认语句的长度参数。

3.如权利要求2所述的方法，其特征在于，所述至少基于所述N个检测结果中的一个检测结果调整所述置信度阈值，具体包括：

基于所述环境噪声参数、环境噪声参数和置信度阈值的对应关系进行调整；

基于所述工作场景复杂参数、工作场景复杂参数和置信度阈值的对应关系进行调整；和/或

基于所述长度参数、长度参数和置信度阈值的对应关系进行调整。

4.如权利要求1所述的方法，其特征在于，在所述检测N个参数之前，所述方法还包括：

接收第一语音输入；

识别所述第一语音输入，获得第一识别结果。

5.如权利要求4所述的方法，其特征在于，基于所述第二值判断是否接受所述第一识别结果。

6.一种电子设备，支持语音识别，所述语音识别当前的置信度阈值为第一值，其特征在于，所述电子设备包括：

电路板；

检测芯片，电性连接于所述电路板，用于检测N个参数，获得N个检测结果，其中，N为大于等于1的整数；

处理芯片，设置在所述电路板上，用于至少基于所述N个检测结果中的一个检测结果调整所述置信度阈值，使得所述置信度阈值从所述第一值变为第二值，其中，所述第二值为与所述第一值相同或不同的值。

7.如权利要求6所述的电子设备，其特征在于，所述检测芯片具体用于检测所述电子设备所处的环境噪声参数；检测所述电子设备所处的工作场景复杂参数；和/或检测语音识别后的待确认语句的长度参数。

8.如权利要求7所述的电子设备，其特征在于，所述处理芯片具体用于基于所述环境噪声参数、环境噪声参数和置信度阈值的对应关系调整所述置信度阈值；基于所述工作场景复杂参数、工作场景复杂参数和置信度阈值的对应关系调整所述置信度阈值；和/或基于所述长度参数、长度参数和置信度阈值的对应关系调整所述置信度阈值。

9.如权利要求6所述的电子设备，其特征在于，所述电子设备还包括：

一声音采集单元，用于在所述检测芯片检测N个参数之前，接收第一语音输入；

语音识别芯片，用于识别所述第一语音输入，获得第一识别结果。

10.如权利要求9所述的电子设备，其特征在于，所述语音识别芯片具体还用于基于所述第二值判断是否接受所述第一识别结果。