CN110880318A

CN110880318A - 语音识别方法及装置

Info

Publication number: CN110880318A
Application number: CN201911179312.2A
Authority: CN
Inventors: 赵东阳
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-03-13
Anticipated expiration: 2039-11-27
Also published as: CN110880318B

Abstract

本发明是关于语音识别方法及装置。该方法包括：接收输入的第一语音；识别所述第一语音，获得第一语音识别结果以及所述第一语音识别结果当前的第一置信度；获取所述第一语音对应的可训练置信度；基于所述第一置信度和所述可训练置信度，判断所述第一语音识别结果是否有效。通过本发明的技术方案，可提高第一语音识别结果有效性的判断准确性，也能够降低对第一语音识别结果的误判率，同时也可避免手动设置置信度。

Description

语音识别方法及装置

技术领域

本发明涉及语音技术领域，尤其涉及语音识别方法及装置。

背景技术

目前，在对语音进行识别时，通常会使用到语音识别结果的置信度，但相关技术中的置信度是预先设置好固定的，这样不仅增加了用户的操作负担，而且由于置信度是固定的，因而，一旦置信度设置不合理，就会影响识别结果的有效性，比如，如果置信度设置的较低，就会造成误识别。

发明内容

本发明实施例提供了语音识别方法及装置。所述技术方案如下：

根据本发明实施例的第一方面，提供一种语音识别方法，包括：

接收输入的第一语音；

识别所述第一语音，获得第一语音识别结果以及所述第一语音识别结果当前的第一置信度；

获取所述第一语音对应的可训练置信度；

基于所述第一置信度和所述可训练置信度，判断所述第一语音识别结果是否有效。

在一个实施例中，所述基于所述第一置信度和所述可训练置信度，判断所述第一语音识别结果是否有效，包括：

当所述第一置信度低于所述可训练置信度时，判定所述第一语音识别结果无效；

当所述第一置信度高于所述可训练置信度时，判定所述第一语音识别结果有效。

在一个实施例中，所述方法还包括：

当所述第一置信度低于所述可训练置信度时，提示对所述第一语音进行识别训练，以更新所述可训练置信度。

在一个实施例中，所述方法还包括：

当判定所述第一语音识别结果无效时，将所述第一语音确定为待训练语音；

接收输入的与所述待训练语音内容相同的第二语音；

对所述第二语音进行识别训练，获得第二语音识别结果以及所述第二语音识别结果当前的第二置信度；

根据所述第二置信度更新所述语音对应的所述可训练置信度以及所述第二语音识别结果的有效性，直至所述第二语音识别结果被判定为有效。

在一个实施例中，所述获取所述第一语音对应的可训练置信度，包括：

将多个语音的内容、所述多个语音中各语音对应的可训练置信度以及所述各语音的语音识别结果的有效性进行对应存储，获得对应关系；

根据所述第一语音识别结果从所述多个语音的内容中确定出相匹配的目标内容；

根据所述目标内容和所述对应关系，获取所述第一语音对应的可训练置信度。

根据本发明实施例的第二方面，提供一种语音识别装置，包括：

第一接收模块，用于接收输入的第一语音；

处理模块，用于识别所述第一语音，获得第一语音识别结果以及所述第一语音识别结果当前的第一置信度；

获取模块，用于获取所述第一语音对应的可训练置信度；

判断模块，用于基于所述第一置信度和所述可训练置信度，判断所述第一语音识别结果是否有效。

在一个实施例中，所述判断模块包括：

第一判定子模块，用于当所述第一置信度低于所述可训练置信度时，判定所述第一语音识别结果无效；

第二判定子模块，用于当所述第一置信度高于所述可训练置信度时，判定所述第一语音识别结果有效。

在一个实施例中，所述装置还包括：

提示模块，用于当所述第一置信度低于所述可训练置信度时，提示对所述第一语音进行识别训练，以更新所述可训练置信度。

在一个实施例中，所述装置还包括：

确定模块，用于当判定所述第一语音识别结果无效时，将所述第一语音确定为待训练语音；

第二接收模块，用于接收输入的与所述待训练语音内容相同的第二语音；

训练模块，用于对所述第二语音进行识别训练，获得第二语音识别结果以及所述第二语音识别结果当前的第二置信度；

更新模块，用于根据所述第二置信度更新所述语音对应的所述可训练置信度以及所述第二语音识别结果的有效性，直至所述第二语音识别结果被判定为有效。

在一个实施例中，所述获取模块包括：

存储子模块，用于将多个语音的内容、所述多个语音中各语音对应的可训练置信度以及所述各语音的语音识别结果的有效性进行对应存储，获得对应关系；

确定子模块，用于根据所述第一语音识别结果从所述多个语音的内容中确定出相匹配的目标内容；

获取子模块，用于根据所述目标内容和所述对应关系，获取所述第一语音对应的可训练置信度。

本发明的实施例提供的技术方案可以包括以下有益效果：

通过获取第一语音对应的可训练置信度，并将第一语音的第一置信度与可训练置信度进行比较，可提高第一语音识别结果有效性的判断准确性，也能够降低对第一语音识别结果的误判率，同时也可避免手动设置置信度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种语音识别方法的流程图。

图2是根据一示例性实施例示出的另一种语音识别方法的流程图。

图3是根据一示例性实施例示出的一种置信度的训练界面。

图4是根据一示例性实施例示出的一种语音识别装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

具体地，置信度阈值设置难度大。引擎对不同口述内容输出的置信度不相同，假设口述清楚流利的情况下，即理想状况，识别“你好”的置信度为-4，识别“彩超”的置信度为-6。如果设置***置信度为-5，则会造成“彩超”无法识别。但是如果设置信度为-12，则会增加误识别的概率，例如口述“彩蛋”，可能会被识别为“彩超”，同时给出一个较低的置信度，如-11，通常表明没有识别正确，但是因为设置了较低的阈值，造成误识别输出。

而如果进行优化，即将置信度大幅度提高，则需要录制大量的语音进行训练，提高部分条目的输出阈值，例如把“彩超”的置信度提高到-4，一方面是大量的录音、训练工作，另一方面当识别***的使用人群发生变化，例如地方口音的变化，还需要投入大量的人力重新进行训练。

为了解决上述技术问题，本发明实施例提供了一种语音识别方法，该方法可用于语音识别程序、***或装置中，且该方法对应的执行主体可以是终端或服务器，如图1所示，该方法包括步骤S101至步骤S103：

在步骤S101中，接收输入的第一语音；

在步骤S102中，识别所述第一语音，获得第一语音识别结果以及所述第一语音识别结果当前的第一置信度；

在步骤S103中，获取所述第一语音对应的可训练置信度；

在步骤S104中，基于所述第一置信度和所述可训练置信度，判断所述第一语音识别结果是否有效。

语音的可训练置信度相比于固定的置信度而言，会动态变化、更加合理、准确，因而，通过获取第一语音对应的可训练置信度，并将第一语音的第一置信度与可训练置信度进行比较，可提高第一语音识别结果有效性的判断准确性，也能够降低对第一语音识别结果的误判率，同时也可避免手动设置置信度。

当第一语音的第一语音识别结果的第一置信度低于所述可训练置信度时，说明第一语音识别结果不太可信，有可能识别错误了，因而，可判定第一语音识别结果无效。

而当所述第一置信度高于所述可训练置信度时，说明第一语音识别结果可信性比较高，正确率比较高，因而，可判定所述第一语音识别结果有效。

在一个实施例中，所述方法还包括：

当所述第一置信度低于所述可训练置信度时，说明该第一语音识别结果不太可信，有可能识别错误了，因而，可对第一语音重新进行识别训练，进而及时更新该可训练置信度。

在一个实施例中，所述方法还包括：

接收输入的与所述待训练语音内容相同的第二语音；

当判定所述第一语音识别结果无效时，由于第一语音识别效率低，基本错误，因而，可将该第一语音确定为待训练语音，然后接收用户输入的与第一语音内容相同的第二语音，进入对第二语音反复进行识别训练，获得第二语音识别结果以及所述第二语音识别结果当前的第二置信度，从而根据第二置信度不断更新所述语音对应的所述可训练置信度以及所述第二语音识别结果的有效性，直至所述第二语音识别结果被判定为有效，也即第一语音的内容被准确无误的识别出或者说第一语音的可训练置信度比较高。

另外，不断动态调整置信度，可使得可训练置信度更加合理、准确，这样也可平衡训练量，避免误识别。

语音识别结果的有效性即语音识别结果是有效的还是无效的。

例如，对应关系格式可以是[‘彩超’,-5,true]，彩超为“caicao”这个语音的内容；-5是“caicao”这个语音的可训练置信度，true是“caicao”这个语音的识别结果的有效性，true代表有效，false代表无效。

根据第一语音的第一语音识别结果可从多个语音的内容中自动选择最匹配的目标内容，然后基于目标内容和上述对应关系，获取该第一语音对应的可训练置信度，以便于利用可动态调整的语音置信度判断语音识别结果的有效性，提高有效性的判断准确率。

下面将结合实施例进一步详细说明本发明的技术方案：

本专利从另一个角度出发，引入置信度阈值数据库，针对部门条目设置不同的置信度阈值，同时增加用户主动反馈训练阈值的模块，在不优化离线识别引擎的前提下，解决原有问题。本方案由以下几个部分组成，置信度阈值数据库，置信度阈值训练模块，原有离线识别模块。

置信度阈值数据库：

用于存储语法文件中条目的置信度阈值，其存储单元为[条目，置信度阈值，是否可识别]，如[‘彩超’,-5,true]。同时设定一个阈值下限的经验值，min_thread，如果置信度值低于min_thread，理论上置信度已经不可信，设置存储单元中的“是否可识别”为false，表明此条目存在识别问题。

在使用过程中，配合原有离线识别引擎，用户口述内容，输出一个识别结果+置信度数值，在数据库中查找对应的条目，获得相应的置信度阈值，如果识别的置信度大于阈值，则判定结果有效。

阈值训练模块：

引入一个自动训练阈值的模块，该模块是一个人机交互模块，具有交互界面，界面中罗列所有的语法条目，用户通过模糊搜索的方式，快速定位到需要训练的条目，如在使用中识别准确率低或者不识别的，如“彩超”。通过点击“阈值训练”按钮，进入针对“彩超”的训练模式，***提示用户在安静的环境中，清楚的朗读训练条目。模块如下图3所示：

用户口述一次“彩超”，语音通过离线引擎返回识别结果result和置信度confidence，模块内部缓存置信度队列c＝[]，模块内部从数据库下载对应存储单元u＝[‘彩超’,-5,true]

整体处理逻辑：

步骤1

***部署之后，置信度阈值数据库初始化，置信度阈值默认为-5，是否可识别设置为true，其形式为[[item0,-5,true],…,[‘彩超’,-5,true],…,[item1,-5,true]]。

步骤2

用户使用离线识别***进行工作，从数据库检索置信度阈值，通过判断逻辑对结果是否输出进行判定。

当发现部分条目识别不准确、无法识别时，用户使用训练模块对该条目进行针对性训练，训练完成获得更新的置信度阈值，***将此更新值上传到数据库，获得新的数据库[[item0,-5,true],…,[‘彩超’,-7,true],…,[item1,-5,true]]***下载此更新的阈值数据库，继续工作。

步骤3

***维护人员，可以整理数据库，对数据库中的“不可识别条目”，即存储单元中为false的数据进行收集，后续可以对离线识别引擎做针对性的改进。

通过上述步骤解决了统一置信度阈值带来的识别率低的问题；

自动完善阈值数据，解决大量训练带来的人力和时间成本问题；

为进一步完善离线识别引擎提供数据。

最后，需要明确的是：本领域技术人员可根据实际需求，将上述多个实施例进行自由组合。

对应本发明实施例提供的上述语音识别方法，本发明实施例还提供一种语音识别装置，如图4所示，该装置包括：

第一接收模块401，用于接收输入的第一语音；

处理模块402，用于识别所述第一语音，获得第一语音识别结果以及所述第一语音识别结果当前的第一置信度；

获取模块403，用于获取所述第一语音对应的可训练置信度；

判断模块404，用于基于所述第一置信度和所述可训练置信度，判断所述第一语音识别结果是否有效。

在一个实施例中，所述判断模块包括：

在一个实施例中，所述装置还包括：

在一个实施例中，所述获取模块包括：

本领域技术人员在考虑说明书及实践这里发明的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种语音识别方法，其特征在于，包括：

接收输入的第一语音；

获取所述第一语音对应的可训练置信度；

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一置信度和所述可训练置信度，判断所述第一语音识别结果是否有效，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收输入的与所述待训练语音内容相同的第二语音；

5.根据权利要求1至4中任一项所述的方法，其特征在于，

所述获取所述第一语音对应的可训练置信度，包括：

6.一种语音识别装置，其特征在于，包括：

第一接收模块，用于接收输入的第一语音；

获取模块，用于获取所述第一语音对应的可训练置信度；

7.根据权利要求6所述的装置，其特征在于，所述判断模块包括：

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

10.根据权利要求6至9中任一项所述的装置，其特征在于，

所述获取模块包括：