CN114333828A

CN114333828A - 用于数码产品的快速语音识别***

Info

Publication number: CN114333828A
Application number: CN202210218615.6A
Authority: CN
Inventors: 周俊太; 蒋博峰
Original assignee: Shenzhen China Ark Information Industry Co ltd
Current assignee: Shenzhen China Ark Information Industry Co ltd
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2022-04-12

Abstract

本发明涉及语音识别领域，且公开了用于数码产品的快速语音识别***，包括：启动模块，用于启动程序，管理程序运行，运行发送指令；录入模块，用于记录用户输出的语音数据；声纹识别模块，用于采集用户语音数据中的声纹特征，确定是否为用户本人；绑定模块，用于绑定用户登录信息，记录用户声纹特征，以解锁程序运行；转换模块，用于将用户输入的语音数据实时转换为文本数据。本发明可为用户提供在语音识别过程中进行纠错的功能，为无法识别的语音数据进行报错提醒，并且可为用户提供语句重合度较高的相似文本命令，以供用户选择，帮助用户快速操控，即使录入的不准确的语音数据，依然能够直接得出需要的指令。

Description

用于数码产品的快速语音识别***

技术领域

本发明涉及语音识别技术领域，具体为用于数码产品的快速语音识别***。

背景技术

语音识别是一门交叉学科，随着科技的发展，语音识别技术取得显著进步，开始从实验室走向市场，语音识别技术已经逐步进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域，语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等，语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术，语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面；

许多智能数码产品，也已经越来越多的运用起语音识别技术；

但是，现有的数码产品上搭载的语音识别***，常常会因为用户常用语与数据库中记录的模板文本不一致，即使意思相近，而使得识别依旧失败，用户不能对数据库中的模板文本进行自定义编辑，不能为用户提供纠错的帮助，影响用户的使用体验。

发明内容

（一）解决的技术问题

针对现有技术所存在的上述缺点，本发明提供了用于数码产品的快速语音识别***，能够有效地解决现有技术数码产品上搭载的语音识别***，常常会因为用户常用语与数据库中记录的模板文本不一致，即使意思相近，而使得识别依旧失败，用户不能对数据库中的模板文本进行自定义编辑，不能为用户提供纠错的帮助，影响用户的使用体验的问题。

（二）技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明公开了用于数码产品的快速语音识别***，包括：

启动模块，用于启动程序，管理程序运行，运行发送指令；

录入模块，用于记录用户输出的语音数据；

声纹识别模块，用于采集用户语音数据中的声纹特征，确定是否为用户本人；

绑定模块，用于绑定用户登录信息，记录用户声纹特征，以解锁程序运行；

转换模块，用于将用户输入的语音数据实时转换为文本数据；

数据库模块，用于记录触发指令的文本数据，可进行写入；

检索模块，用于将转换所得的文本数据在数据库中进行搜寻，找到对应文本数据；

纠错模块，用于对检错过程中，无法准确识别的文本字句进行报错提醒；

置换选择模块，用于在语句报错时，提供语句重合度较高的相似文本命令，供用户选择；

记忆模块，用于对用户多次纠错后的选择进行记录，将纠错语句与数据库中文本正确语句进行关联记忆；

指令发送模块，用于发送最终文本对应的指令。

更进一步地，所述数据库模块通过无线网络交互连接有快捷词模块，所述快捷词模块用于编辑快捷词，以对应相关的长文本触发指令。

更进一步地，所述记忆模块与数据库模块通过无线网络交互连接，所述记忆模块记录结果实时上报数据库模块，以供用户在二次录入时，呈现记忆所得的结果。

更进一步地，所述绑定模块与录入模块通过无线网络交互连接，所述绑定模块在用户初次登入时，通过录入模块记录用户声纹特征，并上报绑定模块进行记录，解锁程序运行。

用于数码产品的快速语音识别方法，包括以下步骤：

Step1：用户录入初始语音，记录声纹特征；

Step2：用户录入快捷词替代长语音指令，在数据库文本中进行存储；

Step3：用户以特定语句唤醒语音程序；

Step4：录入语音后，语音转换为文本，在数据库文本中进行识别检索；

Step5：识别正常，按照文本进行对应指令发送；

Step6：识别异常，进行提醒，提供相近意思的文本指令选择；

Step7：用户对提供的指令选项进行选择,并确定；

Step8：记录多次纠错的语句与用户二次选择的语句，上传数据库进行记录；

Step9：指令发送完毕。

更进一步地，所述步骤Step1中的声纹特征具体表现为音质、音长、音强、音高，在提取此类特征后，获取声纹波形中反映说话人生理和行为特征的语音参数；

声纹特征在提取时，需对输入的声音信号进行处理解析，以得到一组特征描述向量，可分为听觉特征和声学特征，其中，听觉特征是指人耳可以鉴别和描述的声音特征，声学特征是指计算机算法从声音信号提取出来的一组声学描述参数；

特征提取方法包括：高斯混合模型、联合因子分析法、深度神经网络方法。

更进一步地，所述步骤Step4中的识别检索的过程包括：

对语音信号进行分析后得到语音的特征参数，然后对参数进行处理，形成标准模板；

当有语音转化的文本接入程序时，***将对语音信号进行处理，然后进行参考数据库内的模板进行匹配,得出识别结果。

更进一步地，所述步骤Step6中识别异常提醒方式包括：通过预先设定的报错语音进行播报纠错、通过发送报错文本信息进行展示提醒。

更进一步地，所述步骤Step6中相近意思的文本指令其选择的具体概念为：异常文本数据与数据库中在录的文本数据中，拼音相近的字句、文字重合度较高的字句和词语含义相近的字句。

更进一步地，所述步骤2中的语音指令录入的具有识别率，识别率指待识别的语音能够从目标说话人集合中，正确找到所对应说话人的概率，认定待识别语音与目标说话人集合中相似度最大的就作为辨认说话人，其辨认正确的比率又可称为Top-1的辨认召回率，当目标说话人集合中相似度最大的N个辨认说话人包含正确说话人时为辨认正确，如此统计出来的辨认正确的比率称为Top-N辨认召回率，辨认召回率的计算公式为：

Top-N=

其中，m=成功召回语音数；

g=测试语音数。

（三）有益效果

采用本发明提供的技术方案，与已知的公有技术相比，具有如下有益效果：

1、本发明可为用户提供在语音识别过程中进行纠错的功能，为无法识别的语音数据进行报错提醒，并且可为用户提供语句重合度较高的相似文本命令，以供用户选择，提升用户的使用体验，便于用户快速的进行语音操控。

2、本发明能够在多次纠错后，自动将被纠错的语句与数据库中的正确模板文本进行关联，方便用户在后续的使用过程中，即使录入的不准确的语音数据，依然能够直接得出需要的指令，可进行自定义编辑，将长命令定义成用户编辑好的词语。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为用于数码产品的快速语音识别***的结构示意图；

图2为用于数码产品的快速语音识别方法的结构流程示意图；

图3为本发明语音识别的演示过程示意图；

图中的标号分别代表：1、启动模块；2、录入模块；3、声纹识别模块；4、绑定模块；5、转换模块；6、数据库模块；7、快捷词模块；8、检索模块；9、纠错模块；10、置换选择模块；11、记忆模块；12、指令发送模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合实施例对本发明作进一步的描述。

实施例1

本实施例的用于数码产品的快速语音识别***，如图1所示，包括：

启动模块1，用于启动程序，管理程序运行，运行发送指令；

录入模块2，用于记录用户输出的语音数据；

声纹识别模块3，用于采集用户语音数据中的声纹特征，确定是否为用户本人；

绑定模块4，用于绑定用户登录信息，记录用户声纹特征，以解锁程序运行；

转换模块5，用于将用户输入的语音数据实时转换为文本数据；

数据库模块6，用于记录触发指令的文本数据，可进行写入；

检索模块8，用于将转换所得的文本数据在数据库中进行搜寻，找到对应文本数据；

纠错模块9，用于对检错过程中，无法准确识别的文本字句进行报错提醒；

置换选择模块10，用于在语句报错时，提供语句重合度较高的相似文本命令，供用户选择；

记忆模块11，用于对用户多次纠错后的选择进行记录，将纠错语句与数据库中文本正确语句进行关联记忆；

指令发送模块12，用于发送最终文本对应的指令。

如图1所示，所述数据库模块6通过无线网络交互连接有快捷词模块7，所述快捷词模块7用于编辑快捷词，以对应相关的长文本触发指令。

如图1所示，所述记忆模块11与数据库模块6通过无线网络交互连接，所述记忆模块11记录结果实时上报数据库模块6，以供用户在二次录入时，呈现记忆所得的结果。

如图1所示，所述绑定模块4与录入模块2通过无线网络交互连接，所述绑定模块4在用户初次登入时，通过录入模块2记录用户声纹特征，并上报绑定模块4进行记录，解锁程序运行。

本***在搭载后，用户首先通过录入模块2录入初始语音，通过声纹识别模块3识别，由绑定模块4进行记录绑定，当启动模块1唤醒启动后，用户录入语音，声纹识别模块3正常识别后，由转换模块5转换成文本数据，经由检索模块8在数据库模块6中搜寻，结果吻合后，由指令发送模块12进行对应命令的发送，当结果出现偏差时，由纠错模块9进行提醒，并由置换选择模块10提供相近意思命令的选择，用户选择后，指令发送模块12进行发送，由记忆模块11对用户纠错后的选择进行记录，上传至数据库模块6，将被纠错的文本与纠错后选择的文本进行关联，用户通过快捷词模块7进行快捷词语的编辑，将长命令转换成自定义的词语，上传数据库模块6进行保存。

实施例2

在其他层面，本实施例还提供一种用于数码产品的快速语音识别方法，如图2所示，包括以下步骤：

Step1：用户录入初始语音，记录声纹特征；

Step3：用户以特定语句唤醒语音程序；

Step5：识别正常，按照文本进行对应指令发送；

Step7：用户对提供的指令选项进行选择,并确定；

Step9：指令发送完毕。

如图2所示，所述步骤Step1中的声纹特征具体表现为音质、音长、音强、音高，在提取此类特征后，获取声纹波形中反映说话人生理和行为特征的语音参数；

如图2所示，所述步骤Step4中的识别检索的过程包括：

当有语音转化的文本接入程序时，***将对语音信号进行处理，然后进行参考数据库中的模板进行匹配,得出识别结果。

如图2所示，所述步骤Step6中识别异常提醒方式包括：通过预先设定的报错语音进行播报纠错、通过发送报错文本信息进行展示提醒。

如图2所示，所述步骤Step6中相近意思的文本指令其选择的具体概念为：异常文本数据与数据库中在录的文本数据中，拼音相近的字句、文字重合度较高的字句和词语含义相近的字句。

如图2所示，所述步骤2中的语音指令录入的具有识别率，识别率指待识别的语音能够从目标说话人集合中，正确找到所对应说话人的概率，认定待识别语音与目标说话人集合中相似度最大的就作为辨认说话人，其辨认正确的比率又可称为Top-1的辨认召回率，当目标说话人集合中相似度最大的N个辨认说话人包含正确说话人时为辨认正确，如此统计出来的辨认正确的比率称为Top-N辨认召回率，辨认召回率的计算公式为：

Top-N=

其中，m=成功召回语音数；

g=测试语音数。

实施例3

本实例中，如图3所示，语音输入过程中，特征提取需要先进行，如预加重，在音频录制过程中，高频信号更容易衰减，而像元音等一些因素的发音包含了较多的高频信号的成分，高频信号的丢失，可能会导致音素的共振峰并不明显，使得声学模型对这些音素的建模能力不强。预加重是个一阶高通滤波器，可以提高信号高频部分的能量，接着，分帧，语音信号是一个非稳态的、时变的信号。但在短时间范围内可以认为语音信号是稳态的、时不变的。这个短时间一般取10-30ms，因此在进行语音信号处理时，为减少语音信号整体的非稳态、时变的影响，从而对语音信号进行分段处理，其中每一段称为一帧，帧长一般取25ms。为了使帧与帧之间平滑过渡，保持其连续性，分帧一般采用交叠分段的方法，保证相邻两帧相互重叠一部分。相邻两帧的起始位置的时间差称为帧移，一般在使用中帧移取值为10ms；

因为后面会对信号做FFT，而FFT变换的要求为：信号要么从-∞到+∞，要么为周期信号。现实世界中，不可能采集时间从 -∞ 到 +∞ 的信号，只能是有限时间长度的信号。由于分帧后的信号是非周期的，进行 FFT 变换之后会有频率泄露的问题发生，为了将这个泄漏误差减少到最小程度，需要使用加权函数，也叫窗函数。加窗主要是为了使时域信号似乎更好地满足 FFT 处理的周期性要求，减少泄漏。

声学模型是对发声的建模，它能够把语音输入转换成声学表示的输出，给出语音属于某个声学符号的概率；

语言模型表示某一字序列发生的概率,是对一组字序列构成的知识表示。它的作用之一为消解多音字的问题，在声学模型给出发音序列之后，从候选的文字序列中找出概率最大的字符串序列；

给定输入特征序列的情况下，在由声学模型、发音词典和语言模型等知识源组成的搜索空间中，通过一定的搜索算法，寻找使概率最大的词序列，完成解码，最后文字输出。

综上所述，本发明可为用户提供在语音识别过程中进行纠错的功能，为无法识别的语音数据进行报错提醒，并且可为用户提供语句重合度较高的相似文本命令，以供用户选择，能够在多次纠错后，自动将被纠错的语句与数据库中的正确模板文本进行关联，在后续的使用过程中，即使录入的不准确的语音数据，依然能够直接得出需要的指令，可进行自定义编辑，将长命令定义成用户编辑好的词语。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.用于数码产品的快速语音识别***，其特征在于，包括：

启动模块（1），用于启动程序，管理程序运行，运行发送指令；

录入模块（2），用于记录用户输出的语音数据；

声纹识别模块（3），用于采集用户语音数据中的声纹特征，确定是否为用户本人；

绑定模块（4），用于绑定用户登录信息，记录用户声纹特征，以解锁程序运行；

转换模块（5），用于将用户输入的语音数据实时转换为文本数据；

数据库模块（6），用于记录触发指令的文本数据，可进行写入；

检索模块（8），用于将转换所得的文本数据在数据库中进行搜寻，找到对应文本数据；

纠错模块（9），用于对检错过程中，无法准确识别的文本字句进行报错提醒；

置换选择模块（10），用于在语句报错时，提供语句重合度较高的相似文本命令，供用户选择；

记忆模块（11），用于对用户多次纠错后的选择进行记录，将纠错语句与数据库中文本正确语句进行关联记忆；

指令发送模块（12），用于发送最终文本对应的指令。

2.根据权利要求1所述的用于数码产品的快速语音识别***，其特征在于：所述数据库模块（6）通过无线网络交互连接有快捷词模块（7），所述快捷词模块（7）用于编辑快捷词，以对应相关的长文本触发指令。

3.根据权利要求1所述的用于数码产品的快速语音识别***，其特征在于：所述记忆模块（11）与数据库模块（6）通过无线网络交互连接，所述记忆模块（11）记录结果实时上报数据库模块（6），以供用户在二次录入时，呈现记忆所得的结果。

4.根据权利要求3所述的用于数码产品的快速语音识别***，其特征在于：所述绑定模块（4）与录入模块（2）通过无线网络交互连接，所述绑定模块（4）在用户初次登入时，通过录入模块（2）记录用户声纹特征，并上报绑定模块（4）进行记录，解锁程序运行。

5.用于数码产品的快速语音识别方法，所述方法是对权利要求1-4中任一项所述用于数码产品的快速语音识别***的实施方法，其特征在于，包括以下步骤：

Step1：用户录入初始语音，记录声纹特征；

Step3：用户以特定语句唤醒语音程序；

Step5：识别正常，按照文本进行对应指令发送；

Step7：用户对提供的指令选项进行选择,并确定；

Step9：指令发送完毕。

6.根据权利要求5所述的用于数码产品的快速语音识别方法，其特征在于：所述步骤Step1中的声纹特征具体表现为音质、音长、音强、音高，在提取此类特征后，获取声纹波形中反映说话人生理和行为特征的语音参数；

7.根据权利要求5所述的用于数码产品的快速语音识别方法，其特征在于：所述步骤Step4中的识别检索的过程包括：

8.根据权利要求5所述的用于数码产品的快速语音识别方法，其特征在于：所述步骤Step6中识别异常提醒方式包括：通过预先设定的报错语音进行播报纠错、通过发送报错文本信息进行展示提醒。

9.根据权利要求5所述的用于数码产品的快速语音识别方法，其特征在于：所述步骤Step6中相近意思的文本指令其选择的具体概念为：异常文本数据与数据库中在录的文本数据中，拼音相近的字句、文字重合度较高的字句和词语含义相近的字句。

10.根据权利要求5所述的用于数码产品的快速语音识别方法，其特征在于：所述步骤2中的语音指令录入的具有识别率，识别率指待识别的语音能够从目标说话人集合中，正确找到所对应说话人的概率，认定待识别语音与目标说话人集合中相似度最大的就作为辨认说话人，其辨认正确的比率又可称为Top-1的辨认召回率，当目标说话人集合中相似度最大的N个辨认说话人包含正确说话人时为辨认正确，如此统计出来的辨认正确的比率称为Top-N辨认召回率，辨认召回率的计算公式为：

Top-N=

其中，m=成功召回语音数；

g=测试语音数。