CN109119073A

CN109119073A - 基于多源识别的语音识别方法、***、音箱及存储介质

Info

Publication number: CN109119073A
Application number: CN201810673599.3A
Authority: CN
Inventors: 蔡洁荣
Original assignee: FLYBALL ELECTRONIC (SHENZHEN) Co Ltd
Current assignee: FLYBALL ELECTRONIC (SHENZHEN) Co Ltd
Priority date: 2018-06-25
Filing date: 2018-06-25
Publication date: 2019-01-01

Abstract

本发明公开了一种基于多源识别的语音识别方法、***、音箱及存储介质，所述方法包括：通过智能音箱获取用户语音；智能音箱将获取的用户语音通过至少两个语音识别平台对所述用户语音进行识别，得到至少两个识别结果；智能音箱获取所述至少两个识别结果，对比所述至少两个语音识别平台所识别得到的所述至少两个识别结果；智能音箱对相同的所述至少两个识别结果进行输出；智能音箱对存在差异的所述至少两个识别结果进行同一后再输出。本发明通过在智能音箱内设置至少两个语音识别平台对用户语音时行识别，在识别结果相同时进行输出，在识别结果不同时，进行同一化后得到最终识别结果再进行输出，极大的提高了智能音箱语音识别精度。

Description

基于多源识别的语音识别方法、***、音箱及存储介质

技术领域

本发明涉及语音识别领域，尤其涉及一种基于多源识别的语音识别方法、***、音箱及存储介质。

背景技术

语音识别是通过用机器识别用户声音命令来实现人机交互的关键技术，其可以显著改进人机交互的方式以使得用户可以在说出命令的同时完成更多任务。语音识别是通过在线或离线训练得到的语音识别引擎来实现的。语音识别过程通常可以分为训练阶段和识别阶段。在训练阶段中，根据语音识别引擎所基于的数学模型，从训练数据中统计地得到声学模型(acoustic model，AM)和词汇表(lexicon)。在识别阶段中，语音识别引擎使用声学模型和词汇表对输入的语音进行处理，得到语音识别结果。例如，从输入声音的声波图进行特征提取以获得特征向量，然后根据声学模型得到音素(如[i]，[o]等)序列，最后从词汇表中定位与音素序列匹配度较高的单词，甚至是句子。

在语音识别***中，可能加载了多于1个语音识别引擎来同时识别同一语音。例如，第一语音识别引擎可以是说话人相关语音识别(speaker-dependent automaticspeech recognition,SD-ASR)引擎，其被训练以识别来自特定说话人的语音并输出包括对应的分数的识别结果。第二语音识别引擎可以是说话无关语音识别(speaker-independentautomatic speech recognition,SI-ASR)引擎，其能够识别来自任何用户的语音并输出包括对应的分数的识别结果。

在语音识别的应用中，除了人机交互之外，还有社交软件的应用，将用户语音转换为文字进行输出，不管是人机交互还是社交应用，如何提高语音识别的精度都是一个问题。

发明内容

本发明的目的是针对上述现有技术存在的缺陷，提供一种基于多源识别的语音识别方法、***、音箱及存储介质。

本发明采用的技术方案是，提供一种基于多源识别的语音识别方法，所述方法包括：

通过智能音箱获取用户语音；

智能音箱将获取的用户语音通过至少两个语音识别平台对所述用户语音进行识别，得到至少两个识别结果；

智能音箱获取所述至少两个识别结果，对比所述至少两个语音识别平台所识别得到的所述至少两个识别结果；

智能音箱对相同的所述至少两个识别结果进行输出；

智能音箱对存在差异的所述至少两个识别结果进行同一后再输出。

优选的，所述智能音箱将获取的用户语音通过至少两个语音识别平台对所述用户语音进行识别，得到至少两个识别结果之前，所述方法还包括：

智能音箱设置有至少两个识别策略不同的语音识别平台做为所述至少两个语音识别平台；

通过智能音箱采集并储存用户的声纹；

将获取的用户语音进行去噪。

使用所述至少两个语音识别平台对所述用户语音进行识别，可以提高语音识别的精度，而选择至少两个识别策略不同的语音识别平台做为识别所述用户语音的所述至少两个语音识别平台，在不同的识别策略下，得到的识别结果精度更有保证。采集并储存用户的声纹，将用户的声纹做为识别样本进行语音识别，可以得到更高的识别精度。对所述用户语音进行去噪，使音源更容易被识别出来，同时也提高了识别精度。

优选的，所述智能音箱对存在差异的所述至少两个识别结果进行同一再输出，包括：

在智能音箱中区别出差异部分，对所述差异部分采用上下文语义分析；

调用云计算的卷积神经训练模型进行计算所述至少两个识别结果的语义，确定其中一个作为识别结果进行输出。

通过所述至少两个语音识别平台识别所述用户语音所得到的所述至少两个识别结果不一定是相同的，当所述至少两个识别结果都不为相同时，无法确定输出哪个识别结果。调用云计算中的卷积神经训练模型进行计算所述至少两个识别结果的语义，从而得到符合语义库中语义习惯的识别结果进行输出，因为识别结果经过模型计算符合语义习惯，所以识别的结果精度会得到提高。

选择所述至少两个语音识别平台对应的至少一个第二语音识别引擎对所述用户语音再次进行识别，得到多个第二识别结果；

将所述多个识别结果与所述多个第二识别结果进行对比；

选择同一率最高的识别结果进行输出。

对于存在差异的识别结果，通过第二语音引擎再次识别，增加了识别的次数，提高了识别的精度。

区别出差异部分，对所述差异部分进行模糊搜索；

选择模糊搜索匹配度最高的识别结果进行输出。

通过对差异部分进行模糊搜索，差异部分被搜索匹配度最高的内容所替换，搜索的内容在语义上符合习惯，同样可以提高语音识别的精度。

还提供一种基于多源识别的语音识别***，所述***包括：

输入模块，设置在智能音箱中用于获取用户语音；

至少两个语音识别模块，设置在智能音箱中用于对所述用户语音进行识别，得到至少两个识别结果；

对比模块，设置在智能音箱中用于对比所述至少两个语音识别模块识别得到的所述至少两个识别结果；

同一模块，设置在智能音箱中用于对存在差异的所述至少两个识别结果进行同一；

输出模块，设置在智能音箱中用于对同一的所述至少两个识别结果进行输出。

优选的，所述至少两个语音识别模块为至少两个识别策略不同的语音识别模块，所述语音识别模块包括：

储存子模块，用于储存采集到的用户的声纹；

去噪子模块，用于对获取的用户语音进行去噪。

优选的，所述同一模块包括：

云计算子模块，用于分析差异部分上下文语义，调用云计算的卷积神经训练模型进行计算所述至少两个识别结果的语义；

搜索子模块，用于对差异部分进行模糊搜索；

设置在所述语音识别模块上的至少一个第二语音识别子模块，用于对所述用户语音再次识别，得到多个第二识别结果。

还提供一种智能音箱，所述智能音箱包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如前述的基于多源识别的语音识别方法。

还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如前述的基于多源识别的语音识别方法。

与现有技术相比，本发明至少具有以下有益效果：本发明通过在智能音箱内设置至少两个语音识别平台对用户语音时行识别，在识别结果相同时进行输出，在识别结果不同时，进行同一化后得到最终识别结果再进行输出，极大的提高了智能音箱语音识别精度。

附图说明

图1为本发明实施例的基于多源识别的语音识别方法流程图；

图2为本发明实施例的同一化处理的一种流程图；

图3为本发明实施例的同一化处理的另一种流程图；

图4为本发明实施例的同一化处理的又一种流程图；

图5为本发明实施例的基于多源识别的语音识别***模块图。

具体实施方式

下面结合附图和实施例对本发明做进一步说明。

如图1所示，本发明提出了一种基于多源识别的语音识别方法，所述基于多源识别的语音识别方法实施在一种语音识别的环境，所述环境包括：终端。其中，所述终端可以是智能音箱、智能手机、平板电脑、笔记本电脑及台式电脑等，本发明不对所述终端的产品类型做具体的限定。所述终端安装有社交或人机交互类应用，且所述社交或人机交互类应用可调用终端内置麦克风及显示装置。

在本发明实施例中，所述环境优选为智能音箱，所述智能音箱内设置可以采集语音的麦克风及显示屏，在智能音箱中，还设置有语音识别功能模块，当然，做为一种可能的实施环境，所述智能音箱可以与提供语音识别服务的语音平台进行网络信号连接。

所述方法包括：

11、获取用户语音；具体的，通过设置在所述智能音箱内的取音设备获取用户语音，所述取音设备可以是麦克风等具有声音采集的设备。

进一步的，为了获取更好的音源，可以在取音设备中可设置去噪装置，在声音的源头进行去噪，提高声源质量，从而减少干扰语音识别的因素。所述用户语音可以通过语音转换器转换为音频信号。

进一步的，所述音频信号可以被转换述数字信号输出到语音识别平台。

12、多平台语音识别，所述智能音箱将获取的用户语音通过至少两个语音识别平台对所述用户语音进行识别，得到至少两个识别结果；所述多平台语音识别12是将获取得到的用户语音送到不同的语音识别平台进行语音识别的步骤，同时获取多个平台的语音识别结果，对获得的多个平台的语音识别结果进行对比判断。

具体的，所述多平台语音识别可以在所述智能音箱中实现，可以在所述智能音箱中搭建多组语音识别引擎，并分别配置语义库，需要说明的是，在所述智能音箱中搭建的多组语音识别引擎中，各组的语音识别引擎采用不同的识别策略，在所述语义库的配置中，所述语义库中语义的组合策略也是不同的。比如说，不同之处可以在于语音识别引擎的特征提取模块中，对于语音特征向量的提取方法可以使用Mel倒谱系数，或是感知线性预测系数进行；不同之处还可以在于声学模型的建立，如采用隐马尔科夫模型-高斯混合模型，或是卷积神经网络，或是深层神经网进行。在语义库中语义的组合策略上，不同之处可以在于语法的侧重点，比如说，有的语义库中语义侧重点在于动词的时态，有的语义库中语义侧重点在于近义或同音的区别，有的语义库中语义侧重点在于语法结构的完整性。

做为一种可能的实施例，在所述智能音箱中搭建的多组语音识别引擎及相应配置的语义库中，所述语音识别引擎可以采用多个语义库获取语音识别结果，也就是说，一组语音识别引擎可以通过多个语义库获取多个语音识别结果。

当然，做为另一种可能的实施例，在所述智能音箱中搭建的多组语音识别引擎及相应配置的语义库中，也可是多组语音识别引擎通过一个语义库获取多个语音识别结果。

另外，做为又一种可能的实施例，在撰述这智能音箱中搭建的多组语音识别引擎及相应配置的语义库中，在每次对语音进行识别时，可以为一组识别引擎随机匹配一个或多个语义库来获取语音识别结果。

其中，所述语音识别结果输出可以采用数字信号，便于对比。

13、语音识别结果是否相同，所述智能音箱获取所述至少两个识别结果，对比所述至少两个语音识别平台所识别得到的所述至少两个识别结果；若多个平台的语音识别结果相同，则代表语音识别准确，转入步骤16，可进行输出，所述语音识别平台包括：语音识别引擎和语义库，所述语音识别引擎由语音识别芯片及其电路组成，所述语音识别引擎根据语音信号对语义库中的语义进行匹配，得到与所述语音信号相匹配的语义。

14、对存在差异的所述至少两个识别结果进行同一后再输出；若多个平台的语音识别结果不同，出现不同的原因可能是声源受到干扰，平台无法准确识别，也可能是平台的识别策略不同而导致的，这个时候需要对不同的识别结果进行同一，确定最终识别结果再进行输出。

15、对相同的所述至少两个识别结果进行输出。所述终端内还设置有数模信号转换器，将语音识别平台识别得到的数字信号转换为模拟信号进行输出，使识别结果更符合人们的阅读习惯。

在本发明实施例中，所述通过至少两个语音识别平台对所述用户语音进行识别，得到至少两个识别结果之前，所述方法还包括：

选择至少两个识别策略不同的语音识别平台做为所述至少两个语音识别平台；采用不同的识别策略得到的语音识别结果，因为使用的语音识别引擎不同，语义库的配置不同，对语音识别结果的精度进行保证，有效提高了语音识别结果的精度。

采集并储存用户的声纹；声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。声纹不仅具有特定性，而且有相对稳定性的特点。成年以后，人的声音可保持长期相对稳定不变。无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终不相同。借助声纹特性，可使语音识别平台更容易捕捉用户的语音波段，从而提高语音识别的精度。

将获取的用户语音进行去噪。从所述终端内置的麦克风采集到的用户语音，做为待识别语音，在采集时，会因外界环境的影响而产生杂音，也叫做噪声，会对待识别语音造成干扰，从而影响语音识别的精度，使语音识别的精度下降。

具体的，为获取更优质的音源，可以对待识别语音进行去噪，可预先对环境音进行采集，经过模数转换器将环境音转化为数字音频信号，该数字音频信号可做为参考信号，在对待识别语音进行去噪时，消除这部分的数字信号。

如图2所示，在本发明实施例中，所述对存在差异的所述至少两个识别结果进行同一再输出，包括步骤：

21、区别差异部分，对所述差异部分采用上下文语义分析；忽略差异部分，在语义库中对识别结果的差异部分的前后相同部分进行匹配，得到相近的语义。

22、模型训练，调用云计算的卷积神经训练模型进行计算所述至少两个识别结果的语义。

在调用云计算的卷积神经训练模型进行计算前，需要对模型进行训练，使卷积神经网络能迅速计算出对识别结果语义的预测值。该预测值代替识别结果中的差异部分，与识别结果中相同的部分组成确定的识别结果。

23、确定识别结果，确定其中一个作为识别结果进行输出。经数模转换器转换后，确定的识别结果可输出在终端的显示装置，当然，也可以不用转换为模拟信号直接输出形成一条对终端的指令。

如图3所示，做为本发明的一种实施例，所述对存在差异的所述至少两个识别结果进行同一再输出，包括以下步骤：

31、第二语音识别引擎，选择所述至少两个语音识别平台对应的至少一个第二语音识别引擎对所述用户语音再次进行识别，得到多个第二识别结果；在不更换语义库的前提下，在同一语音识别平台上设置第二语音识别引擎，可以提高语音识别精度，减少语音识别引擎带来的物理影响。

32、识别结果对比，将所述多个识别结果与所述多个第二识别结果进行对比；在多个识别结果中，对比得到差异部分最少的识别结果，即为同一率最高的识别结果，再对同一率最高的识别结果进行语义分析，得到确定的识别结果。

33、确定识别结果，选择同一率最高的识别结果进行输出。经数模转换器转换后，确定的识别结果可输出在终端的显示装置，当然，也可以不用转换为模拟信号直接输出形成一条对终端的指令。

如图4所示，做为本发明的又一个实施例，所述对存在差异的所述至少两个识别结果进行同一再输出，包括：

41、区别出差异部分，将差异部分前后相同的语义拿出做为关键词。

42、模糊搜索，对所述差异部分进行模糊搜索及替换；通过搜索关键词，以得到数量最多的搜索结果为准，对所述差异部分进行模糊替换，得到最符合语义习惯的识别结果做为确定的识别结果。

43、确定识别结果，选择模糊搜索匹配度最高的识别结果进行输出。经数模转换器转换后，确定的识别结果可输出在终端的显示装置，当然，也可以不用转换为模拟信号直接输出形成一条对终端的指令。

做为一种可能实施例，为了更快的得到模糊搜索的结果，可以为所述智能音箱配置一个检索语义库，所述检索语义库中存储有用于语音识别的语义字段。

如图5所示，还提供一种基于多源识别的语音识别***，所述***应用于一个终端，所述终端可以是智能手机、平板电脑、笔记本电脑及台式电脑等，本发明不对所述终端的产品类型做具体的限定。所述终端安装有社交或人机交互类应用，且所述社交或人机交互类应用可调用终端内置麦克风及显示装置。

所述***包括：

输入模块51，用于获取用户语音；所述输入模块51为内置在所述终端的麦克风。

至少两个语音识别模块52，用于对所述用户语音进行识别，得到至少两个识别结果；所述语音识别模块53为设置在应用云端的语音识别芯片，所述终端设置有模数转换器，将用户语音转化音频信号。

所述音频信号还可以转化为通信信号，将所述通信信号上传到云端进行识别。

当然，所述语音识别模块53也可以设置在终端内的语音识别芯片。

对比模块54，用于对比所述至少两个语音识别模块52识别得到的所述至少两个识别结果；所述对比模块54为一用于处理数据的处理芯片。

同一模块55，用于对存在差异的所述至少两个识别结果进行同一；所述同一模块55对识别结果在数字层面进行同一。

输出模块56，用于对同一的所述至少两个识别结果进行输出。所述输出模块设置56在终端上，终端内还设置有数模信号转换器，将语音识别平台识别得到的数字信号转换为模拟信号进行输出，使识别结果更符合人们的阅读习惯。

在本发明实施例中，所述至少两个语音识别模块52为至少两个识别策略不同的语音识别模块53，所述语音识别模块53包括：

储存子模块，用于储存采集到的用户的声纹；所述储存子模块设置在应用云端，对用户的声纹进行云存储。

去噪子模块，用于对获取的用户语音进行去噪。所述去噪子模块可以设置在应用云端，对用户语音进行数字去噪。

在本发明实施例中，所述同一模块55包括：

云计算子模块，用于分析差异部分上下文语义，调用云计算的卷积神经训练模型进行计算所述至少两个识别结果的语义；具体的，在调用云计算的卷积神经训练模型进行计算前，需要对模型进行训练，使卷积神经网络能迅速计算出对识别结果语义的预测值。该预测值代替识别结果中的差异部分，与识别结果中相同的部分组成确定的识别结果。

做为本发明中一种同一模块55的实施例搜索子模块，用于对差异部分进行模糊搜索；将差异部分前后相同的语义拿出做为关键词。通过搜索关键词，以得到数量最多的搜索结果为准，对所述差异部分进行模糊替换，得到最符合语义习惯的识别结果做为确定的识别结果。

做为本发明中另一种同一模块55的实施例，设置在所述语音识别模块53上的至少一个第二语音识别子模块，用于对所述用户语音再次识别，得到多个第二识别结果。在不更换语义库的前提下，在同一语音识别平台上设置第二语音识别子模块，可以提高语音识别精度，减少语音识别模块带来的物理影响。将所述多个识别结果与所述多个第二识别结果进行对比；在多个识别结果中，对比得到差异部分最少的识别结果，即为同一率最高的识别结果，再对同一率最高的识别结果进行语义分析，得到确定的识别结果。

当然，所述同一模块的三种实施例是可同时存在的。

还提供一种智能音箱，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如前述的基于多源识别的语音识别方法。

上述实施例仅用于说明本发明的具体实施方式。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和变化，这些变形和变化都应属于本发明的保护范围。

Claims

1.一种基于多源识别的语音识别方法，用于智能音箱，其特征在于，所述方法包括：

通过智能音箱获取用户语音；

智能音箱对相同的所述至少两个识别结果进行输出；

2.如权利要求1所述的基于多源识别的语音识别方法，其特征在于，所述智能音箱将获取的用户语音通过至少两个语音识别平台对所述用户语音进行识别，得到至少两个识别结果之前，所述方法还包括：

通过智能音箱采集并储存用户的声纹；

将获取的用户语音进行去噪。

3.如权利要求1所述的基于多源识别的语音识别方法，其特征在于，所述智能音箱对存在差异的所述至少两个识别结果进行同一再输出，包括：

4.如权利要求1所述的基于多源识别的语音识别方法，其特征在于，所述智能音箱对存在差异的所述至少两个识别结果进行同一再输出，包括：

将所述多个识别结果与所述多个第二识别结果进行对比；

选择同一率最高的识别结果进行输出。

5.如权利要求1所述的基于多源识别的语音识别方法，其特征在于，所述智能音箱对存在差异的所述至少两个识别结果进行同一再输出，包括：

区别出差异部分，对所述差异部分进行模糊搜索；

选择模糊搜索匹配度最高的识别结果进行输出。

6.一种基于多源识别的语音识别***，其特征在于，所述***包括：

输入模块，设置在智能音箱中用于获取用户语音；

7.如权利要求6所述的基于多源识别的语音识别***，其特征在于，所述至少两个语音识别模块为至少两个识别策略不同的语音识别模块，所述语音识别模块包括：

储存子模块，用于储存采集到的用户的声纹；

去噪子模块，用于对获取的用户语音进行去噪。

8.如权利要求6或7所述的基于多源识别的语音识别***，其特征在于，所述同一模块包括：

搜索子模块，用于对差异部分进行模糊搜索；

9.一种智能音箱，其特征在于，所述智能音箱包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至5中任一项所述的基于多源识别的语音识别方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至5中任一项所述的基于多源识别的语音识别方法。