CN111128194A

CN111128194A - 一种提高在线语音识别效果的***及方法

Info

Publication number: CN111128194A
Application number: CN201911411276.8A
Authority: CN
Inventors: 郝鹏
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-08

Abstract

本发明公开了一种提高在线语音识别效果的***及方法，该***包括：设备端，与云端连接，用于获取用户的画像相关信息及录音信息，并将用户的画像相关信息及录音信息发送至云端；云端，用于根据用户的画像相关信息进行模型筛选，得到预设语言模型，并根据预设语音模型配置云端引擎；云端，还用于通过云端引擎对用户的录音信息进行识别，以得到识别结果，并将识别结果发送至设备端，设备端，还用于根据识别结果进行播报处理。通过本发明的技术方案，能够根据用户的个体差异进行模型的动态筛选，进而得到与用户画像相关信息匹配的模型，而通过此模型配置的云端引擎对录音信息进行识别，得到的识别结果准确率更高。

Description

一种提高在线语音识别效果的***及方法

技术领域

本发明涉及语音识别技术领域，特别涉及一种提高在线语音识别效果的***及方法。

背景技术

随着数据处理技术的进步以及移动互联网的快速普及，计算机技术被广泛地运用到了社会的各个领域，随之而来的则是海量数据的产生。其中，语音数据受到了人们越来越多的重视。语音识别是一门交叉学科。近二十年来。语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

目前，针对不同性别、年龄的用户，均采用单一的模型进行语音识别，无法感知到说话人的个体差异，会导致识别结果准确率低。

发明内容

本发明提供一种提高在线语音识别效果的***及方法。所述技术方案如下：

根据本发明实施例的第一方面，提供了一种提高在线语音识别效果的***，包括：

设备端，与云端连接，用于获取用户的画像相关信息及录音信息，并将所述用户的画像相关信息及录音信息发送至云端；

所述云端，用于根据所述用户的画像相关信息进行模型筛选，得到预设语言模型，并根据所述预设语音模型配置云端引擎；

所述云端，还用于通过所述云端引擎对所述用户的录音信息进行识别，以得到识别结果，并将所述识别结果发送至所述设备端，其中，所述识别结果为音频信号；

所述设备端，还用于根据所述识别结果进行播报处理。

在一个实施例中，所述设备端，包括：

采集模块，与识别模块连接，用于采集所述用户的人脸信息；

所述识别模块，分别与所述采集模块及提取模块连接，用于对所述用户的人脸信息进行人脸识别，以得到人脸识别结果；

所述提取模块，用于对所述人脸识别结果进行提取，以得到所述用户的画像相关信息。

在一个实施例中，所述识别模块，包括：

判断子模块，与剪切子模块连接，用于判断所述人脸信息是否达到预设标准；

所述剪切子模块，分别与所述判断子模块及识别子模块连接，用于当所述人脸信息达到预设标准时，对所述人脸信息进行人脸特征剪切，得到剪切结果；

所述识别子模块，用于对所述剪切结果进行识别，以得到所述人脸识别结果。

在一个实施例中，所述云端，包括：

加载模块，用于将所述预设语音模型加载到预设引擎，以得到所述云端引擎。

在一个实施例中，所述设备端，还包括：

滤波模块，与播放模块连接，用于对所述识别结果进行滤波处理，以得到滤波后的识别结果；

播放模块，用于对所述滤波后的识别结果进行播放。

根据本发明实施例的第二方面，提供了一种提高在线语音识别效果的方法，包括：

获取用户的画像相关信息及录音信息；

根据所述用户的画像相关信息进行模型筛选，得到预设语言模型，并根据所述预设语音模型配置云端引擎；

通过所述云端引擎对所述用户的录音信息进行识别，以得到识别结果；

根据所述识别结果进行播报处理。

在一个实施例中，所述获取用户的画像相关信息，包括：

采集用户的人脸信息；

对所述用户的人脸信息进行人脸识别，以得到人脸识别结果；

对所述人脸识别结果进行提取，以得到所述用户的画像相关信息。

在一个实施例中，所述对所述用户的人脸信息进行人脸识别，以得到人脸识别结果，包括：

判断所述人脸信息是否达到预设标准；

当所述人脸信息达到预设标准时，对所述人脸信息进行人脸特征剪切，得到剪切结果；

对所述剪切结果进行识别，以得到所述人脸识别结果。

在一个实施例中，所述根据所述预设语音模型配置云端引擎，包括：

将所述预设语音模型加载到预设引擎，以得到所述云端引擎。

在一个实施例中，所述根据所述识别结果进行播报处理，包括：

对所述识别结果进行滤波处理，以得到滤波后的识别结果；

对所述滤波后的识别结果进行播放。

本发明的实施例提供的技术方案可以包括以下有益效果：

相比于根据单一的、不变的模型对录音信息进行识别而言，本发明的技术方案能够根据用户的个体差异进行模型的动态筛选，得到与用户的画像相关信息匹配的模型，而通过此模型配置的云端引擎对录音信息进行识别，得到的识别结果准确率更高。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明一实施例中一种提高在线语音识别效果的***的框图；

图2为本发明一实施例中另一种提高在线语音识别效果的***的框图；

图3为本发明一实施例中一种提高在线语音识别效果的方法的流程图；

图4为本发明一实施例中另一种提高在线语音识别效果的方法的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明一实施例中一种提高在线语音识别效果的***的框图，如图1所示，该***包括：

设备端1，与云端2连接，用于获取用户的画像相关信息及录音信息，并将所述用户的画像相关信息及录音信息发送至云端2；其中，用户的画像相关信息包括但不限于年龄、性别、职业、情绪、国家等。

所述云端2，用于根据所述用户的画像相关信息进行模型筛选，得到预设语言模型，并根据所述预设语音模型配置云端引擎；例如，用户的画像相关信息显示的是一个六岁左右的女孩，云端根据此信息筛选儿童玩具、有声读物、音乐等领域的语言模型配置云端引擎。

所述云端2，还用于通过所述云端引擎对所述用户的录音信息进行识别，以得到识别结果，并将所述识别结果发送至所述设备端1，其中，所述识别结果为音频信号；其中，云端引擎对用户的录音信息识别之前还包括，将用户的录音信息发送给云端引擎。

所述设备端1，还用于根据所述识别结果进行播报处理。

通过设备端1获取用户的画像相关信息及录音信息，并且发送至云端2，云端2会根据接收到的用户的画像相关信息进行模型的筛选，筛选出与用户画像相关信息相匹配的模型，并将筛选到的模型配置到云端引擎上，之后云端引擎会对用户的录音信息进行识别，并将识别结果发送至设备端1，以使设备端1根据此识别结果进行播报；相比于根据单一的、不变的模型对录音信息进行识别而言，本发明的技术方案能够根据用户的个体差异进行模型的动态筛选，得到与用户的画像相关信息匹配的模型，而通过此模型配置的云端引擎对录音信息进行识别，得到的识别结果准确率更高。

如图2所示，在一个实施例中，所述设备端1，包括：

采集模块11，与识别模块12连接，用于采集所述用户的人脸信息；

所述识别模块12，分别与所述采集模块11及提取模块13连接，用于对所述用户的人脸信息进行人脸识别，以得到人脸识别结果；

所述提取模块13，用于对所述人脸识别结果进行提取，以得到所述用户的画像相关信息。

通过采集模块采集用户的人脸信息，进而通过识别模块对用户的人脸信息进行人脸识别，得到人脸识别结果，最后通过提取模块对人脸识别结果进行提取，得到的用户的画像相关信息与用户匹配度高。

在一个实施例中，所述识别模块，包括：

通过判断子模块对判断人脸信息是否达到预设标准，可以避免识别一些无用的图像信息，减少工作量，而通过剪切子模块对人脸信息进行剪切，对剪切得到的结果进行识别，使得得到的人脸识别结果更加可靠。

在一个实施例中，所述云端，包括：

通过加载模块将预设语言模型加载到预设引擎，当预设语言模型动态变化时，最终得到的云端引擎也会变化为最适合用户的状态。

在一个实施例中，所述设备端，还包括：

播放模块，用于对所述滤波后的识别结果进行播放。

通过滤波模块对识别进行滤波处理得到的识别结果，在播放的时候，能使用户更加清晰的听见结果。

对发明实施例提供的上述一种提高在线语音识别效果的***，本发明实施例还提供一种提高在线语音识别效果的方法，如图3所示，该方法可被实施为如下步骤S31-S34：

在步骤S31中，获取用户的画像相关信息及录音信息；

在步骤S32中，根据用户的画像相关信息进行模型筛选，得到预设语言模型，并根据预设语音模型配置云端引擎；

在步骤S33中，通过云端引擎对用户的录音信息进行识别，以得到识别结果；

在步骤S34中，根据识别结果进行播报处理。

如图4所示，在一个实施例中，所述获取用户的画像相关信息，包括如下步骤：

在步骤S311中，采集用户的人脸信息；

在步骤S312中，对用户的人脸信息进行人脸识别，以得到人脸识别结果；

在步骤S313中，对人脸识别结果进行提取，以得到用户的画像相关信息。

判断所述人脸信息是否达到预设标准；

对所述剪切结果进行识别，以得到所述人脸识别结果。

对所述识别结果进行滤波处理，以得到滤波后的识别结果；

对所述滤波后的识别结果进行播放。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种提高在线语音识别效果的***，其特征在于，包括：

所述设备端，还用于根据所述识别结果进行播报处理。

2.如权利要求1所述的一种提高在线语音识别效果的***，其特征在于，所述设备端，包括：

3.如权利要求2所述的一种提高在线语音识别效果的***，其特征在于，所述识别模块，包括：

4.如权利要求1所述的一种提高在线语音识别效果的***，其特征在于，所述云端，包括：

5.如权利要求1所述的一种提高在线语音识别效果的***，其特征在于，所述设备端，还包括：

播放模块，用于对所述滤波后的识别结果进行播放。

6.一种提高在线语音识别效果的方法，其特征在于，所述方法适用于提高在线语音识别效果的***，所述方法包括：

获取用户的画像相关信息及录音信息；

根据所述识别结果进行播报处理。

7.如权利要求6所述的一种提高在线语音识别效果的方法，其特征在于，所述获取用户的画像相关信息，包括：

采集用户的人脸信息；

8.如权利要求7所述的一种提高在线语音识别效果的方法，其特征在于，所述对所述用户的人脸信息进行人脸识别，以得到人脸识别结果，包括：

判断所述人脸信息是否达到预设标准；

对所述剪切结果进行识别，以得到所述人脸识别结果。

9.如权利要求6所述的一种提高在线语音识别效果的方法，其特征在于，所述根据所述预设语音模型配置云端引擎，包括：

10.如权利要求6所述的一种提高在线语音识别效果的方法，其特征在于，所述根据所述识别结果进行播报处理，包括：

对所述识别结果进行滤波处理，以得到滤波后的识别结果；

对所述滤波后的识别结果进行播放。