CN112767923B

CN112767923B - 一种语音识别方法及装置

Info

Publication number: CN112767923B
Application number: CN202110008353.6A
Authority: CN
Inventors: 张伟涛
Original assignee: Shanghai Weimeng Enterprise Development Co ltd
Current assignee: Shanghai Weimeng Enterprise Development Co ltd
Priority date: 2021-01-05
Filing date: 2021-01-05
Publication date: 2022-12-23
Anticipated expiration: 2041-01-05
Also published as: CN112767923A

Abstract

本发明公开了一种语音识别方法及装置，首先获取待识别语音数据，然后根据待识别语音数据，使用第一检测模型获得待识别语音数据对应的无声调拼音数据，进一步根据获得的无声调拼音数据从预设数据库检索与无声调拼音数据匹配的文本，将获得的文本输出。本发明对待识别语音学习获得对应的无声调拼音数据，能够提高对待识别语音学习的准确度，并根据对应的无声调拼音数据从预设数据库检索相匹配的文本以获得识别结果，与现有直接学习获得待识别语音对应的文字的方法相比，能够提高对待识别语音识别的准确率。

Description

一种语音识别方法及装置

技术领域

本发明涉及语音识别技术领域，特别是涉及一种语音识别方法及装置。

背景技术

现有技术中，实现语音识别的方法主要应用于通用场景，而对于一些专用领域比如餐饮领域、这些语音识别方法对使用的专有名词的识别准确率比较低，同时在自然场景下由于受到外界环境的噪音或者其它因素干扰，识别率更低。

发明内容

鉴于以上所述，本发明的目的是提供一种语音识别方法及装置，能够提高识别准确率。

为实现上述目的，本发明提供如下技术方案：

一种语音识别方法，包括：

获取待识别语音数据；

根据所述待识别语音数据，使用第一检测模型获得所述待识别语音数据对应的无声调拼音数据；

根据获得的所述无声调拼音数据，从预设数据库检索与所述无声调拼音数据匹配的文本，将获得的文本输出。

优选的，根据获得的所述无声调拼音数据，从预设数据库检索与所述无声调拼音数据匹配的文本包括：

根据获得的所述无声调拼音数据，若从所述预设数据库未检索到无声调拼音与所述无声调拼音数据一致的文本，则根据获得的所述无声调拼音数据，使用第二检测模型获得所述待识别语音数据对应的文字数据；

根据获得的所述无声调拼音数据或者所述文字数据，从所述预设数据库检索与所述无声调拼音数据或者所述文字数据匹配的文本，将获得的文本输出。

根据获得的所述无声调拼音数据，若从所述预设数据库检索到无声调拼音与所述无声调拼音数据一致的文本，则将获得的文本输出。

优选的，根据获得的所述无声调拼音数据或者所述文字数据，从所述预设数据库检索与所述无声调拼音数据或者所述文字数据匹配的文本包括：

根据获得的所述文字数据，若从所述预设数据库未检索到与所述文字数据一致的文本，则根据获得的所述无声调拼音数据从所述预设数据库检索无声调拼音与所述无声调拼音数据的第一相似度满足要求的文本，根据获得的所述文字数据从所述预设数据库检索与所述文字数据的第二相似度满足要求的文本，将获得的文本输出。

优选的，具体包括：根据获得的所述无声调拼音数据从所述预设数据库检索无声调拼音与所述无声调拼音数据的第一相似度满足要求的文本，根据获得的所述文字数据从所述预设数据库检索与所述文字数据的第二相似度满足要求的文本，将两部分文本合并去重。

优选的，具体包括：根据从所述预设数据库检索出的文本的无声调拼音与获得的所述无声调拼音数据的第一相似度、从所述预设数据库检索出的文本与获得的所述文字数据的第二相似度以及从所述预设数据库检索出的文本与获得的所述文字数据之间的共有字符占比，从所述预设数据库检索出的文本中筛选出符合要求的文本。

优选的，具体包括：将从所述预设数据库检索出的文本的无声调拼音与获得的所述无声调拼音数据的第一相似度、从所述预设数据库检索出的文本与获得的所述文字数据的第二相似度以及从所述预设数据库检索出的文本与获得的所述文字数据之间的共有字符占比求和，根据求和结果从所述预设数据库检索出的文本中筛选出符合要求的文本。

根据获得的所述文字数据，若从所述预设数据库检索到与所述文字数据一致的文本，则将获得的文本输出。

优选的，使用数据集训练获得所述第一检测模型和所述第二检测模型，所述数据集包括语音数据、语音对应的文字数据以及语音对应的拼音数据，所述第一检测模型以无声调拼音为标签，所述第二检测模型以文字为标签。

一种语音识别装置，用于执行以上所述的语音识别方法。

由上述技术方案可知，本发明所提供的一种语音识别方法及装置，首先获取待识别语音数据，然后根据待识别语音数据，使用第一检测模型获得待识别语音数据对应的无声调拼音数据，进一步根据获得的无声调拼音数据从预设数据库检索与无声调拼音数据匹配的文本，将获得的文本输出。本发明的语音识别方法及装置对待识别语音学习获得对应的无声调拼音数据，能够提高对待识别语音学习的准确度，并根据对应的无声调拼音数据从预设数据库检索相匹配的文本以获得识别结果，与现有直接学习获得待识别语音对应的文字的方法相比，能够提高对待识别语音识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音识别方法的流程图；

图2为本发明又一实施例提供的一种语音识别方法的流程图；

图3为本发明实施例的根据获得的无声调拼音数据或者文字数据从预设数据库检索与无声调拼音数据或者文字数据匹配的文本的方法流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

请参考图1，图1为本发明实施例提供的一种语音识别方法的流程图，由图可知，所述语音识别方法包括以下步骤：

S10：获取待识别语音数据。

待识别语音数据为通过语音获取设备获得的语音数据。

S11：根据所述待识别语音数据，使用第一检测模型获得所述待识别语音数据对应的无声调拼音数据。

第一检测模型以语音数据为输入数据，以无声调拼音数据为输出数据。第一检测模型通过对输入的语音数据提取和学习特征，获得语音数据对应的无声调拼音数据。

S12：根据获得的所述无声调拼音数据，从预设数据库检索与所述无声调拼音数据匹配的文本，将获得的文本输出。

预设数据库包括用于匹配的文本。通过从预设数据库检索出与待识别语音数据匹配的文本，获得对于待识别语音数据的识别结果。在实际应用中，可以根据实际应用场景建立相应的预设数据库。

与无声调拼音数据匹配的文本是指文本的无声调拼音与该无声调拼音数据至少有一部分相同。根据得到的待识别语音数据对应的无声调拼音数据，从预设数据库检索出与无声调拼音数据相匹配的文本，获得对于待识别语音的识别结果。

本实施例的语音识别方法获得待识别语音对应的无声调拼音数据，能够提高对待识别语音学习的准确度，并根据对应的无声调拼音数据从预设数据库检索相匹配的文本以获得识别结果，与现有直接学习获得待识别语音对应的文字的方法相比，能够提高对待识别语音识别的准确率。

请参考图2，图2为本发明又一实施例提供的一种语音识别方法的流程图，由图可知，所述语音识别方法包括以下步骤：

S20：获取待识别语音数据。

待识别语音数据为通过语音获取设备获得的语音数据，语音获取设备包括但不限于话筒。

S21：根据所述待识别语音数据，使用第一检测模型获得所述待识别语音数据对应的无声调拼音数据。

S22：根据获得的所述无声调拼音数据，从预设数据库检索无声调拼音与所述无声调拼音数据一致的文本。

根据通过第一检测模型获得的待识别语音数据对应的无声调拼音数据，从预设数据库检索文本的无声调拼音与该无声调拼音数据一致的文本。

S23：根据获得的所述无声调拼音数据，若从所述预设数据库检索到无声调拼音与所述无声调拼音数据一致的文本，则将获得的文本输出。从而获得了对于待识别语音数据的识别结果。

S24：根据获得的所述无声调拼音数据，若从所述预设数据库未检索到无声调拼音与所述无声调拼音数据一致的文本，则根据获得的所述无声调拼音数据，使用第二检测模型获得所述待识别语音数据对应的文字数据。

第二检测模型以无声调拼音数据为输入数据，以文字数据为输出数据。第二检测模型通过对输入的无声调拼音数据提取和学习特征，将无声调拼音数据转换为对应的文字数据。

若从预设数据库没有检索到无声调拼音与待识别语音数据对应的无声调拼音数据一致的文本，则将待识别语音数据对应的无声调拼音数据输入第二检测模型，获得待识别语音数据对应的文字数据。

S25：根据获得的所述无声调拼音数据或者所述文字数据，从所述预设数据库检索与所述无声调拼音数据或者所述文字数据匹配的文本，将获得的文本输出。

与文字数据匹配的文本是指文本与该文字数据至少有一部分相同。根据待识别语音数据对应的无声调拼音数据从预设数据库检索出与无声调拼音数据相匹配的文本，或/和根据得到的待识别语音数据对应的文字数据，从预设数据库检索出与该文字数据相匹配的文本，获得对于待识别语音的识别结果。

优选的请参考图3，本步骤根据获得的无声调拼音数据或者文字数据从预设数据库检索与无声调拼音数据或者文字数据匹配的文本可具体包括以下过程：

S250：根据获得的所述文字数据，从所述预设数据库检索与所述文字数据一致的文本。

根据通过第二检测模型获得的待识别语音数据对应的文字数据，从预设数据库检索与该文字数据一致的文本。

S251：根据获得的所述文字数据，若从所述预设数据库检索到与所述文字数据一致的文本，则将获得的文本输出。得到了对于待识别语音数据的识别结果。

S252：根据获得的所述文字数据，若从所述预设数据库未检索到与所述文字数据一致的文本，则根据获得的所述无声调拼音数据从所述预设数据库检索无声调拼音与所述无声调拼音数据的第一相似度满足要求的文本，根据获得的所述文字数据从所述预设数据库检索与所述文字数据的第二相似度满足要求的文本，将获得的文本输出。

第一相似度表征了两个拼音数据之间的相似度，第二相似度表征了两个文字数据之间的相似度。

若从预设数据库没有检索到与第二检测模型获得的文字数据一致的文本，则根据得到的无声调拼音数据从预设数据库检索与该无声调拼音数据匹配的文本，计算两者的第一相似度，根据第一相似度筛选出符合要求的文本并输出。以及根据得到的文字数据从预设数据库检索与该文字数据匹配的文本，并计算两者的第二相似度，根据第二相似度筛选出符合要求的文本并输出。

在实际应用中，可以根据获得的无声调拼音数据从预设数据库检索无声调拼音与所述无声调拼音数据的第一相似度满足要求的文本，根据获得的所述文字数据从所述预设数据库检索与所述文字数据的第二相似度满足要求的文本，将两部分文本合并去重，得到候选文本。能够进一步从候选文本中筛选结果。

可选的，可以综合根据从所述预设数据库检索出的文本的无声调拼音与获得的所述无声调拼音数据的第一相似度、从所述预设数据库检索出的文本与获得的所述文字数据的第二相似度以及从所述预设数据库检索出的文本与获得的所述文字数据之间的共有字符占比，将从所述预设数据库检索出的文本中筛选出符合要求的文本，进而输出对于待识别语音数据的识别结果。

进一步优选的，可以将从所述预设数据库检索出的文本的无声调拼音与获得的所述无声调拼音数据的第一相似度、从所述预设数据库检索出的文本与获得的所述文字数据的第二相似度以及从所述预设数据库检索出的文本与获得的所述文字数据之间的共有字符占比求和，根据求和结果从所述预设数据库检索出的文本中筛选出符合要求的文本。

在实际应用中，可以根据对第一相似度、第二相似度以及共有字符占比的求和结果大小，将检索出的匹配文本排序，从中选出求和结果较大的文本输出。

可选的，第一相似度可以是根据拼音字符计算的相似度。第二相似度可以是将文字表示为向量计算的余弦相似度。共有字符占比可以采用杰卡德系数，用于计算两个字符数据之间的共有字符占总字符的比例。

第一检测模型或者第二检测模型预先训练获得，使用数据集训练获得所述第一检测模型和所述第二检测模型，所述数据集包括语音数据、语音对应的文字数据以及语音对应的拼音数据，所述第一检测模型以无声调拼音为标签，所述第二检测模型以文字为标签。

第一检测模型或者第二检测模型可以使用相应应用场景通用的数据训练获得，使用的数据集包括的数据可以是相应应用场景通用的数据。在实际应用中，在没有适用语料时可以采用公开语音数据集。

示例性的本实施例方法可以应用于餐饮邻域，建立的预设数据库为菜品知识库。在一具体实例中，将待识别语音输入第一检测模型获得的无声调拼音为“hong shao qizi”，根据该结果从菜品知识库中不能检索到完全一致的文本。则将“hong shao qi zi”输入第二检测模型得到对应的文字“红烧妻子”。根据该文字结果从菜品知识库仍然不能检索到完全一致的文本，则根据“hong shao qi zi”以及“红烧妻子”从菜品知识库检索匹配文本，得到排列在前三的“红烧茄子”、“红烧肘子”、“红烧丸子”，返回识别结果供用户选择。对于返回结果为空或者排序后分值较低的数据，可以认为其是新的菜名或者不是菜名。是否为菜名可以通过基于菜品知识库训练语言模型来判别。

本实施例的语音识别方法通过第一检测模型获得待识别语音对应的无声调拼音数据，与以文字为标签对语音数据进行学习的方法相比，大大地减少了标签数量，这样在训练模型中不仅可以减少参数量还可以提高准确度。

另外，现有的以文字为标签对语音数据进行学习以及识别的方法，对于专用邻域需要大量的专有数据的数据集进行训练并且结果不可控，而本实施例方法通过对语音数据学习获得无声调拼音，根据得到的无声调拼音从预设数据库检索相匹配的文本对模型得到的识别结果进行纠正，相比能够提高对语音识别的准确率。

相应的，本发明实施例还提供一种语音识别装置，用于执行以上所述的语音识别方法。

本实施例的语音识别装置首先获取待识别语音数据，然后根据待识别语音数据，使用第一检测模型获得待识别语音数据对应的无声调拼音数据，进一步根据获得的无声调拼音数据从预设数据库检索与无声调拼音数据匹配的文本，将获得的文本输出。本语音识别装置获得待识别语音对应的无声调拼音数据，能够提高对待识别语音学习的准确度，并根据对应的无声调拼音数据从预设数据库检索相匹配的文本以获得识别结果，与现有直接学习获得待识别语音对应的文字的方法相比，能够提高对待识别语音识别的准确率。

以上对本发明所提供的一种语音识别方法及装置进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种语音识别方法，其特征在于，包括：

获取待识别语音数据；

根据获得的所述无声调拼音数据，从预设数据库检索与所述无声调拼音数据匹配的文本，将获得的文本输出；

所述根据获得的所述无声调拼音数据，从预设数据库检索与所述无声调拼音数据匹配的文本包括：

根据获得的所述文字数据，从所述预设数据库检索与所述文字数据匹配的文本，将获得的文本输出。

2.根据权利要求1所述的语音识别方法，其特征在于，根据获得的所述无声调拼音数据，从预设数据库检索与所述无声调拼音数据匹配的文本包括：

3.根据权利要求1所述的语音识别方法，其特征在于，根据获得的所述文字数据，从所述预设数据库检索与所述文字数据匹配的文本包括：

4.根据权利要求3所述的语音识别方法，其特征在于，具体包括：根据获得的所述无声调拼音数据从所述预设数据库检索无声调拼音与所述无声调拼音数据的第一相似度满足要求的文本，根据获得的所述文字数据从所述预设数据库检索与所述文字数据的第二相似度满足要求的文本，将两部分文本合并去重。

5.根据权利要求3所述的语音识别方法，其特征在于，具体包括：根据从所述预设数据库检索出的文本的无声调拼音与获得的所述无声调拼音数据的第一相似度、从所述预设数据库检索出的文本与获得的所述文字数据的第二相似度以及从所述预设数据库检索出的文本与获得的所述文字数据之间的共有字符占比，从所述预设数据库检索出的文本中筛选出符合要求的文本。

6.根据权利要求3所述的语音识别方法，其特征在于，具体包括：将从所述预设数据库检索出的文本的无声调拼音与获得的所述无声调拼音数据的第一相似度、从所述预设数据库检索出的文本与获得的所述文字数据的第二相似度以及从所述预设数据库检索出的文本与获得的所述文字数据之间的共有字符占比求和，根据求和结果从所述预设数据库检索出的文本中筛选出符合要求的文本。

7.根据权利要求1所述的语音识别方法，其特征在于，根据获得的所述文字数据，从所述预设数据库检索与所述文字数据匹配的文本包括：

8.根据权利要求1所述的语音识别方法，其特征在于，使用数据集训练获得所述第一检测模型和所述第二检测模型，所述数据集包括语音数据、语音对应的文字数据以及语音对应的拼音数据，所述第一检测模型以无声调拼音为标签，所述第二检测模型以文字为标签。

9.一种语音识别装置，其特征在于，用于执行权利要求1-8任一项所述的语音识别方法。