CN109741749B

CN109741749B - 一种语音识别的方法和终端设备

Info

Publication number: CN109741749B
Application number: CN201810354965.9A
Authority: CN
Inventors: 罗永浩; 罗海涛
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2018-04-19
Filing date: 2018-04-19
Publication date: 2020-03-27
Anticipated expiration: 2038-04-19
Also published as: CN109741749A

Abstract

本发明公开了一种语音识别的方法和终端设备，所述方法应用于终端设备，所述终端设备保存有第一预设文本，所述方法包括：接收语音数据，所述语音数据包括目标语音；比较所述第一预设文本的读音和所述目标语音；若所述第一预设文本的读音和所述目标语音的相似度大于或者等于第一阈值，将所述目标语音识别为所述第一预设文本。由此可见，利用本申请实施例提供的方法和终端设备，由于终端设备中保存有第一预设文本，当所述目标语音与第一预设文本的读音相似度比较高时，终端设备可以自动将目标文本识别为第一预设文本，而不会识别为与第一预设文本读音相同或相似的其它文本，从而提高了语音识别的准确率。

Description

一种语音识别的方法和终端设备

技术领域

本发明涉及领域互联网领域，特别是涉及一种语音识别的方法和终端设备。

背景技术

随着互联网技术的发展，语音识别技术的应用也越来越广泛。许多智能设备尤其是智能移动终端上都安装有语音识别引擎，语音识别引擎可以用于将用户输入的语音转换成文本。

但是，由于许多文字的读音相似甚至是相同，语音识别引擎在将用户输入的目标语音转换成目标文本时，可能会将目标语音识别成与目标文本读音相同或相似的文本，例如，将“Mac”识别为“Mike”或者“麦克”。从而导致语音识别的准确率不高。

因此，需要提供一种语音识别的方法和终端设备，能够提高语音识别的准确率。

发明内容

为了解决上述问题，本发明实施例提供一种语音识别的方法和终端设备。

本发明实施例提供一种语音识别的方法，应用于终端设备，所述终端设备保存有第一预设文本，包括：

接收语音数据；所述语音数据包括目标语音；

比较所述第一预设文本的读音和所述目标语音；

若所述第一预设文本的读音和所述目标语音的相似度大于或者等于第一阈值，将所述目标语音识别为所述第一预设文本。

可选的，所述方法还包括：

将所述第一预设文本发送给服务器，以便于服务器查找与所述第一预设文本相关的第二预设文本；

接收服务器发送的第二预设文本；

保存所述第二预设文本。

可选的，若所述第一预设文本的读音和所述目标语音的相似度小于第一阈值，所述方法还包括：

比较所述第二预设文本的读音和所述目标语音；

相应的，若所述第二预设文本的读音和所述目标语音的相似度大于或者等于第二阈值，将所述目标语音识别为所述第二预设文本。

可选的，所述将所述目标语音识别为所述第一预设文本，包括：

比较所述第二预设文本的读音和所述目标语音，确定所述第二预设文本的读音和所述目标语音的相似度；

若第一相似度大于或者等于第二相似度，将所述目标语音识别为所述第一预设文本；其中，所述第一相似度为所述第一预设文本的读音和所述目标语音的相似度；所述第二相似度为所述第二预设文本的读音和所述目标语音的相似度。

可选的，若所述第一相似度小于所述第二相似度，所述方法还包括：

判断所述第二相似度是否大于或者等于第三阈值；

当所述第二相似度大于或者等于第三阈值时，将所述目标语音识别为所述第二预设文本。

可选的，所述第二预设文本包括：

与所述第一预设文本具有内容相关性的文本，和/或，

与所述第一预设文本具有语义相关性的文本。

本发明实施例提供一种设备，包括：

第一接收单元，用于接收语音数据；所述语音数据包括目标语音；

比较单元，用于比较所述第一预设文本的读音和所述目标语音；

识别单元，用于若所述第一预设文本的读音和所述目标语音的相似度大于或者等于第一阈值，将所述目标语音识别为所述第一预设文本。

可选的，所述终端设备还包括：

发送单元，用于将所述第一预设文本发送给服务器，以便于服务器查找与所述第一预设文本相关的第二预设文本；

第二接收单元，用于接收服务器发送的第二预设文本；

保存单元，用于保存所述第二预设文本。

可选的，若所述第一预设文本的读音和所述目标语音的相似度小于第一阈值，所述比较单元，还用于：

比较所述第二预设文本的读音和所述目标语音；

相应的，所述识别单元用于：当所述第二预设文本的读音和所述目标语音的相似度大于或者等于第二阈值时，将所述目标语音识别为所述第二预设文本。

可选的，所述识别单元，具体用于：

可选的，若所述第一相似度小于所述第二相似度，所述比较单元620还用于：

判断所述第二相似度是否大于或者等于第三阈值；

相应的，所述识别单元还用于，当所述第二相似度大于或者等于第三阈值时，将所述目标语音识别为所述第二预设文本。

可选的，所述第二预设文本包括：

与所述第一预设文本具有内容相关性的文本，和/或，

与所述第一预设文本具有语义相关性的文本。

与现有技术相比，本发明实施例具有以下优点：

本发明实施例提供一种语音识别的方法和终端设备，所述方法应用于终端设备，所述终端设备保存有第一预设文本，所述方法包括：接收语音数据，所述语音数据包括目标语音；比较所述第一预设文本的读音和所述目标语音；若所述第一预设文本的读音和所述目标语音的相似度大于或者等于第一阈值，将所述目标语音识别为所述第一预设文本。由此可见，利用本申请实施例提供的方法和终端设备，由于终端设备中保存有第一预设文本，当所述目标语音与第一预设文本的读音相似度比较高时，终端设备可以自动将目标文本识别为第一预设文本，而不会识别为与第一预设文本读音相同或相似的其它文本，从而提高了语音识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音识别方法的流程示意图；

图2为本发明实施例提供的又一种语音识别方法的流程示意图；

图3为本发明实施例提供的一种结合第一预设文本和第二预设文本识别目标语音的流程示意图；

图4为本发明实施例提供的又一种结合第一预设文本和第二预设文本识别目标语音的流程示意图；

图5为本发明实施例提供的一种语音识别的信令交互图；

图6为本发明实施例提供的终端设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图，详细说明本发明的各种非限制性实施方式。

方法实施例

参见图1，该图为本发明实施例提供的一种语音识别方法的流程示意图。

本发明实施例提供的语音识别方法，应用于终端设备。所述终端设备例如可以是笔记本电脑、台式计算机等终端设备，所述终端设备也可以是手机、平板电脑等移动终端设备，本发明实施例不具体限定所述终端设备。

在本实施例中，所述方法例如可以通过如下步骤S101-S103实现。

S101：接收语音数据，所述语音数据包括目标语音。

需要说明的是，在本发明实施例中，所述语音数据可以是用户通过麦克风输入的语音数据。也就是说，终端设备可以通过麦克风接收所述语音数据。

需要说明的是，本发明实施例不具体限定所述语音数据。所述语音数据可以包括一个或多个句子，也可以包括一个或多个词语。

相应的，所述目标语音为所述语音数据的部分或全部内容。目标语音可以为对所述语音数据进行拆分所获得的。例如，所述语音数据包括一个句子，所述目标语音为对该句子进行拆分获得的词语所对应的语音。又如，所述语音数据包括一个词语，所述目标语音为该一个词语对应的语音。

S102：比较第一预设文本的读音和所述目标语音。

需要说明的是，所述终端设备保存有第一预设文本。本发明实施例不具体限定所述第一预设文本，所述第一预设文本可以包括一个或多个字符。所述第一预设文本可以为英文字符，也可以为中文字符，还可以为其它字符。例如，第一预设字符可以为字符“iPhone”；又如，第一预设字符可以为字符“坚果”。

需要说明的是，所述第一预设文本可以是终端设备基于用户触发的操作指令保存的。用户可以设置终端设备保存用户使用频率较高的文本。

需要说明的是，在实际应用中，所述第一预设文本可能包括多种读音。例如，所述第一预设文本为“朝阳”，第一预设文本包括“chao(一声)yang(二声)”和“zhao(一声)yang(二声)”两种读音。

在本发明实施例中，若第一预设文本的读音包括第一读音和第二读音，则比较第一预设文本的读音和所述目标语音时，可以将所述第一语音和所述第二语音分别与所述目标语音进行比较。

S103：若所述第一预设文本的读音和所述目标语音的相似度大于或者等于第一阈值，将所述目标语音识别为所述第一预设文本。

需要说明的是，本发明实施例不具体限定所述第一阈值，第一阈值可以根据实际情况具体设置，作为一种示例，所述第一阈值可以为0.9。

在本发明实施例中，当第一预设文本的读音和所述目标语音的相似度大于或者等于第一阈值时，可以认为所述目标语音即为所述第一预设文本对应的语音。

需要说明的是，当所述第一预设文本的读音包括第一读音和第二读音时，若所述第一读音和所述目标语音的相似度大于或者等于第一阈值时，将所述目标语音识别为第一预设文本；或者，若所述第二读音和所述目标语音的相似度大于或者等于第一阈值时，将所述目标语音识别为第一预设文本。

也就是说，第一读音和第二读音中任意一个读音和所述目标语音的相似度大于或者等于第一阈值时，可以将所述目标语音识别为第一预设文本。

由此可见，利用本申请实施例提供的方法，由于终端设备中保存有第一预设文本，当所述目标语音与第一预设文本的读音相似度比较高时，终端设备可以自动将目标文本识别为第一预设文本，而不会识别为与第一预设文本读音相同或相似的其它文本，从而提高了语音识别的准确率。

如前文所述，所述第一预设文本可能是用户使用频率较高的文本，第一预设文本出现在所述目标语音中的可能性比较大，鉴于此，与第一预设文本相关的文本在所述目标语音中出现的可能性也可能比较大，鉴于此，在本发明实施例中，所述终端设备还可以保存与所述第一预设文本相关的第二预设文本。

具体地，在本发明实施例的一个实例中，所述语音识别的方法还可以包括如下步骤S201-S203。

S201：将所述第一预设文本发送给服务器，以便于服务器查找与所述第一预设文本相关的第二预设文本。

需要说明的是，在本发明实施例中，所述终端设备可以利用网络将所述第一预设文本发送给服务器。

本发明实施例不具体限定所述服务器。所述服务器上保存有大量的文本信息，因此，所述服务器接收到终端设备发送的第一预设文本之后，可以根据所述第一预设文本查找到与所述第一预设文本相关的第二预设文本。

需要说明的是，在本发明实施例中，所述第二预设文本可以是与所述第一预设文本具有内容相关性的文本，和/或，所述第二预设文本可以是与所述第一预设文本具有语义相关性的文本。

需要说明的是，所述第一预设文本与所述第二预设文本具有内容相关性，是指，由所述第一预设文本直接或者间接获得的内容中，包括第二预设文本。例如，第一预设文本为“iPhone”，第二预设文本可以为“Steve Jobs”、“Mac”、“itune”中的任意一个或多个。

第二预设文本为所述第一预设文本与所述第二预设文本具有语义相关性，是指，所述第一预设文本与第二预设文本在语义上具有一定的关系。例如，第一预设文本可以为“安装”，第二预设文本可以为“软件”；又如，第一预设文本可以为“坚果”，第二预设文本可以为“手机”。

S202：接收服务器发送的第二预设文本。

S203：保存所述第二预设文本。

可以理解的是，终端设备保存第二预设文本之后，即可结合第一预设文本和第二预设文本识别所述目标语音。

需要说明的是，结合第一预设文本和第二预设文本识别所述目标语音，可以有多种实现方式。以下结合附图对结合第一预设文本和第二预设文本识别所述目标语音的具体实现方式进行介绍。

参见图3，该图为本发明实施例提供的一种识别目标语音的方法流程示意图。本发明实施例提供的方法，可以通过如下步骤S301-S304实现。

S301：比较所述第一预设文本的发音和所述目标语音。若所述第一预设文本的发音和所述目标文本的相似度小于第一阈值，执行步骤S302，否则，执行步骤S304。

需要说明的是，步骤S301的具体实现与步骤S102的具体实现类似，具体内容可以参考步骤S102中相关内容的描述，此处不再赘述。

S302：比较所述第二预设文本的发音和所述目标语音。

需要说明的是，步骤S302的具体实现与步骤S102的具体实现类似，只是步骤S102中，是比较所述第一预设文本的发音和所述目标语音，而步骤S302中是比较所述第二预设文本的发音和所述目标语音。因此步骤S302的具体描述可以参考步骤S102的相关描述，此处不再赘述。

S303：若所述第二预设文本的发音和所述目标语音的相似度大于或者等于第二阈值，将所述目标语音识别为所述第二预设文本。

需要说明的是，本发明实施例不具体限定所述第二阈值，第二阈值可以根据实际情况确定。例如，第二阈值可以为0.9。

S304：将所述目标语音识别为所述第一预设文本。

关于步骤S301至步骤S304，需要说明的是，考虑到第一预设文本是用户自主定义的，因此，第一预设文本出现在目标语音中的可能性更大，因此，在识别目标语音时，优先将所述第一预设文本的读音与所述目标语音进行比较，若第一预设文本的读音与所述目标语音的相似度低于第一阈值，再将所述第二预设文本的读音与所述目标语音进行比较，以确定是否可以将所述目标语音识别为所述第二预设文本。

参见图4，该图为本发明实施例提供的另一种识别目标语音的方法流程示意图。本发明实施例提供的方法，可以通过如下步骤S401-S404实现。

S401：比较所述第一预设文本的读音和所述目标语音；比较所述第二预设文本的读音和所述目标语音。

S402：当所述第一相似度大于或者等于第一阈值时，判断第一相似度和第二相似度的大小关系，若所述第一相似度大于或者等于第二相似度，执行步骤S404，若所述第一相似度小于所述第二相似度，执行步骤S403。

需要说明的是，所述第一相似度为所述第一预设文本的读音和所述目标语音的相似度；所述第二相似度为所述第二预设文本的读音和所述目标语音的相似度。

S403：判断所述第二相似度是否大于或者等于第三阈值，当所述第二相似度大于或者等于第三阈值时，将所述目标语音识别为所述第二预设文本。

需要说明的是，与所述第一阈值和所述第二阈值类似，本发明实施例也不具体限定所述第三阈值，第三阈值可以根据实际情况确定。

S404：将所述目标语音识别为所述第一预设文本。

关于步骤S401至步骤S404，需要说明的是，在识别目标语音时，将所述目标语音分别与所述第一预设文本的读音以及所述第二预设文本的读音比较，当第一相似度大于或者等于第二相似度，并且第一相似度大于第一阈值时，将所述目标语音识别为所述第一预设文本。若第一相似度大于第一阈值，且第一相似度小于第二相似度，则根据第二相似度与所述第三阈值的大小关系，以确定是否可以将所述目标语音识别为所述第二预设文本。

以上介绍了本发明实施例提供语音识别的方法，以下结合具体场景对该方法进行介绍。

在该场景中，所述终端设备为移动终端，移动终端上安装有可以将语音识别为文本的语音识别引擎。移动终端上安装有应用程序，该应用程序可以调用所述语音识别引擎，移动终端上可以包括语音服务，语音服务也可以看成一个应用程序，语音服务可以和应用程序、语音识别引擎以及服务器进行数据交互。其中，第一阈值为0.9。以下结合图5对该场景下的语音识别方法进行介绍。

参见图5，该图为本发明实施例提供的一种语音识别的信令交互图。本发明实施例提供的语音识别方法，可以通过如下步骤S501-S511实现。

S501：响应于用户触发的设置请求，生成设置请求指令。

需要说明的是，本发明实施例不具体限定所述设置请求指令的具体格式，所述设置请求指令的具体格式可以根据实际情况确定。

S502：应用程序将设置请求指令发送给语音服务，设置请求指令中携带第一预设文本。

S503：语音服务解析所述设置请求指令，获得第一预设文本。

S504：语音服务将第一预设文本发送给服务器。

S505：服务器查找与第一预设文本相关的第二预设文本。

S506：服务器将第二预设文本发送给语音服务。

S507：语音服务将第一预设文本和第二预设文本发送给语音识别引擎。

需要说明的是，语音服务可以将第一预设文本和第二预设文本同时发送给语音识别引擎。语音服务也可以在步骤S503获得第一预设文本之后，先将所述第一预设文本发送给语音识别引擎，然后在步骤S506之后将所述第二预设文本发送给语音识别引擎，本发明实施例对此不做限定。

S508：语音识别引擎保存第一预设文本和第二预设文本。

S509：应用程序获取语音数据，语音数据中包括目标语音。

S510：应用程序将语音数据发送给语音识别引擎。

S511：语音识别引擎确定第一预设文本的读音和目标语音的相似度为0.95，将目标语音识别为第一预设文本。

由于第一预设文本的读音和目标语音的相似度大于第一阈值，故而所述目标语音识别为第一预设文本。

需要说明的是，进一步地，所述语音识别引擎可以将对所述语音数据的识别结果发送给语音服务，由语音服务将所述识别结果发送给应用程序，应用程序可以将所述识别结果显示在所述移动终端的显示屏上。

设备实施例

基于以上方法实施例提供的语音识别的方法，本发明实施例还提供一种终端设备。

参见图6，该图为本发明实施例提供的一种终端设备的结构示意图。所述终端设备600例如可以具体包括：第一接收单元610、比较单元620和识别单元630。

第一接收单元610，用于接收语音数据；所述语音数据包括目标语音；

比较单元620，用于比较所述第一预设文本的读音和所述目标语音；

识别单元630，用于若所述第一预设文本的读音和所述目标语音的相似度大于或者等于第一阈值，将所述目标语音识别为所述第一预设文本。

可选的，所述终端设备还包括：

第二接收单元，用于接收服务器发送的第二预设文本；

保存单元，用于保存所述第二预设文本。

可选的，若所述第一预设文本的读音和所述目标语音的相似度小于第一阈值，所述比较单元620，还用于：

比较所述第二预设文本的读音和所述目标语音；

相应的，所述识别单元630用于：当所述第二预设文本的读音和所述目标语音的相似度大于或者等于第二阈值时，将所述目标语音识别为所述第二预设文本。

可选的，所述识别单元630，具体用于：

判断所述第二相似度是否大于或者等于第三阈值；

相应的，所述识别单元630还用于，当所述第二相似度大于或者等于第三阈值时，将所述目标语音识别为所述第二预设文本。

可选的，所述第二预设文本包括：

与所述第一预设文本具有内容相关性的文本，和/或，

与所述第一预设文本具有语义相关性的文本。

关于所述终端设备600的各单元的具体实现可以参考以上方法实施例中相关内容的描述，此处不再赘述。

由此可见，利用本申请实施例提供的终端设备，由于终端设备中保存有第一预设文本，当所述目标语音与第一预设文本的读音相似度比较高时，终端设备可以自动将目标文本识别为第一预设文本，而不会识别为与第一预设文本读音相同或相似的其它文本，从而提高了语音识别的准确率。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别的方法，其特征在于，应用于终端设备，所述终端设备保存有第一预设文本，包括：

接收语音数据；所述语音数据包括目标语音；

比较所述第一预设文本的读音和所述目标语音，所述第一预设文本基于用户的使用频率预先确定；

若所述第一预设文本的读音和所述目标语音的相似度大于或者等于第一阈值，将所述目标语音识别为所述第一预设文本；

所述方法还包括：

接收服务器发送的第二预设文本；

保存所述第二预设文本；

所述将所述目标语音识别为所述第一预设文本，包括：

2.根据权利要求1所述的方法，其特征在于，若所述第一预设文本的读音和所述目标语音的相似度小于第一阈值，所述方法还包括：

比较所述第二预设文本的读音和所述目标语音；

3.根据权利要求1所述的方法，其特征在于，若所述第一相似度小于所述第二相似度，所述方法还包括：

判断所述第二相似度是否大于或者等于第三阈值；

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述第二预设文本包括：

与所述第一预设文本具有内容相关性的文本，和/或，

与所述第一预设文本具有语义相关性的文本。

5.一种终端设备，其特征在于，所述终端设备保存有第一预设文本，包括：

比较单元，用于比较所述第一预设文本的读音和所述目标语音，所述第一预设文本基于用户的使用频率预先确定；

识别单元，用于若所述第一预设文本的读音和所述目标语音的相似度大于或者等于第一阈值，将所述目标语音识别为所述第一预设文本；

所述终端设备还包括：

第二接收单元，用于接收服务器发送的第二预设文本；

保存单元，用于保存所述第二预设文本；

所述识别单元，具体用于：

6.根据权利要求5所述的终端设备，其特征在于，若所述第一预设文本的读音和所述目标语音的相似度小于第一阈值，所述比较单元，还用于：

比较所述第二预设文本的读音和所述目标语音；