CN104464735A

CN104464735A - 语音信息识别方法、语音信息识别装置与终端

Info

Publication number: CN104464735A
Application number: CN201410768511.8A
Authority: CN
Inventors: 韩庆普
Original assignee: Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Current assignee: Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Priority date: 2014-12-12
Filing date: 2014-12-12
Publication date: 2015-03-25

Abstract

本发明提供了一种语音信息识别方法，其特征在于，包括：接收输入的语音信息；根据所述语音信息对应的用户标识信息，从与所述用户标识信息对应的预设语音库中调用与所述语音信息相匹配的匹配信息；根据所述匹配信息对所述语音信息进行识别，以根据识别后的目标语音信息进行操作。相应的，还提出了一种语言信息识别装置和一种终端。通过本发明的技术方案，可以支持多***、多用户的语音识别方法，能够有效地提高语言识别正确率，增强语音识别的应用场景及体验效果。

Description

语音信息识别方法、语音信息识别装置与终端

技术领域

本发明涉及终端技术领域，具体而言，涉及一种语音信息识别方法、一种语音信息识别装置和一种终端。

背景技术

智能手机的用户操作手段越来越多样化，其中语音识别应用也越来越广泛。现有语音识别技术主要采用的是事先建立固定预定识别数据模型、远程库(云端固定语音识别数据库)与本地用户库比对等方法。其中固定语音识别数据模型是指开发人员采集大量的语音数据建立的公共数据库，一般部署在远程云端；远程库与本地用户库对比则主要表现为融合远程云端数据与本地数据，以组合成较为完整的信息反馈给用户。但是，现有的语音识别技术默认只能支持一个用户，无法支持多***、多用户这一多样化需求；此外现有技术方案只是简单融合远程云端数据和本地用户字词库，没有考虑与用户相关联的其他个人信息的标记与捆绑，因而不能更好的为用户提供具有身份特征的个性化语音识别服务，无法适应消费者越来越挑剔的用户体验要求。

因此，需要一种新的技术方案，可以支持多***、多用户的语音识别方法，能够有效地提高语言识别正确率，增强语音识别的应用场景及体验效果。

发明内容

本发明正是基于上述技术问题，提出了一种新的技术方案，可以支持多***、多用户的语音识别方法，能够有效地提高语言识别正确率，增强语音识别的应用场景及体验效果。

有鉴于此，本发明的一方面提出了一种语音信息识别方法，其特征在于，包括：接收输入的语音信息；根据所述语音信息对应的用户标识信息，从与所述用户标识信息对应的预设语音库中调用与所述语音信息相匹配的匹配信息；根据所述匹配信息对所述语音信息进行识别，以根据识别后的目标语音信息进行操作。

在该技术方案中，在接收到输入的语音信息后，通过根据语音信息对应的用户标识信息，从与用户标识信息对应的预设语音库中调用与该语音信息相匹配的匹配信息，可以使终端根据该匹配信息对语音信息进行准确识别，以有效地提高语言识别正确率，增强语音识别的应用场景，从而根据该准确的目标语音信息进行正确操作。

在上述技术方案中，优选地，根据接收到的存储命令，将所述用户标识信息与所述匹配信息对应存储在所述预设语音库中。

在该技术方案中，通过将每个用户的用户标识信息与匹配信息对应存储在预设语音库中，可以使不同用户从对应的个人预设语音库中调用不同的匹配信息，从而满足用户的个性化需求，使终端可以对不同用户的语音信息进行准确识别，当然，该终端可以为安装有多个***的终端，且不同用户的预设语音库可以存储在不同***中。

在上述技术方案中，优选地，所述匹配信息包括：所述语音信息中的指定信息的待替换信息、所述语音信息中的联系人的其他称呼信息、所述语音信息对应的声音信号的强度、所述语音信息对应的声音信号的频率、所述语音信息对应的声音信号的波形中的至少一种信息；以及当所述匹配信息包括所述待替换信息和所述其他称呼信息时，所述根据所述匹配信息对所述语音信息进行识别，具体包括：根据所述待替换信息将所述语音信息中的所述指定信息进行替换，并根据所述其他称呼信息确定所述语音信息中的联系人的联系方式以识别所述语音信息。

在该技术方案中，当匹配信息包括待替换信息和其他称呼信息时，通过将语音信息中的易错指定信息替换为正确的待替换信息，可以增强终端对用户的语音信息的识别正确率，当然，由于用户对任一联系人的称呼可能为多种且任一联系人的其他称呼可能与通讯录中存储的称呼不同，因而通过根据语音信息中联系人的其他称呼信息，可以进一步准确确定语音信息中的联系人的联系方式以进一步提高识别该语音信息的正确率。

另外，由于每个用户的语音信息中的声音信号的强度、声音信号的频率和声音信号的波形均不同，而每个用户的声音信号的强度、声音信号的频率和声音信号的波形会随环境和心情的变化而变化，因此，通过将语音信息中的声音信号的强度、声音信号的频率和声音信号的波形作为匹配信息，可以使终端根据预设语音库中存储的用户以往的声音信号的强度、声音信号的频率和声音信号的波形对用户本次输入的语音信息进行准确识别，以进一步提高本次语音信息识别的准确率。

在上述技术方案中，优选地，根据接收到的获取命令，从所述终端的语音通话内容中和/或短信信息中获取所述指定信息的所述待替换信息；以及根据接收到的更改命令，更改所述指定信息的所述待替换信息。

在该技术方案中，由于用户对通讯录中的联系人往往有其他称呼，且这些称呼往往会在终端的短信、语音通话内容中出现，因而，通过终端中的语音通话内容和/或短信信息可以最大程度地、尽可能多地获取指定信息的待替换信息，以便终端在识别用户的语音信息时，可以提高终端的语音信息识别正确率；当然，为了进一步提高终端的语音信息识别正确率，用户还可以不断向终端输入更改命令，以更改易错指定信息的待替换信息，从而使得该待替换信息始终为最符合用户使用习惯的信息。

在上述技术方案中，优选地，所述用户标识信息包括：所述用户的指纹信息、所述用户的所述声音信号的强度、所述用户的所述声音信号的频率、所述用户的所述声音信号的波形、所述用户的面部特征信息中的至少一种信息。

在该技术方案中，该用户标识信息包括但不限于：用户的指纹信息、用户的所述声音信号的强度、用户的声音信号的频率、用户的声音信号的波形、用户的面部特征信息，且用户标识信息的多样性，可以使用户的将不同的标识信息与个人的预设语音库进行绑定，以满足用户的不同使用习惯。

根据本发明的另一方面还提出了一种语音信息识别装置，包括：接收单元，接收输入的语音信息；调用单元，根据所述语音信息对应的用户标识信息，从与所述用户标识信息对应的预设语音库中调用与所述语音信息相匹配的匹配信息；识别单元，根据所述匹配信息对所述语音信息进行识别，以根据识别后的目标语音信息进行操作。

在该技术方案中，在接收到输入的语音信息后，通过根据语音信息对应的用户标识信息，从与用户标识信息对应的预设语音库中调用与该语音信息相匹配的匹配信息，可以使终端根据该匹配信息对语音信息进行准确识别，以有效地提高语言识别正确率，增强语音识别的应用场景，从而根据该准确地目标语音信息进行正确操作。

在上述技术方案中，优选地，存储单元，根据接收到的存储命令，将所述用户标识信息与所述匹配信息对应存储在所述预设语音库中。

在上述技术方案中，优选地，所述匹配信息包括：所述语音信息中的指定信息的待替换信息、所述语音信息中的联系人的其他称呼信息、所述语音信息对应的声音信号的强度、所述语音信息对应的声音信号的频率、所述语音信息对应的声音信号的波形中的至少一种信息；以及当所述匹配信息包括所述待替换信息和所述其他称呼信息时，所述识别单元具体用于：根据所述待替换信息将所述语音信息中的所述指定信息进行替换，并根据所述其他称呼信息确定所述语音信息中的联系人的联系方式以识别所述语音信息。

在上述技术方案中，优选地，还包括：获取单元，根据接收到的获取命令，从所述终端的语音通话内容中和/或短信信息中获取所述指定信息的所述待替换信息；以及更改单元，根据接收到的更改命令，更改所述指定信息的所述待替换信息。

在该技术方案中，由于用户对通讯录中的联系人往往有其他称呼，且这些称呼往往会在终端的短信、语音通话内容中出现，因而，通过终端的语音通话内容和/或短信信息中可以最大程度地、尽可能多地获取指定信息的待替换信息，以便终端在识别用户的语音信息时，可以提高终端的语音信息识别正确率；当然，为了进一步提高终端的语音信息识别正确率，用户还可以不断向终端输入更改命令，以更改易错指定信息的待替换信息，从而使得该待替换信息始终为最符合用户使用习惯的信息。

根据本发明的又一方面还提出了一种终端，包括：上述技术方案中任一项所述语音信息识别装置。

在该技术方案中，通过在终端上设置语音信息识别装置，可以使终端支持多***、多用户的语音识别方法，能够有效地提高语言识别正确率，增强语音识别的应用场景及体验效果。

通过上述技术方案，可以支持多***、多用户的语音识别方法，能够有效地提高语言识别正确率，增强语音识别的应用场景及体验效果。

附图说明

图1示出了根据本发明的实施例的语音信息识别方法的流程示意图；

图2示出了根据本发明的实施例的语音信息识别装置的框图；

图3示出了根据本发明的实施例的终端的框图；

图4示出了根据本发明的一个实施例的用户标识信息与个人预设语音库相绑定的方法的流程示意图；

图5示出了根据本发明的一个实施例调用匹配信息的方法的流程示意图；

图6示出了根据本发明的另一个实施例的语音信息识别方法的流程示意图；

图7示出了根据本发明的一个实施例的语音信息中的联系人的其他称呼信息的确定方法的流程示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了根据本发明的实施例的语音信息识别方法的流程示意图。

如图1所示，示出了本发明的实施例的语音信息识别方法，包括：步骤102，接收输入的语音信息；步骤104，根据所述语音信息对应的用户标识信息，从与所述用户标识信息对应的预设语音库中调用与所述语音信息相匹配的匹配信息；步骤106，根据所述匹配信息对所述语音信息进行识别，以根据识别后的目标语音信息进行操作。

图2示出了根据本发明的实施例的语音信息识别装置的框图。

如图2所示，示出了本发明的实施例的语音信息识别装置200，包括：接收单元202，接收输入的语音信息；调用单元204，根据所述语音信息对应的用户标识信息，从与所述用户标识信息对应的预设语音库中调用与所述语音信息相匹配的匹配信息；识别单元206，根据所述匹配信息对所述语音信息进行识别，以根据识别后的目标语音信息进行操作。

在上述技术方案中，优选地，存储单元208，根据接收到的存储命令，将所述用户标识信息与所述匹配信息对应存储在所述预设语音库中。

在上述技术方案中，优选地，所述匹配信息包括：所述语音信息中的指定信息的待替换信息、所述语音信息中的联系人的其他称呼信息、所述语音信息对应的声音信号的强度、所述语音信息对应的声音信号的频率、所述语音信息对应的声音信号的波形中的至少一种信息；以及当所述匹配信息包括所述待替换信息和所述其他称呼信息时，所述识别单元206具体用于：根据所述待替换信息将所述语音信息中的所述指定信息进行替换，并根据所述其他称呼信息确定所述语音信息中的联系人的联系方式以识别所述语音信息。

在上述技术方案中，优选地，还包括：获取单元210，根据接收到的获取命令，从所述终端的语音通话内容中和/或短信信息中获取所述指定信息的所述待替换信息；以及更改单元，根据接收到的更改命令，更改所述指定信息的所述待替换信息。

图3示出了根据本发明的实施例的终端的框图。

如图3所示，示出了本发明的实施例的终端，包括：上述技术方案中任一项所述语音信息识别装置200。

在该技术方案中，通过在终端上设置语音信息识别装置200，可以使终端支持多***、多用户的语音识别方法，能够有效地提高语言识别正确率，增强语音识别的应用场景及体验效果。

图4示出了根据本发明的一个实施例的用户标识信息与个人预设语音库相绑定的方法的流程示意图。

如图4所示，示出了本发明的一个实施例的用户标识信息与个人身份信息相绑定的方法，包括：

步骤402，用户输入个人标记特征(即用户标识信息)，以与个人身份信息相绑定，具体地，该过程由用户主动发起，用户可以使用指纹信息、声纹信息(声音信号的强度和/或频率和/或波形)、面部特征信息等生物特征或采用口令方式在终端开始建立与个人身份信息相关的用户标识信息。

步骤404，判断用户是否已保存该个人身份信息；具体地，若判断是，则转入步骤408，绑定输入标识信息到该现有用户的个人身份信息，并将用户标识信息与现有用户的个人身份信息对应存储在该用户标识信息(或该现有用户的个人身份信息)对应的个人预设语音库中；若判断否时，进入步骤406，则新建个人身份信息，将该用户标识信息与该新建个人身份信息相绑定，并将用户标识信息与新建个人身份信息对应存储在该用户标识信息(或该新建个人身份信息)对应的个人预设语音库中。

图5示出了根据本发明的一个实施例调用匹配信息的方法的流程示意图。

如图5所示，根据本发明的一个实施例调用匹配信息的方法，包括：

步骤502，启动终端的语音识别模式。

步骤504，判断是否接收到用户的用户标识信息(即用户个人标记特征)，并在判断结果为是时，进入步骤506。

步骤506，在与用户标识信息相对应的个人预设语音库中检索与用户的用户标识信息相匹配的匹配信息。

步骤508，判断是否检索到与接收到用户的用户标识信息相匹配的匹配信息，在判断结果是时，进入步骤510。

步骤510，若检索到与用户的用户标识信息相匹配的匹配信息，则激活语音识别个人模式，即允许从该用户标识信息相对应的个人预设语音库中调用匹配信息以对用户输入的语音信息进行识别。

图6示出了根据本发明的另一个实施例的语音信息识别方法的流程示意图。

如图6所示，示出了本发明的另一个实施例的语音信息识别方法，包括：

步骤602，激活语音识别个人模式，即允许从与输入的用户标识信息相对应的个人预设语音库中调用匹配信息以对用户输入的语音信息进行识别。

步骤604，判断接收到的语音信息是否有误，若判断结果为是，则进入步骤606和步骤608。

步骤606，不断纠正语音信息中的指定信息，并将纠正后的指定信息作为用户易错敏感字词(即待替换信息)。

步骤608，获取语音信息中的声音信号的频率和/或声音信号的强度和/或声音信号的波形，以便于提高语音信息的识别正确率。

步骤610，将待替换信息和用户的声音信号的频率和/或声音信号的强度和/或声音信号的波形再次与用户标识信息进行绑定。

步骤612，将绑定后的待替换信息和用户的声音信号的频率和/或声音信号的强度和/或声音信号的波形存储在与用户标识信息对应的个人预设语音库。

详细来讲，语音识别装置在识别用户输入的语音时，用户会经常性的对***反馈的字词识别结果(即指定信息)进行纠正以便得到用户预期结果，这种情况下的纠正后的指定信息将作为用户易错敏感字词(即待替换信息)被保存为与用户标识信息对应的个人预设语音库中的常用词语；同时终端将会对该用户的声音频率数据和/或声音信号的强度和/或声音信号的波形进行采集，并保存到与用户标识信息对应的个人预设语音库中，以便于提高语音信息的识别正确率。

如图7所示，示出了本发明的一个实施例的语音信息中的联系人的其他称呼信息的确定方法，包括：

步骤702，侦测用户语音通话内容及短信。

步骤704，确定语音通话内容及短信中是否存在联系人的称呼性关键词。具体地，判断是否存在称呼性关键词，若判断结果为是，则进入步骤706。

步骤706，判断该称呼性关键词(即其他称呼信息)的使用次数是否大于设定阀值，若判断结果为是，则进入步骤708，将该其他称呼信息设定为该联系人的待绑定标签(即确定该联系人的其他称呼信息)；若判断结果为否，则返回步骤704。

步骤710，判断用户是否确认该标签(即确定该其他称呼)，具体地，若判断结果为是，进入步骤712，绑定该联系人的其他称呼(即该标签)至该用户的联系人。

详细来讲，相关联系人信息主要指联系人，其详细识别与整合流程如下：对于联系人来讲，很多时候用户通常并不一定以自己的亲友姓名直接与他们联系，而常以昵称或者称呼代指，这种情况下手机会自动侦测并识别用户电话和短信中出现次数较多的称呼性名词，例如爸爸、妈妈、媳妇、老婆等称呼，并将这些称呼性词语与实际的联系人关联起来，即增加了联系人标签。当用户在个人标记模式下第一次使用联系人标签进行语音识别操作时，***会给出提示以示确认，用户确认之后该标签将绑定到对应的联系人。

下面将举例说明本发明的技术方案：

1)用户A打开手机，使用生用户标识信息(声纹、指纹、面部特征等)或者口令方式建立用户A个人预设语音库。此时，用户B亦可建立用户B个人预设语音库。

2)手机中存有联系人信息“秦岚18566668888、刘思琪17099996666”，前者“秦岚”为用户A的妻子，用户B的妈妈；后者—“刘思琪”为用户A的女儿，用户B的姐姐。用户A在语音识别过程中，***通过通话过程与短信息侦测称呼性关键词，将“秦岚”增加标签“媳妇”、将“刘思琪”增加标签“女儿”。同理，针对用户B，将“秦岚”增加标签“妈妈”、将“刘思琪”增加标签“姐姐”。

3)用户A在使用语音识别过程中，针对如下字词有纠正动作，即将***默认识别结果纠正为用户期望结果：集合→稽核；对于用户B纠正为：集合→几何。这种情况下，“集合→稽核”会作为敏感字词(即指定信息的待替换信息)添加到用户A的个人预设语音库，“集合→几何”会作为敏感字词(即指定信息的待替换信息)添加到用户B个人预设语音库。

4)手机进入语音识别状态，按照***默认状态进行识别。此时，如果用户A激活了个人标记模式，则后续的语音识别过程将提取用户A个人预设语音库中的数据。例如，用户A发出语音命令“发短信给我媳妇说我今天晚上要开会讨论稽核任务”，此时***将直接给出识别结果“发送短信给秦岚-我今天晚上要开会讨论稽核任务”，而不是先让用户A确认“你媳妇叫什么名字”，短信内容也不会错误识别为“我今天晚上要开会讨论集合任务”。显而易见，这样能简化语音识别操作流程，提升用户体验。

至此，手机对于用户A即完成了一次从建立用户标识信息到提取并应用用户个人预设语音库的完整流程。同样地，手机对于用户B的从建立用户标识信息到提取并应用用户个人预设语音库的完整流程与用户A的过程相同。需要特别说明的是虽然本实施例是以单个用户进行说明的，但是因为本发明实现了个人标记功能，使得多用户、多***模式可以采用多个单用户的集合实现。

以上结合附图详细说明了本发明的技术方案，通过本发明的技术方案，可以支持多***、多用户的语音识别方法，能够有效地提高语言识别正确率，增强语音识别的应用场景及体验效果。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音信息识别方法，其特征在于，包括：

接收输入的语音信息；

根据所述语音信息对应的用户标识信息，从与所述用户标识信息对应的预设语音库中调用与所述语音信息相匹配的匹配信息；

根据所述匹配信息对所述语音信息进行识别，以根据识别后的目标语音信息进行操作。

2.根据权利要求1所述的语音信息识别方法，其特征在于，

根据接收到的存储命令，将所述用户标识信息与所述匹配信息对应存储在所述预设语音库中。

3.根据权利要求1所述的语音信息识别方法，其特征在于，

所述匹配信息包括：所述语音信息中的指定信息的待替换信息、所述语音信息中的联系人的其他称呼信息、所述语音信息对应的声音信号的强度、所述语音信息对应的声音信号的频率、所述语音信息对应的声音信号的波形中的至少一种信息；以及

当所述匹配信息包括所述待替换信息和所述其他称呼信息时，所述根据所述匹配信息对所述语音信息进行识别，具体包括：

根据所述待替换信息将所述语音信息中的所述指定信息进行替换，并根据所述其他称呼信息确定所述语音信息中的联系人的联系方式以识别所述语音信息。

4.根据权利要求3所述的语音信息识别方法，其特征在于，

根据接收到的获取命令，从所述终端的语音通话内容中和/或短信信息中获取所述指定信息的所述待替换信息；以及

根据接收到的更改命令，更改所述指定信息的所述待替换信息。

5.根据权利要求1至4中任一项所述的语音信息识别方法，其特征在于，

所述用户标识信息包括：所述用户的指纹信息、所述用户的所述声音信号的强度、所述用户的所述声音信号的频率、所述用户的所述声音信号的波形、所述用户的面部特征信息中的至少一种信息。

6.一种语音信息识别装置，其特征在于，包括：

接收单元，接收输入的语音信息；

调用单元，根据所述语音信息对应的用户标识信息，从与所述用户标识信息对应的预设语音库中调用与所述语音信息相匹配的匹配信息；

识别单元，根据所述匹配信息对所述语音信息进行识别，以根据识别后的目标语音信息进行操作。

7.根据权利要求6所述的语音信息识别装置，其特征在于，

存储单元，根据接收到的存储命令，将所述用户标识信息与所述匹配信息对应存储在所述预设语音库中。

8.根据权利要求6所述的语音信息识别装置，其特征在于，

当所述匹配信息包括所述待替换信息和所述其他称呼信息时，所述识别单元具体用于：

9.根据权利要求8所述的语音信息识别装置，其特征在于，还包括：

获取单元，根据接收到的获取命令，从所述终端的语音通话内容中和/或短信信息中获取所述指定信息的所述待替换信息；以及

更改单元，根据接收到的更改命令，更改所述指定信息的所述待替换信息。

10.根据权利要求6至9中任一项所述的语音信息识别装置，其特征在于，

11.一种终端，其特征在于，包括：如权利要求6至10中任一项所述语音信息识别装置。