CN109830240A

CN109830240A - 基于语音操作指令识别用户特定身份的方法、装置及***

Info

Publication number: CN109830240A
Application number: CN201910229227.6A
Authority: CN
Inventors: 刘红强
Original assignee: Chumen Wenwen Information Technology Co Ltd
Current assignee: Chumen Wenwen Information Technology Co Ltd
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2019-05-31

Abstract

本发明实施例公开了一种基于语音操作指令识别用户特定身份的方法、装置及***，该方法包括：对预获取的语音操作指令进行预处理，获取与语音操作指令对应的特征标签；将特征标签输入至预建立的训练模型中进行预测，获取预测结果；根据预测结果，确定发出语音操作指令的用户特定身份。通过该种方式，可以有效识别用户的特定身份，进而在确定该特定身份和语音操作指令相对应时，执行语音操作指令，达到为特殊人群提供专用功能服务的效果。

Description

基于语音操作指令识别用户特定身份的方法、装置及***

技术领域

本发明实施例涉及语音信号处理技术领域，具体涉及一种基于语音操作指令识别用户特定身份的方法、装置及***。

背景技术

随着智能语音识别技术的迅速发展，越来越多的语音交互产品为人们提供了便利的服务。例如，智能音箱，其可以识别用户的语音指令，进而根据用户的语音指令执行相应的操作。

不过，现在的智能语音交互产品仅仅是可以识别用户的语音操作指令，并不区分发出语音操作指令的用户特定身份。这对于那些专门为特殊人群提供专用功能服务而言，则是一种限制。例如在智能音箱中设置有儿童读物播放功能，而这种播放功能的使用条件为识别儿童发出的语音控制指令后，才会执行相应的播放操作。然而，传统的语音识别技术无法准确的识别当前发出语音的用户是否为儿童，因此，对于某些专门为儿童提供的语音服务也无法正常执行。

那么，如何根据用户输入的语音操作语音操作指令识别出发出语音的用户特定身份，进而执行与该用户特定身份相对应的特殊操作，则成为本申请所要解决的技术问题。

发明内容

为此，本发明实施例提供一种基于语音操作指令识别用户特定身份的方法、装置及***，以解决现有的语音识别设备无法根据用户的语音操作指令，识别用户的身份，从而导致与用户特定身份对应的特殊操作不能准确执行的技术问题。

为了实现上述目的，本发明实施例提供如下技术方案：

根据本发明实施例的第一方面，提供了一种基于语音操作指令识别用户特定身份的方法，该方法包括：

进一步地，对预获取的语音操作指令进行预处理，获取与语音操作指令对应的特征标签；

将特征标签输入至预建立的训练模型中进行预测，获取预测结果；

根据预测结果，确定发出语音操作指令的用户特定身份。

进一步地，对预获取的语音操作指令进行预处理，获取与语音操作指令对应的特征标签，具体包括：

对预获取的语音操作指令进行语义识别处理，获取语义文本内容；

按照第一预设规则，从语义文本内容中提取语义特征；

从预建立的数据库中匹配与语义特征对应的特征标签。

进一步地，当从预建立的数据库中未匹配到与语义特征对应的特征标签时，确定语音操作指令无效，停止执行后续操作；

或者，当从预建立的数据库中匹配到与语义特征对应的至少一个特征标签时，按照第二预设规则，从至少一个特征标签中筛选有效特征标签，以便后续将有效特征标签输入至预建立的训练模型中进行预测。

进一步地，对预获取的语音操作指令进行预处理，获取与语音操作指令对应的特征标签之前，方法还包括：

通过声纹识别技术，获取预获取的语音操作指令对应的用户类型；

根据获取的用户类型确定所述预建立的训练模型。

进一步地，预建立的训练模型为决策树模型。

进一步地，预建立的训练模型构建步骤包括：

接收并存储多条语音操作指令样本，所述多条语音操作指令样本由不同用户发出；

根据声纹识别技术，对所述语音操作指令样本进行分类，将同一用户发出的语音操作指令样本归为一类，并对操作指令样本用户类型进行标记；

分别对每一条语音操作指令样本进行预处理，获取与语音操作指令样本对应的特征标签；

将与语音操作指令样本对应的特征标签输入至训练模型中进行训练，直至获取能准确识别某一类型用户语音操作指令样本对应的特征标签的最优训练模型时，将所述最优训练模型作为该用户类型的预建立的训练模型。

根据本发明实施例的第二方面，提供了一种基于语音操作指令识别用户特定身份的装置，该装置包括：

处理单元，用于对预获取的语音操作指令进行预处理，获取与语音操作指令对应的特征标签；

预测单元，用于将特征标签输入至预建立的训练模型中进行预测，获取预测结果；

身份识别单元，用于根据预测结果，确定发出语音操作指令的用户特定身份。

进一步地，处理单元还用于，在对预获取的语音操作指令进行预处理，获取与所述语音操作指令对应的特征标签之前，通过声纹识别技术，获取预获取的语音操作指令对应的用户类型；

根据获取的用户类型确定所述预建立的训练模型。

根据本发明实施例的第三方面，提供了一种基于语音操作指令识别用户特定身份的***，该***包括：处理器和存储器；

存储器用于存储一个或多个程序指令；

处理器，用于运行一个或多个程序指令，用以执行如上一种基于语音操作指令识别用户特定身份的方法中的任一方法步骤。

根据本发明实施例的第四方面，提供了一种计算机存储介质，该计算机存储介质中包含一个或多个程序指令，一个或多个程序指令用于被一种基于语音操作指令识别用户特定身份的***执行如上一种基于语音操作指令识别用户特定身份的方法中的任一方法步骤。

本发明实施例具有如下优点：通过对用户发出的语音操作指令进行预处理，获取与该语音操作指令对应的特征标签。然后将该特征标签输入至预建立的训练模型中进行预测，该训练模型为经过大量样本数据进行训练后，可以根据语音操作指令，识别出不同种特定身份的用户。例如，用户特定身份可以包括老年人、中年人、青年人或者儿童等等。假设用户发出的语音操作指令为播放儿童读物，而通过本方法识别出用户特定身份为儿童时，则执行播放儿童读物的功能，否则不执行该功能。通过该种方式，可以有效识别用户的特定身份，进而在确定该特定身份和语音操作指令相对应时，执行语音操作指令。达到为特殊人群提供专用功能服务的效果。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例1提供的一种基于语音操作指令识别用户特定身份的方法流程示意图；

图2为本发明实施例2提供的一种基于语音操作指令识别用户特定身份的装置结构示意图；

图3为本发明实施例3提供的一种基于语音操作指令识别用户特定身份的***结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例1提供了一种基于语音操作指令识别用户特定身份的方法，该方法主要应用于那些需要特定身份的用户发出特殊语音操作指令后，语音交互***才会执行的应用场景，例如用户发出的语音操作指令为播放儿童读物的应用场景，语音交互***只有检测到发出播放儿童读物这个语音操作指令的用户身份为儿童时，才会执行该语音操作指令，如果用户身份并非是而儿童，则不会响应该语音操作指令。换言之，这种操作方法应用于***根据特殊人群发出的特殊操作指令执行专用功能的情形，具体如图1所示，该方法步骤如下：

步骤110，对预获取的语音操作指令进行预处理，获取与语音操作指令对应的特征标签。

需要说明的是，这里仅以语音交互***已经获取到用户发出的语音操作指令为前提进行说明。至于语音交互***采集到外界的语音信号，并对语音信号进行一系列的处理，来得到语音操作指令的过程本不是本发明所要保护的重点，并且也可以通过现有技术执行实现，因此这里不进行详细说明。

在获取到语音操作指令后，可以执行相应的预处理过程。

可选的，其预处理过程可以包括对语音操作指令进行分析。具体的：

对预获取的语音操作指令进行语义识别处理，获取语义文本内容。在一个具体的例子中，可以采用神经语言程序学(Neuro-Linguistic Programming，简称NLP)技术进行语义识别。然后按照第一预设规则，从语音文本内容中提取语义特征。

具体的，第一预设规则可以是分词处理，也即是对语义文本内容进行分词处理，从而获取预设定的关键字。这些关键字可以表示为语义特征。例如，当语音操作指令为“播放一首张杰的歌，***”时，其关键字可以包括“张杰”、“歌”以及“***”等。

最后，从预建立的数据库中匹配与语义特征对应的特征标签。

那么，当语义特征为“张杰”、“歌”以及“***”时，首先可以根据语音特征进行定位，也即是在预建立的数据库中匹配与该语义特征对应的分类，很明显其可以归为音乐类，然后从音乐类标签中找到与该语义特征对应的特征标签。例如与“张杰”对应的标签可以包括“歌手”、“80、90后喜爱的歌手”，“歌”对应的标签可以是“歌曲”，“***”对应的标签可以是“歌曲名称”等。

可选的，虽然上文所列举的例子中，语音操作指令可以匹配到与之对应的特征标签，但也有一些情况无法匹配对应的特征标签，或者对应的特征标签无效。该过程可以理解为过滤缺失值，也即是当根据用户的语音操作指令，无法分析出语义，或者分析出的语义指令无法处理，则需要过滤掉。

例如用户在聊天过程中，无意说出的一句话被语音交互***所采集到，那么这句话很可能在数据库中无法匹配到特征标签，那么可以确定该语音操作指令无效，停止执行后续的操作。

又或者，当从预建立的数据库中匹配到与该语义特征对应的特征标签的数量为至少一个时，例如包括2个或者3个。那么还需要对特征标签进行过滤，删除掉一些不符合常理的特征标签，并将有效的特征标签输入至预建立的训练模型中进行训练。筛选时可以按照第二预设规则进行筛选。具体的第二预设规则可以包括：过滤异常值处理、过滤重复数据处理以及过滤噪音数据等处理过程。

其中，过滤异常值包括：根据标签计算出来的特征向量偏离群体太远，在本实施中其指代的是特征向量超过聚合中心点预设阈值；而过滤重复数据包括：如收集到的指令是同一时间的一模一样的指令，那么其分别对应的特征标签必然也是重复的，则过滤掉那些重复的特征标签。过滤噪声数据，包括使用回归算法，找出离群点进行噪声消除。

在将经过上述处理后的语音操作指令进行存储，存储的形式为文本形式，即将语音操作指令转换为文本后进行存储。并且将特征标签输入至预建立的训练模型中进行预测，即执行步骤120。

步骤120，将特征标签输入至预建立的训练模型中进行预测，获取预测结果。

具体的，预建立的训练模型是通过大量样本数据对其进行训练后所获取的最优训练模型。在执行时，需要对大量的样本数据分别设定已知身份标签。例如，老年人、中年人、青年人以及儿童等身份标签，或者是其他身份标签。可选的，其训练模型可以是决策树模型。具体的训练过程可以包括：

接收并存储多条语音操作指令样本，多条语音操作指令样本由不同用户发出。

根据声纹识别技术，对语音操作指令样本进行分类，将同一用户发出的语音操作指令样本归为一类，并在归类后，对语音操作指令样本用户类型进行标记。

分别对每一条语音操作指令样本进行预处理，获取与语音操作指令样本对应的特征标签。具体与处理过程如步骤110所述的类似，这里不做过多说明。

然后，将与语音操作指令样本对应的特征标签输入至训练模型中进行训练，直至获取能够准确识别某一类型语音操作指令样本对应的特征标签的最优训练模型时，将该最优训练模型作为该用户类型的预建立的训练模型。

最终，在获取到最优训练模型后，将步骤110中得到的特征标签输入至最优训练模型中，从而预测得到步骤110中所获取的语音操作指令对应的用户特定身份，即执行步骤130。

步骤130，根据预测结果，确定发出语音操作指令的用户特定身份。

当确定用户特定身份有效后，再根据语音操作指令执行相应的操作。这里判定用户特定身份是否有效的原则即是，通过用户身份判定是否有控制语音交互***执行该操作指令的权限。如果有权限，则语音交互***执行该语音操作指令，否则不执行。可选的，还可以向用户反馈无权限根据用户发出的操作指令执行相应动作的提示信息。

可选的，还需要在执行上述方法之前，也即是执行步骤110之前，执行如下步骤：

通过声纹识别技术，获取预获取的语音操作指令对应的用户类型。然后，再根据获取的用户类型确定所述预建立的训练模型。

具体的，通过声纹识别技术分别从语音操作指令中提取声纹特征，并根据声纹特征，形成一组特征描述向量，并对该组特征向量生成唯一的标识信息，例如ID。将该标识信息与预建立的数据库中的标识信息进行匹配，确定该语音操作指令所属类型，需要说明的是，本实施例所说的类型是根据用户区分的类型。例如用户A，用户B，用户C等。将用户A对应的语音操作指令存储到第一预设存储位置，将用户B对应的语音操作指令存储到第二预设存储位置，以此类推。在确定好用户类型后，还需要根据用户类型确定预建立的训练模型。

具体的，在本申请文件中，基于用户类型不同，其所对应的训练模型也不尽相同。本申请文件中主要考虑到某些特殊人群，例如某个家庭中，一个成人的声音比较像儿童的声音。那么，怎么基于该用户的语音操作指令的特征正确识别该用户的身份，而不是误识别为儿童呢？

就是要建立一个与该用户身份对应的训练模型，将该用户的语音操作指令样本做出特殊标记，然后将其他用户的语音操作指令分别提取特征标签后，输入至与该用户身份对应的训练模型中进行训练，直至与该用户身份对应的训练模型可以精准的识别该用户身份。

也即是说，为了更加精准的确定每一个用户的身份特征，可以分别针对每一个用户构建与其对应的训练模型。具体的构建过程已经在上文做了详细描述，这里不做过多说明。

自然，在通过声纹识别技术确定语音操作指令对应的用户类型后，需要针对每一个用户类型，选择与之对应的预建立的训练模型。进而，才能准确的识别每一类用户的特定身份。并根据该用户身份，确定用户是否有权限控制语音交互***执行该类操作指令。

进一步可选的，如果多个用户都有权限控制语音交互***当前时刻执行与之对应的操作指令时，如果超出***在同一时刻所能实现的功能范围，则***可以发出操作指令错误的响应信息。

本发明实施例提供的一种基于语音操作指令识别用户特定身份的方法，通过对用户发出的语音操作指令进行预处理，获取与该语音操作指令对应的特征标签。然后将该特征标签输入至预建立的训练模型中进行预测，该训练模型为经过大量样本数据进行训练后，可以根据语音操作指令，识别出不同种特定身份的用户。例如，用户特定身份可以包括老年人、中年人、青年人或者儿童等等。假设用户发出的语音操作指令为播放儿童读物，而通过本方法识别出用户特定身份为儿童时，则执行播放儿童读物的功能，否则不执行该功能。通过该种方式，可以有效识别用户的特定身份，进而在确定该特定身份和语音操作指令相对应时，执行语音操作指令。达到为特殊人群提供专用功能服务的效果。

与上述实施例1对应的，本发明实施例2还提供了一种基于语音操作指令识别用户特定身份的装置，具体如图2所示，该装置包括：处理单元201、预测单元202和身份识别单元203。

处理单元201，用于对预获取的语音操作指令进行预处理，获取与语音操作指令对应的特征标签；

预测单元202，用于将特征标签输入至预建立的训练模型中进行预测，获取预测结果；

身份识别单元203，用于根据预测结果，确定发出语音操作指令的用户特定身份。

可选的，处理单元201具体用于，对预获取的语音操作指令进行语义识别处理，获取语义文本内容；

按照第一预设规则，从语义文本内容中提取语义特征；

从预建立的数据库中匹配与语义特征对应的特征标签。

可选的，处理单元201具体用于，当从预建立的数据库中未匹配到与语义特征对应的特征标签时，确定语音操作指令无效，停止执行后续操作；

可选的，处理单元还用于，在对预获取的语音操作指令进行预处理，获取与所述语音操作指令对应的特征标签之前，通过声纹识别技术，获取预获取的语音操作指令对应的用户类型；

根据获取的用户类型确定所述预建立的训练模型。

可选的，该装置还包括：分类单元204和接收单元205；

接收单元205，用于接收并存储多条语音操作指令样本，多条语音操作指令样本由不同用户发出；

分类单元204，用于根据声纹识别技术，对所述语音操作指令样本进行分类，将同一用户发出的语音操作指令样本归为一类，并对操作指令样本用户类型进行标记；

处理单元201还用于，分别对每一条语音操作指令样本进行预处理，获取与语音操作指令样本对应的特征标签；

可选的，预建立的训练模型为决策树模型。

本发明实施例提供的一种基于语音操作指令识别用户特定身份的装置中各部件所执行的功能均已在上述实施例1中做了详细介绍，因此这里不做过多赘述。

本发明实施例提供的一种基于语音操作指令识别用户特定身份的装置，通过对用户发出的语音操作指令进行预处理，获取与该语音操作指令对应的特征标签。然后将该特征标签输入至预建立的训练模型中进行预测，该训练模型为经过大量样本数据进行训练后，可以根据语音操作指令，识别出不同种特定身份的用户。例如，用户特定身份可以包括老年人、中年人、青年人或者儿童等等。假设用户发出的语音操作指令为播放儿童读物，而通过本方法识别出用户特定身份为儿童时，则执行播放儿童读物的功能，否则不执行该功能。通过该种方式，可以有效识别用户的特定身份，进而在确定该特定身份和语音操作指令相对应时，执行语音操作指令。达到为特殊人群提供专用功能服务的效果。

与上述实施例相对应的，本发明实施例3还提供了一种基于语音操作指令识别用户特定身份的***，具体如图3所示，该***包括：处理器301和存储器302；

存储器302用于存储一个或多个程序指令；

处理器301，用于运行一个或多个程序指令，用以执行如上实施例所介绍的一种基于语音操作指令识别用户特定身份的方法中的任一方法步骤。

本发明实施例提供的一种基于语音操作指令识别用户特定身份的***，通过对用户发出的语音操作指令进行预处理，获取与该语音操作指令对应的特征标签。然后将该特征标签输入至预建立的训练模型中进行预测，该训练模型为经过大量样本数据进行训练后，可以根据语音操作指令，识别出不同种特定身份的用户。例如，用户特定身份可以包括老年人、中年人、青年人或者儿童等等。假设用户发出的语音操作指令为播放儿童读物，而通过本方法识别出用户特定身份为儿童时，则执行播放儿童读物的功能，否则不执行该功能。通过该种方式，可以有效识别用户的特定身份，进而在确定该特定身份和语音操作指令相对应时，执行语音操作指令。达到为特殊人群提供专用功能服务的效果。

与上述实施例相对应的，本发明实施例还提供了一种计算机存储介质，该计算机存储介质中包含一个或多个程序指令。其中，一个或多个程序指令用于被一种基于语音操作指令识别用户特定身份的***执行如上所介绍的一种基于语音操作指令识别用户特定身份的方法。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于语音操作指令识别用户特定身份的方法，其特征在于，所述方法包括：

对预获取的语音操作指令进行预处理，获取与所述语音操作指令对应的特征标签；

将所述特征标签输入至预建立的训练模型中进行预测，获取预测结果；

根据所述预测结果，确定发出所述语音操作指令的用户特定身份。

2.根据权利要求1所述的方法，其特征在于，所述对预获取的语音操作指令进行预处理，获取与所述语音操作指令对应的特征标签，具体包括：

对所述预获取的语音操作指令进行语义识别处理，获取语义文本内容；

按照第一预设规则，从所述语义文本内容中提取语义特征；

从预建立的数据库中匹配与所述语义特征对应的特征标签。

3.根据权利要求2所述的方法，其特征在于，当从预建立的数据库中未匹配到与所述语义特征对应的特征标签时，确定所述语音操作指令无效，停止执行后续操作；

或者，当从所述预建立的数据库中匹配到与所述语义特征对应的至少一个特征标签时，按照第二预设规则，从所述至少一个特征标签中筛选有效特征标签，以便后续将所述有效特征标签输入至预建立的训练模型中进行预测。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述对预获取的语音操作指令进行预处理，获取与所述语音操作指令对应的特征标签之前，所述方法还包括：

根据获取的用户类型确定所述预建立的训练模型。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述预建立的训练模型构建步骤包括：

分别对每一条语音操作指令样本进行预处理，获取与语音操作指令样本对应的特征标签；将与语音操作指令样本对应的特征标签输入至训练模型中进行训练，直至获取能准确识别某一类型用户语音操作指令样本对应的特征标签的最优训练模型时，将所述最优训练模型作为该用户类型的预建立的训练模型。

6.根据权利要求1-3任一项所述的方法，其特征在于，所述预建立的训练模型为决策树模型。

7.一种基于语音操作指令识别用户特定身份的装置，其特征在于，所述装置包括：

处理单元，用于对预获取的语音操作指令进行预处理，获取与所述语音操作指令对应的特征标签；

预测单元，用于将所述特征标签输入至预建立的训练模型中进行预测，获取预测结果；

身份识别单元，用于根据所述预测结果，确定发出所述语音操作指令的用户特定身份。

8.根据权利要求7所述的装置，其特征在于，所述处理单元还用于，在对预获取的语音操作指令进行预处理，获取与所述语音操作指令对应的特征标签之前，通过声纹识别技术，获取预获取的语音操作指令对应的用户类型；

根据获取的用户类型确定所述预建立的训练模型。

9.一种基于语音操作指令识别用户特定身份的***，其特征在于，所述***包括：处理器和存储器；

所述存储器用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如权利要求1-6任一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种基于语音操作指令识别用户特定身份的***执行如权利要求1-6任一项所述的方法。