CN107357875B

CN107357875B - 一种语音搜索方法、装置及电子设备

Info

Publication number: CN107357875B
Application number: CN201710538452.9A
Authority: CN
Inventors: 符文君; 吴友政
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2021-09-10
Anticipated expiration: 2037-07-04
Also published as: CN107357875A

Abstract

本发明实施例提供了一种语音搜索方法、装置及电子设备，涉及音频处理技术领域，其中，上述方法包括：接收待识别语音；对所述待识别语音进行意图识别，获得发出所述待识别语音的目标用户的搜索意图；获得所述待识别语音的声纹特征，并将所述声纹特征作为待识别声纹特征；通过所述待识别声纹特征识别所述目标用户；基于所述目标用户，利用所述搜索意图进行搜索，获得搜索结果。应用本发明实施例提供的方案进行语音搜索，提高了语音搜索结果的准确率。

Description

一种语音搜索方法、装置及电子设备

技术领域

本发明涉及音频处理技术领域，特别是涉及一种语音搜索方法、装置及电子设备。

背景技术

随着移动互联网和物联网的快速发展、软硬件技术的高速迭代以及音视频富媒体海量数据资源的不断增长，语音作为比文字更自然的表达方式，已成为了人机交互过程中不可或缺的一种手段。越来越多的人选择通过语音从网络上搜索自己需要的信息，然而，大部分现有的语音搜索方法通常是将用户的语音进行文本转换，然后根据转换获得的文本进行搜索，获得搜索结果。

然而，发明人在实现本发明的过程中发现，现有技术至少存在如下问题：

在实际应用过程中，往往会出现多个用户使用同一个账户或同一台设备访问语音搜索服务的情况，尤其是在物联网设备中，多个家庭成员公用一个账号的现象非常普遍。这种情况下一般将多个家庭成员理解为一个用户，将用户的语音转换为文本后，结合账号下记录的用户特征和用户行为等信息进行搜索，获得搜索结果。应用上述方式虽然能够获得搜索结果，但是由于各个家庭成员往往具有不同的兴趣、爱好等等，将多个家庭成员理解为一个用户，这一个用户的用户特征、用户行为等信息难以准确表示每一家庭成员的情况，因此易导致搜索结果准确率低。

发明内容

本发明实施例的目的在于提供一种语音搜索方法、装置及电子设备，以提高搜索结果的准确率。具体技术方案如下：

一种语音搜索方法，所述方法包括：

接收待识别语音；

对所述待识别语音进行意图识别，获得发出所述待识别语音的目标用户的搜索意图；

获得所述待识别语音的声纹特征，并将所述声纹特征作为待识别声纹特征；

通过所述待识别声纹特征识别所述目标用户；

基于所述目标用户，利用所述搜索意图进行搜索，获得搜索结果。

可选的，所述对所述待识别语音进行意图识别，获得发出所述待识别语音的目标用户的搜索意图的步骤，包括：

对所述待识别语音进行语音识别，获得目标文本信息；

将所述目标文本信息输入到预先训练的第一模型，获得目标意图标签序列，其中，所述第一模型是：采用样本语音的样本文本信息以及样本文本的意图标签标注信息对预设神经网络模型进行模型训练获得的；

根据所述目标意图标签序列，获得发出所述待识别语音的目标用户的搜索意图。

可选的，所述通过所述待识别声纹特征识别所述目标用户的步骤，包括：

将所述待识别声纹特征输入至目标高斯混合模型，获得待识别初始声纹向量，根据所述待识别初始声纹向量计算待识别声纹向量，其中，所述目标高斯混合模型为：采用目标语音对预设高斯混合模型进行模型训练得到的模型；所述目标语音包括：上一次对所述预设高斯混合模型进行模型训练采用的语音、上一次对所述预设高斯混合模型进行模型训练后至本次对所述预设高斯混合模型进行模型训练之前需要进行语音识别的语音；

计算所述待识别声纹向量与发出目标语音的用户的声纹模型向量之间的相似度，其中，一个用户的声纹模型向量为根据该用户的初始声纹模型向量计算得到的，每一用户的初始声纹模型向量为：采用目标语音对所述预设高斯混合模型进行模型训练得到的输出向量；

判断计算得到的相似度是否全小于预设的阈值；

如果计算得到的相似度全小于预设的阈值，确定所述目标用户为新用户；

如果计算得到的相似度不全小于预设的阈值，确定所述目标用户为与所述待识别声纹向量相似度最大的声纹模型向量对应的用户。

可选的，所述语音搜索方法还包括：

在计算得到的相似度全小于所述预设的阈值时，将所述待识别声纹向量确定为所述目标用户的声纹模型向量；

在计算得到的相似度不全小于所述预设的阈值时，若满足对所述预设高斯混合模型进行模型训练的条件，采用目标语音对所述预设高斯混合进行模型训练，获得初始声纹模型向量，并根据所获得的初始声纹向量计算得到发出目标语音的用户的声纹模型向量；若不满足对所述预设高斯混合模型进行模型训练的条件，存储所述待识别语音。

可选的，所述基于所述目标用户，利用所述搜索意图进行搜索，获得搜索结果，包括：

判断所述搜索意图是否存在历史行为信息；

如果所述搜索意图存在历史行为信息，利用所述搜索意图在用户历史行为场景数据库中记录的所述目标用户的历史行为场景数据中进行搜索，获得搜索结果；

如果所述搜索意图不存在历史行为信息，利用所述搜索意图在服务器数据库中进行搜索，获得搜索结果，其中，所述服务器数据库用于存储待搜索资源的信息。

可选的，在所述获得搜索结果后，所述方法还包括：

按照预设的排序方式对所获得的搜索结果进行排序。

可选的，所述按照预设的排序方式对所获得的搜索结果进行排序，包括：

在所获得的搜索结果为在所述服务器数据库中进行搜索获得的搜索结果，所述目标用户为与所述待识别声纹向量相似度最大的声纹模型向量对应的用户时，获得所述目标用户的目标兴趣特征向量，其中，所述目标兴趣特征向量为：所述目标用户的兴趣标签向量化构建的向量；

对每一条搜索结果进行向量化处理，获得向量化的搜索结果；

分别计算获得每一向量化后的搜索结果与所述目标兴趣特征向量之间的相似度；

按照所获得相似度由高到低的顺序对所获得的搜索结果进行排序。

一种语音搜索装置，所述装置包括：

语音接收模块，用于接收待识别语音；

意图获得模块，用于对所述待识别语音进行意图识别，获得发出所述待识别语音的目标用户的搜索意图；

声纹获得模块，用于获得所述待识别语音的声纹特征，并将所述声纹特征作为待识别声纹特征；

用户识别模块，用于通过所述待识别声纹特征识别所述目标用户；

结果获得模块，用于基于所述目标用户，利用所述搜索意图进行搜索，获得搜索结果。

可选的，所述意图获得模块包括：文本获得子模块、标签获得子模块和意图获得子模块；

所述文本获得子模块，用于对所述待识别语音进行语音识别，获得目标文本信息；

所述标签获得子模块，用于将所述目标文本信息输入到预先训练的第一模型，获得目标意图标签序列，其中，所述第一模型是：采用样本语音的样本文本信息以及样本文本的意图标签标注信息对预设神经网络模型进行模型训练获得的；

所述意图获得子模块，用于根据所述目标意图标签序列，获得发出所述待识别语音的目标用户的搜索意图。

可选的，所述用户识别模块包括：声纹向量获得子模块、相似度计算子模块、相似度判断子模块、第一用户确定子模块和第二用户确定子模块；

所述声纹向量获得子模块，用于将所述待识别声纹特征输入至目标高斯混合模型，获得待识别初始声纹向量，根据所述待识别初始声纹向量计算获得待识别声纹向量，其中，所述目标高斯混合模型为：采用目标语音对预设高斯混合模型进行模型训练得到的模型；所述目标语音包括：上一次对所述预设高斯混合模型进行模型训练采用的语音、上一次对所述预设高斯混合模型进行模型训练后至本次对所述预设高斯混合模型进行模型训练之前需要进行语音识别的语音；

所述相似度计算子模块，用于计算所述待识别声纹向量与发出目标语音的用户的声纹模型向量之间的相似度，其中，一个用户的声纹模型向量为根据该用户的初始声纹模型向量计算得到的，每一用户的初始声纹模型向量为：采用目标语音对所述预设高斯混合模型进行模型训练得到的输出向量；

所述相似度判断子模块，用于判断计算得到的相似度是否全小于预设的阈值；如果计算得到的相似度全小于预设的阈值，触发所述第一用户确定子模块，如果计算得到的相似度不全小于预设的阈值，触发所述第二用户确定子模块；

所述第一用户确定子模块，用于确定所述目标用户为新用户；

所述第二用户确定子模块，用于确定所述目标用户为与所述待识别声纹向量相似度最大的声纹模型向量对应的用户。

可选的，所述用户识别模块还包括：第一声纹模型获得子模块和第二声纹模型获得子模块；

所述第一声纹模型获得子模块，用于在计算得到的相似度全小于所述预设的阈值时，将所述待识别声纹向量确定为所述目标用户的声纹模型向量；

所述第二声纹模型获得子模块，用于在计算得到的相似度不全小于所述预设的阈值时，若满足对所述预设高斯混合模型进行模型训练的条件，采用目标语音对所述预设高斯混合进行模型训练，获得初始声纹模型向量，并根据所获得的初始声纹向量计算得到发出目标语音的用户的声纹模型向量；若不满足对所述预设高斯混合模型进行模型训练的条件，存储所述待识别语音。

可选的，所述结果获得模块包括：意图判断子模块、第一结果获得子模块和第二结果获得子模块；

所述意图判断子模块，用于判断所述搜索意图是否存在历史行为信息；如果所述搜索意图存在历史行为信息，触发所述第一结果获得子模块，如果所述搜索意图不存在历史行为信息，触发所述第二结果获得子模块；

所述第一结果获得子模块，用于利用所述搜索意图在用户历史行为场景数据库中记录的所述目标用户的历史行为场景数据中进行搜索，获得搜索结果；

所述第二结果获得子模块，用于利用所述搜索意图在服务器数据库中进行搜索，获得搜索结果，其中，所述服务器数据库用于存储待搜索资源的信息。

可选的，所述结果获得模块还包括：排序子模块；

所述排序子模块，用于按照预设的排序方式对所获得的搜索结果进行排序。

可选的，所述排序子模块包括：兴趣获得单元、向量结果获得单元、相似度计算单元和排序单元；

所述兴趣获得单元，用于在所获得的搜索结果为在所述服务器数据库中进行搜索获得的搜索结果，所述目标用户为与所述待识别声纹向量相似度最大的声纹模型向量对应的用户时，获得所述目标用户的目标兴趣特征向量，其中，所述目标兴趣特征向量为：所述目标用户的兴趣标签向量化构建的向量；

所述向量结果获得单元，用于对每一条搜索结果进行向量化处理，获得向量化的搜索结果；

所述相似度计算单元，用于分别计算获得每一向量化后的搜索结果与所述目标兴趣特征向量之间的相似度；

所述排序单元，用于按照所获得相似度由高到低的顺序对所获得的搜索结果进行排序。

在本发明实施的又一方面，还提供了一种电子设备，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的语音搜索方法。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的语音搜索方法。

在本发明实施的又一方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的语音搜索方法。

本发明实施例提供的方案中，可以根据待识别语音的声纹特征识别发出待识别语音的目标用户，利用待识别语音获得目标用户的搜索意图，结合目标用户和搜索意图进行搜索，获得搜索结果。这样，应用本发明实施例提供的技术方案进行语音搜索时，利用声纹特征的特定性可以准确地识别出发出待识别语音的目标用户，结合目标用户进行搜索，得到满足目标用户个性化需求的搜索结果，提高搜索结果的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的语音搜索的***框图；

图2为本发明实施例提供的语音搜索方法的一种流程示意图；

图3为本发明实施例提供的获得搜索意图的一种流程示意图；

图4为本发明实施例提供的通过声纹特征识别目标用户的一种流程示意图；

图5为本发明实施例提供的利用搜索意图进行搜索的一种流程示意图；

图6为本发明实施例提供的对搜索结果进行排序的一种流程示意图；

图7为本发明实施例提供的语音搜索装置的一种结构示意图；

图8为本发明实施例提供的意图获得模块的一种结构示意图；

图9为本发明实施例提供的用户识别模块的一种结构示意图；

图10为本发明实施例提供的结果获得模块的一种结构示意图；

图11为本发明实施例提供的排序子模块的一种结构示意图；

图12为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

首先从整体上对本发明进行描述，参见图1，图1为本发明实施例提供的语音搜索的***框图。

整个***框图包括：在线层、离线层和数据层。

其中，在线层主要负责对待识别语音的进行识别并提供搜索结果，包括：声纹识别、语音识别、意图识别和搜索排序。声纹识别，用于识别发出待识别语音的目标用户；语音识别，用于对待识别语音进行语音识别，获得文本信息；意图识别，用于对文本信息进行意图识别，获得目标用户的搜索意图；搜索排序，用于搜索结果并对搜索结果进行排序。

离线层主要负责***中各模块的构建，包括：声纹识别模型训练模块、语音识别模型训练模块、意图识别模型训练模块、用户行为场景数据构建模块、用户兴趣标签挖掘模块和内容索引模块。声纹识别模型训练模块，用于构建声纹识别模型，声纹识别模型用于识别发出待识别语音的目标用户；语音识别模型训练模块，用于构建语音识别模型，语音识别模型用于对待识别语音进行语音识别，获得文本信息；意图识别模型训练模块，用于构建意图识别模型，意图识别模型用于对文本信息进行意图识别，获得目标用户的搜索意图；用户行为场景数据构建模块，用于构建用户行为场景数据库；用户兴趣标签挖掘模块，用于构建用户的兴趣标签；内容索引模块，用于构建索引排序。

数据层存储了语音搜索过程中会利用到的数据，包括：用户行为场景数据库、用户兴趣标签库和搜索内容数据库。用户行为场景数据库，用于存储用户的历史行为数据；用户兴趣标签库，用户存储用户的兴趣标签；搜索内容数据库，用于存储待搜索资源的信息。

在离线层构建***的各模块后，***接收待识别语音，利用在线层对待识别语音进行处理，同时基于处理结果利用数据层存储的数据进行搜索，得到搜索结果。

下面对现有的语音搜索方法进行简要介绍。

现有技术先接收待识别语音，对待识别语音进行转换，得到待识别文本信息，然后根据待识别文本信息进行搜索，获得搜索结果。

现有的语音搜索方法，仅仅是对待识别语音进行转换，根据得到的文本信息进行搜索，并没有把待识别语音同发出该待识别语音的目标用户的身份结合起来。当不同的用户发出了相同的语音搜索请求时(这些相同的语音搜索请求仅仅是字面上的相同，其中包含的用户的需求却不同)，现有技术对于这些用户的搜索请求进行处理得到的文本信息是相同的，因此提供的结果也都是相同的，而这个相同的结果并不能同时满足这些用户的搜索请求，可以看出，现有技术的语音搜索结果的准确率不高，会对用户的使用产生不便。

基于此，可以对待识别语音进一步处理，以识别发出待识别语音的目标用户的身份，然后结合目标用户的身份进行搜索，提供满足目标用户要求的搜索结果。

基于上述考虑，本发明提供了一种语音搜索方法，利用待识别语音进行搜索之前，首先利用待识别语音的声纹特征识别发出待识别语音的目标用户的身份，并获得目标用户的搜索意图，利用搜索意图和目标用户的身份进行搜索，获得搜索结果。本发明提供的语音搜索方法在处理目标用户的语音搜索请求时，能够根据目标用户的身份得到满足目标用户个性化需求的搜索结果，提高搜索结果的准确率。

下面再通过具体实施例对本发明进行详细介绍。

图2为本发明实施例提供的语音搜索方法的一种流程示意图，包括：

S201：接收待识别语音。

本实施例中，待识别语音可以是用户在使用基于本发明的语音搜索方法的设备时，对该设备发出的一段包含该用户搜索请求的语音。

S202：对待识别语音进行意图识别，获得发出待识别语音的目标用户的搜索意图。

语音识别中的意图，也就是一段语音中包含的用户的真实需要，而意图识别就是为了获得一段语音中用户的真实需要。

用户作为使用主体，其知识水平和表达能力会有差异，因此对于同一真实需求不同用户的表达方式可能不同，基于这种情况进行语音识别时，识别结果可能会存在很大的差异，为此本发明实施例中，对待识别语音进行了意图识别，以期找到用户的真实意图，进而提高搜索的精准度。

一种实现方式中，意图识别可以在获得待识别语音的文本信息后，对文本信息进行划分，得到待识别语音包含的搜索词，基于搜索词利用机器学习方法得到待识别语音包含的用户的搜索意图。通常，由于用户输入的待识别语音不够准确，会对得到的搜索词进行扩展，以丰富待识别语音，得到更精确的搜索意图。

S203：获得待识别语音的声纹特征，并将声纹特征作为待识别声纹特征。

声纹识别技术就是利用语音的声纹特征对说话人进行身份验证的生物识别技术。每个人都具有特定的声纹特征，这是由我们的发声器官在成长过程中逐渐形成的特征。无论别人对我们的说话模仿的多么相似，声纹特征其实都是具有显著区别的。在实际应用中，经典的梅尔倒谱系数MFCC、感知线性预测系数PLP、深度特征Deep Feature以及能量规整谱系数PNCC等，都可以作为声纹特征。

具体的，可以采用MFCC作为声纹特征。基于此，在本发明的一种实现方式中，获得待识别语音的声纹特征时，可以先对待识别语音进行预处理，去除非语音信号和静默信号，然后对经过预处理后的待识别语音进行分帧得到每一帧语音信号，提取每一帧语音信号的MFCC，把得到的MFCC作为待识别语音的声纹特征。

S204：通过待识别声纹特征识别目标用户。

由于声纹特征具有独特性，可以认为一个用户具有一个声纹特征，鉴于此，本发明的一种实现方式中，可以通过将待识别声纹特征与已确定身份的用户的声纹特征进行对比的方式来确定发出待识别语音的目标用户。

需要说明的是，本发明仅仅以此为例进行说明，识别发出待识别语音的目标用户的方式并不仅限于此。

S205：基于目标用户，利用搜索意图进行搜索，获得搜索结果。

在S204识别出目标用户后，结合S202得到的目标用户的搜索意图，利用搜索意图在与目标用户相关的数据中查找满足搜索请求的结果。

举例而言，用户甲昨天下载了“泰坦尼克号”和“霍元甲”两部电影，当用户甲今天输入语音“我想看昨天下载的电影”的时候，就可以在数据库中记录的用户甲昨天下载的电影的数据中，找到“泰坦尼克号”和“霍元甲”两个电影结果。

由以上可见，本实施例提供的方案中，在接收到目标用户的待识别语音后，提取声纹特征，以声纹特征来识别目标用户，得到目标用户的搜索意图后，基于目标用户进行搜索，获得搜索结果。本发明实施例的方案可以准确地识别出目标用户，并基于目标用户进行搜索，同时，利用意图识别，能够得到更精确的目标用户的需要，以得到准确率较高的搜索结果。

在本发明的一个具体实施例中，参见图3，提供了获得搜索意图的一种流程示意图，本实施例中对待识别语音进行意图识别，获得发出待识别语音的目标用户的搜索意图(S202)，包括：

S2021：对待识别语音进行语音识别，获得目标文本信息。

具体的，可以采用端到端的深度学习方法对待识别语音进行语音识别，如利用卷积神经网络或双向长短期记忆网络等构造语音识别网络模型，将待识别语音输入至上述所构造的语音识别网络模型，上述模型对输入的待识别语音进行转换，得到目标文本信息。

S2022：将目标文本信息输入至预先训练的第一模型，获得目标意图标签序列。

其中，第一模型是：采用样本语音的样本文本信息以及样本文本的意图标签标注信息对预设神经网络模型进行模型训练获得的。

具体的，一种实现方式中，可以采用双向循环神经网络构建第一模型，第一模型的结构包括：输入层，隐藏层，输出层。第一模型训练过程具体如下：

第一模型的训练样本为对用户的历史搜索内容对应的文本信息进行划分得到的搜索词，每个搜索词在输入层被映射为对应的词向量，作为每个时刻循环神经网络的输入，每个搜索词对应的意图标签采用BIO标注体系，B代表标签起始词，I代表标签非起始词，O代表非标签词。在隐藏层根据当前时刻的输入及前一时刻的正向隐状态和后一时刻的反向隐状态，分别计算当前时刻的正向隐状态和反向隐状态；在输出层，正向隐状态和反向隐状态以多项逻辑回归softmax函数形式得到如公式(1)的输出概率：

其中，

P(y_m＝i|x₁x_2…x_n)均表示对于搜索词x₁得到的意图标签y_m＝i的概率，y_m为得到的意图标签，i为标注集T中的标签，m为意图标签的位置，n为搜索词的位置，m＝n+1，意图标签的前n个标签代表具体的意图信息，如：视频类信息，游戏类信息等，最后一个标签代表搜索的意图类别，如：想看电影，想玩游戏。

第一模型训练过程采用随机梯度下降算法，训练目的是对于训练样本(X，Y)，X表示输入搜索词序列，Y表示对应的意图标签序列，最小化如公式(2)的损失函数：

L(θ)＝-∑_jlog P(y_j|x_j，θ) (2)

也即使得L(θ)小于预设的阈值，使得第一模型收敛。

其中，L(θ)表示第一模型的损失函数，P(y_j|x_j，θ)表示输入搜索词为x_j时，对应的意图标签为y_j的概率，x_j表示输入搜索词，y_j为对应的意图标签，j表示搜索词和对应的意图标签的位置，θ为未知参数。

对待识别语音进行意图识别，根据已经训练好的第一模型，利用各个时刻的条件概率进一步解码，输出最终的标签序列，构造关于输入搜索词序列X_1：n和意图标签序列Y_1：m的目标函数f(X_1：n，Y_1：m)，解码过程即搜索条件概率最高的标签序列Y_1：m，利用公式(3)来确定：

其中，

表示对应X_1：n的条件概率最高的Y_1：m，X_1：n表示输入搜索词序列，n为输入搜索词的个数，Y_1：m表示对应的意图标签序列，m为意图标签的个数。

解码过程可以利用集束搜索beam search算法来计算。

S2023：根据目标意图标签序列，获得发出待识别语音的目标用户的搜索意图。

一种实现方式中，在得到意图标签序列后，将该意图标签序列填充至嵌套化的意图信息结构体，得到结构化的搜索意图。嵌套化的意图信息结构体根据应用场景，事先定义具体字段，包含了用户的搜索意图类别IntentType(如：观看视频、搜索游戏等)、具体意图类别信息(如：视频类信息VideoInfo(视频名、视频集数)、游戏类信息(游戏名等)、用户历史行为信息UserHistoryActionInfo(包含用户的历史行为时间、行为类型、行为对象等))。

示例性的，用户输入“找一下昨天下载的电影”，则可以得到结构化意图信息为：time＝2017-1-2(昨天的日期)，action＝download，content_type＝movie。

由以上可见，本实施例提供的方案中，利用第一模型对目标文本信息进行意图识别，根据得到的意图标签序列，获得搜索意图。利用机器学习能够得到更加精确的意图信息，也即对于目标用户的待识别语音，能得到更精确的目标用户的需要，以进行精确搜索，提高搜索结果的准确率。

在本发明的一个具体实施例中，参见图4，提供了通过声纹特征识别目标用户的一种流程示意图，本实施例中，通过待识别声纹特征识别目标用户(S204)，包括：

S2041：将待识别声纹特征输入至目标高斯混合模型，获得待识别初始声纹向量，根据待识别初始声纹向量计算获得待识别声纹向量。

目标高斯混合模型是采用目标语音对预设高斯混合模型进行模型训练得到模型，其中，目标语音包括：上一次对预设高斯混合模型进行模型训练采用的语音、上一次对预设高斯混合模型进行模型训练后至本次对预设高斯混合模型进行模型训练之前需要进行语音识别的语音。

一种实现方式中，之所以要区分本次对预设高斯混合模型进行模型训练和上一次对预设高斯混合模型进行模型训练，是因为在利用待识别声纹特征识别目标用户的过程中，随着接收到的待识别语音越来越多，可以利用已接收到的待识别语音的声纹特征定时对预设高斯混合模型进行训练，使训练得到的目标高斯混合模型随着接收到待识别语音数量的增加，识别精确度不断更高。

本次对预设高斯混合模型进行模型训练可以与上一次对预设高斯混合模型进行模型训练之间间隔固定的时间，也可以根据设定的时间点定时对预设高斯混合模型进行训练，还可以在接收到固定数量的需要进行语音识别的语音时对预设高斯混合模型进行模型训练。

具体的，预设高斯混合模型可以是初次进行语音识别前利用预先收集的用户的语音训练得到的模型。在识别用户身份时可以使用高斯混合模型，把收集到的语音的声纹特征输入至高斯混合模型，以该高斯混合模型作为通用背景模型(Universal BackgroundModel，简称UBM)。高斯混合模型采用高斯概率密度函数来描述通用背景的语音特征在特征空间的分布情况，并以该概率密度函数的一组参数作为通用背景模型，具体的采用以下公式：

其中，p(x|λ)表示样本与高斯混合模型的概率密度，x为样本数据，即收集到的语音的声纹特征，b_i(x|λ)为第i个高斯概率密度函数，即表示x由第i个高斯模型生成的概率，a_i为第i个模型的权值，M为高斯模型的个数，λ为拉格朗日乘数。

高斯混合模型的参数由期望最大化(Expectation-Maximization，简称EM)算法计算得到。

对于发出目标语音的每个用户，基于目标语音，在UBM上进行最大后验概率自适应(Maximum A Posterior，简称MAP)，对高斯混合模型进行估计，得到代表该用户声纹的高斯概率密度函数，并将所有M个高斯模型的均值向量进行拼接，得到一个高维高斯混合模型均值超向量，把均值超向量作为该用户的初始声纹向量。

对得到的初始声纹向量进行因子分析，得到总体变化矩阵T，T用于表示总体变化子空间。

将得到的每个初始声纹向量在得到的总体变化子空间上T上进行投影，得到投影后的低维变化因子向量，也即身份认证向量IVEC。可选的，IVEC维数取400。

将上述IVEC进行线性判别分析(Linear Discriminant Analysis，简称LDA)，以在最小化类内用户距离和最大化类间用户距离的判别优化准则下进一步降低IVEC的维数。

对得到的降维后的IVEC进行类内协方差归一化(Within Class CovarianceNormalization，简称WCCN)，尽量使得变换后的子空间的基正交，以抑制信道信息的影响。

通过以上步骤得到的低维IVEC，作为用户对应的声纹模型向量。

另外，为便于后期使用上述声纹模型向量，得到上述声纹模型向量后，可以将其存入到用户声纹模型库。

具体的，在接收到待识别语音后，输入至目标高斯混合模型，可以得到与待识别语音对应的初始声纹向量，初始声纹向量经过提取IVEC，并进行LDA和WCCN变换后，获得待识别声纹向量。

S2042：计算待识别声纹向量与发出目标语音的用户的声纹模型向量之间的相似度。

其中，一个用户的声纹模型向量为根据该用户的初始声纹模型向量计算得到的，每一用户的初始声纹模型向量为：采用目标语音对预设高斯混合模型进行模型训练得到的输出向量。

具体的，一种实现方式中，为了获得目标用户的身份，可以比较得到的待识别声纹向量与得到的用户声纹模型库中所有的声纹模型向量之间的相似度，采用余弦距离进行相似度比较，公式如下：

其中，score(ω，ω_i)表示两向量ω、ω_i的余弦距离，ω表示待识别声纹向量，i表示声纹模型向量的序号，ω_i表示第i个声纹模型向量，n为声纹模型向量的个数。

在实际应用中，也可以采用切比雪夫距离、马氏距离或其他计算两向量相似度的算法来计算。

S2043：判断计算得到的相似度是否全小于预设的阈值，如果计算得到的相似度全小于预设的阈值，执行S2044，如果计算得到的相似度不全小于预设的阈值，执行S2045。

具体的，上述相似度用于表示两声纹向量之间的相似度，可以认为上述相似度的取值越小说明这两声纹向量越不相似，反之，上述相似度的取值越大说明两声纹向量越相似。鉴于此，在S2042中采用余弦距离来计算向量的相似度时，得到的余弦距离越小，则两向量相似度越小，表明待识别声纹特征与用户声纹模型库中的声纹模型向量对应的声纹特征越不相似；反之，得到的余弦距离越大，则两向量相似度越大，表明待识别声纹特征与用户声纹模型库中的声纹模型向量对应的声纹特征越相似。

S2044：确定目标用户为新用户。

具体的，一种实现方式中，得到的相似度全小于预设阈值，则表明待识别声纹向量与用户声纹模型库中的声纹模型向量之间的相似度都很小，待识别声纹特征与用户声纹模型库中的声纹模型向量对应的声纹特征越不相似，即可以确定发出待识别语音的用户不是用户声纹模型库中的声纹模型向量对应的用户，该目标用户为新用户。

S2045：确定目标用户为与待识别声纹向量相似度最大的声纹模型向量对应的用户。

具体的，一种实现方式中，得到的相似度不全小于预设阈值，则表明待识别声纹向量与用户声纹模型库中的声纹模型向量之间的相似度中有大于预设阈值的值，其中，可能只有一个相似度大于预设的阈值，也可能有多个相似度都大于预设的阈值。可以确定目标用户为与待识别声纹向量相似度最大的声纹模型向量对应的用户。

由以上可见，本实施例提供的方案中，通过计算待识别语音的声纹特征对应的待识别声纹向量与已得到的声纹模型向量之间的相似度，确定目标用户。与现有技术相比，本实施例提供的方案，基于声纹特征利用高斯混合模型能够精确识别目标用户对应的用户，更充分地利用了待识别语音，提高搜索结果的准确率。

在确定目标用户后，一个具体实施例中还可以包括：

在确定目标用户为新用户时(S2044)，将待识别声纹向量确定为目标用户的声纹模型向量(图中未标出)。

在确定目标用户为与待识别声纹向量相似度最大的声纹模型向量对应的用户时(S2045)，若满足对预设高斯混合模型进行模型训练的条件，采用目标语音对预设高斯混合进行模型训练，获得初始声纹模型向量，并根据所获得的初始声纹向量计算得到发出目标语音的用户的声纹模型向量；若不满足对预设高斯混合模型进行模型训练的条件，存储待识别语音(图中未标出)。

具体的，一种实现方式中，确定目标用户为新用户后，把待识别声纹向量作为目标用户的声纹模型向量存入到用户声纹模型库，该目标用户下次输入语音时，计算得出待识别声纹向量与该用户声纹模型向量相似度最大，准确地识别出该目标用户。为该目标用户构建声纹模型向量后，也可以标识出该目标用户的身份，建立该目标用户的搜索行为信息与该目标用户的身份之间的联系，当处理该目标用户的与身份相关的搜索请求时，能够得到准确的结果。

其中，对预设高斯混合模型进行模型训练的条件可以是距离上一次对预设高斯混合模型进行模型训练的时间达到了固定的间隔时间，也可以是到了预设的对预设高斯混合模型进行模型训练的时间点，还可以是在上一次对预设高斯混合模型进行模型训练后已接收到了固定数量的需要进行语音识别的语音。确定目标用户为与待识别声纹向量相似度最大的声纹模型向量对应的用户后，在满足对预设高斯混合模型进行模型训练的条件时，会利用接收到的所有目标语音对预设高斯混合模型进行模型训练，目的是为了充分利用接收到的语音的特性，使获得的声纹模型向量更能体现发出目标语音的用户的声纹特征。

由以上可见，本实施例提供的方案中，对于新用户，可以得到新用户的声纹模型向量，对于不是新用户，可以利用待识别语音重新计算该用户的声纹模型向量。如此，既能为新用户构建声纹模型向量，也能更新已有的声纹模型向量，提升用户语音收集的可靠性，提高用户识别的精确度。

在本发明的一个具体实施例中，参见图5，提供了利用搜索意图进行搜索的一种流程示意图，本实施例中通过基于目标用户，利用搜索意图进行搜索，获得搜索结果(S205)，包括：

S2051：判断搜索意图是否存在历史行为信息，如果搜索意图存在历史行为信息，执行S2052，如果搜索意图不存在历史行为信息，执行S2053。

历史行为信息中记录了用户的历史搜索行为。而一个用户的兴趣爱好一般是比较固定的，因此其搜索请求与历史行为信息相关的概率较高。

具体的，一种实现方式中，可以基于得到的结构化搜索意图信息中是否包含UserHistoryActionInfo部分信息来判定搜索意图是否存在历史行为信息。

S2052：利用搜索意图在用户历史行为场景数据库中记录的目标用户的历史行为场景数据中进行搜索，获得搜索结果。

当判断得到搜索意图存在历史行为信息时，表明目标用户的语音搜索请求中包含了目标用户的历史搜索内容，此时只在记录了该目标用户的历史行为的数据中进行搜索，则可以快速且准确得到的搜索结果。当然，搜索的范围不局限于用户历史行为场景数据库，在其他记录了用户行为的数据中或服务器提供的其他数据中查找，也可能会得到一种搜索结果，但是搜索结果的准确率却不能保证。

举例而言，用户历史行为场景数据库中存储了每个用户的历史行为信息，包括用户的ID、行为的类型(如：搜索、下载、播放、评论等)、行为对应的对象类型(如：音乐、电影、小说、综艺节目、商品等)、对象名称(如：伏尔瓦塔河、瓦尔登湖、朗读者、蓝牙耳机等)和行为发生的时间(如：2017-1-1、2017-1-2)。

S2053：利用搜索意图在服务器数据库中进行搜索，获得搜索结果。

其中，服务器数据库用于存储待搜索资源的信息。

当判断得到搜索意图不存在历史行为信息时，表明目标用户的语音搜索请求中不包含该目标用户的历史搜索内容，此时如果只在记录了该目标用户的历史行为的数据中进行搜索，搜索的范围窄，不能保证得到准确的搜索结果。因此需要在服务器提供的存储了待搜索资源的信息中进行搜索。

由以上可见，本实施例提供的方案中，根据判断搜索意图信息中是否存在历史行为信息，分别在用户历史行为场景数据库中记录的目标用户的历史行为场景数据中和服务器数据库中进行搜索。与现有技术相比，本实施例提供的方案在搜索意图理解和用户行为数据挖掘层面上考虑了用户的长期历史行为，能够快速地获得搜索结果，更精确地满足用户的个性化搜索需求。

在本发明的一个具体实施例中，在获得搜索结果(S2052和S2053)后，还可以按照预设的排序方式对所获得的搜索结果进行排序(S2054，图中未标出)。

一种实现方式中，当搜索结果是在用户历史行为场景数据库中记录的目标用户的历史行为场景数据中进行搜索得到的结果时，可以根据搜索结果对应的时间进行排序，把与当前最接近的时间对应的搜索结果排在较前；当搜索结果是在服务器数据库中进行搜索得到的结果时，可以根据目标用户的特征对搜索结果进行个性化排序，把与目标用户特征更符合的搜索结果排在较前。

由以上可见，本实施例提供的方案中，在获得搜索结果后，还可以按照预设的排序方式对所获得的搜索结果进行排序，能够为用户提供更好的搜索结果展示，提升用户体验。

在本发明的一个具体实施例中，参见图6，提供了对搜索结果进行排序的一种流程示意图，本实施例中按照预设的排序方式对所获得的搜索结果进行排序(S2054)，包括：

S20541：在所获得的搜索结果为在服务器数据库中进行搜索获得的搜索结果，目标用户为与待识别声纹向量相似度最大的声纹模型向量对应的用户时，获得目标用户的目标兴趣特征向量。

其中，目标用户的目标兴趣特征向量是利用目标用户的兴趣标签向量化得到的向量。

一种实现方式中，可以先从目标用户的历史搜索中抽取关键词，以所抽取的关键词作为目标用户的兴趣标签；然后对目标用户的兴趣标签进行向量化处理，映射到一定预设维数的向量空间，并计算目标用户的兴趣标签的向量平均值，作为目标用户的目标兴趣特征向量。

具体的，可以采用TextRank算法抽取关键词。

另外，可以采用word2vec模型向量化。

上述预设维数可以为300等等，本申请并不对此进行限定。

S20542：对每一条搜索结果进行向量化处理，获得向量化的搜索结果。

一种实现方式中，可以先提取每条搜索结果的关键词，然后对所抽取的关键词进行向量化处理，映射到一定预设维数的向量空间，将每条搜索结果对应的所有关键词的向量化结果取平均值，作为向量化的搜索结果。

具体的，可以采用word2vec模型向量化。

上述预设维数与目标兴趣特征向量的维数一致。

S20543：分别计算获得每一向量化后的搜索结果与目标兴趣特征向量之间的相似度。

上述计算每一向量化后的搜索结果与目标兴趣特征向量之间的相似度可以使用余弦距离、切比雪夫距离或马氏距离等算法来计算，本申请并不对此进行限定。

S20544：按照所获得相似度由高到低的顺序对所获得的搜索结果进行排序。

相似度高，表明该条搜索结果更符合目标用户的兴趣，即更可能是该目标用户想要的搜索结果。按照由高到低的顺序对搜索结果进行排序，能把该目标用户更感兴趣的搜索结果排在较前，提供给该目标用户更好的搜索结果展示。

由以上可见，本实施例提供的方案中，当在服务器数据库中得到用户的搜索结果时，按照相似度由高到低的顺序对获得的搜索结果进行排序。与现有技术相比，本实施例提供的方案在提供搜索结果时，根据目标用户的特征把目标用户最感兴趣的搜索结果排在较前，能为目标用户提供更好的搜索结果展示，提升用户体验。

与上述的语音搜索方法相对应，本发明实施例还提供了一种语音搜索装置。

图7为本发明实施例提供的语音搜索装置的一种结构示意图，包括：语音接收模块701，意图获得模块702、声纹获得模块703、用户识别模块704和结果获得模块705。

其中，语音接收模块701，用于接收待识别语音；

意图获得模块702，用于对所述待识别语音进行意图识别，获得发出所述待识别语音的目标用户的搜索意图；

声纹获得模块703，用于获得所述待识别语音的声纹特征，并将所述声纹特征作为待识别声纹特征；

用户识别模块704，用于通过所述待识别声纹特征识别所述目标用户；

结果获得模块705，用于基于所述目标用户，利用所述搜索意图进行搜索，获得搜索结果。

在本发明的一个具体实施例中，参见图8，提供了意图获得模块的一种结构示意图，其中，意图获得模块702，包括：文本获得子模块7021、标签获得子模块7022和意图获得子模块7023。

其中，文本获得子模块7021，用于对所述待识别语音进行语音识别，获得目标文本信息；

标签获得子模块7022，用于将所述目标文本信息输入至预先训练的第一模型，获得目标意图标签序列，其中，所述第一模型是：采用样本语音的样本文本信息以及样本文本的意图标签标注信息对预设神经网络模型进行模型训练获得的；

意图获得子模块7023，用于根据所述目标意图标签序列，获得发出所述待识别语音的目标用户的搜索意图。

由以上可见，本实施例提供的方案中，利用第一模型对目标文本信息进行意图识别，根据得到的意图标签序列，获得搜索意图。利用机器学习能够得到更加精确的意图信息，也即对于目标用户的待识别语音，能得到更精确的用户需要，以进行精确搜索，提高搜索结果的准确率。

在本发明的一个具体实施例中，参见图9，提供了用户识别模块的一种结构示意图，其中，用户识别模块704，包括：声纹向量获得子模块7041、相似度计算子模块7042、相似度判断子模块7043、第一用户确定子模块7044和第二用户确定子模块7045。

其中，声纹向量获得子模块7041，用于将所述待识别声纹特征输入至目标高斯混合模型，获得待识别初始声纹向量，根据所述待识别初始声纹向量计算获得待识别声纹向量，其中，所述目标高斯混合模型为：采用目标语音对预设高斯混合模型进行模型训练得到的模型；所述目标语音包括：上一次对所述预设高斯混合模型进行模型训练采用的语音、上一次对所述预设高斯混合模型进行模型训练后至本次对所述预设高斯混合模型进行模型训练之前需要进行语音识别的语音；

相似度计算子模块7042，用于计算所述待识别声纹向量与发出目标语音的用户的声纹模型向量之间的相似度，其中，一个用户的声纹模型向量为根据该用户的初始声纹模型向量计算得到的，每一用户的初始声纹模型向量为：采用目标语音对所述预设高斯混合模型进行模型训练得到的输出向量；

相似度判断子模块7043，用于判断计算得到的相似度是否全小于预设的阈值，如果计算得到的相似度全小于预设的阈值，触发所述第一用户确定子模块7044，如果计算得到的相似度不全小于预设的阈值，触发所述第二用户确定子模块7045；

第一用户确定子模块7044，用于确定所述目标用户为新用户；

第二用户确定子模块7045，用于确定所述目标用户为与所述待识别声纹向量相似度最大的声纹模型向量对应的用户。

在本发明的一个具体实施例中，用户识别模块704，还可以包括：第一声纹模型获得子模块和第二声纹模型获得子模块(图中未标出)。

其中，第一声纹模型获得子模块，用于在计算得到的相似度全小于所述预设的阈值时，将所述待识别声纹向量确定为所述目标用户的声纹模型向量；

第二声纹模型获得子模块，用于在计算得到的相似度不全小于所述预设的阈值时，若满足对所述预设高斯混合模型进行模型训练的条件，采用目标语音对所述预设高斯混合进行模型训练，获得初始声纹模型向量，并根据所获得的初始声纹向量计算得到发出目标语音的用户的声纹模型向量；若不满足对所述预设高斯混合模型进行模型训练的条件，存储所述待识别语音。

在本发明的一个具体实施例中，参见图10，提供了结果获得模块的一种结构示意图，其中，结果获得模块705，包括：意图判断子模块7051、第一结果获得子模块7052和第二结果获得子模块7053。

其中，意图判断子模块7051，用于判断所述搜索意图是否存在历史行为信息；如果所述搜索意图存在历史行为信息，触发所述第一结果获得子模块7052，如果所述搜索意图不存在历史行为信息，触发所述第二结果获得子模块7053；

第一结果获得子模块7052，用于利用所述搜索意图在用户历史行为场景数据库中记录的所述目标用户的历史行为场景数据中进行搜索，获得搜索结果；

第二结果获得子模块7053，用于利用所述搜索意图在服务器数据库中进行搜索，获得搜索结果，其中，所述服务器数据库用于存储待搜索资源的信息。

在本发明的一个具体实施例中，结果获得模块705，还可以包括：排序子模块7054(图中未标出)，用于按照预设的排序方式对所获得的搜索结果进行排序。

在本发明的一个具体实施例中，参见图11，提供了排序子模块的一种结构示意图，其中，排序子模块7054，包括：兴趣获得单元70541、向量结果获得单元70542、相似度计算单元70543和排序单元70544。

其中，兴趣获得单元70541，用于在所获得的搜索结果为在所述服务器数据库中进行搜索获得的搜索结果，所述目标用户为与所述待识别声纹向量相似度最大的声纹模型向量对应的用户时，获得所述目标用户的目标兴趣特征向量，其中，所述目标兴趣特征向量为：所述目标用户的兴趣标签向量化构建的向量；

向量结果获得单元70542，用于对每一条搜索结果进行向量化处理，获得向量化的搜索结果；

相似度计算单元70543，用于分别计算获得每一向量化后的搜索结果与所述目标兴趣特征向量之间的相似度；

排序单元70544，用于按照所获得相似度由高到低的顺序对所获得的搜索结果进行排序。

本发明实施例还提供了一种电子设备，如图12所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信，

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现本发明实施例提供的语音搜索方法。

具体的，上述语音搜索方法，包括：

接收待识别语音；

通过所述待识别声纹特征识别所述目标用户；

需要说明的是，上述语音搜索方法的其他实现方式与前述方法实施例部分相同，这里不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例提供的电子设备，在进行语音搜索时，利用声纹特征的特定性可以准确地识别出发出待识别语音的目标用户的身份，结合目标用户的身份进行搜索，得到满足目标用户个性化需求的搜索结果，提高搜索结果的准确率。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行本发明实施例提供的语音搜索方法。

具体的，上述语音搜索方法，包括：

接收待识别语音；

通过所述待识别声纹特征识别所述目标用户；

通过运行本发明实施例提供的计算机可读存储介质中存储的指令，在进行语音搜索时，利用声纹特征的特定性可以准确地识别出发出待识别语音的目标用户的身份，结合目标用户的身份进行搜索，得到满足目标用户个性化需求的搜索结果，提高搜索结果的准确率。

本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本发明实施例提供的语音搜索方法。

具体的，上述语音搜索方法，包括：

接收待识别语音；

通过所述待识别声纹特征识别所述目标用户；

通过运行本发明实施例提供的计算机程序产品，在进行语音搜索时，利用声纹特征的特定性可以准确地识别出发出待识别语音的目标用户的身份，结合目标用户的身份进行搜索，得到满足目标用户个性化需求的搜索结果，提高搜索结果的准确率。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质、计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种语音搜索方法，其特征在于，所述方法包括：

接收待识别语音；

通过所述待识别声纹特征识别所述目标用户；

基于所述目标用户，利用所述搜索意图进行搜索，获得搜索结果；

所述对所述待识别语音进行意图识别，获得发出所述待识别语音的目标用户的搜索意图的步骤，包括：

对所述待识别语音进行语音识别，获得目标文本信息；

将所述目标文本信息输入至预先训练的第一模型，获得目标意图标签序列，其中，所述第一模型是：采用样本语音的样本文本信息以及样本文本的意图标签标注信息对预设神经网络模型进行模型训练获得的；所述目标意图标签序列包括意图信息和意图类别；

根据所述目标意图标签序列，获得发出所述待识别语音的目标用户的搜索意图；

所述基于所述目标用户，利用所述搜索意图进行搜索，获得搜索结果，包括：

判断所述搜索意图是否存在所述目标用户的历史行为信息；

如果所述搜索意图存在所述目标用户的历史行为信息，利用所述搜索意图在用户历史行为场景数据库中记录的所述目标用户的历史行为场景数据中进行搜索，获得搜索结果；

如果所述搜索意图不存在所述目标用户的历史行为信息，利用所述搜索意图在服务器数据库中进行搜索，获得搜索结果，其中，所述服务器数据库用于存储待搜索资源的信息。

2.根据权利要求1所述的方法，其特征在于，所述通过所述待识别声纹特征识别所述目标用户的步骤，包括：

将所述待识别声纹特征输入至目标高斯混合模型，获得待识别初始声纹向量，根据所述待识别初始声纹向量计算获得待识别声纹向量，其中，所述目标高斯混合模型为：采用目标语音对预设高斯混合模型进行模型训练得到的模型；所述目标语音包括：上一次对所述预设高斯混合模型进行模型训练采用的语音、上一次对所述预设高斯混合模型进行模型训练后至本次对所述预设高斯混合模型进行模型训练之前需要进行语音识别的语音；

判断计算得到的相似度是否全小于预设的阈值；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，在所述获得搜索结果后，所述方法还包括：

按照预设的排序方式对所获得的搜索结果进行排序。

5.根据权利要求4所述的方法，其特征在于，所述按照预设的排序方式对所获得的搜索结果进行排序，包括：

6.一种语音搜索装置，其特征在于，所述装置包括：

语音接收模块，用于接收待识别语音；

结果获得模块，用于基于所述目标用户，利用所述搜索意图进行搜索，获得搜索结果；

所述意图获得模块包括：文本获得子模块、标签获得子模块和意图获得子模块；

所述标签获得子模块，用于将所述目标文本信息输入至预先训练的第一模型，获得目标意图标签序列，其中，所述第一模型是：采用样本语音的样本文本信息以及样本文本的意图标签标注信息对预设神经网络模型进行模型训练获得的；所述目标意图标签序列包括意图信息和意图类别；

所述意图获得子模块，用于根据所述目标意图标签序列，获得发出所述待识别语音的目标用户的搜索意图；

所述结果获得模块包括：意图判断子模块、第一结果获得子模块和第二结果获得子模块；

所述意图判断子模块，用于判断所述搜索意图是否存在所述目标用户的历史行为信息，如果所述搜索意图存在所述目标用户的历史行为信息，触发所述第一结果获得子模块，如果所述搜索意图不存在所述目标用户的历史行为信息，触发所述第二结果获得子模块；

7.根据权利要求6所述的装置，其特征在于，所述用户识别模块包括：声纹向量获得子模块、相似度计算子模块、相似度判断子模块、第一用户确定子模块和第二用户确定子模块；

所述相似度判断子模块，用于判断计算得到的相似度是否全小于预设的阈值，如果计算得到的相似度全小于预设的阈值，触发所述第一用户确定子模块，如果计算得到的相似度不全小于预设的阈值，触发所述第二用户确定子模块；

8.根据权利要求7所述的装置，其特征在于，所述用户识别模块还包括：第一声纹模型获得子模块和第二声纹模型获得子模块；

9.根据权利要求6所述的装置，其特征在于，所述结果获得模块还包括：排序子模块；

10.根据权利要求9所述的装置，其特征在于，所述排序子模块包括：兴趣获得单元、向量结果获得单元、相似度计算单元和排序单元；

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。