CN117378006A

CN117378006A - 混合多语种的文本相关和文本无关说话者确认

Info

Publication number: CN117378006A
Application number: CN202280037585.7A
Authority: CN
Inventors: 罗扎·霍伊纳茨卡; 贾森·皮莱坎奥斯; 王泉; 伊格纳西奥·洛佩斯·莫雷诺
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-03-24
Filing date: 2022-03-09
Publication date: 2024-01-09
Also published as: JP2024510798A; WO2023158444A3; WO2023158444A2; EP4295517A2; KR20230156145A; US20220310098A1; US11942094B2

Abstract

一种说话者确认方法(400)包括接收对应于话语(119)的音频数据(120)，处理表征预定的热词的音频数据的第一部分(121)以生成文本相关评估向量(214)，以及生成一个或多个文本相关置信度分数(215)。当文本相关置信度分数中的一个满足阈值时，操作包括识别话语的说话者为与满足阈值的文本相关置信度分数相关联的相应注册用户，和启动动作的进行而不进行说话者确认。当文本相关置信度分数都不满足阈值时，操作包括处理表征查询的音频数据的第二部分(122)以生成文本无关评估向量(224)，生成一个或多个文本无关置信度分数(225)，以及确定话语的说话者的身份是否包括任意注册用户。

Description

混合多语种的文本相关和文本无关说话者确认

技术领域

本公开涉及混合多语种的文本相关和文本无关说话者确认。

背景技术

在语音启用的环境中(例如家庭或汽车)，用户可以使用语音输入来访问信息和/或控制各种功能。信息和/或功能可以针对给定用户进行个性化。因此，从与语音启用的环境相关联的一组说话者中识别给定的说话者可能是有利的。

说话者确认(例如，语音认证)为用户设备的用户提供了一种简单的方式来获得对用户设备的访问。说话者确认允许用户通过说出话语来解锁和访问用户的设备，而不需要用户手动输入(例如，通过键入)通行码来获得对用户设备的访问。然而，多种不同语言、方言、口音等的存在给说话者确认带来了一定的挑战。

发明内容

本公开的一个方面提供了一种用于说话者确认的计算机实施的方法，当在数据处理硬件上执行时，使得所述数据处理进行操作，包括接收对应于由用户设备捕获的话语的音频数据。所述话语包括预定的热词，所述热词后接指定要进行的动作的查询。所述操作还包括使用文本相关说话者确认(TD-SV)模型来处理表征所述预定的热词的所述音频数据的第一部分，以生成表示所述热词的所述话语的语音特征的文本相关评估向量，并生成一个或多个文本相关置信度分数。每个文本相关置信度分数指示所述文本相关评估向量匹配一个或多个文本相关参考向量中相应的一个的可能性，并且每个文本相关参考向量与所述用户设备的一个或多个不同注册用户中相应的一个相关联。所述操作进一步包括确定所述一个或多个文本相关置信度分数中的任意一个是否满足置信度阈值。当所述文本相关置信度分数中的一个满足所述置信度阈值时，所述操作包括识别所述话语的说话者为相应的注册用户，所述相应的注册用户与对应于满足所述置信度阈值的所述文本相关置信度分数的所述文本相关参考向量相关联，并且启动由所述查询指定的所述动作的进行，而不对表征所述热词之后的所述查询的所述音频数据的第二部分进行说话者确认。当所述一个或多个文本相关置信度分数都不满足所述置信度阈值时，所述操作包括向文本无关说话者确认器提供指令。所述指令在由所述文本无关说话者确认器接收时，使得所述文本无关说话者确认器使用文本无关说话者确认(TI-SV)模型来处理表征所述查询的所述音频数据的所述第二部分，以生成文本无关评估向量。所述操作进一步包括生成一个或多个文本无关置信度分数，每个文本无关置信度分数指示所述文本无关评估向量匹配一个或多个文本无关参考向量中相应的一个的可能性。每个文本无关参考向量与所述用户设备的所述一个或多个不同注册用户中相应的一个相关联。所述操作还进一步包括基于所述一个或多个文本相关置信度分数和所述一个或多个文本无关置信度分数，确定说出所述话语的所述说话者的所述身份是否包括所述用户设备的所述一个或多个不同注册用户中的任意一个。

本公开的实现可以包括一个或多个以下可选特征。在一些实施方式中，所述用户设备的所述一个或多个不同注册用户中的每一个都具有访问不同的相应的个人资源集合的许可，并且由所述查询指定的所述动作的进行需要访问与被识别为所述话语的所述说话者的所述相应的注册用户相关联的所述相应的个人资源集。在一些示例中，所述数据处理硬件执行所述TD-SV模型，并驻留在所述用户设备上，并且所述文本无关说话者确认器执行所述TI-SI模型，并驻留在通过网络与所述用户设备通信的分布式计算***上。在这些示例中，当所述一个或多个文本相关置信度分数都不满足所述置信度阈值时，向所述文本无关说话者确认器提供所述指令包括，将所述指令和所述一个或多个文本相关置信度分数从所述用户设备发送到所述分布式计算***。

在一些实施方式中，所述数据处理硬件驻留在所述用户设备或通过网络与所述用户设备通信的分布式计算***中的一个上。这里，所述数据处理硬件执行所述TD-SV模型和所述TI-SV模型两者。在一些示例中，所述TI-SV模型比所述TD-SV模型的计算量更大。在一些实施方式中，所述操作进一步包括使用热词检测模型来检测所述音频数据中的所述查询之前的所述预定的热词，其中，表征所述预定的热词的所述音频数据的所述第一部分由所述热词检测模型提取。

在一些示例中，在多个训练数据集上训练所述TD-SV模型和所述TI-SV模型。每个训练数据集与不同的相应的语言或方言相关联，并且包括由不同说话者以所述相应的语言或方言说出的对应的训练话语。每个对应的训练话语包括表征所述预定的热词的文本相关部分和表征所述预定的热词之后的查询语句的文本无关部分。这里，所述TD-SV模型在所述多个训练数据集中的每个训练数据集中的每个对应的训练话语的所述文本相关部分上被训练，以及所述TI-SV模型在所述多个训练数据集中的每个训练数据集中的每个对应的训练话语的所述文本无关部分上被训练。在这些示例中，与所述其他训练数据集的所述对应的训练话语相比，以与至少一个所述训练数据集相关联的所述相应的语言或方言说出的所述对应的训练话语对所述预定的热词的发音可以不同。在一些额外的示例中，所述TI-SV模型在所述多个训练数据集中的一个或多个中的至少一个对应的训练话语的所述文本相关部分上被训练。额外地或可代替地，由所述训练话语的所述文本无关部分表征的所述查询语句包括可变的语言内容。

在一些实施方式中，当生成所述文本无关评估向量时，所述文本无关说话者确认器使用所述TI-SV模型来处理表征所述预定的热词的所述音频数据的所述第一部分和表征所述查询的所述音频数据的所述第二部分。额外地或可代替地，响应于接收到由所述用户设备的所述一个或多个不同注册用户中的所述相应的一个注册用户说出的所述预定的热词的一个或多个先前话语，所述一个或多个文本相关参考向量中的每一个可以由所述TD-SV模型生成。响应于接收到由所述用户设备的所述一个或多个不同注册用户中的所述相应的一个注册用户说出的一个或多个先前话语，所述一个或多个文本无关参考向量中的每一个可以由所述TI-SV模型生成。

本公开的另一方面提供了一种用于说话者确认的***。所述***包括数据处理硬件和与所述数据处理硬件通信的存储器硬件。所述存储器硬件存储指令，当所述指令在所述数据处理硬件上被执行时，使所述数据处理硬件进行操作。所述操作包括接收对应于由用户设备捕获的话语相的音频数据。所述话语包括预定的热词，所述热词后接指定要进行的动作的查询。所述操作还进一步包括使用文本相关说话者确认(TD-SV)模型来处理表征所述预定的热词的所述音频数据的第一部分，以生成表示所述热词的所述话语的语音特征的文本相关评估向量，并生成一个或多个文本相关置信度分数。每个文本相关置信度分数指示所述文本相关评估向量匹配一个或多个文本相关参考向量中相应的一个的可能性，并且每个文本相关参考向量与所述用户设备的一个或多个不同注册用户中相应一个相关联。所述操作进一步包括确定所述一个或多个文本相关置信度分数中的任意一个是否满足置信度阈值。当所述文本相关置信度分数中的一个满足所述置信度阈值时，所述操作包括识别所述话语的说话者识别为所述相应的注册用户，所述相应的注册用户与对应于满足所述置信度阈值的所述文本相关置信度分数的所述文本相关参考向量相关联，并且启动由所述查询指定的所述动作的进行，而不对表征所述热词之后的所述查询的所述音频数据的第二部分进行说话者确认。当所述一个或多个文本相关置信度分数都不满足所述置信度阈值时，所述操作包括向文本无关说话者确认器提供指令。所述指令在由所述文本无关说话者确认器接收时，使得所述文本无关说话者确认器使用文本无关说话者确认(TI-SV)模型来处理表征所述查询的所述音频数据的所述第二部分，以生成文本无关评估向量。所述操作进一步包括生成一个或多个文本无关置信度分数，每个文本无关置信度分数指示所述文本无关评估向量匹配一个或多个文本无关参考向量中相应的一个的可能性。每个文本无关参考向量与所述用户设备的所述一个或多个不同注册用户中相应的一个相关联。所述操作还包括基于所述一个或多个文本相关置信度分数和所述一个或多个文本无关置信度分数，确定说出所述话语的所述说话者的所述身份是否包括所述用户设备的所述一个或多个不同注册用户中的任意一个。

这个方面可以包括一个或多个以下可选特征。在一些实施方式中，所述用户设备的所述一个或多个不同注册用户中的每一个都具有访问不同的相应个人资源集的许可，并且由所述查询指定的所述动作的进行需要访问与被识别为所述话语的所述说话者的所述相应的注册用户相关联的所述相应的个人资源集。在一些示例中，所述数据处理硬件执行所述TD-SV模型，并驻留在所述用户设备上，以及所述文本无关说话者确认器执行所述TI-SI模型，并驻留在通过网络与所述用户设备通信的分布式计算***上。在这些示例中，当所述一个或多个文本相关置信度分数都不满足所述置信度阈值时，向所述文本无关说话者确认器提供所述指令包括将所述指令和所述一个或多个文本相关置信度分数从所述用户设备发送到所述分布式计算***。

在一些示例中，在多个训练数据集上训练所述TD-SV模型和所述TI-SV模型。每个训练数据集与不同的相应的语言或方言相关联，并且包括由不同说话者以所述相应的语言或方言说出的对应的训练话语。每个对应的训练话语包括表征所述预定的热词的文本相关部分和表征预定的热词之后的查询语句的文本无关部分。这里，所述TD-SV模型在所述多个训练数据集中的每个训练数据集中的每个对应的训练话语的所述文本相关部分上被训练，以及所述TI-SV模型在所述多个训练数据集中的每个训练数据集中的每个对应的训练话语的所述文本无关部分上被训练。在这些示例中，与所述其他训练数据集的所述相应的训练话语相比，以与至少一个所述训练数据集相关联的所述相应的语言或方言说出的所述对应的训练话语对所述预定的热词的发音可以不同。在一些额外的示例中，所述TI-SV模型在所述多个训练数据集中的一个或多个中的至少一个对应的训练话语的所述文本相关部分上被训练。额外地或可代替地，由所述训练话语的所述文本无关部分表征的所述查询语句包括可变的语言内容。

在一些实施方式中，当生成所述文本无关评估向量时，所述文本无关说话者确认器使用所述TI-SV模型来处理表征所述预定的热词的所述音频数据的所述第一部分和表征所述查询的所述音频数据的所述第二部分。额外地或可代替地，响应于接收到由所述用户设备的所述一个或多个不同注册用户中的所述相应的一个注册用户说出的所述预定的热词的一个或多个先前话语，所述一个或多个文本相关参考向量中的每一个由所述TD-SV模型生成。响应于接收到由所述用户设备的所述一个或多个不同注册用户中的所述相应的一个注册用户说出的一个或多个先前话语，所述一个或多个文本无关参考向量中的每一个可以由所述TI-SV模型生成。

在附图和以下说明中阐述了本公开的一个或多个实施方式的细节。根据说明书和附图以及权利要求书，其他方面、特征和优点将变得显而易见。

附图说明

图1是具有多语种说话者确认***的示例语音环境的示意图。

图2是图1的多语种说话者确认***的示意图。

图3是用于训练图1的多语种说话者确认***的示例训练过程的示意图。

图4是使用说话者确认***来确认说话者身份的方法的示例操作布置的流程图。

图5是可用于实施本文描述的***和方法的示例计算设备的示意图。

不同附图中相同的参考符号表示相同的元件。

具体实施方式

在语音启用的环境中，例如家庭、汽车、工作场所或学校，用户可以说出查询或命令，并且数字助理可以回答该查询和/或促使该命令被执行。可以使用分布在环境的各个房间或区域的连接的麦克风设备的网络来实现这种语音启用的环境。通过麦克风网络，用户可以通过口头话语查询数字助理，而不必在他们面前有计算机或其他接口。在一些情况下，语音启用的环境与多个注册用户相关联，例如，生活在家庭中的人。当单个设备被多个用户共享时(例如智能电话、智能扬声器、智能显示器、平板设备、智能电视、智能电器、车载信息娱乐***等)，可以应用这些情况。这里，语音启用的环境可以具有有限数量的用户，例如，在语音启用的家庭、办公室或汽车中有两到六个人。这样，希望确定正在说出查询的特定用户的身份。确定特定说话者/用户身份的过程可以称为说话者确认、说话者识别、说话者身份证明或语音识别。

说话者确认可以允许用户在多用户环境中发出代表特定用户的查询和/或触发个性化响应。说话者确认(例如，语音认证)为用户设备的用户提供了一种简单的方式来获得对用户设备的访问。说话者确认允许用户通过说出话语来解锁和访问用户的设备，而不需要用户手动输入(例如，通过键入)通行码来获得对用户设备的访问。然而，多种不同语言、方言、口音等的存在给说话者确认带来了一定的挑战。

在一些场景中，用户查询与用户的个人信息相关的数字助理和/或需要访问与用户相关联的个人资源集中的资源。例如，特定用户(例如，注册数字助理的用户)可以询问数字助理“我与Matt的会议在何时”或者查询数字助理“播放我的音乐播放列表”。这里，用户可以是一个或多个多注册用户中的一个，每个多注册用户都被允许访问他们自己的相应的个人资源集(例如，日历、音乐播放器、电子邮件、消息、联系人列表等)并且被限制访问其他注册用户的个人资源。例如，如果John和Meg都是数字助理的注册用户，则数字助理将需要辨别是John还是Meg说出话语“我与Matt的会议在何时”，以便访问适当的注册用户的日历来确定与Matt的会议被安排在何时，并以被安排的与Matt的会议的会议细节来响应。类似地，数字助理将需要辨别John或Meg中的哪一个说出话语“播放我的音乐播放列表”,以便访问音乐播放器并最终从适当的音乐播放列表中可听地输出曲目，因为John和Meg具有独特的音乐播放列表。

为了确定哪个用户正在多用户的语音启用的环境中说话，语音启用的***可以包括说话者确认***(例如，说话者识别***或语音认证***)。说话者确认***可以使用两种类型的模型来确认说话者。对于话语的热词(例如，关键词、唤醒词、触发短语)部分，***可以使用一个或多个文本相关模型，而对于通常表征查询的话语的剩余部分，***可以使用一个或多个文本无关模型。组合这两种类型的模型可以提高说话者确认的准确性，尤其是在说话者确认***的初始使用期间。

通过说出话语中的一个或多个术语的特定热词(例如，“嘿谷歌”或“好的谷歌”)，可以触发/调用在用户设备上执行的数字助理来处理(例如，通过自动语音识别(ASR))并完成在该特定热词之后的话语中说出的查询。在用户设备上执行的热词检测器可以检测由用户设备捕获的流式音频中特定热词的存在，并且触发用户设备从睡眠状态中唤醒，并且启动对表征话语查询部分的后续音频数据的处理(例如，ASR)。热词检测器可以提取表征热词的音频数据的第一部分，该表征热词的音频数据的第一部分可以被用作进行文本相关说话者确认的基础。音频数据的第一部分可以包括大约500毫秒(ms)音频数据的固定长度音频段。

一般而言，用于从表征话语热词的音频数据的第一部分中确认说话者身份的文本相关模型在语音启用的设备上执行，而用于从表征热词之后的查询的音频数据的第二部分中识别说话者的文本无关模型在与语音启用的设备通信的远程服务器上执行。文本相关模型可以输出相应的文本相关说话者向量，该文本相关说话者向量可以与一个或多个参考向量(每个参考向量与用户设备的一个或多个不同的注册用户相关联)进行比较，以确定与说出话语的说话者对应于特定注册用户的第一可能性相对应的第一置信度分数。文本无关模型还可以输出相应的文本无关说话者向量，该文本无关说话者向量可以与一个或多个参考向量(每个参考向量与一个或多个不同的注册用户相关联)进行比较，以确定与说出话语的说话者对应于特定注册用户的第二可能性相对应的第二置信度分数。可以组合第一置信度分数和第二置信度分数，以最终确定说出话语的说话者是否对应于特定的注册用户。

值得注意的是，在说话者确认***中按比例跨多种不同语言和方言训练这些文本无关模型和文本相关模型是有挑战性的。具体地，获取语音数据的训练样本来分别训练每种语言和方言的模型是困难且耗时的。低资源语言提出了困难的挑战，因为这些语言中缺少足够的语音数据训练样本。此外，为每种语言使用不同的文本无关模型和文本相关模型需要大量的人力和计算工作，以在生产中进行维护和更新，并且需要为先前不支持的新语言训练新模型。例如，为要被添加的新语言训练新的文本相关模型和文本无关模型，具有说话者标签的语音数据的训练样本必须可用于感兴趣的语言。

为了减轻构建和支持跨多种不同语言的多说话者确认***的挑战，这里的实施方式针对一种多语种说话者确认***，该多语种说话者确认***具有在不同语言和方言上训练的混合多语种的文本相关和文本无关说话者确认模型。通过在多种语言和方言上训练每一个文本相关和文本无关说话者确认模型，多语种说话者确认***能够推广到未在训练中使用的未看见的语言，并且保持在训练中使用的高资源语言和低资源语言上的说话者确认性能。如这里所使用的，多语种文本相关和文本无关说话者确认模型分别指的是可以被用于准确地确认说不同语言或方言的说话者的身份的单个相应的模型。也就是说，文本相关和文本无关说话者确认模型都不依赖于或局限于特定的单一语言或方言。因此，不是为不同的语言、方言和/或口音使用不同的模型，而是可以为文本相关和文本无关说话者确认模型中的每一个训练相应的单个模型。

虽然利用文本相关和文本无关说话者确认模型的组合优化了说话者确认***的说话者确认性能/准确度，但是采用文本无关说话者确认模型会导致计算成本增加。也就是说，文本相关说话者确认模型通常是运行在用户设备上的轻量模型，而文本无关说话者确认模型计算量更大，并且需要比文本相关说话者确认模型更大的存储空间，使得文本无关说话者确认模型更适合在远程服务器上执行。除了运行文本无关说话者确认模型导致的计算成本增加之外，完成查询的延迟也与文本相关和文本无关说话者确认模型进行计算所需的持续时间成比例地增加。为了减少整体的计算负担，并且仍然保持说话者确认***的最佳的说话者确认性能/准确度，这里的实施方式进一步针对说话者确认分类阶段，该说话者确认分类阶段仅在与文本相关说话者确认相关联的文本相关置信度分数不能满足置信度阈值时，才使得文本无关说话者确认模型进行文本无关说话者确认。否则，当指示由TD-SV模型生成的文本相关评估向量与相应的文本相关参考向量匹配的可能性的文本相关置信度分数满足置信度阈值时，分类***可以允许说话者确认***绕过对文本无关说话者确认模型进行文本无关说话者确认的需要。

参考图1，在一些实施方式中，在语音启用的环境中的示例***100包括与一个或多个用户10相关联并且经由网络104与远程***111通信的用户设备102。用户设备102可以对应于计算设备，例如移动电话、计算机(膝上型或台式)、平板电脑、智能扬声器/显示器、智能电器、智能耳机、可穿戴设备、车辆信息娱乐***等，并配备有数据处理硬件103和存储器硬件107。用户设备102包括一个或多个麦克风106或者与一个或多个麦克风106通信，用于捕获来自相应的用户10的话语。远程***111可以是单个计算机、多个计算机或具有可扩展/弹性计算资源113(例如，数据处理硬件)和/或存储资源115(例如，存储器硬件)的分布式***(例如，云环境)。

用户设备102包括热词检测器110(也称为热词检测模型),该热词检测器110被配置为检测流式音频118中热词的存在，而不对流式音频118进行语义分析或语音识别处理。用户设备102可以包括声学特征提取器(未示出)，该声学特征提取器可以被实施为热词检测器110的一部分，或者被实施为用于从话语119提取音频数据120的独立组件。例如，声学特征提取器可以接收由用户设备102的一个或多个麦克风106捕捉的对应于用户10说出的话语119的流式音频118，并提取音频数据120。音频数据120可以包括声学特征，例如梅尔频率倒谱系数(MFCC)或在音频信号的窗口上计算的滤波器组能量。在所示的示例中，用户10说出的话语119包括“好的谷歌，播放我的音乐播放列表”

热词检测器110可以接收音频数据120以确定话语119是否包括用户10说出的特定热词(例如，好的谷歌)。也就是说，热词检测器110可以被训练来检测音频数据120中热词(例如，好的谷歌)或热词的一个或多个变体(例如，嘿谷歌)的存在，以使用户设备102从睡眠状态或休眠状态中唤醒并触发自动语音识别(ASR)***180对热词和/或热词之后的一个或多个其他术语(例如，热词之后的并指定要执行的动作的语音查询)进行语音识别。在所示的示例中，在流式音频中捕获的话语119中的热词后接的查询包括“播放我的音乐播放列表”,该查询指定了数字助理访问与特定用户(例如，John)10相关联的音乐播放列表的动作，并且为用户设备10(和/或一个或多个指定的音频输出设备)提供包括来自John的音乐播放列表的音乐曲目的响应160，以播放来自扬声器的可听输出。对于“永远在线”***，热词可能是有用的，该***可能潜在地获取不指向语音启用的用户设备102的声音。例如，热词的使用可以帮助设备102辨别给定话语119何时指向设备102，而不是指向环境中存在的另一个人的话语或背景话语。这样做，设备102可以避免对不包括热词的声音或话语触发计算昂贵的处理，例如语音识别和语义解释。在一些示例中，热词检测器110是在多种不同语言或方言上训练的多语种热词检测器110。

***100包括被配置为通过处理音频数据120来确定正在说出话语119的用户10的身份的多语种说话者确认***200。多语种说话者确认***200可以确定被识别的用户10是否是授权用户，使得只有当该用户被识别为授权用户时才完成查询(例如，进行由查询指定的动作)。有利的是，多语种说话者确认***200允许用户通过说出话语来解锁和访问用户的设备102，而不需要用户手动输入(例如，键入)或说出通行码或提供一些其他的确认手段(例如，回答质询问题、提供生物测定确认数据等)来获得对用户设备102的访问。

在一些示例中，***100在多用户、语音启用的环境中操作，其中，多个不同的用户10，10a-n(图2)中的每一个都与用户设备102注册，并且具有访问与该用户相关联的相应的个人资源集(例如，日历、音乐播放器、电子邮件、消息、联系人列表等)的许可。注册用户10被限制访问来自与其他注册用户相关联的相应的个人资源集的个人资源。每个注册用户10可以具有链接到与该用户相关联的相应的个人资源集的相应用户配置文件，以及与该用户10相关联的其他相关信息(例如，用户指定的偏好设置)。因此，多语种说话者确认***200可以被用于确定在多用户、语音启用的环境100中哪个用户正在说出话语119。例如，在所示的示例中，John和Meg可能都是用户设备102(或在用户设备上运行的数字助理界面)的注册用户10，并且数字助理需要辨别是John还是Meg说出话语119“好的谷歌，播放我的音乐播放列表”,以便访问音乐播放器并最终从适当的音乐播放列表可听地输出曲目，因为Meg和John可能各自具有独特的音乐播放列表。这里，多语种说话者确认***200处理对应于话语119的音频数据120的一个或多个部分121、122，以识别John是话语119的说话者。

继续参考图1，在热词检测器110检测到音频数据120中热词(例如好的谷歌)的存在之后，多语种说话者确认***200的文本相关(TD)确认器210接收音频数据120的第一部分121，该第一部分121表征热词检测器110检测到的热词。热词检测器110可以从音频数据120中提取对应于音频数据120的第一部分121的音频片段。在一些示例中，音频数据120的第一部分121包括持续时间足够长的固定长度的音频段，以包含说出的热词或热词检测器被训练来检测的并且TD确认器210被训练来对其进行说话者确认的其他术语/短语的音频特征。TD确认器210被配置为使用文本相关说话者确认(TD-SV)模型212(图2)来处理音频数据120的第一部分121，并输出一个或多个TD置信度分数215，每个TD置信度分数215指示音频数据120的第一部分121所表征的热词被用户设备102的一个或多个不同注册用户10中相应的一个说出的可能性。值得注意的是，当在话语中说出时，预定的热词服务于两个目的:确定用户10是否正在调用用户设备102来处理后续的语音查询；并确定说出该话语的用户10的身份。TD确认器210被配置为在用户设备102上执行。此外，如下面更详细讨论的，TD-SV模型212包括适用于在用户设备上存储和执行的轻量模型。

为了提高说话者确认的准确性，多语种说话者确认***200还可以使用文本无关(TI)确认器220来确认说出话语119的用户10的身份。TI确认器220可以被配置为使用文本无关说话者确认(TI-SV)模型222(图2)来处理表征热词后接的查询的音频数据120的第二部分122，并输出一个或多个TI置信度分数225，每个TI置信度分数225指示音频数据120的第二部分122所表征的查询由用户设备102的一个或多个不同注册用户10中相应的一个说出的可能性。在所示示例中，由音频数据120的第二部分122表征的查询包括“播放我的音乐播放列表”。在一些示例中，TI-SV模型222额外地处理音频数据120的第一部分121，使得一个或多个TI置信度分数225基于音频数据120的第一和第二部分121、122。在一些实施方式中，TI确认器220接收从TD确认器210输出的一个或多个TD置信度分数215，并且基于一个或多个TD置信度分数215和一个或多个TI置信度分数225来确定说出话语119的说话者的身份是否包括用户设备102的一个或多个不同注册用户10中的任意一个。例如，TI确认器220可以将话语119的说话者识别为注册用户10a John。

TI确认器220比TD确认器210的计算量更大，因此，运行TI确认器220比运行TD确认器210的计算量更大。此外，TI确认器220需要比TD确认器210大得多的存储空间。这样，TI确认器220更适合在远程***111上执行。然而，在其他实施方式中，TI确认器220可以在用户设备102上执行。

虽然组合TD和TI确认器210、220为确认/识别说话者提供了增强的准确性，但是由于在TI确认器220处进行说话者确认而导致计算成本增加，因此存在权衡。除了运行TI确认器220导致的计算成本增加之外，完成查询的延迟也与TI确认器220对较长持续时间的音频数据120进行额外的计算所需的持续时间成比例地增加。为了减少总的计算负担并减少延迟，同时不牺牲多语种说话者确认***200的说话者确认性能/准确性，多语种说话者确认***200包括中间说话者确认分类阶段205，该中间说话者确认分类阶段205允许多语种说话者确认***200仅在从TD确认器210输出的一个或多个TD置信度分数215都不满足置信度阈值时调用TI确认器220。也就是说，在SV分类阶段205确定从TD确认器210输出的TD置信度分数215满足置信度阈值(是)的情况下，多语种说话者确认***200可以绕过TI确认器220处的说话者确认，并向ASR***180提供SV证明208，该ASR***将话语119的说话者识别为与满足置信度阈值的说出的热词的TD置信度分数215相关联的相应的注册用户10。当SV证明208被ASR***180接收时，该SV证明208可以指示ASR***180开始进行由查询指定的动作，而不需要TI确认器220对表征热词后接的查询的音频数据120的第二部分122进行说话者确认。在所示示例中，ASR***180包括ASR模型182，该ASR模型182被配置为对表征查询的音频数据120的第二部分122(以及可选地除了第二部分122之外的音频数据120的第一部分121)进行语音识别。

ASR***180还包括被配置为对ASR模型182输出的语音识别结果进行查询解释的自然语言理解(NLU)模块184。通常，NLU模块184可以对语音识别结果进行语义分析，以识别由查询指定的要执行的动作。在所示示例中，NLU模块184可以确定进行由查询“播放我的音乐播放列表”指定的动作，需要访问与用户设备102的相应注册用户10相关联的相应的个人资源集。因此，NLU模块184确定由查询指定的动作缺少进行该动作所需的必要参数，即用户的身份。因此，NLU模块184使用SV证明208来将特定的注册用户(例如，John)10a识别为话语119的说话者，并因此通过提供输出指令185来启动查询的履行以执行由查询指定的动作。在所示示例中，输出指令185可以指示音乐流服务以流式传输来自注册用户John的音乐播放列表的音乐曲目。数字助理接口可以提供对查询的响应160，该响应160包括来自用户设备102和/或与用户设备102通信的一个或多个其他设备的可听输出的音乐曲目。

值得注意的是，由于TD置信度分数215满足置信度阈值，NLU模块184能够加快查询的完成，因为NLU模块184可以依赖于TD确认器210确定的注册用户的身份，而不必等待TI确认器220进行额外的计算来识别注册用户。

在SV分类阶段205确定从TD确认器210输出的一个或多个TD置信度分数215都不满足置信度阈值的情况下，SV分类阶段205可以将一个或多个TD置信度分数215传递给TI确认器220，并指示TI确认器220对至少表征话语119中热词后接查询的音频数据120的第二部分122进行说话者确认。TI确认器220可以通过处理音频数据120的第二部分122来进行说话者确认，以生成一个或多个TI置信度分数225，每个TI置信度分数225指示查询是由用户设备102的一个或多个不同注册用户10中相应的一个说出的可能性。在一些实施方式中，TI确认器220组合生成的与每个相应的注册用户10相关联的TD和TI置信度分数215、225对，以确定指示说出话语的说话者的身份是否包括相应的注册用户10的组合置信度分数。例如，如果存在用户设备的四个注册用户10a-d，则TI确认器220将组合生成的TD和TI分数215、225的四个不同对，以生成四个组合的置信度分数，每个组合的置信度分数指示话语119是由用户设备的四个不同注册用户10中相应的一个说出的可能性。与最高组合置信度分数相关联的注册用户可以被识别为话语119的说话者。

在一些示例中，TI确认器220通过平均TD和TI分数215、225来组合TD和TI置信度分数215、225。在一些示例中，TI确认器220计算置信度分数215、225的加权平均值以获得组合的置信度分数。例如，TD置信度分数215可以比TI置信度分数225权重更大。在一个示例中，TD置信度分数215乘以0.75的权重，而TI置信度分数215乘以0.25的权重。在其他示例中，TI置信度分数225比TD置信度分数215加权更重。在一些实施方式中，应用于TD和TI置信度分数215、225的权重是动态的，使得所应用的权重可以随时间变化。也就是说，作为相比于TI确认器220、与TD确认器210相关联的准确度可能更高的反映，TD置信度分数215最初可以比TI置信度分数215权重更大。但是随着时间的推移，TI确认器220可以基于用户随后的话语被更新，并且最终变得比TD确认器210更准确地进行说话者确认。因此，由TI确认器220输出的TI置信度分数225可能最终比由TD确认器210输出的TD置信度分数215权重更大。

图2提供了图1的多语种说话者确认***200的示意图。多语种说话者确认***200包括具有多语种TD-SV模型212的TD确认器210和具有多语种TI-SV模型222的TI确认器220。在一些实施方式中，用户设备102的每个注册用户10具有访问不同的相应的个人资源集的许可，其中由音频数据120的第二部分122表征的查询的进行需要访问与被识别为话语119的说话者的注册用户10相关联的相应个人资源集。这里，用户设备102的每个注册用户10可以进行语音注册过程，以从注册用户10说出的多个注册短语的音频样本中获得相应的注册用户参考向量252、254。例如，多语种TD-SV模型212可以从由每个注册用户10说出的注册短语中的预定术语(例如热词)生成一个或多个文本相关(TD)参考向量252，这些文本相关(TD)参考向量252可以被组合(例如平均或以其他方式累积)以形成相应的TD参考向量252。此外，多语种TI-SV模型222可以从每个注册用户说出的注册短语的音频样本中生成一个或多个文本无关(TI)参考向量254，这些文本无关(TI)参考向量254可以被组合(例如平均或以其他方式累积)以形成相应的TI参考向量254。

一个或多个注册用户10可以使用用户设备102来进行语音注册过程，其中麦克风106捕获说出注册话语的这些用户的音频样本，并且多语种TD-SV模型212和多语种TI-SV模型222由此生成相应的TD参考向量252和TI参考向量254。额外地，一个或多个注册用户10可以通过向用户设备102的现有用户账户提供授权和认证凭证来注册到用户设备102。这里，现有用户账户可以存储从相应的用户利用同样链接到该用户账户的另一设备进行的先前语音注册过程中获得的TD参考向量252和TI参考向量254。

在一些示例中，注册用户10的TD参考向量252是从说出预定术语(例如用于调用用户设备从睡眠状态唤醒的热词(例如，“好的谷歌”))的相应的注册用户10的一个或多个音频样本中提取的。在一些实施方式中，响应于接收到由用户设备102的相应注册用户10说出的预定的热词的一个或多个先前话语，由多语种TD-SV模型212生成TD参考向量252。例如，表征由热词检测器以高置信度检测到的预定热词并且还导致与匹配为特定注册用户存储的TD参考向量252的高置信度分数相关联的TD评估向量214的音频数据可以被用于改进/更新/重新训练TD-SV模型212。额外地，注册用户10的TI参考向量254可以从说出具有不同术语/单词和不同长度的短语的相应注册用户10的一个或多个音频样本中获得。例如，TI参考向量254可以随时间从音频样本中获得，该音频样本从用户10与用户设备102或链接到同一账户的其他设备的语音交互中获得。换句话说，响应于接收到由用户设备102的注册用户10说出的一个或多个先前话语，可以由多语种TI-SV模型222生成TI参考向量254。

在一些示例中，多语种说话者确认***200使用TD确认器210来解析说出话语119的用户10的身份。TD确认器210通过首先从表征用户说出的预定的热词的音频数据120的第一部分121中提取表示热词的话语的语音特征的文本相关(TD)评估向量214来识别说出话语119的用户10。这里，TD确认器210可以执行多语种TD-SV模型212，该多语种TD-SV模型212被配置为接收音频数据120的第一部分121作为输入，并生成TD评估向量214作为输出。多语种TD-SV模型212可以是在机器或人工监督下训练的神经网络模型(例如，第一神经网络330),以输出TD评估向量214。

一旦从多语种TD-SV模型212输出TD评估向量214，TD确认器210就确定TD评估向量214是否与存储在用户设备102上(例如，存储在存储器硬件107中)的用户设备102的注册用户10、10a-n的任意TD参考向量252相匹配。如上所述，多语种TD-SV模型212可以在语音注册过程中为注册用户10生成TD参考向量252。每个TD参考向量252可以被用作对应于表示说出预定的热词的相应注册用户10的语音特征的声纹或唯一标识符的参考向量。

在一些实施方式中，TD确认器210使用文本相关(TD)评分器216，该文本相关(TD)评分器216将TD评估向量214和与用户设备102的每个注册用户10a-n相关联的相应TD参考向量252进行比较。这里，TD评分器216可以为每个比较生成指示话语119对应于相应的注册用户10的身份的可能性的分数。具体地，TD评分器216为用户设备102的每个注册用户10生成文本相关(TD)置信度分数215。在一些实施方式中，TD评分器216计算TD评估向量214和每个TD参考向量252之间相应的余弦距离，以为每个相应的注册用户10生成TD置信度分数215。

当TD评分器216生成指示话语119对应于每个相应的注册用户10的可能性的TD置信度分数215时，说话者确认(SV)分类阶段205确定任意TD置信度分数215是否满足置信度阈值。在一些实施方式中，SV分类阶段205确定TD置信度分数215满足置信度阈值。在这些实施方式中，多语种说话者确认***200绕过TI确认器220处的说话者确认，反而向ASR***108提供SV证明208，该ASR***108识别话语119的说话者为与满足置信度阈值的TD置信度分数215相关联的相应注册用户10。

相反，当SV分类阶段205确定TD置信度分数215都不满足置信度阈值时，SV分类阶段205向TI确认器220提供由TD确认器210生成的TD置信度分数215和指令207。这里，当指令207被TI确认器220接收到时，指令207使得TI确认器220解析说出话语119的用户10的身份。TI确认器220通过首先从表征预定的热词后接的查询的音频数据120的第二部分122中提取表示话语119的语音特征的文本无关(TI)评估向量224来识别说出话语119的用户10。为生成TI评估向量224，TI确认器220可以执行多语种TI-SV模型222，该多语种TI-SV模型222被配置为接收音频数据120的第二部分122作为输入，并且生成TI评估向量224作为输出。在一些实施方式中，多语种TI-SV模型222接收音频数据120的第一部分121和音频数据120的第二部分122，并且处理第一部分121和第二部分122以生成TI评估向量224。在一些额外的实施方式中，TI-SV模型222可以处理话语119的查询部分后接的额外的音频数据。例如，话语119可以包括“向妈妈发送以下消息”的查询，并且还包括消息“我会回家吃晚饭”的额外的音频对应内容。多语种TI-SV模型222可以是在机器或人工监督下训练的神经网络模型(例如，第二神经网络340)以输出TI评估向量224。

一旦从多语种TI-SV模型222输出TI评估向量224，TI确认器220就为用户设备102的不同注册用户10、10a-n确定TI评估向量224是否与存储在用户设备102上(例如，在存储器硬件107中)的任意TI参考向量254相匹配。如上所述，多语种TI-SV模型222可以在语音注册过程中为注册用户10生成TI参考向量254。每个TI参考向量254可以用作对应于表示相应的注册用户10的语音特征的声纹或唯一标识符的参考向量。

在一些实施方式中，TI确认器220使用评分器226，该评分器226将TI评估向量224和与用户设备102的每个注册用户10a-n相关联的相应TI参考向量254进行比较。这里，评分器226可以为每个比较生成指示话语119对应于相应的注册用户10的身份的可能性的分数。具体地，评分器226为用户设备102的每个注册用户10生成文本无关(TI)置信度分数225。在一些实施方式中，评分器226计算TI评估向量224和每个TI参考向量254之间的相应余弦距离，以生成每个相应的注册用户10的TI置信度分数225。额外的，评分器226组合为每个注册用户10生成的TD和TI置信度分数215、225对，以确定指示说出话语119的说话者的身份是否包括相应注册用户10的组合置信度分数。如上关于图1所述，用于获得组合置信度分数的TD置信度分数215和TI置信度分数225的权重可以不同，和/或随时间动态变化。

TI确认器220可以识别说出话语119的用户10为与最高组合置信度分数相关联的相应的注册用户。在这些实施方式中，TI确认器220向ASR***108提供SV证明208，该ASR***108识别话语119的说话者为与最高组合分数相关联的相应的注册用户10。在一些示例中，TI确认器220确定最高组合置信度分数是否满足阈值，并且仅当组合置信度分数满足阈值时才识别说话者。否则，TI确认器220可以指示用户设备提示用户说出额外的确认话语和/或回答认证问题。

图3示出了用于训练多语种说话者确认***200的示例多语种说话者确认训练过程300。训练过程300可以在图1的远程***111上执行。训练过程300获得存储在数据存储器301中的多个训练数据集310，310A-N，并在训练数据集310上训练每个TD-SV模型212和TI-SV模型222。数据存储器301可以驻留在远程***111的存储器硬件113上。每个训练数据集310与不同的相应的语言或方言相关联，并且包括由不同说话者以相应的语言或方言说出的相应的训练话语320，320Aa-Nn。例如，第一训练数据集310A可以与美式英语相关联，并且包括由来自美国的说话者用英语说出的相应的训练话语320Aa-An。也就是说，第一训练数据集310A中的训练话语320Aa-An都是用带有美国口音的英语说出的。另一方面，与英式英语相关联的第二训练数据集310B包括也是用英语说出，但是由来自大不列颠的说话者说出的对应的训练话语320Ba-Bn。因此，第二训练数据集310B中的训练话语320Ba-Bn是用带有英国口音的英语说出的，并因此和与美国口音方言相关联的训练话语320Aa-An不同的方言(即，英国口音)相关联。值得注意的是，带有英国口音的英语说话者可能会和另一个带有美国口音的英语说话者对某些单词的发音不同。图3还示出了与韩语相关联的包括由韩语说话者说出的相应训练话语320Na-Nn的另一训练数据集310N。

在一些实施方式中，训练过程300在至少十二(12)个训练数据集上训练多语种说话者确认***200，每个训练数据集与不同的相应的语言相关联。在额外的实施方式中，训练过程300在覆盖四十六(46)种不同语言和六十三(63)种方言的训练话语320上训练多语种说话者确认***200。

每个相应的训练话语320包括文本相关部分321和文本无关部分322。文本相关部分321包括表征训练话语320中说出的预定的热词(例如，“嘿谷歌”)或该预定的热词的变体(例如，“好的谷歌”)的音频片段。与文本相关部分321相关联的音频片段可以包括由包含音频特征(例如，40维对数梅尔滤波器组能量特征或梅尔频率倒谱系数)的固定长度帧序列表示的固定长度音频片段(例如，1175毫秒的音频)。这里，当在流式音频118中说出时，预定的热词及其变体中的每一个都可以被热词检测器110检测到，以触发用户设备唤醒并启动对预定的热词或其变体后接的一个或多个术语的语音识别。在一些示例中，与表征预定的热词(或其变体)的相应训练话语320的文本相关部分321相关联的固定长度音频片段被热词检测器110提取。

相同的预定的热词可以跨多种不同的语言使用，然而，由于不同的语言特征(例如跨语言和方言的口音)，相同的预定的热词或其变体的发音跨语言和方言变化。值得注意的是，部署在一些地理区域中的热词检测器110可以被训练来检测流式音频中的不同的预定的热词，并因此，以与这些地理区域相关联的语言或方言说出的相应的训练话语320的文本相关部分321可以反而表征不同的预定的热词。显而易见的是，训练的多语种TD-SV模型212能够基于预定的热词、预定的热词的变体或基于特定语言或地理区域特有的不同热词来区分不同语言或方言的说话者。在另外的实施方式中，一些训练话语320中的文本相关部分321包括表征除了或代替预定的热词或预定的热词的变体的其他术语/短语的音频片段，例如定制热词或常用语音命令(例如，播放、暂停、音量增大/减小、呼叫、消息、导航/指向等)。

每个训练话语320中的文本无关部分322包括音频片段，该音频片段表征在由文本相关部分321表征的预定的热词之后的训练话语320中说出的查询语句。例如，相应的训练话语320可以包括“好的谷歌，外面天气如何？”由此文本相关部分321表征热词“好的谷歌”以及文本无关部分322表征查询语句“外面天气如何”。虽然每个训练话语320中的文本相关部分321在语音上受到相同的预定的热词或其变体的约束，但是由每个文本无关部分322表征的查询语句的词典不受约束，使得与每个查询语句相关联的持续时间和音素是可变的。值得注意的是，由文本相关部分321表征的说出的查询语句的语言包括与训练数据集310相关联的相应的语言。例如，用英语说出的查询语句“外面天气如何”在用西班牙语说出时被翻译成“Cual es el clima afuera”。在一些示例中，表征每个训练话语320的查询语句的音频片段包括范围从0.24秒到1.60秒的可变持续时间。

继续参考图3，训练过程300在以与每个训练数据集310，310A-N相关联的相应的语言或方言说出的训练话语320，320Aa-Nn的文本相关部分321上训练第一神经网络330。在训练期间，关于文本相关部分321的额外的信息可以作为输入被提供给第一神经网络330。例如，对应于用于训练TD-SV模型212以学习如何预测的基本事实输出标签的文本相关(TD)目标323(例如TD目标向量)可以在用TD部分321训练期间作为输入被提供给第一神经网络330。因此，来自每个特定说话者的预定的热词的一个或多个话语可以与特定TD目标向量323配对。

第一神经网络330可以包括由多个长短期记忆(LSTM)层形成的深度神经网络，在每个LSTM层之后具有投影层。在一些示例中，第一神经网络使用128个存储单元，并且投影大小等于64。多语种TD-SV模型212包括第一神经网络330的训练版本。由TD-SV模型212生成的TD评估和参考向量214、252可以包括嵌入尺寸等于最后投影层的投影尺寸的d-向量。训练过程可以使用广义端到端对比损失来训练第一神经网络330。

在训练之后，第一神经网络330生成多语种TD-SV模型212。训练的多语种TD-SV模型212可以被推送到分布在跨多个地理区域并与讲不同语言、方言或两者都讲的用户相关联的多个用户设备102。用户设备102可以存储和执行多语种TD-SV模型212，以对表征由热词检测器110在流式音频118中检测到的预定的热词的音频片段进行文本相关说话者确认。如前所述，即使以不同的语言或在不同的位置说出相同的热词时，具有不同语言、方言、口音或位置的用户也可能对该热词发音不同。以前的说话者确认模型的发音中的这些变化仅在一种语言上训练，并且经常不恰当地将这种由语言或口音导致的发音变化归因于说话者特有的特征。例如，当这些以前的模型将地区口音的一般特征解释为特定说话者的声音的主要区别元素时，确认中的假阳性率增加，而事实上这些特征实际上是用相同或相似口音说话的所有用户所共有的。本公开的训练的多语种TD-SV模型212能够将一个用户与具有相同语言、方言、口音或位置的其他用户区分开。

训练过程300还在以与每个训练数据集310，310A-N相关联的相应语言或方言说出的训练话语320，320Aa-Nn的文本无关(TI)部分322上训练第二神经网络340。这里，对于训练话语320Aa，训练过程300在TI部分322上训练第二神经网络，该TI部分322表征以美式英语说出的查询语句“外面天气如何”。可选地，除了对应的训练话语320的TI部分322之外，训练过程还可以在一个或多个训练数据集310中的至少一个对应的训练话语320的TD部分321上训练第二神经网络340。例如，使用上面的训练话语320Aa，训练过程300可以在整个话语“好的谷歌，外面天气如何？”上训练第二神经网络340。在训练期间，关于TI部分322的额外的信息可以作为输入被提供给第二神经网络340。例如，对应于用于训练TI-SV模型222以学习如何预测的基本事实输出标签的TI目标324(例如TI目标向量)可以在用TI部分322训练期间作为输入被提供给第二神经网络340。因此，来自每个特定说话者的查询语句的一个或多个话语可以与特定TI目标向量324配对。

第二神经网络340可以包括由多个LSTM层形成的深度神经网络，在每个LSTM层之后具有投影层。在一些示例中，第二神经网络使用384个存储单元，并且投影大小等于128。多语种TI-SV模型222包括第二神经网络340的训练版本。由TI-SV模型222生成的TI评估和参考向量224、254可以包括嵌入尺寸等于最后投影层的投影尺寸的d-向量。训练过程300可以使用广义端到端对比损失来训练第一神经网络330。在一些示例中，训练的多语种TD-SV模型212与适合在用户设备102上运行的小存储器占用空间(例如，235k个参数)相关联，而训练的多语种TI-SV模型222计算量更大，并且具有适合在远程***上运行的大得多的容量(例如，130万个参数)。

图4包括混合多语种文本相关和文本无关说话者确认的方法400的示例操作布置的流程图。在操作402处，方法400包括接收对应于由用户设备102捕捉的话语119的音频数据120，话语119包括后接指定要执行动作的查询的预定的热词。方法400在操作404处进一步包括使用文本相关说话者确认(TD-SV)模型212处理表征预定的热词的音频数据120的第一部分121，以生成表示热词的话语119的语音特征的文本相关(TD)评估向量214。

在操作406处，方法400包括生成一个或多个文本相关(TD)置信度分数215，每个文本相关(TD)置信度分数指示TD评估向量214匹配一个或多个文本相关(TD)参考向量252中相应的一个的可能性。每个TD参考向量252与用户设备102的一个或多个不同注册用户10中相应的一个相关联。方法400进一步包括，在操作406处，确定一个或多个TD置信度分数215中的任意一个是否满足置信度阈值。

当TD置信度分数215中的一个满足置信度阈值时，方法400包括，在操作408处，识别话语119的说话者为与对应于满足置信度阈值的TD置信度分数215的TD参考向量252相关联的相应注册用户10。方法400还包括，在操作410处，启动由查询指定的动作的进行，而不对表征热词后接查询的音频数据120的第二部分122进行说话者确认。当一个或多个TD置信度分数215都不满足置信度阈值时，方法400包括，在操作412处，向文本无关说话者确认器220提供指令，以使用文本无关说话者确认(TI-SV)模型222来处理表征查询的音频数据120的第二部分122，以生成文本无关(TI)评估向量224。在操作414处，方法400还包括生成一个或多个文本无关(TI)置信度分数225，每个文本无关(TI)置信度分数225指示TI评估向量224匹配一个或多个文本无关(TI)参考向量254中相应的一个的可能性。每个TI参考向量254与用户设备102的一个或多个不同注册用户10中相应的一个相关联。在操作416处，方法400进一步包括基于一个或多个TD置信度分数215和一个或多个TI置信度分数225来确定说出话语119的说话者身份是否包括用户设备102的一个或多个不同注册用户10中的任意一个。

图5是可用于实施本文中描述的***和方法的示例计算设备500的示意图。计算设备500旨在代表各种形式的数字计算机，诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。这里所示的组件、它们的连接和关系以及它们的功能仅仅是示例性的，并不意味着限制本文件中描述和/或要求保护的发明的实施。

计算设备500包括处理器510、存储器520、存储设备530、连接到存储器520和高速扩展端口550的高速接口/控制器540、以及连接到低速总线570和存储设备530的低速接口/控制器560。组件510、520、530、540、550和560中的每一个使用各种总线互连，并且可以安装在公共主板上或者以其他适当的方式安装。处理器510可以处理用于在计算设备500内执行的指令，包括存储在存储器520中或存储设备530上的指令，以在外部输入/输出设备(例如耦接到高速接口540的显示器580)上显示图形用户界面(GUI)的图形信息。在其他实施中，可以适当地使用多个处理器和/或多个总线，以及多个存储器和多种类型的存储器。此外，可以连接多个计算设备500，每个设备提供必要操作的部分(例如，作为服务器组、刀片服务器组或多处理器***)。处理器510可以被称为数据处理硬件510，包括用户设备102的数据处理硬件103或远程***111的数据处理硬件113。存储器720可以被称为存储器硬件720，包括用户设备102的存储器硬件107或远程***111的存储器硬件115。

存储器520在计算设备500内非暂时性地存储信息。存储器520可以是计算机可读介质、易失性存储器单元或非易失性存储器单元。非暂时性存储器520可以是用于临时或永久存储程序(例如，指令序列)或数据(例如，程序状态信息)以供计算设备500使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，如启动程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

存储设备530能够为计算设备500提供大容量存储。在一些实施中，存储设备530是计算机可读介质。在各种不同的实施中，存储设备530可以是软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其他类似的固态存储设备，或者设备阵列，包括存储区域网络或其他配置中的设备。在另外的实施中，计算机程序产品有形地包含在信息载体中。计算机程序产品包含指令，当被执行时，这些指令进行一种或多种方法，例如上述的那些方法。信息载体是计算机可读介质或机器可读介质，例如存储器520、存储设备530或处理器510上的存储器。

高速控制器540管理计算设备500的带宽密集型操作，而低速控制器560管理较低带宽密集型操作。这种职责分配仅是示范性的。在一些实施中，高速控制器540被耦接到存储器520、显示器580(例如，通过图形处理器或加速器)，并且被耦接到高速扩展端口550，该高速扩展端口550可以接受各种扩展卡(未示出)。在一些实施中，低速控制器560被耦接到存储设备530和低速扩展端口590。例如通过网络适配器，可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口590可以被耦接到一个或多个输入/输出设备，例如键盘、定点设备、扫描仪或诸如交换机或路由器的网络设备。

如图所示，计算设备500可以以多种不同的形式实现。例如，它可以作为为标准服务器500a被实施或在这样的服务器组500a中被多次实施，可以作为膝上型计算机500b被实施，或作为机架式服务器***500c的一部分实施被。

本文描述的***和技术的各种实施可以在数字电子和/或光学电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中实现。这些不同的实施可以包括在可编程***上可执行和/或可解释的一个或多个计算机程序中的实施，该可编程***包括至少一个可编程处理器、至少一个输入设备和至少一个输出设备，该可编程处理器可以是专用或通用的，被耦接以从存储***接收数据和指令，以及向存储***发送数据和指令。

软件应用(即，软件资源)可以指使得计算设备进行任务的计算机软件。在一些示例中，软件应用可以被称为“应用”、“应用程序”或“程序”。示例应用包括但不限于***诊断应用、***管理应用、***维护应用、文字处理应用、电子表格应用、消息应用、媒体流应用、社交网络应用和游戏应用。

非暂时性存储器可以是用于临时或永久存储程序(例如，指令序列)或数据(例如，程序状态信息)以供计算设备使用的物理设备。非暂时性存储器可以是易失性和/或非易失性可寻址半导体存储器。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，如启动程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且可以用高级过程和/或面向对象的编程语言和/或以汇编/机器语言来实施。如本文所使用的，术语“机器可读介质”和“计算机可读介质”指的是用于向可编程处理器(包括接收机器指令作为机器可读信号的机器可读介质)提供机器指令和/或数据的任意计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(PLD))。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任意信号。

本说明书中描述的过程和逻辑流程可以由一个或多个可编程处理器来进行，该可编程处理器也称为数据处理硬件，执行一个或多个计算机程序以通过对输入数据操作并生成输出来执行功能。这些过程和逻辑流程也可以由专用逻辑电路来进行，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。举例来说，适于执行计算机程序的处理器包括通用和专用微处理器，以及任意种类的数字计算机的任意一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备(例如磁盘、磁光盘或光盘)，或被可操作地耦接以从该大容量存储设备接收数据或向该大容量存储设备传送数据，或两者兼有。然而，计算机不需要有这样的设备。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备，包括例如半导体存储设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路来补充或并入其中。

为了提供与用户的交互，本公开的一个或多个方面可以在计算机上实施，该计算机具有用于向用户显示信息的显示设备(例如CRT(阴极射线管)、LCD(液晶显示器)监视器或触摸屏)，以及可选的键盘和定点设备(例如鼠标或轨迹球)，用户可以通过该设备向计算机提供输入。也可以使用其他类型的设备来提供与用户的交互；例如，提供给用户的反馈可以是任意形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任意形式接收来自用户的输入，包括声音、语音或触觉输入。此外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从网络浏览器接收的请求，向用户的客户端设备上的网络浏览器发送网页。

已经描述了许多实施方式。然而，应当理解，在不脱离本公开的精神和范围的情况下，可以进行各种修改。因此，其他实施方式也在以下权利要求的范围内。

Claims

1.一种用于说话者确认的计算机实施的方法(400),其特征在于，当在数据处理硬件(510)上执行时，使得所述数据处理硬件(510)进行操作，包括:

接收对应于由用户设备(102)捕获的话语(119)的音频数据(120)，所述话语(119)包括预定的热词，所述热词后接指定要进行的动作的查询；

使用文本相关说话者确认(TD-SV)模型(212)来处理表征所述预定的热词的所述音频数据(120)的第一部分(121)，以生成表示所述热词的所述话语(119)的语音特征的文本相关评估向量(214)；

生成一个或多个文本相关置信度分数(215)，每个文本相关置信度分数(215)指示所述文本相关评估向量(214)匹配一个或多个文本相关参考向量(252)中相应的一个的可能性，每个文本相关参考向量(252)与所述用户设备(102)的一个或多个不同注册用户(10)中相应的一个相关联；

确定所述一个或多个文本相关置信度分数(215)中的任意一个是否满足置信度阈值；以及以下中的一个:

当所述文本相关置信度分数(215)中的一个满足所述置信度阈值时:

识别所述话语(119)的说话者为相应的注册用户(10)，所述相应的注册用户(10)与对应于满足所述置信度阈值的所述文本相关置信度分数(212)的所述文本相关参考向量(252)相关联；以及

启动由所述查询指定的所述动作的进行，而不对表征所述预定的热词之后的所述查询的所述音频数据(120)的第二部分(122)进行说话者确认；或者

当所述一个或多个文本相关置信度分数(215)都不满足所述置信度阈值时，向文本无关说话者确认器(220)提供指令，所述指令在由所述文本无关说话者确认器(220)接收时，使得所述文本无关说话者确认器(220):

使用文本无关说话者确认(TI-SV)模型(222)来处理表征所述查询的所述音频数据(120)的所述第二部分(122)，以生成文本无关评估向量(224)；

生成一个或多个文本无关置信度分数(225)，每个文本无关置信度分数(225)指示所述文本无关评估向量(224)匹配一个或多个文本无关参考向量(254)中相应的一个的可能性，每个文本无关参考向量(254)与所述用户设备(102)的所述一个或多个不同注册用户(10)中相应的一个相关联；以及

基于所述一个或多个文本相关置信度分数(215)和所述一个或多个文本无关置信度分数(225)，确定说出所述话语(119)的所述说话者的所述身份是否包括所述用户设备(102)的所述一个或多个不同注册用户(10)中的任意一个。

2.根据权利要求1所述的计算机实施的方法(400)，其特征在于，

所述用户设备(102)的所述一个或多个不同注册用户(10)中的每一个都具有访问不同的相应的个人资源集的许可；以及

由所述查询指定的所述动作的进行需要访问与被识别为所述话语(119)的所述说话者的所述相应的注册用户(10)相关联的所述相应的个人资源集。

3.根据权利要求1或2所述的计算机实施的方法(400)，其特征在于，

所述数据处理硬件(510)执行所述TD-SV模型(212)，并驻留在所述用户设备(102)上；以及

所述文本无关说话者确认器(220)执行所述TI-SI模型，并驻留在通过网络与所述用户设备(102)通信的分布式计算***(111)上。

4.根据权利要求3所述的计算机实施的方法(400)，其特征在于，当所述一个或多个文本相关置信度分数(215)都不满足所述置信度阈值时，向所述文本无关说话者确认器(220)提供所述指令包括，将所述指令和所述一个或多个文本相关置信度分数(215)从所述用户设备(102)发送到所述分布式计算***(111)。

5.根据权利要求1或2所述的计算机实施的方法(400)，其特征在于，所述数据处理硬件(510)驻留在所述用户设备(102)或通过网络与所述用户设备(102)通信的分布式计算***(111)中的一个上，所述数据处理硬件(510)执行所述TD-SV模型(212)和所述TI-SV模型(222)两者。

6.根据权利要求1-5中任一项所述的计算机实施的方法(400),其特征在于，所述TI-SV模型(222)比所述TD-SV模型(212)的计算量更大。

7.根据权利要求1-6中任一项所述的计算机实施的方法(400),其特征在于，所述操作进一步包括:

使用热词检测模型(110)来检测所述音频数据(120)中的所述查询之前的所述预定的热词，

其中，表征所述预定的热词的所述音频数据(120)的所述第一部分(121)由所述热词检测模型(110)提取。

8.根据权利要求1-7中任一项所述的计算机实施的方法(400),其特征在于，

在多个训练数据集(310)上训练所述TD-SV模型(212)和所述TI-SV模型(222)，每个训练数据集(310)与不同的相应的语言或方言相关联，并且包括由不同说话者以所述相应的语言或方言说出的对应的训练话语(320)，每个对应的训练话语(320)包括表征所述预定的热词的文本相关部分和表征所述预定的热词之后的查询语句的文本无关部分；

所述TD-SV模型(212)在所述多个训练数据集(310)中的每个训练数据集(310)中的每个对应的训练话语(320)的所述文本相关部分上被训练；以及

所述TI-SV模型(222)在所述多个训练数据集(310)中的每个训练数据集(310)中的每个对应的训练话语(320)的所述文本无关部分上被训练。

9.根据权利要求8所述的计算机实施的方法(400)，其特征在于，与所述其他训练数据集(310)的所述对应的训练话语(320)相比，以与至少一个所述训练数据集(310)相关联的所述相应的语言或方言说出的所述对应的训练话语(320)对所述预定的热词的发音不同。

10.根据权利要求8或9所述的计算机实施的方法(400)，其特征在于，所述TI-SV模型(222)在所述多个训练数据集(310)中的一个或多个中的至少一个对应的训练话语(320)的所述文本相关部分上被训练。

11.根据权利要求8-10中任一项所述的计算机实施的方法(400),其特征在于，由所述训练话语(320)的所述文本无关部分表征的所述查询语句包括可变的语言内容。

12.根据权利要求1-11中任一项所述的计算机实施的方法(400)，其特征在于，当生成所述文本无关评估向量(224)时，所述文本无关说话者确认器(220)使用所述TI-SV模型(222)来处理表征所述预定的热词的所述音频数据(120)的所述第一部分(121)和表征所述查询的所述音频数据(120)的所述第二部分(122)。

13.根据权利要求1-12中任一项所述的计算机实施的方法(400)，其特征在于，响应(160)于接收到由所述用户设备(102)的所述一个或多个不同注册用户(10)中的所述相应的一个注册用户(10)说出的所述预定的热词的一个或多个先前话语(119)，所述一个或多个文本相关参考向量(252)中的每一个由所述TD-SV模型(212)生成。

14.根据权利要求1-13中任一项所述的计算机实施的方法(400)，其特征在于，响应于接收到由所述用户设备(102)的所述一个或多个不同注册用户(10)中的所述相应的一个注册用户(10)说出的一个或多个先前话语(119)，所述一个或多个文本无关参考向量(254)中的每一个由所述TI-SV模型(222)生成。

15.一种***(100)，其特征在于，包括:

数据处理硬件(510)；和

与所述数据处理硬件(510)通信的存储器硬件(720)，所述存储器硬件(720)存储指令，当所述指令在所述数据处理硬件(510)上被执行时，使所述数据处理硬件(510)进行操作，包括:

使用文本相关说话者确认(TD-SV)模型来处理表征所述预定的热词的所述音频数据(120)的第一部分(121),以生成表示所述热词的所述话语(119)的语音特征的文本相关评估向量(214)；

确定所述一个或多个文本相关置信度分数(215)中的任意一个是否满足置信度阈值；和以下中的一个:

识别所述话语(119)的说话者为相应的注册用户(10)，所述相应的注册用户(10)与对应于满足所述置信度阈值的所述文本相关置信度分数的所述文本相关参考向量(252)相关联；以及

使用文本无关说话者确认(TI-SV)模型来处理表征所述查询的所述音频数据(120)的所述第二部分(122)，以生成文本无关评估向量(224)；

生成一个或多个文本无关置信度分数(225)，每个文本无关置信度分数(225)指示所述文本无关评估向量(224)匹配一个或多个文本无关参考向量(254)中相应的一个的可能性，每个文本无关参考向量与所述用户设备(102)的所述一个或多个不同注册用户(10)中相应的一个相关联；以及

16.权利要求15所述的***(100)，其特征在于，

17.根据权利要求15或16所述的***(100)，其特征在于，

18.根据权利要求17所述的***(100)，其特征在于，当所述一个或多个文本相关置信度分数(215)都不满足所述置信度阈值时，向所述文本无关说话者确认器(220)提供所述指令包括，将所述指令和所述一个或多个文本相关置信度分数(215)从所述用户设备(102)发送到所述分布式计算***(111)。

19.根据权利要求15或16所述的***(100)，其特征在于，所述数据处理硬件(510)驻留在所述用户设备(102)或通过网络与所述用户设备(102)通信的分布式计算***(111)中的一个上，所述数据处理硬件(510)执行所述TD-SV模型(212)和所述TI-SV模型(222)两者。

20.根据权利要求15-19中任一项所述的***(100),其特征在于，所述TI-SV模型(222)比所述TD-SV模型(212)的计算量更大。

21.根据权利要求15-20中任一项所述的***(100),其特征在于，所述操作进一步包括:

22.根据权利要求15-21中任一项所述的***(100)，其特征在于，

23.根据权利要求22所述的***(100)，其特征在于，与所述其他训练数据集(310)的所述对应的训练话语(320)相比，以与至少一个所述训练数据集(310)相关联的所述相应的语言或方言说出的所述对应的训练话语(320)对所述预定的热词的发音不同。

24.根据权利要求22或23所述的***(100)，其特征在于，所述TI-SV模型(212)在所述多个训练数据集(310)中的一个或多个中的至少一个对应的训练话语(320)的所述文本相关部分上被训练。

25.根据权利要求22-24中任一项所述的***(100),其特征在于，由所述训练话语(320)的所述文本无关部分表征的所述查询语句包括可变的语言内容。

26.根据权利要求15-25中任一项所述的***(100),其特征在于，当生成所述文本无关评估向量时，所述文本无关说话者确认器(220)使用所述TI-SV模型(222)来处理表征所述预定的热词的所述音频数据(120)的所述第一部分(121)和表征所述查询的所述音频数据(120)的所述第二部分(122)。

27.根据权利要求15-26中任一项所述的***(100)，其特征在于，响应(160)于接收到由所述用户设备(102)的所述一个或多个不同注册用户(10)中的所述相应的一个注册用户(10)说出的所述预定的热词的一个或多个先前话语(119)，所述一个或多个文本相关参考向量中的每一个由所述TD-SV模型(212)生成。

28.根据权利要求15-27中任一项所述的***(100)，其特征在于，响应(160)于接收到由所述用户设备(102)的所述一个或多个不同注册用户(10)中的所述相应的一个注册用户(10)说出的一个或多个先前话语(119)，所述一个或多个文本无关参考向量中的每一个由所述TI-SV模型(222)生成。