CN114127801A

CN114127801A - 跨设备网络使用人物可识别性的***和方法

Info

Publication number: CN114127801A
Application number: CN201980098069.3A
Authority: CN
Inventors: A.加拉格尔; J.E.罗思; M.C.内希耶巴
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2022-03-01
Also published as: EP3973441A1; JP2022544349A; KR20220016217A; WO2021029881A1; US20220254190A1

Abstract

本公开涉及用于在设备网络上执行识别的计算机实现的***和方法。一般，该***和方法实现了机器学习的可识别性模型，该模型可以处理诸如人的声音、面部特征的信息或类似的信息以确定可识别性分数，而不必生成或存储可以用于识别该人物的生物特征信息。可识别性分数可以作为信息质量的代理，作为可以在设备网络中的其他设备上执行的生物特征识别的参考。因此，单个设备可以用来在网络中注册人物(例如，通过捕获人物的多张照片)。此后，其他设备的连接能够利用其他设备上的传感器(例如，相机)来比较参考信息的特征与由传感器接收的输入。

Description

跨设备网络使用人物可识别性的***和方法

技术领域

本公开一般涉及机器学习。更具体地，本公开涉及一种注册过程(例如，使用机器学习模型)，这使得用户识别能够跨设备网络发生，同时将生物特征分析限制在一定的可信设备。

背景技术

诸如面部识别、指纹识别和语音识别的生物特征识别已经实现在了各种设备中，包括智能电话和个人家庭助理等。通常，这些识别方法被用作一种认证形式，用于控制对于设备或设备的一定特征的访问的许可。

随着计算设备数量的增长，尤其是通常可被称为“智能”设备和/或物联网(IoT)的可连网设备，存在基于每个设备来限定访问许可的相应需要。

典型地，为了实现生物特征识别，用户可以参与注册(enrollment)过程，注册过程可以包括生成用户的一个或多个参考文件(例如，参考图像、指纹扫描、语音样本等)。然而，随着智能计算设备数量的增长，用于每个分开的设备的该注册过程中的冗余执行可能会变得耗时、麻烦，或者使用户感到沮丧。因此，当用户将一台新设备添加到她的设备网络时，她可能希望简单地将识别她身份的能力扩展到这样的新设备，而无需再次执行注册过程。

本领域需要能够有利地管理跨设备网络的生物特征识别的方法和***。

发明内容

本公开涉及用于在设备网络上执行识别的计算机实现的***和方法。一般，所述***和方法实现了机器学习的可识别性模型，该模型可以处理诸如人的声音、面部特性的信息或类似的信息以确定可识别性分数，而不必生成或存储可以用于识别人物的生物特征信息。可识别性分数可以用作信息质量的代理(proxy)，作为可以在设备网络中的其他设备上执行的生物特征识别的参考。因此，单个设备可以用于在网络中注册人物(例如，通过捕获人物的多张照片)。此后，其他设备的连接可以利用其他设备上的传感器(例如，相机)来比较该参考信息的特征与传感器接收的输入。

附图说明

参考附图在说明书中阐述了针对本领域普通技术人员的实施例的详细讨论，其中：

图1A描绘了根据本公开的示例实施例的跨设备网络执行识别的示例计算***的框图。

图1B描绘了根据本公开的示例实施例的可以用于实现识别和/或识别中的注册的示例计算设备的框图。

图1C描绘了根据本公开的示例实施例的可以用于实现识别和/或识别中的注册的示例计算设备的框图。

图2描绘了根据本公开的示例实施例的示例设备网络的图示。

图3描绘了根据本公开的示例实施例的示例设备网络的框图。

图4描绘了根据本公开的示例实施例的用于在设备网络中执行注册的示例方法的流程图。

图5描绘了根据本公开的示例实施例的显示用于训练可识别性模型的示例过程的框图。

跨多个附图重复的参考标号旨在标识各种实施方式中的相同特征。

具体实施方式

一般，本公开涉及用于在设备网络上执行识别的计算机实现的***和方法。特别地，如上所述，当用户向她的设备网络添加新设备时，她可能希望简单地将识别她身份的能力扩展到这样的新设备，而无需再次执行注册过程。本公开的各方面通过在一个或多个第一设备处(例如，诸如智能手机和/或服务器计算***的用户设备)捕获和存储用户的参考文件(例如，参考图像的图库)来启用这样的过程。此后，当用户希望将身份识别扩展到第二设备(例如，新的家庭助理设备)时，用户能够简单地指示第一设备与第二设备共享参考文件。以这种方式，用户可以快速且容易地注册新设备(例如，使新设备能够执行识别过程来识别她)，而无需再次执行收集参考文件的注册过程。此外，本公开的其他方面涉及使用机器学习模型来促进注册和识别过程。具体而言，本公开的各方面可以包括使用机器学习的可识别性模型(例如，在第一设备处或由第一设备使用，诸如用户设备和/或服务器设备)，这使得能够管理(curation)高质量的参考文件，而无需计算关于用户的生物特征或其他个人可识别信息。

更具体地，根据本公开的一个方面，参与到网络中的一个或多个设备可以包括并采用机器学习的可识别性模型，该模型可以处理诸如人的声音、面部特性的信息或类似的信息以确定可识别性分数，而不必生成或存储可以用于识别该人物的生物特征信息。一般，可识别性分数可以用作信息质量的代理，作为能够在设备网络中的其他设备上执行的生物特征识别的参考。

在不认同质量或可识别性的任何一个定义的情况下，通常这些术语用于指示识别数据(图像或声音)的条件显示了足够的细节用以区分个人。例如，图像或音频文件中包含的与执行注册的个人相关的信息越多，一般，文件的质量就越高。例如，与显示整个面部的图像文件相比，仅显示面部上半部分的图像文件质量更低。作为另一个示例，与在室外或拥挤环境中获得的语音记录相比，包含在安静房间中获得的语音记录的音频文件的质量更高。因此，一般，可识别性可以与数据量和数据属性两者相关，诸如相对于识别特征的低背景。例如，低可识别性可能与较低的数据量和/或显示较高背景特征的文件相关。

可识别性的其他定义可以与查询联系起来。作为示例，高可识别性可以用于指示对于具有高可识别性和未知身份的查询信号，当提供已知身份的信号(图像)的图库时，身份可以被准确确定的概率更大(例如，75％或更大)。这个示例反过来也可以用来定义低识别性的示例。因此，可识别性分数可以用于指示从图像或其他文件可以准确确定身份的概率。

因此，在一些实施方式中，新捕获的参考文件(例如，作为初始注册过程的一部分由用户设备捕获的图像)可以由机器学习的可识别性模型来评估，以确定可识别性分数，可识别性分数指示这样的文件(例如，图像)对于识别由文件所描绘或参考的个人有用的程度。然而，可识别性分数本身并不包含生物特征信息或能够识别个人的其他信息。相反，可识别性分数简单地指示文件是否对经由分开的识别过程来执行识别有用，该识别过程可以由不同的设备来执行(例如，用户后来请求将其身份扩展到的“辅助”设备)。

基于相应的可识别性分数，可以选择一定的新捕获的参考文件用以包括在参考文件集中，该参考文件集将用作用于此后识别用户的参考文件。作为一个示例，新捕获的图像(例如，作为初始注册过程的一部分由用户设备捕获的图像)可以由机器学习的可识别性模型来评估，以确定每个图像的可识别性分数。接收满足一定阈值分数的可识别性分数(例如，被判定为具有高“可识别性”)的图像可以被选择(例如，由用户设备和/或服务器设备)并被存储(例如，由用户设备和/或服务器设备)在与用户相关联的图库(image gallery)中。然而，重要的是，虽然可以使用可识别性分析来建立参考文件集(例如，产生仅包括对于识别过程的执行非常有用的参考文件的高质量参考集)，但是实际生物特征信息的计算并不一定发生来产生参考文件集。因此，即使在第一设备(例如，用户的设备)被禁止计算或存储生物特征信息(例如，由于策略约束、许可或其他原因)的情况下，也可以建立高质量参考集。

当用户请求这样做时，该图库然后可以与用户希望扩展识别能力的新的辅助设备(例如，家庭助理设备)共享或可被其访问。特别地，在一些实施方式中，辅助设备可以包括和/或采用机器学习的识别模型，以至少部分地基于参考文件(例如，图库)来识别用户。

更具体地，本公开的另一个方面涉及使用机器学习的识别模型(与可识别性模型分离)，该识别模型操作以识别个体(例如，通过生物特征信息的计算或分析)。具体而言，辅助设备可以包括一个或多个捕获描绘或以其他方式代表人物的附加文件(例如，图像、音频等)的传感器(例如，相机、麦克风、指纹传感器等)。辅助设备可以采用机器学习的识别模型来分析附加文件和参考文件，以确定由附加文件代表的人物是否可以被识别为用户。作为一个示例，机器学习的识别模型可以是已经被训练(例如，经由三元组(triplet)训练技术)以产生有助于执行识别的嵌入(embedding)(例如，在最终层和/或在一个或多个隐藏层)的神经网络。例如，三元组训练方案可以用于训练机器学习的识别模型，以产生用于相应输入的相应嵌入，其中，一对嵌入之间的距离(例如，L2距离)代表对应的一对输入(例如，图像)描绘或以其他方式参考同一个人的概率。因此，在一些实施方式中，机器学习的识别模型可以产生用于附加文件和参考文件的嵌入，并且可以比较相应嵌入，以确定由附加文件代表的人物是否可以被识别为用户。

本文别处进一步详细描述的本公开的另一方面涉及使用蒸馏(distillation)训练技术基于机器学习的识别模型来训练机器学习的可识别性模型。特别地，蒸馏训练技术利用了来自机器学习识别模型的一个或多个隐藏层的隐藏层输出，除了包含关于输入的生物特征信息之外，还包含关于输入的可识别性的信息的事实。此外，与隐藏层输出相关联的度量(例如，范数或其他累积统计)的计算可以移除或破坏生物特征或个人可识别信息，同时保留可识别性信息。因此，在一些实施方式中，机器学习的可识别性模型可以被训练来预测来自机器学习的识别模型的一个或多个隐藏层的一个或多个隐藏层输出的范数或其他度量。以这种方式，机器学习的可识别性模型可以被训练以产生指示可识别性的识别分数，但是不包括或不包含生物特征数据或其他个人可识别信息。

因此，在一些示例实施方式中，单个设备可以用于将人物注册在网络中(例如，通过捕获人物的多张照片)。此后，其他设备的连接可以利用其他设备上的传感器(例如，相机)来比较参考信息的特征与传感器接收的输入，以执行人物的识别。

本公开的实施方式可以为跨连接设备网络定义设备访问策略提供优势。随着物联网(IoT)设备的数量不断增加，并且基于每个设备限定许可变得越来越麻烦，这可能是特别有用的。可以执行确定高质量信息的单个注册以选择作为参考；而不是以语音、面部、指纹或其他生物标记识别注册每个设备。然后，尝试访问网络中的设备之一的人物可以经历识别分析(例如，使用训练的机器学习识别模型)，该识别分析将由这样的附加设备获得的新捕获的数据与参考文件进行比较。以这样的方式，用户可以避免对于多个不同设备的注册过程的冗余执行。消除注册过程的冗余执行可以节约计算资源(例如，过程使用、存储器使用、网络带宽等)，因为过程仅被执行一次，而不是多次。

作为说明目的的示例，想要建立包括诸如家庭助理、无钥匙进入和/或利用生物特征(例如，指纹、眼睛、面部、语音等)的附加设备的特征的智能家居的人可能想要将面部识别设置为用于与每个设备交互或者用于访问设备的一定能力的访问策略。为了在设备网络上完成注册过程，个人可以使用个人计算设备(例如，智能手机)捕获一个或多个图像，该个人计算设备包括实现根据本公开的方法的软件或硬件。个人计算设备可以应用可识别性模型来确定将一个或多个图像(如果有的话)中的哪一个作为参考文件传输给服务器或其他集中式计算***(例如，云网络)。一般，集中式计算***可以与每个设备通信，使得数据可以通过网络(例如，互联网、蓝牙、局域网等)在每个设备和集中式计算***之间传输。此后，可以根据每个设备的策略来执行对每个设备的访问。例如，访问设备可以包括使用包括在设备中的识别模型来比较在面部识别的情况下由诸如相机的设备传感器接收的输入数据与一个或多个参考文件。

本公开的示例实施方式可以包括一种用于跨设备网络注册个人身份的方法。一般，该方法包括获得数据集，该数据集包括一个或多个代表人物的文件(例如，指纹、眼睛、面部的图像或类似信息和/或语音记录)。根据这些一个或多个文件，机器学习的可识别性模型(例如，蒸馏模型)可以通过将文件提供给机器学习的可识别性模型来确定一个或多个文件中的每一个的可识别性分数。至少部分地基于可识别性分数，可以选择数据集的一部分作为参考文件存储在一个或多个设备上。在此基础上，尝试访问网络中所包括的设备之一可以包括识别步骤。作为示例，实现识别步骤可以包括获得描述试图访问设备的人物的传感器信息(例如，使用相机或麦克风)。该传感器信息可以与参考文件进行比较，以确定生物特征信息是否指示匹配，该匹配将允许访问设备、设备上的应用或两者的组合。

用于注册个人身份的方法的各方面可以包括获得包括一个或多个文件的数据集，所述一个或多个文件代表使用包括在设备网络中的第一设备的人物。在一些实施方式中，第一设备可以包括个人计算设备，诸如智能电话或个人计算机，其可以包括内置组件，诸如相机或其他图像捕获设备和/或麦克风。第一设备的附加特征可以包括图像处理器，该图像处理器可以被配置为检测图像中是否存在一个或多个人物。为了简洁，使用一个人作为示例用例来讨论本公开的实施方式；然而，这并不会将这些或其他实施方式限制在仅注册单个人或包含单个人的图像。可以由一个或多个设备访问的图像过滤器或其他图像处理可以用于将图像分割成用于执行注册的个人身份(分开的检测的人物)。

注册个人身份的另一方面包括确定一个或多个文件中的每一个的可识别性分数。在示例实施方式中，可识别性分数可以使用可识别性模型来确定，该可识别性模型已经使用蒸馏进行了训练，并且可以被称为蒸馏模型。作为示例，根据本公开的可识别性模型可以包括从一个或多个其他神经网络的一个或多个输出中训练的蒸馏模型。蒸馏模型可以提供诸如较低计算成本的优点，这可以允许蒸馏模型在诸如膝上型计算机或智能电话的个人计算设备上执行。

训练蒸馏模型可以包括获得神经网络和/或神经网络的一个或多个输出。通过向神经网络提供输入(例如，面部图像)，神经网络可以被用来生成包括一个或多个隐藏层的输出。由于每个隐藏层可以包括一个或多个特征，所以可以从一个或多个隐藏层计算度量(例如，范数)。然后，训练蒸馏模型可以包括优化目标函数，用于预测从为给定输入确定的一个或多个隐藏层计算的度量。

例如，用于训练蒸馏模型的示例方法可以包括：获得被配置为确定一系列隐藏层的神经网络；通过向神经网络提供多个输入来确定多个输出，其中每个输出与相应的输入相关联，并且其中每个输出包括系列隐藏层的一部分；计算包括在系列隐藏层的一部分中的至少一个隐藏层的度量；以及至少部分地基于接收相应的输入，训练蒸馏模型以预测度量。

神经网络的各方面可以包括描述神经网络被配置为确定的隐藏层的数量的网络配置。例如，神经网络可以被配置为确定至少三个层，诸如至少5个隐藏层、至少7个隐藏层、至少10个隐藏层、至少20个隐藏层等等。一般，用于计算度量的至少一个隐藏层不包括层的第一层或最后一层。因此，为了训练蒸馏模型，一般，可以选择神经网络的中间层来计算度量。作为用于说明的示例，倒数第二层(即，次于最后的层)可以被选择作为用于计算度量的隐藏层。另外，在一些情况下，神经网络可以被配置为限制确定输出。例如，由于可以选择神经网络的中间层来计算度量，因此不需要计算神经网络的后续层，并且神经网络可以被配置为停止确定神经网络的其他隐藏层或其他输出。

使用蒸馏模型可以提供某些优点，因为蒸馏模型可以执行可识别性分析，而不必生成可以以其他方式用来识别人物的生物特征信息。这可以为用户提供优势，因为他们不需要熟悉设备网络中所包括的每个设备的策略或能力。相反，用户可以允许每个设备根据自己的策略进行操作。此外，蒸馏模型可以提供更轻量级(light-weight)的实施方式，其可以在用户设备上实现更快地识别和/或选择参考文件。

本公开的实施方式的另一示例方面可以包括至少部分地基于可识别性分数选择数据集的一部分来存储为参考文件。根据一定的实施方式，参考文件可以作为代理被访问，用于与尝试访问网络中所包括的设备之一的人物进行比较。因此，在一些情况下，选择可以被优化，以减少假阳性(例如，当人物没有注册时，设备允许该人物访问设备)，减少假阴性(例如，当人物已经注册时，设备防止该人物访问设备)，或者两者的组合。例如，本公开的实施方式可以提供用于减少由存在于人物尝试访问的设备上的内置图像或语音比较模型可能导致的假阴性的优点。可识别性模型可以在注册过程期间确定或以其他方式识别代表人物的高质量信息，并且在一些情况下，甚至可以提示试图执行注册的用户，数据集中所包括的文件没有一个满足可识别性标准或阈值。作为另一个示例，本公开的实施方式可以通过仅选择高质量图像来提供减少假阳性的优点。例如，如果假设一个人注册了模糊的图像，那么识别信息可能是模糊的，使得不同的人会更容易访问该设备。通常，图像越模糊，则其包括的识别特征就越少，导致假阳性的可能性越高。

在一些实施方式中，阈值可以通过度量来确定，诸如百分位数、最小值、最大值或根据一个或多个文件的可识别性分数确定的其他类似的综合度量(measure)。附加地或可替代地，阈值可以包括预设值，并且满足或超过该值的所有或设定数量的文件可以被选择作为数据集的一部分来存储为参考文件。当在注册期间捕获的文件包括低质量数据，并且每个文件的可识别性分数与阈值之间的比较指示没有分数满足或超过阈值时，包括预设值可以为这种情况提供优势。在这些情况下，执行注册的设备可以为用户提供提示，诸如在设备上显示注册应该被重复或者需要在数据集中包括附加的文件的消息。在第一设备上执行注册的另一个示例性优势可以包括节省和/或减少网络流量，因为第一设备可以确定哪些(如果有的话)文件满足用于选择的阈值。那么只有那些被选择的文件可以被传输(例如，到设备网络中的第二设备)，而不是传输所获得的全部文件。例如，可能存在没有文件满足阈值的情况，因此没有文件需要传输到网络中所包括的其他设备。

对于具有满足或超过阈值的可识别性分数的文件，这些可被传输到第二设备以作为参考文件存储。在一些实施方式中，第二设备可以包括服务器、云计算设备或可以由设备网络中的每个设备访问的类似设备。具有这种集中式的参考可以提供优势，诸如诸如为授权访问设备的人物提供更容易的注册更新和/或减少数据存储。

作为示例的实施方式，尝试访问设备网络中所包括的设备和/或由设备执行的操作/应用的人物可以在该设备上经历生物特征分析。生物特征分析可以包括访问包括在设备上的传感器，以获得包括关于尝试访问设备的人物的信息的信号(例如，来自相机的视频、来自麦克风的音频等)。该信号可以由生物特征分析器处理，例如被训练来确定与人物相关联的一组特征(例如，面部特性)的机器学习识别模型。同一个生物特征分析器或类似训练的生物特征分析器可以处理参考文件以确定参考特征集。然后可以比较这两个特征集，并且基于比较，可以向尝试访问设备的人物提供响应。例如，如果尝试访问设备的人物已经完成了在设备网络中的注册，则响应可以包括打开设备的主屏幕或执行设备上包括的操作/应用。或者，如果尝试访问设备的人物没有在设备网络中注册，则响应可以包括提示该人物执行注册，向该人提供错误，和/或向已经执行注册的人物发送通知。

一般，生物特征分析器可以被包括在设备网络中所包括的一个或多个设备中，并且可以被配置为根据设备的策略来执行生物特征分析。例如，包括在设备网络中的第三设备可以包括计算机助理，诸如Google Home或被配置为接收自然语言输入并基于输入生成输出的其他类似设备。这些设备中的每一个都可以包括它们自己的模型(例如，机器学习的识别模型)用于执行生物特征识别。例如，机器学习模型可以实现神经网络来生成描述尝试访问设备的人物的特征表征(representation)的嵌入。这些设备还可以包括一个或多个传感器，用于获得包括描述尝试访问设备的人物的信息的信号。

作为技术效果和益处的示例，用于跨设备网络执行识别的方法和***可以提供更大的控制并减少管理和更新访问策略的计算资源。例如，可以通过仅执行一次注册来节省时间和计算资源，而不是单独地更新网络中所包括的每个设备。此外，一次注册就可以确定高质量的信息，从而减少了对重新注册的需要或者假阴性或假阳性的可能性。同样，除了在注册期间之外，还可以在识别时执行本文描述的可识别性分析(例如，由诸如家庭助理设备的辅助设备执行)。在识别时使用可识别性分析可以通过防止对具有低可识别性的低质量文件(例如，图像)执行识别分析来节省计算资源。

一般，本公开的实施方式可以包括或以其他方式访问可识别性模型以执行可识别性分析。对于一定的实施方式，可识别性模型可以使用蒸馏来训练，并且可以被称为蒸馏模型。例如，根据本公开的可识别性模型可以包括根据来自一个或多个神经网络的输出训练的蒸馏模型。蒸馏模型可以提供诸如较低计算成本的优势，这可以允许蒸馏模型在诸如膝上型计算机或智能电话的个人计算设备上执行。具体而言，本文描述的蒸馏模型可以是非常快速和轻量级的专用模型，从而节约诸如处理器和存储器使用等的计算资源。

现在参考附图，将进一步详细讨论本公开的示例实施例。

示例设备和***

图1A描绘了根据本公开的示例实施例的能够在设备网络中执行注册的示例计算***100的框图。***100包括通过网络180通信地耦合的用户计算设备102、服务器计算***130、训练计算***150和辅助计算设备170。

用户计算设备102可以是任何类型的计算设备，诸如，个人计算设备(例如，膝上型或台式)、移动计算设备(例如，智能手机或平板电脑)、游戏机或游戏控制器、可穿戴计算设备、嵌入式计算设备、家庭助理(例如，Google Home或Amazon Alexa)或任何其他类型的计算设备。

用户计算设备102包括一个或多个处理器112和存储器114。一个或多个处理器112可以是任何合适的处理设备(例如，处理器内核、微处理器、ASIC、FPGA、控制器、微控制器等，并且可以是操作地连接的一个处理器或多个处理器。存储器114可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等、以及它们的组合。存储器114可以存储由处理器112执行的数据116和指令118，以使用户计算设备102执行操作。

在一些实施方式中，用户计算设备102可以存储或包括一个或多个可识别性模型120。例如，可识别性模型120可以是或可以包括各种机器学习模型，诸如神经网络(例如，深度神经网络)或其他类型的机器学习模型，包括非线性模型和/或线性模型。神经网络可以包括前馈神经网络、递归神经网络(例如，长短期记忆递归神经网络)、卷积神经网络或其他形式的神经网络。

在一些实施方式中，一个或多个可识别性模型120可以通过网络180从服务器计算***130接收，存储在用户计算设备存储器114中，然后由一个或多个处理器112使用或以其他方式实现。在一些实施方式中，用户计算设备102可以实现单个可识别性模型120的多个并行实例(例如，跨可识别性模型120的多个实例执行并行注册和/或确定可识别性分数)。

更具体地，可识别性模型可以包括机器学习模型，该机器学习模型已经使用蒸馏技术训练来处理识别信息，诸如人或面部的像素和/或语音信号，以确定该信息是否为可识别的。一般，人物可识别性分析器可以被配置为不计算或存储任何生物特征信息，诸如面部嵌入、语音嵌入、面部标志(诸如眼睛或鼻子)或声音特征(如口音)。可识别性模型的这一方面可以通过训练可识别性模型以输出对应于输入信息的质量的可识别性分数来实现。

附加地或可替代地，一个或多个可识别性模型140可以被包括在服务器计算***130中，或者由服务器计算***130存储和实现，服务器计算***130根据客户端-服务器关系与用户计算设备102通信。例如，可识别性模型140可以由服务器计算***140实现为网络服务(web service)的一部分。因此，一个或多个模型120可以在用户计算设备102处存储和实现，和/或一个或多个模型140可以在服务器计算***130处存储和实现。

在一定的实施方式中，用户计算设备还可以包括识别模型124。识别模型124可以包括用于执行生物特征识别的机器学习模型(例如，训练的神经网络)。一般，识别模型124不同于可识别性模型120，因为识别模型124可以生成和/或存储可以用于识别个人的生物特征信息(例如，诸如瞳孔距离的面部特性)。在一些实施方式中，识别模型124可以不被包括作为用户计算设备102的一部分。相反，用户计算设备102可以访问存储为诸如服务器计算***130的另一计算***的一部分的识别模型144。

用户计算设备102还可以包括接收用户输入的一个或多个用户输入组件122。例如，用户输入组件122可以是对用户输入对象(例如，手指或触笔)的触摸敏感的触敏组件(例如，触敏显示屏或触摸板)。触敏组件可以用来实现虚拟键盘。其他示例的用户输入组件包括相机、麦克风、传统键盘或用户可以提供用户输入的其他装置。

服务器计算***130包括一个或多个处理器132和存储器134。一个或多个处理器132可以是任何合适的处理设备(例如，处理器内核、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是操作地连接的一个处理器或多个处理器。存储器134可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等、以及它们的组合。存储器134可以存储由处理器132执行的数据136和指令138，以使服务器计算***130执行操作。

在一些实现方式中，服务器计算***130包括一个或多个服务器计算设备或者由一个或多个服务器计算设备来实现。在服务器计算***130包括多个服务器计算设备的实例中，这样的服务器计算设备可以根据顺序计算体系结构、并行计算体系结构或其某种组合来操作。

如上所述，服务器计算***130可以存储或以其他方式包括一个或多个机器学习的可识别性模型140。例如，模型140可以是或者可以包括各种机器学习模型。示例的机器学习模型包括神经网络或其他多层非线性模型。示例的神经网络包括前馈神经网络、深度神经网络、递归神经网络和卷积神经网络。

此外，在一定的实施方式中，服务器计算***130可以存储或以其他方式包括一个或多个机器学习的识别模型144。如上所述，可识别性模型130和识别模型144可以通过存储或生成生物特征信息的能力来区分。一般，可识别性模型140可以用作过滤器，以确定提供给模型的信息是否包括足够的细节或质量，用于执行生物特征识别(例如，使用识别模型144)。

用户计算设备102和/或服务器计算***130与训练计算***150通过网络180通信地耦合，用户计算设备102和/或服务器计算***130可以经由与训练计算***150的交互来训练模型120和/或140。训练计算***150可以与服务器计算***130分离，或者可以是服务器计算***130的一部分。

辅助计算设备102可以是任何类型的计算设备，例如，个人计算设备(例如，膝上型或台式)、移动计算设备(例如，智能手机或平板电脑)、游戏机或游戏控制器、可穿戴计算设备、嵌入式计算设备、家庭助理(例如，Google Home或Amazon Alexa)或任何其他类型的计算设备。一般，辅助计算设备可以包括一个或多个处理器172、存储器174、识别模型182和用户输入组件184。在示例的实施方式中，辅助计算设备170可以是IoT设备，其可以包括AI助理，例如Google Home。此外，虽然被示为单个辅助计算设备170，但是辅助计算设备170可以代表一个或多个连接的设备，其包括用于执行生物特征识别(例如，面部识别、语音识别、指纹识别等)的识别模型182。辅助计算设备170的一个方面在于这个设备不需要包括用于确定可识别性分数的可识别性模型120或140。相反，辅助计算设备170可以访问至少部分地基于由包括在用户计算设备120和/或服务器计算***130中的可识别性模型120和/或140确定的可识别性分数而选择的参考文件(例如，存储在服务器计算***130上的数据136或存储在用户计算设备上的数据116)。以这种方式，尝试访问辅助计算设备170的用户不需要为每个辅助计算设备170执行注册。

训练计算***150包括一个或多个处理器152和存储器154。一个或多个处理器152可以是任何合适的处理设备(例如，处理器内核、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是操作地连接的一个处理器或多个处理器。存储器154可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等、以及它们的组合。存储器154可以存储由处理器152执行的指令158和数据156，以使训练计算***150执行操作。在一些实施方式中，训练计算***150包括一个或多个服务器计算设备或者由一个或多个服务器计算设备来实现。

训练计算***150可以包括模型训练器160，模型训练器160使用各种训练或学习技术，诸如，错误的反向传播，来训练存储在用户计算设备102和/或服务器计算***130处的机器学习模型120和/或140。在一些实施方式中，执行错误的反向传播可以包括执行随着时间的截断反向传播(truncated backpropagation through time)。模型训练器160可以执行多种概括技术(例如，权重衰减、退出等)，以提高被训练模型的概括能力。

特别地，模型训练器160可以基于训练数据162的集合来训练可识别性模型120和/或140。训练数据162可以包括，例如，来自一个或多个机器学习模型的输出，诸如，被配置为执行面部或语音识别的模型。这些一个或多个机器学习模型可以包括被配置成生成3个或更多个隐藏层的神经网络。在示例的实施方式中，可以使用由一个或多个神经网络生成的隐藏层的特征而不是神经网络的输出来训练可识别性模型120和/或140。另外，在一些情况下，可以使用度量(例如，范数)来总结隐藏层的特征，并且使用包括度量的训练数据162来训练可识别性模型120和/或140。例如，学习用于面部识别的蒸馏模型(distilled model)可以利用输入小缩略图图像并直接回归到从倒数第二隐藏层确定的度量(例如，L2范数值)的网络。

在一些实施方式中，如果用户已经提供了同意(consent)，则训练示例可以由用户计算设备102提供。因此，在这样的实施方式中，提供给用户计算设备102的模型120可以由训练计算***150基于从用户计算设备102接收的用户特定数据来训练。在一些实例中，这个过程可以称为个性化模型。

模型训练器160包括用于提供期望功能的计算机逻辑。模型训练器160可以用控制通用处理器的硬件、固件和/或软件来实现。例如，在一些实施方式中，模型训练器160包括存储在存储设备上、加载到存储器中并由一个或多个处理器执行的程序文件。在其他实施方式中，模型训练器160包括计算机可执行指令的一个或多个集合，这些计算机可执行指令存储在有形计算机可读存储介质中，诸如RAM硬盘或光学或磁性介质。

网络180可以是任何类型的通信网络，诸如局域网(例如，内联网)、广域网(例如，互联网)或它们的某种组合，并且可以包括任何数量的有线或无线链接。一般，网络180上的通信可以经由任何类型的有线和/或无线连接来承载，使用各种各样的通信协议(例如，TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如，HTML、XML)和/或保护方案(例如，VPN、安全HTTP、SSL)。

图1A示出了可以用于实现本公开的一个示例计算***。也可以使用其他计算***。例如，在一些实施方式中，用户计算设备102可以包括模型训练器160和训练数据集162。在这样的实施方式中，模型120可以在用户计算设备102处被本地训练和使用。在一些实施方式中，用户计算设备102可以实现模型训练器160，以基于用户特定的数据来个性化模型120。

图1B描绘了根据本公开的示例实施例的能够跨设备网络执行注册的示例计算设备10的框图。计算设备10可以是用户计算设备或服务器计算设备。

计算设备10可以包括多个应用(例如，应用1至N)。每个应用能够包含自己的机器学习库和机器学习模型。例如，每个应用都可以包括机器学习模型。示例的应用包括文本消息应用、个人助理应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。

如图1B中所示，每个应用能够与计算设备的多个其他组件通信，诸如，一个或多个传感器、上下文管理器、设备状态组件和/或附加组件。在一些实施方式中，每个应用可以使用API(例如，公共API)与每个设备组件通信。在一些实施方式中，由每个应用使用的API特定于该应用。

图1C描绘了根据本公开的示例实施例执行的示例计算设备50的框图。计算设备50可以是用户计算设备或服务器计算设备。

计算设备50包括多个应用(例如，应用1至N)。每个应用都与中央智能层通信。示例应用包括文本消息应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。在一些实施方式中，每个应用可以使用API(例如，跨所有应用的公共API)与中央智能层(以及存储在其中的模型)通信。

中央智能层包括许多机器学习模型。例如，如图1C中所示，相应的机器学习模型(例如，模型)可以被提供给每个应用，并且由中央智能层管理。在其他实施方式中，两个或多个应用可以共享单个机器学习模型。例如，在一些实施方式中，中央智能层可以为所有应用提供单个模型(例如，单个模型)。在一些实施方式中，中央智能层被包括在计算设备50的操作***内或者由计算设备50的操作***来实现。

中央智能层可以与中央设备数据层通信。中央设备数据层可以是计算设备50的集中式数据储存库。如图1C中所示，中央设备数据层可以与计算设备的许多其他组件通信，诸如一个或多个传感器、上下文管理器、设备状态组件和/或附加组件。在一些实施方式中，中央设备数据层可以使用API(例如，私有API)与每个设备组件通信。

示例模型布置

图2描绘了根据本公开的示例实施例的示例设备网络的图示。如图所示，设备网络可以包括至少三个设备，诸如移动计算设备202、云或服务器计算设备203以及诸如计算机助理设备的辅或辅助设备205。辅助设备205还可以包括传感器206，诸如相机或麦克风，用于获取信息(例如，新文件，诸如新图像)。在示例的实施方式中，在设备网络中执行注册的人物201可以使用移动计算设备202来获得包括代表人物201的一个或多个文件的数据集。例如，这些文件可以包括图片、声音或其他识别信息。在移动计算设备202或云计算设备203处，可识别性模型可以用于确定哪些文件(如果有的话)应当通过通信网络204传送，以作为参考文件存储在云计算设备203上。在注册之后，当人物201请求注册网络中所包括的诸如计算机助理设备205的另一个设备时，计算机助理设备205可以从移动计算设备202和/或云计算设备203访问或接收参考文件，以执行生物特征分析(例如，使用机器学习的识别模型)。

图3描绘了根据本公开的示例实施例的示例设备网络的框图。图3提供了图2的示例情况，其中至少三个设备中的每一个被示出为包括一定的组件或执行一定的操作。在图3中，移动计算设备300被示出为包括图像捕获设备301，用于获得代表在设备网络中执行注册的人物的图像302。这些图像302可以被提供给图像处理器303，以在图像302包含不止一个人的情况下将图像302识别或分组为检测的人物304。例如，图像处理器303可以应用对象检测模型或过程，来检测图像302中的人物。

检测的人物304的分组然后可以被提供给人物可识别性分析器305，诸如本文描述的机器学习蒸馏模型或可识别性模型。至少部分地基于由人物可识别性分析器305确定的可识别性分数，人物图像选择器306可以分开地确定图像和选择的人以传输到云计算设备320，作为包括在可以为特定用户或人物创建的图库321中的参考图像322。尽管在图3中被示出为两个分开的特征，但是人物可识别性分析器305和人物图像选择器306可以被实现为可识别性模型以及与其相关联的逻辑的单个操作。类似地，尽管组件303-306被示出在移动计算设备300处，但是这些组件中的一些或全部可以替代地被包括在云计算设备320处或在云计算设备320处执行。

图3中还描绘了第三设备，其被示为计算机助理设备310。该设备310被示出为包括图像捕获设备311，该图像捕获设备311能够用于获得代表尝试访问设备310或设备310执行的应用的人物的附加图像312。设备310还包括人物生物特征分析器315，其可以对图像(例如，图像312和/或图像322)执行生物特征分析，以分析与图像相关联的生物特征信息。例如，人物生物特征分析器315可以包括或采用如本文所述的机器学习的识别模型。一个示例的识别模型是FaceNet、其变型和类似的模型。参见，Schroff等人的FaceNet：用于面部识别和聚类的统一嵌入(“A Unified Embedding for Face Recognition and Clustering”)(https://arxiv.org/ABS/1503.03832)，其提供了示例三元组训练过程，其可以用于训练识别模型以产生针对输入对的嵌入对，其中距离直接对应于输入中面部相似性的度量(measure)。

虽然计算机助理设备310被示出为包括图像处理器313以检测一个或多个人314，但是这些元素不需要存在，并且由图像捕获设备311拍摄的图像312可以被直接输入到人物生物特征分析器315，以确定人物外观生物特征，诸如独特特征的嵌入、测量或位置等。相同或不同的生物特征分析器315可以用于处理用户参考图像322，以从用户图像的图库321中确定生物特征信息316，可以例如使用人外观识别器(identifier)将其与人物外观生物特征317进行比较(例如，其可以比较相应的嵌入(例如，其间的距离)、相应的特征等)，来生成用于识别图像312中描绘的某些人物是否也包括在用户图像的图库321中的置信度分数。

示例方法

图4描绘了根据本公开的示例实施例执行的示例方法的流程图。尽管出于说明和讨论的目的，图6描绘了以特定次序执行的步骤，但是本公开的方法不限于具体示出的次序或布置。方法600的各个步骤可以以各种方式被省略、重新排列、组合和/或适配，而不脱离本公开的范围。

在402，计算***可以获得包括代表第一设备上的人物的一个或多个文件的数据集。第一设备可以包括个人计算设备，诸如智能电话或个人计算机，其具有内置组件，诸如相机或其他图像捕获设备和/或麦克风。第一设备的附加特征可以包括图像处理器，该图像处理器可以被配置为检测在图像中是否存在一个或多个人物。

在404，计算***可以通过向蒸馏模型提供一个或多个文件中的每个文件来确定每个文件的可识别性分数，该蒸馏模型已经使用从神经网络的一个或多个隐藏层计算的度量进行了训练。一般，可识别性分数可以在将文件传输到第二设备之前计算。因此，可识别性模型可以实现在第一设备上，或者由第一设备访问，以确定可识别性分数。虽然优选地最小化存储和计算成本，但是云服务可以自动将在第一设备上生成的任何文件上传到第二设备(例如，服务器)。因此，在一些实施方式中，确定可识别性分数可以在第二设备上执行。

在406，计算***可以至少部分地基于可识别性分数，选择数据集的一部分来存储作为参考文件。一般，选择数据集的一部分以存储作为参考文件可以包括将参考文件传输到第二设备。可替代地或附加地，选择可以包括指定用于存储参考文件的参考位置，所述参考文件诸如能够由网络中所包括的其他设备访问的用户图像的图库或记录。以这种方式，可以过滤直接上传到第二设备的文件，使得当人尝试访问网络中所包括的设备时，在生物特征识别期间只能访问指定的参考文件。

图5示出了根据本公开的一定方法和***的示例方面。对于一些实施方式，所述方法和***可以包括训练的可识别性模型和/或训练可识别性模型。图5示出了显示根据本公开的用于训练可识别性模型500的示例方法的方框流程图。图5示出了被提供给识别模型506的多个输入502，识别模型506被配置为包括多个隐藏层508的神经网络。识别模型506可以部分基于向识别模型506提供的输入504之一来生成多个隐藏层508。然后，可以提取一个或多个隐藏层(例如，隐藏层N 508)来确定度量512，诸如隐藏层508中所包括的特征的范数。对包括在多个输入502中的每个输入504继续该过程可以为每个输入生成计算的度量。然后，输入和计算的度量的集合514可以被用来使用蒸馏技术训练可识别性模型。以这种方式，可识别性模型可以被训练以至少部分地基于接收的用于确定度量512的相应的输入，确定计算出的度量512。对于一些实施方式，识别模型506可以被配置为，在生成用于生成度量512的隐藏层508之后，不确定任何其他的隐藏层508或输出510。因此，在训练可识别性模型500期间使用的识别模型506不需要与如图1A所示的设备网络中所包括的识别模型相同。

附加公开

本文讨论的技术涉及服务器、数据库、软件应用和其他基于计算机的***，以及所采取的行动以及发送到这些***和从这些***接收的信息。基于计算机的***的固有灵活性允许任务和功能在各组件之间和之中的各种可能的配置、组合和划分。例如，本文讨论的过程可以使用单个设备或组件或者组合工作的多个设备或组件来实现。数据库和应用可以在单个***上实现，或者跨多个***分布。分布式组件可以顺序或并行地操作。

虽然已经参照本主题的各种具体示例实施例详细描述了本主题，但是每个示例都是作为说明而提供的，而不是对本公开的限制。本领域技术人员在理解了前述内容后，可以容易地对这些实施例进行改变、变型和等同。因此，本主题公开不排除对本主题的这样的修改、变化和/或添加，这对于本领域普通技术人员来说是清晰的。例如，作为一个实施例的一部分示出或描述的特征可以与另一个实施例一起使用，以产生又一个实施例。因此，本公开旨在覆盖这些改变、变化和等同。

Claims

1.一种计算***，包括：

注册设备，包括共同存储指令的一个或多个非暂时性计算机可读介质和一个或多个处理器，所述指令当由所述一个或多个处理器执行时，配置所述注册设备：

获得描绘正在经历注册过程的用户的多个图像；

使用机器学习的可识别性模型处理多个图像中的每一个，以确定每个图像的相应可识别性分数，作为机器学习的可识别性模型的输出，其中，每个图像的可识别性分数指示图像所描绘的用户的可识别性，并且不包括与用户相关联的生物特征信息；

至少部分地基于多个图像的相应可识别性分数，选择多个图像中的至少一个图像以包括在与用户相关联的图库中；以及

直接或间接地将图库传输到一个或多个辅助计算设备，用于由一个或多个辅助计算设备识别用户。

2.如权利要求1所述的计算***，还包括：

所述一个或多个辅助计算设备，被配置为：

接收并存储图库；

获得描绘人物的附加图像；以及

将附加图像与图库进行比较，以确定在附加图像中描绘的人物是否是用户。

3.如前述任何一项权利要求所述的计算***，其中，所述一个或多个辅助计算设备包括服务器计算设备。

4.如前述任何一项权利要求所述的计算***，其中，所述一个或多个辅助计算设备包括计算机助理设备。

5.如前述任何一项权利要求所述的计算***，其中，所述一个或多个辅助计算设备包括服务器计算设备，被配置为：

从注册设备接收图库；以及

响应于来自用户的请求，选择性地将图库转发到一个或多个附加设备，以使用与用户相关联的用户账户注册一个或多个附加设备。

6.如前述任何一项权利要求所述的计算***，其中，所述注册设备包括与用户相关联的用户设备。

7.如前述任何一项权利要求所述的计算***，其中，所述注册设备包括服务器计算设备，并且其中，所述服务器计算从捕获多个图像并且与用户相关联的用户设备获得多个图像。

8.如前述任何一项权利要求所述的计算***，其中，一个或多个辅助计算设备中的每一个被配置为使用获得图像的面部嵌入的机器学习的面部识别模型，处理图库中所包括的每个图像，所述面部嵌入包括与用户相关联的生物特征信息。

9.如前述任何一项权利要求所述的计算***，其中，所述机器学习的可识别性模型已经通过蒸馏训练技术进行了学习，其中机器学习的可识别性模型被训练以预测由被配置为产生输入图像的面部嵌入的机器学习的面部识别模型的隐藏层生成的隐藏层输出的范数。

10.一种用于跨设备网络注册个人身份的计算机实现的方法，该方法包括：

由一个或多个计算设备获得包括代表第一设备上的人物的一个或多个文件的数据集；

由一个或多个计算设备通过将每个文件提供给机器学习的蒸馏模型来确定一个或多个文件中的每一个的可识别性分数，其中，所述蒸馏模型已经使用从神经网络的一个或多个隐藏层计算的度量进行了训练；以及

由一个或多个计算设备至少部分地基于可识别性分数，选择数据集的一部分存储作为所述人物的参考文件。

11.如权利要求10所述的计算机实现的方法，其中，选择所述数据集的一部分存储作为参考文件包括：

由一个或多个计算设备将一个或多个文件中的每一个的可识别性分数与阈值进行比较；以及

当可识别性分数都不满足阈值时：

由一个或多个计算设备在第一设备上提供请求该人物生成附加文件的提示；

当数据集包括的一个或多个文件的可识别性分数满足阈值时：

由一个或多个计算设备将所述文件传输到第二设备。

12.如权利要求11所述的计算机实现的方法，其中：

第二设备包括云计算设备或服务器计算设备，并且其中，第二设备经由通信网络与设备网络中所包括的至少一个其他设备通信。

13.如权利要求10-12中任何一项所述的计算机实现的方法，还包括：

由一个或多个计算设备尝试访问设备网络中所包括的设备中的一个、由设备中的一个执行的操作、或两者，其中，尝试访问包括由一个或多个计算设备执行生物特征分析，该生物特征分析包括：

由一个或多个计算设备获得包括代表人物的信息的信号；

由一个或多个计算设备访问参考文件；

由一个或多个计算设备将参考文件与信号进行比较；以及

由一个或多个计算设备至少部分地基于参考文件与信号的比较来提供允许或拒绝访问尝试的响应。

14.如权利要求13所述的计算机实现的方法，其中，由所述一个或多个计算设备获得包括代表人物的信息的信号包括由第三设备获得包括代表人物的信息的信号。

15.如权利要求14所述的计算机实现的方法，其中，第三设备包括计算机助理，该计算机助理被配置为接收包括视觉、音频或文本输入中的至少一个的输入；并且至少部分地基于所述输入提供输出。

16.如权利要求13-15中任何一项所述的计算机实现的方法，其中，参考文件与文件集的比较包括：

由一个或多个计算设备通过向机器学习的模型提供参考文件来确定生物特征信息的集合。

17.如权利要求16所述的计算机实现的方法，其中，所述机器学习的模型包括神经网络，并且所述生物特征信息的集合包括由神经网络产生的嵌入。

18.如权利要求10-17中任何一项所述的计算机实现的方法，其中，第一设备包括移动计算设备。

19.如权利要求10-18中任何一项所述的计算机实现的方法，其中，第一设备包括计算机助理，计算机助理被配置为接收包括视觉、自动或文本中的至少一个的输入；并且至少部分地基于所述输入提供输出。

20.如权利要求10-19中任何一项所述的计算机实现的方法，其中，所述一个或多个文件包括音频、视频、照片、或它们的组合。

21.如权利要求10-20中任何一项所述的计算机实现的方法，其中，第一设备被禁止计算生物特征识别器。

22.如权利要求21所述的计算机实现的方法，其中，所述生物特征识别器包括由识别神经网络生成的嵌入。

23.如权利要求10-22中任何一项所述的计算机实现的方法，其中，使用训练方法训练所述蒸馏模型，该训练方法包括：

由一个或多个计算设备获得识别神经网络，该识别神经网络被训练成在接收输入时计算一系列隐藏层；

由一个或多个计算设备通过向识别神经网络提供多个输入来确定多个输出，其中，所述多个输出中的每个输出与相应的输入相关联，并且其中，每个输出包括来自一系列隐藏层中的至少一个隐藏层的至少一个中间输出；

由一个或多个计算设备为每个输出计算来自一系列隐藏层中的至少一个隐藏层的至少一个中间输出的度量；以及

由一个或多个计算设备训练蒸馏模型，以至少部分地基于接收用于确定计算度量的至少一个中间输出的输入来预测所述度量。

24.如权利要求23所述的计算机实现的方法，其中，所述度量包括至少一个中间输出的范数。

25.如权利要求23或24所述的计算机实现的方法，其中，所述识别神经网络被配置为确定三个或更多个隐藏层，并且其中，用于计算度量的至少一个隐藏层不包括所述三个或更多个隐藏层中的第一层或最后一层。

26.如权利要求23-25中任何一项所述的计算机实现的方法，其中，所述识别神经网络被配置为确定在用于计算度量的至少一个隐藏层之后没有其他隐藏层。

27.一种被配置为执行权利要求10-26中任何一项所述的方法的计算机***。

28.一种计算机实现的方法，包括执行在权利要求1-9中任何一项所描述的任何操作。

29.一个或多个非暂时性计算机可读介质，其存储用于执行权利要求1-26中任何一项所描述的任何操作的指令。