CN109101801A

CN109101801A - 用于身份认证的方法、装置、设备和计算机可读存储介质

Info

Publication number: CN109101801A
Application number: CN201810766166.2A
Authority: CN
Inventors: 张润琦
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-07-12
Filing date: 2018-07-12
Publication date: 2018-12-28
Anticipated expiration: 2038-07-12
Also published as: KR20200007673A; JP2020013126A; US20200019687A1; CN109101801B; US11294995B2; JP7123871B2

Abstract

本公开的实施例涉及用于身份认证的方法、装置、设备和计算机可读存储介质。一种用于身份认证的方法包括：获取用户的声音信号；基于所述声音信号，生成具有多个维度的特征数据，所述多个维度的特征数据指示所述声音信号的不同特性；以及基于所述特征数据来确定所述用户的身份。

Description

用于身份认证的方法、装置、设备和计算机可读存储介质

技术领域

本公开的实施例一般地涉及身份认证，并且更具体地涉及用于身份认证(特别是基于声音或语音的身份认证)的方法、装置、设备和计算机可读存储介质。

背景技术

随着智能音箱等产品的发展，基于声音的身份认证变得越来越重要。然而，目前基于声音的身份认证手段还停留在较浅的技术层次。例如，一种常见的身份认证方式是基于频率(或声音频带)的认证方式。此方式通常给每个用户设定一组音频范围，如果接收到的声音较范围误差超过某一阀值，则认证失败。如果接收声音和该用户的音频在同一范围，则认证成功。然而，由于人耳能识别的声音频率范围在20Hz-20kHz之间，因此可通过穷举法，快速找到“合法”频率，导致安全系数非常低。因此，需要提供一种至少部分解决上述技术问题的用于身份认证的技术方案。

发明内容

根据本公开的实施例，提供了一种用于身份认证的方案。

在本公开的第一方面，提供了一种用于身份认证的方法。该方法包括：获取用户的声音信号；基于所述声音信号，生成具有多个维度的特征数据，所述多个维度的特征数据指示所述声音信号的不同特性；以及基于所述特征数据来确定所述用户的身份。

在本公开的第一方面，提供了一种用于身份认证的装置。该装置包括：第一获取模块，被配置为获取用户的声音信号；生成模块，被配置为基于所述声音信号，生成具有多个维度的特征数据，所述多个维度的特征数据指示所述声音信号的不同特性；以及第一确定模块，被配置为基于所述特征数据来确定所述用户的身份。

在本公开的第三方面，提供了一种电子设备。该电子设备包括：一个或多个处理器；以及存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得电子设备实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了能够在其中实现本公开的实施例的示例性环境的示意图；

图2示出了根据本公开的一些实施例的用于身份认证的方法的流程图；

图3示出了根据本公开的一些实施例的用于确定用户的身份的方法的流程图；

图4示出了根据本公开的一些实施例的用于身份认证的装置的方框图；以及

图5示出了能够实施本公开的一些实施例的电子设备的方框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

如上文所提及的，目前基于声音的身份认证方案通常基于声音的频率来确定用户的身份，以判断是否成功认证。然而，这种认证方案具有较低的安全系数。

针对上述问题以及其他可能的潜在问题，本公开的实施例提供了一种用于身份认证的技术方案。在该方案中，获取用户的声音信号，并基于所获取的声音信号来生成具有多个维度的特征数据。多个维度的特征数据指示声音信号的不同特性。基于特征数据来确定用户的身份。由于根据声音信号的多个不同的维度来进行身份认证，可以提高身份认证的准确性和安全性。

以下结合图1-图4来具体描述本公开的实施例。

图1示出了能够在其中实现本公开的实施例的示意性环境100的示意图。在环境100中，用户102可以与智能音箱104等电子设备进行语音交互。例如，用户102可以向智能音箱104讲述“我要点一份外卖”。智能音箱106可以获取该声音信号，并基于该声音信号来确定用户102是否具有执行相应的任务的权限。应当理解，尽管在这里以智能音箱104为例来进行描述，但是本公开的实施例也可以应用于移动电话、平板等电子设备，另外也可以至少部分地在云端实现。

图2示出了根据本公开的一些实施例的用于身份认证的方法200的流程图。方法200可以至少部分地由图1所示的智能音箱104来实现。

在框202，智能音箱104获取用户102的声音信号。例如，智能音箱104可以包括麦克风等用于录制或收集用户102的声音信号的装置。在一些实施例中，用户102的声音信号可以包括一段对话，其可以由开始语句和结束语句来界定并且与相应的任务相关联。例如，借助于语音识别的方式，智能音箱102可以通过识别用户102对该项任务的意图来判断开始语句，并且智能音箱102可以通过识别用户102对该项任务的最终指令来判断结束语句。开始语句和结束语句可以通过识别关键字来确定。例如，这一段对话可以包括智能音箱102在识别出用户下单的意图与接收到用户的下单指令之间的多个语句。

在框204，智能音箱104基于用户102的声音信号来生成具有多个维度的特征数据。每个维度的特征数据可以指示声音信号的相应的特性。例如，多个维度可以包括声音信号的语速、响度、音调、频率和音色中的至少两项。应当理解，可以使用目前已知的或者将来开发的任何适当的方法来检测语速、响度、频率等信息，本公开在此不受限制。另外，本领域技术人员应当理解上述维度仅作为示例提供，也可以备选地或附加地使用其他维度的特征数据。

在一些实施例中，可以对特征数据进行归一化处理。例如，可以将一句话解析为一个n维向量，例如：[D0,D1,...Dn]，其中Di，i＝1…n表示一个维度(例如，频率)，Di取值在(0,1)的区间内。以这种方式可以确定特征数据的向量表示，以用于后续处理。

在框206，智能音箱104基于生成的特征数据来确定用户102的身份。例如，用户102的身份可以与相应的权限相关联，因此可以基于用户102的身份来确定用户102的权限，并触发与用户102的权限相匹配的任务被执行。换言之，如果用户102的权限与任务相匹配，则执行该任务。

在一些实施例中，可以从用户102的声音信号中识别出上述任务。例如，智能音箱104可以对用户102的声音信号进行语音识别，并从识别出的文字或语句中来确定用户的意图，例如，用户想要执行的任务。例如，用户102的权限还可以与相应的任务相关联，即，不同的任务可以具有不同的权限。

在一些实施例中，智能音箱104可以基于特征数据来确定与声音信号相关联的类别。例如，类别可以通过无监督学习模型来确定。例如，无监督学习模型可以接收特征数据的向量表示，并基于特征数据的向量表示通过聚类来确定与声音信号相关联的类别。无监督学习模型可以包括k-means、随机森林等模型。应当理解，上述无监督学习模型仅作为示例提供，本领域技术人员也可以使用其他合适的无监督学习模型。

无监督学习模型可以通过用户与智能音箱104(或其他语音设备)的日常对话和交流中自然建立，不断优化，成本开销低，并且具备实时学习能力。每次对话既是对模型的应用，也是对模型的训练。因此，无监督学习模型不需要收集用户数据，并对收集的用户数据进行标注。以这种方式，可以实现产品的轻量化，并且防止收集用户数据时可能引发的隐私问题。

在一些实施例中，智能音箱104可以获取声音信号的类别与用户的身份之间的对应关系，并基于上述对应关系，将用户的身份确定为与确定的类别对应的身份。类别与身份的对应关系可以由用户102预先设置。例如，用户102可以在一个语句中说出身份和开启的权限，例如，“我是小明，拥有支付权限”。智能音箱104可以将所确定的该语句或者相关联的交互对话的类别与该语句中提供的身份和权限建立起对应关系。在首次授权时，可以要求用户输入密码等来进行验证。

在一些实施例中，可以在用户102与智能音箱102的交互过程中来进行身份认证。例如，智能音箱102可以基于关键字等触发条件来启动授权检测过程。例如，智能音箱102可以对用户102的声音信号进行语音识别，并且如果在识别出来的文字中检测到“点外卖”等关键词来启动授权判定过程。

图3示出了根据本公开的一些实施例的用于确定用户的身份的方法300的流程图。例如，声音信号可以包括在启动授权判定过程之后的一段对话，其可以包括多个语句。

在框302，可以确定声音信号包括的语句中、与预定义身份相关联的语句的数目。例如，一段对话从确认购买意图开始，到接收到下单指令结束，共计10句话。可以确定与每一句话相对应的类别和身份。例如，从10句话中可以确定出8句话具有身份A(例如，丈夫)。

在框304，可以确定该数目与声音信号包括的语句的总数的比例是否大于阈值比例。如果大于阈值比例，则方法300前进至框306。在框306，可以将用户的身份可以被确定为该预定义身份。例如，如果阈值比例是70％，则该数目与总数之比是8/10＝80％，其大于70％。反之，如果小于阈值比例，则可以确定该声音信号并不具有该预定义身份。

图3所示的实施例可以解决智能音箱等设备普遍存在的单句识别率和精准度难达100％的问题。概率性的结果可以弥补单一样本的个体差异，因而更加精准。

另外，方法300可以在用户102与智能音箱104通过自然语言交互的过程中来实现，而不需要设立独立的环节。因此，判定时机贯穿整个自然语言对话场景，不需生硬的交互。例如，用户102可以与智能音箱104之间发生如下的交互：

用户：我要点一份外卖。

音箱：查询并推荐订单，为您推荐XX套餐，是否购买？

用户：下单吧！

音箱：已确认您的权限，购买完成。

图4示出了根据本公开的一些实施例的用于身份认证的装置400的方框图。装置400可以被包括在图1的智能音箱104中或者至少部分地由智能音箱104来实现。如图4所示，装置400包括第一获取模块402，第一获取模块402被配置为获取用户的声音信号。生成模块404被配置为基于所述声音信号，生成具有多个维度的特征数据，所述多个维度的特征数据指示所述声音信号的不同特性。第一确定模块406被配置为基于所述特征数据来确定所述用户的身份。

在一些实施例中，多个维度包括以下至少两项：语速、响度、音调、频率和音色。

在一些实施例中，第一确定模块406包括：第二确定模块，被配置为确定所述声音信号包括的语句中、与预定义身份相关联的语句的数目；以及第三确定模块，被配置为响应于确定的所述数目与所述声音信号包括的所述语句的总数的比例大于阈值比例，将所述用户的身份确定为所述预定义身份。

在一些实施例中，第一确定模块406包括：第四确定模块，被配置为基于所述特征数据来确定所述声音信号的类别；第二获取模块，被配置为获取声音信号的类别与用户的身份之间的对应关系；以及第五确定模块，被配置为基于所述对应关系，将所述用户的身份确定为与所述类别对应的身份。

在一些实施例中，所述声音信号的类别是通过无监督学习模型来确定的。

在一些实施例中，装置400还包括：第六确定模块，被配置为基于所述用户的身份来确定所述用户的权限；以及触发模块，被配置为触发与所述用户的所述权限相匹配的任务被执行。

图5示出了一个可以用来实施本公开的实施例的设备500的示意性框图。设备500可以用于实现图1的智能音箱104。如图所示，设备500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的计算机程序指令或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序指令，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法200，可由处理单元501执行。例如，在一些实施例中，方法200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序被加载到RAM 503并由CPU 501执行时，可以执行上文描述的方法200的一个或多个步骤。备选地，在其他实施例中，CPU 501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200。

本公开可以是方法、设备、***和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各实施例。

Claims

1.一种用于身份认证的方法，包括：

获取用户的声音信号；

基于所述声音信号，生成具有多个维度的特征数据，所述多个维度的特征数据指示所述声音信号的不同特性；以及

基于所述特征数据来确定所述用户的身份。

2.根据权利要求1所述的方法，其中所述多个维度包括以下至少两项：

语速、响度、音调、频率和音色。

3.根据权利要求1所述的方法，其中确定所述用户的身份包括：

确定所述声音信号包括的语句中、与预定义身份相关联的语句的数目；以及

响应于确定的所述数目与所述声音信号包括的所述语句的总数的比例大于阈值比例，将所述用户的身份确定为所述预定义身份。

4.根据权利要求1所述的方法，其中确定所述用户的身份包括：

基于所述特征数据来确定与所述声音信号的类别；

获取声音信号的类别与用户的身份之间的对应关系；以及

基于所述对应关系，将所述用户的身份确定为与所述类别对应的身份。

5.根据权利要求4所述的方法，其中所述声音信号的类别是通过无监督学习模型来确定的。

6.根据权利要求1所述的方法，还包括：

基于所述用户的身份来确定所述用户的权限；以及

触发与所述用户的所述权限相匹配的任务被执行。

7.一种用于身份认证的装置，包括：

第一获取模块，被配置为获取用户的声音信号；

生成模块，被配置为基于所述声音信号，生成具有多个维度的特征数据，所述多个维度的特征数据指示所述声音信号的不同特性；以及

第一确定模块，被配置为基于所述特征数据来确定所述用户的身份。

8.根据权利要求7所述的装置，其中所述多个维度包括以下至少两项：

语速、响度、音调、频率和音色。

9.根据权利要求7所述的装置，其中所述第一确定模块包括：

第二确定模块，被配置为确定所述声音信号包括的语句中、与预定义身份相关联的语句的数目；以及

第三确定模块，被配置为响应于确定的所述数目与所述声音信号包括的所述语句的总数的比例大于阈值比例，将所述用户的身份确定为所述预定义身份。

10.根据权利要求7所述的装置，其中所述第一确定模块包括：

第四确定模块，被配置为基于所述特征数据来确定所述声音信号的类别；

第二获取模块，被配置为获取声音信号的类别与用户的身份之间的对应关系；以及

第五确定模块，被配置为基于所述对应关系，将所述用户的身份确定为与所述类别对应的身份。

11.根据权利要求10所述的装置，其中所述声音信号的类别是通过无监督学习模型来确定的。

12.根据权利要求7所述的装置，还包括：

第六确定模块，被配置为基于所述用户的身份来确定所述用户的权限；以及

触发模块，被配置为触发与所述用户的所述权限相匹配的任务被执行。

13.一种电子设备，所述电子设备包括：

一个或多个处理器；以及

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现根据权利要求1-6中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1-6中任一项所述的方法。