CN109101801A - 用于身份认证的方法、装置、设备和计算机可读存储介质 - Google Patents
用于身份认证的方法、装置、设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN109101801A CN109101801A CN201810766166.2A CN201810766166A CN109101801A CN 109101801 A CN109101801 A CN 109101801A CN 201810766166 A CN201810766166 A CN 201810766166A CN 109101801 A CN109101801 A CN 109101801A
- Authority
- CN
- China
- Prior art keywords
- user
- identity
- voice signal
- characteristic
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012795 verification Methods 0.000 title claims abstract description 8
- 238000004590 computer program Methods 0.000 claims description 10
- 230000001960 triggered effect Effects 0.000 claims description 2
- 230000004044 response Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000013475 authorization Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Collating Specific Patterns (AREA)
- User Interface Of Digital Computer (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开的实施例涉及用于身份认证的方法、装置、设备和计算机可读存储介质。一种用于身份认证的方法包括:获取用户的声音信号;基于所述声音信号,生成具有多个维度的特征数据,所述多个维度的特征数据指示所述声音信号的不同特性;以及基于所述特征数据来确定所述用户的身份。
Description
技术领域
本公开的实施例一般地涉及身份认证,并且更具体地涉及用于身份认证(特别是基于声音或语音的身份认证)的方法、装置、设备和计算机可读存储介质。
背景技术
随着智能音箱等产品的发展,基于声音的身份认证变得越来越重要。然而,目前基于声音的身份认证手段还停留在较浅的技术层次。例如,一种常见的身份认证方式是基于频率(或声音频带)的认证方式。此方式通常给每个用户设定一组音频范围,如果接收到的声音较范围误差超过某一阀值,则认证失败。如果接收声音和该用户的音频在同一范围,则认证成功。然而,由于人耳能识别的声音频率范围在20Hz-20kHz之间,因此可通过穷举法,快速找到“合法”频率,导致安全系数非常低。因此,需要提供一种至少部分解决上述技术问题的用于身份认证的技术方案。
发明内容
根据本公开的实施例,提供了一种用于身份认证的方案。
在本公开的第一方面,提供了一种用于身份认证的方法。该方法包括:获取用户的声音信号;基于所述声音信号,生成具有多个维度的特征数据,所述多个维度的特征数据指示所述声音信号的不同特性;以及基于所述特征数据来确定所述用户的身份。
在本公开的第一方面,提供了一种用于身份认证的装置。该装置包括:第一获取模块,被配置为获取用户的声音信号;生成模块,被配置为基于所述声音信号,生成具有多个维度的特征数据,所述多个维度的特征数据指示所述声音信号的不同特性;以及第一确定模块,被配置为基于所述特征数据来确定所述用户的身份。
在本公开的第三方面,提供了一种电子设备。该电子设备包括:一个或多个处理器;以及存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得电子设备实现根据本公开的第一方面的方法。
在本公开的第四方面中,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了能够在其中实现本公开的实施例的示例性环境的示意图;
图2示出了根据本公开的一些实施例的用于身份认证的方法的流程图;
图3示出了根据本公开的一些实施例的用于确定用户的身份的方法的流程图;
图4示出了根据本公开的一些实施例的用于身份认证的装置的方框图;以及
图5示出了能够实施本公开的一些实施例的电子设备的方框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
如上文所提及的,目前基于声音的身份认证方案通常基于声音的频率来确定用户的身份,以判断是否成功认证。然而,这种认证方案具有较低的安全系数。
针对上述问题以及其他可能的潜在问题,本公开的实施例提供了一种用于身份认证的技术方案。在该方案中,获取用户的声音信号,并基于所获取的声音信号来生成具有多个维度的特征数据。多个维度的特征数据指示声音信号的不同特性。基于特征数据来确定用户的身份。由于根据声音信号的多个不同的维度来进行身份认证,可以提高身份认证的准确性和安全性。
以下结合图1-图4来具体描述本公开的实施例。
图1示出了能够在其中实现本公开的实施例的示意性环境100的示意图。在环境100中,用户102可以与智能音箱104等电子设备进行语音交互。例如,用户102可以向智能音箱104讲述“我要点一份外卖”。智能音箱106可以获取该声音信号,并基于该声音信号来确定用户102是否具有执行相应的任务的权限。应当理解,尽管在这里以智能音箱104为例来进行描述,但是本公开的实施例也可以应用于移动电话、平板等电子设备,另外也可以至少部分地在云端实现。
图2示出了根据本公开的一些实施例的用于身份认证的方法200的流程图。方法200可以至少部分地由图1所示的智能音箱104来实现。
在框202,智能音箱104获取用户102的声音信号。例如,智能音箱104可以包括麦克风等用于录制或收集用户102的声音信号的装置。在一些实施例中,用户102的声音信号可以包括一段对话,其可以由开始语句和结束语句来界定并且与相应的任务相关联。例如,借助于语音识别的方式,智能音箱102可以通过识别用户102对该项任务的意图来判断开始语句,并且智能音箱102可以通过识别用户102对该项任务的最终指令来判断结束语句。开始语句和结束语句可以通过识别关键字来确定。例如,这一段对话可以包括智能音箱102在识别出用户下单的意图与接收到用户的下单指令之间的多个语句。
在框204,智能音箱104基于用户102的声音信号来生成具有多个维度的特征数据。每个维度的特征数据可以指示声音信号的相应的特性。例如,多个维度可以包括声音信号的语速、响度、音调、频率和音色中的至少两项。应当理解,可以使用目前已知的或者将来开发的任何适当的方法来检测语速、响度、频率等信息,本公开在此不受限制。另外,本领域技术人员应当理解上述维度仅作为示例提供,也可以备选地或附加地使用其他维度的特征数据。
在一些实施例中,可以对特征数据进行归一化处理。例如,可以将一句话解析为一个n维向量,例如:[D0,D1,...Dn],其中Di,i=1…n表示一个维度(例如,频率),Di取值在(0,1)的区间内。以这种方式可以确定特征数据的向量表示,以用于后续处理。
在框206,智能音箱104基于生成的特征数据来确定用户102的身份。例如,用户102的身份可以与相应的权限相关联,因此可以基于用户102的身份来确定用户102的权限,并触发与用户102的权限相匹配的任务被执行。换言之,如果用户102的权限与任务相匹配,则执行该任务。
在一些实施例中,可以从用户102的声音信号中识别出上述任务。例如,智能音箱104可以对用户102的声音信号进行语音识别,并从识别出的文字或语句中来确定用户的意图,例如,用户想要执行的任务。例如,用户102的权限还可以与相应的任务相关联,即,不同的任务可以具有不同的权限。
在一些实施例中,智能音箱104可以基于特征数据来确定与声音信号相关联的类别。例如,类别可以通过无监督学习模型来确定。例如,无监督学习模型可以接收特征数据的向量表示,并基于特征数据的向量表示通过聚类来确定与声音信号相关联的类别。无监督学习模型可以包括k-means、随机森林等模型。应当理解,上述无监督学习模型仅作为示例提供,本领域技术人员也可以使用其他合适的无监督学习模型。
无监督学习模型可以通过用户与智能音箱104(或其他语音设备)的日常对话和交流中自然建立,不断优化,成本开销低,并且具备实时学习能力。每次对话既是对模型的应用,也是对模型的训练。因此,无监督学习模型不需要收集用户数据,并对收集的用户数据进行标注。以这种方式,可以实现产品的轻量化,并且防止收集用户数据时可能引发的隐私问题。
在一些实施例中,智能音箱104可以获取声音信号的类别与用户的身份之间的对应关系,并基于上述对应关系,将用户的身份确定为与确定的类别对应的身份。类别与身份的对应关系可以由用户102预先设置。例如,用户102可以在一个语句中说出身份和开启的权限,例如,“我是小明,拥有支付权限”。智能音箱104可以将所确定的该语句或者相关联的交互对话的类别与该语句中提供的身份和权限建立起对应关系。在首次授权时,可以要求用户输入密码等来进行验证。
在一些实施例中,可以在用户102与智能音箱102的交互过程中来进行身份认证。例如,智能音箱102可以基于关键字等触发条件来启动授权检测过程。例如,智能音箱102可以对用户102的声音信号进行语音识别,并且如果在识别出来的文字中检测到“点外卖”等关键词来启动授权判定过程。
图3示出了根据本公开的一些实施例的用于确定用户的身份的方法300的流程图。例如,声音信号可以包括在启动授权判定过程之后的一段对话,其可以包括多个语句。
在框302,可以确定声音信号包括的语句中、与预定义身份相关联的语句的数目。例如,一段对话从确认购买意图开始,到接收到下单指令结束,共计10句话。可以确定与每一句话相对应的类别和身份。例如,从10句话中可以确定出8句话具有身份A(例如,丈夫)。
在框304,可以确定该数目与声音信号包括的语句的总数的比例是否大于阈值比例。如果大于阈值比例,则方法300前进至框306。在框306,可以将用户的身份可以被确定为该预定义身份。例如,如果阈值比例是70%,则该数目与总数之比是8/10=80%,其大于70%。反之,如果小于阈值比例,则可以确定该声音信号并不具有该预定义身份。
图3所示的实施例可以解决智能音箱等设备普遍存在的单句识别率和精准度难达100%的问题。概率性的结果可以弥补单一样本的个体差异,因而更加精准。
另外,方法300可以在用户102与智能音箱104通过自然语言交互的过程中来实现,而不需要设立独立的环节。因此,判定时机贯穿整个自然语言对话场景,不需生硬的交互。例如,用户102可以与智能音箱104之间发生如下的交互:
用户:我要点一份外卖。
音箱:查询并推荐订单,为您推荐XX套餐,是否购买?
用户:下单吧!
音箱:已确认您的权限,购买完成。
图4示出了根据本公开的一些实施例的用于身份认证的装置400的方框图。装置400可以被包括在图1的智能音箱104中或者至少部分地由智能音箱104来实现。如图4所示,装置400包括第一获取模块402,第一获取模块402被配置为获取用户的声音信号。生成模块404被配置为基于所述声音信号,生成具有多个维度的特征数据,所述多个维度的特征数据指示所述声音信号的不同特性。第一确定模块406被配置为基于所述特征数据来确定所述用户的身份。
在一些实施例中,多个维度包括以下至少两项:语速、响度、音调、频率和音色。
在一些实施例中,第一确定模块406包括:第二确定模块,被配置为确定所述声音信号包括的语句中、与预定义身份相关联的语句的数目;以及第三确定模块,被配置为响应于确定的所述数目与所述声音信号包括的所述语句的总数的比例大于阈值比例,将所述用户的身份确定为所述预定义身份。
在一些实施例中,第一确定模块406包括:第四确定模块,被配置为基于所述特征数据来确定所述声音信号的类别;第二获取模块,被配置为获取声音信号的类别与用户的身份之间的对应关系;以及第五确定模块,被配置为基于所述对应关系,将所述用户的身份确定为与所述类别对应的身份。
在一些实施例中,所述声音信号的类别是通过无监督学习模型来确定的。
在一些实施例中,装置400还包括:第六确定模块,被配置为基于所述用户的身份来确定所述用户的权限;以及触发模块,被配置为触发与所述用户的所述权限相匹配的任务被执行。
图5示出了一个可以用来实施本公开的实施例的设备500的示意性框图。设备500可以用于实现图1的智能音箱104。如图所示,设备500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的计算机程序指令或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序指令,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如方法200,可由处理单元501执行。例如,在一些实施例中,方法200可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序被加载到RAM 503并由CPU 501执行时,可以执行上文描述的方法200的一个或多个步骤。备选地,在其他实施例中,CPU 501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200。
本公开可以是方法、设备、***和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文公开的各实施例。
Claims (14)
1.一种用于身份认证的方法,包括:
获取用户的声音信号;
基于所述声音信号,生成具有多个维度的特征数据,所述多个维度的特征数据指示所述声音信号的不同特性;以及
基于所述特征数据来确定所述用户的身份。
2.根据权利要求1所述的方法,其中所述多个维度包括以下至少两项:
语速、响度、音调、频率和音色。
3.根据权利要求1所述的方法,其中确定所述用户的身份包括:
确定所述声音信号包括的语句中、与预定义身份相关联的语句的数目;以及
响应于确定的所述数目与所述声音信号包括的所述语句的总数的比例大于阈值比例,将所述用户的身份确定为所述预定义身份。
4.根据权利要求1所述的方法,其中确定所述用户的身份包括:
基于所述特征数据来确定与所述声音信号的类别;
获取声音信号的类别与用户的身份之间的对应关系;以及
基于所述对应关系,将所述用户的身份确定为与所述类别对应的身份。
5.根据权利要求4所述的方法,其中所述声音信号的类别是通过无监督学习模型来确定的。
6.根据权利要求1所述的方法,还包括:
基于所述用户的身份来确定所述用户的权限;以及
触发与所述用户的所述权限相匹配的任务被执行。
7.一种用于身份认证的装置,包括:
第一获取模块,被配置为获取用户的声音信号;
生成模块,被配置为基于所述声音信号,生成具有多个维度的特征数据,所述多个维度的特征数据指示所述声音信号的不同特性;以及
第一确定模块,被配置为基于所述特征数据来确定所述用户的身份。
8.根据权利要求7所述的装置,其中所述多个维度包括以下至少两项:
语速、响度、音调、频率和音色。
9.根据权利要求7所述的装置,其中所述第一确定模块包括:
第二确定模块,被配置为确定所述声音信号包括的语句中、与预定义身份相关联的语句的数目;以及
第三确定模块,被配置为响应于确定的所述数目与所述声音信号包括的所述语句的总数的比例大于阈值比例,将所述用户的身份确定为所述预定义身份。
10.根据权利要求7所述的装置,其中所述第一确定模块包括:
第四确定模块,被配置为基于所述特征数据来确定所述声音信号的类别;
第二获取模块,被配置为获取声音信号的类别与用户的身份之间的对应关系;以及
第五确定模块,被配置为基于所述对应关系,将所述用户的身份确定为与所述类别对应的身份。
11.根据权利要求10所述的装置,其中所述声音信号的类别是通过无监督学习模型来确定的。
12.根据权利要求7所述的装置,还包括:
第六确定模块,被配置为基于所述用户的身份来确定所述用户的权限;以及
触发模块,被配置为触发与所述用户的所述权限相匹配的任务被执行。
13.一种电子设备,所述电子设备包括:
一个或多个处理器;以及
存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现根据权利要求1-6中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现根据权利要求1-6中任一项所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810766166.2A CN109101801B (zh) | 2018-07-12 | 2018-07-12 | 用于身份认证的方法、装置、设备和计算机可读存储介质 |
KR1020190081471A KR20200007673A (ko) | 2018-07-12 | 2019-07-05 | 신원 인증을 위한 방법, 장치, 기기 및 컴퓨터 판독 가능 저장 매체 |
US16/507,195 US11294995B2 (en) | 2018-07-12 | 2019-07-10 | Method and apparatus for identity authentication, and computer readable storage medium |
JP2019129753A JP7123871B2 (ja) | 2018-07-12 | 2019-07-12 | 身元認証方法、身元認証装置、電子機器及びコンピュータ読み取り可能な記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810766166.2A CN109101801B (zh) | 2018-07-12 | 2018-07-12 | 用于身份认证的方法、装置、设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109101801A true CN109101801A (zh) | 2018-12-28 |
CN109101801B CN109101801B (zh) | 2021-04-27 |
Family
ID=64846279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810766166.2A Active CN109101801B (zh) | 2018-07-12 | 2018-07-12 | 用于身份认证的方法、装置、设备和计算机可读存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11294995B2 (zh) |
JP (1) | JP7123871B2 (zh) |
KR (1) | KR20200007673A (zh) |
CN (1) | CN109101801B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223710A (zh) * | 2019-04-18 | 2019-09-10 | 深圳壹账通智能科技有限公司 | 多重联合认证方法、装置、计算机装置及存储介质 |
CN111833883A (zh) * | 2020-08-26 | 2020-10-27 | 深圳创维-Rgb电子有限公司 | 一种语音控制方法、装置、电子设备及存储介质 |
CN112185344A (zh) * | 2020-09-27 | 2021-01-05 | 北京捷通华声科技股份有限公司 | 语音交互方法、装置、计算机可读存储介质和处理器 |
CN116186672A (zh) * | 2023-04-20 | 2023-05-30 | 北京万讯博通科技发展有限公司 | 一种多特征变量的用户协同识别方法及*** |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101801B (zh) * | 2018-07-12 | 2021-04-27 | 北京百度网讯科技有限公司 | 用于身份认证的方法、装置、设备和计算机可读存储介质 |
JP6700531B1 (ja) * | 2020-01-20 | 2020-05-27 | 株式会社白紙とロック | 認証方法、認証システム、スマートスピーカ及びプログラム |
CN113092984A (zh) * | 2021-02-22 | 2021-07-09 | 福建星云电子股份有限公司 | 一种基于lcr电桥的物料检测方法、***、设备及介质 |
CN114140856A (zh) * | 2021-12-07 | 2022-03-04 | 广联达科技股份有限公司 | 人脸识别方法、装置、***、计算机设备和可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737634A (zh) * | 2012-05-29 | 2012-10-17 | 百度在线网络技术(北京)有限公司 | 一种基于语音的认证方法及装置 |
CN104834847A (zh) * | 2014-02-11 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 身份验证方法及装置 |
CN105357006A (zh) * | 2014-08-20 | 2016-02-24 | 中兴通讯股份有限公司 | 一种基于声纹特征进行安全认证的方法及设备 |
CN106961418A (zh) * | 2017-02-08 | 2017-07-18 | 北京捷通华声科技股份有限公司 | 身份认证方法和身份认证*** |
CN107068154A (zh) * | 2017-03-13 | 2017-08-18 | 平安科技(深圳)有限公司 | 基于声纹识别的身份验证的方法及*** |
CN107221331A (zh) * | 2017-06-05 | 2017-09-29 | 深圳市讯联智付网络有限公司 | 一种基于声纹的身份识别方法和设备 |
CN107886951A (zh) * | 2016-09-29 | 2018-04-06 | 百度在线网络技术(北京)有限公司 | 一种语音检测方法、装置及设备 |
EP3319084A1 (en) * | 2016-11-04 | 2018-05-09 | Intellisist, Inc. | System and method for performing caller identity verification using multi-step voice analysis |
CN108040032A (zh) * | 2017-11-02 | 2018-05-15 | 阿里巴巴集团控股有限公司 | 一种声纹认证方法、账号注册方法及装置 |
CN108174012A (zh) * | 2017-12-25 | 2018-06-15 | 维沃移动通信有限公司 | 一种权限控制方法及移动终端 |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2816163B2 (ja) | 1988-01-20 | 1998-10-27 | 株式会社リコー | 話者照合方式 |
JPH03274597A (ja) | 1990-03-26 | 1991-12-05 | Nippon Telegr & Teleph Corp <Ntt> | 話者認識方法 |
JP3274597B2 (ja) | 1995-12-28 | 2002-04-15 | ミネベア株式会社 | パルスジェネレータ |
JP3835032B2 (ja) | 1998-12-18 | 2006-10-18 | 富士通株式会社 | 利用者照合装置 |
EP1429314A1 (en) | 2002-12-13 | 2004-06-16 | Sony International (Europe) GmbH | Correction of energy as input feature for speech processing |
JP2007052720A (ja) | 2005-08-19 | 2007-03-01 | Fujitsu Ltd | 生体認証による情報アクセス方法及び生体認証による情報処理システム |
JP4685712B2 (ja) | 2006-05-31 | 2011-05-18 | 日本電信電話株式会社 | 話者顔画像決定方法及び装置及びプログラム |
JP5157596B2 (ja) | 2008-04-01 | 2013-03-06 | トヨタ自動車株式会社 | 音声認識装置 |
JP5250576B2 (ja) | 2010-02-25 | 2013-07-31 | 日本電信電話株式会社 | ユーザ判定装置、方法、プログラム及びコンテンツ配信システム |
JP6087542B2 (ja) | 2012-08-31 | 2017-03-01 | 綜合警備保障株式会社 | 話者認識装置、話者認識方法及び話者認識プログラム |
KR20140139982A (ko) | 2013-05-28 | 2014-12-08 | 삼성전자주식회사 | 전자 장치의 음성인식을 수행하는 방법 및 이를 사용하는 전자 장치 |
JP2016523389A (ja) | 2013-07-04 | 2016-08-08 | コアフォトニクス リミテッド | 小型望遠レンズアセンブリ |
US9646613B2 (en) * | 2013-11-29 | 2017-05-09 | Daon Holdings Limited | Methods and systems for splitting a digital signal |
US9686275B2 (en) * | 2014-07-07 | 2017-06-20 | International Business Machines Corporation | Correlating cognitive biometrics for continuous identify verification |
US20170178135A1 (en) * | 2015-12-16 | 2017-06-22 | Alegeus Technologies, Llc | Systems and methods for notifications using a multi-purse card |
US10026403B2 (en) * | 2016-08-12 | 2018-07-17 | Paypal, Inc. | Location based voice association system |
WO2018045553A1 (zh) * | 2016-09-09 | 2018-03-15 | 上海海知智能科技有限公司 | 人机交互的***及方法 |
WO2018084576A1 (en) * | 2016-11-03 | 2018-05-11 | Samsung Electronics Co., Ltd. | Electronic device and controlling method thereof |
US20180146370A1 (en) * | 2016-11-22 | 2018-05-24 | Ashok Krishnaswamy | Method and apparatus for secured authentication using voice biometrics and watermarking |
CN106506524B (zh) | 2016-11-30 | 2019-01-11 | 百度在线网络技术(北京)有限公司 | 用于验证用户的方法和装置 |
US10467510B2 (en) * | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Intelligent assistant |
WO2018174397A1 (ko) * | 2017-03-20 | 2018-09-27 | 삼성전자 주식회사 | 전자 장치 및 제어 방법 |
WO2018212815A1 (en) * | 2017-05-17 | 2018-11-22 | Google Llc | Automatic image sharing with designated users over a communication network |
US10354656B2 (en) * | 2017-06-23 | 2019-07-16 | Microsoft Technology Licensing, Llc | Speaker recognition |
WO2018237247A1 (en) * | 2017-06-23 | 2018-12-27 | Ascension Health Alliance | SYSTEMS AND METHODS OF USING ARTIFICIAL INTELLIGENCE CONTROL UNIT BASED ON VOICE |
CN109327421A (zh) * | 2017-08-01 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 数据加密、机器学习模型训练方法、装置及电子设备 |
US20200394631A1 (en) * | 2017-10-03 | 2020-12-17 | Jon Castor | Facilitating Disparate Convenience Services Via a Common User Interface |
KR102420567B1 (ko) * | 2017-12-19 | 2022-07-13 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
US10542407B2 (en) * | 2018-06-02 | 2020-01-21 | T-Mobile Usa, Inc. | Detecting safety concerns via subscriber safety control (SSC) system |
WO2020014425A1 (en) * | 2018-07-11 | 2020-01-16 | Visa International Service Association | Privacy-preserving graph compression with automated fuzzy variable detection |
CN109101801B (zh) * | 2018-07-12 | 2021-04-27 | 北京百度网讯科技有限公司 | 用于身份认证的方法、装置、设备和计算机可读存储介质 |
US11361330B2 (en) * | 2018-08-22 | 2022-06-14 | Bank Of America Corporation | Pattern analytics system for document presentment and fulfillment |
US11159597B2 (en) * | 2019-02-01 | 2021-10-26 | Vidubly Ltd | Systems and methods for artificial dubbing |
KR20210016829A (ko) * | 2019-08-05 | 2021-02-17 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스 |
US11341485B2 (en) * | 2019-08-06 | 2022-05-24 | Bank Of America Corporation | Machine learning based system for authorization of autonomous resource transfers between distributed IOT components |
US11374976B2 (en) * | 2019-10-15 | 2022-06-28 | Bank Of America Corporation | System for authentication of resource actions based on multi-channel input |
-
2018
- 2018-07-12 CN CN201810766166.2A patent/CN109101801B/zh active Active
-
2019
- 2019-07-05 KR KR1020190081471A patent/KR20200007673A/ko not_active IP Right Cessation
- 2019-07-10 US US16/507,195 patent/US11294995B2/en active Active
- 2019-07-12 JP JP2019129753A patent/JP7123871B2/ja active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737634A (zh) * | 2012-05-29 | 2012-10-17 | 百度在线网络技术(北京)有限公司 | 一种基于语音的认证方法及装置 |
CN104834847A (zh) * | 2014-02-11 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 身份验证方法及装置 |
CN105357006A (zh) * | 2014-08-20 | 2016-02-24 | 中兴通讯股份有限公司 | 一种基于声纹特征进行安全认证的方法及设备 |
CN107886951A (zh) * | 2016-09-29 | 2018-04-06 | 百度在线网络技术(北京)有限公司 | 一种语音检测方法、装置及设备 |
EP3319084A1 (en) * | 2016-11-04 | 2018-05-09 | Intellisist, Inc. | System and method for performing caller identity verification using multi-step voice analysis |
CN106961418A (zh) * | 2017-02-08 | 2017-07-18 | 北京捷通华声科技股份有限公司 | 身份认证方法和身份认证*** |
CN107068154A (zh) * | 2017-03-13 | 2017-08-18 | 平安科技(深圳)有限公司 | 基于声纹识别的身份验证的方法及*** |
CN107221331A (zh) * | 2017-06-05 | 2017-09-29 | 深圳市讯联智付网络有限公司 | 一种基于声纹的身份识别方法和设备 |
CN108040032A (zh) * | 2017-11-02 | 2018-05-15 | 阿里巴巴集团控股有限公司 | 一种声纹认证方法、账号注册方法及装置 |
CN108174012A (zh) * | 2017-12-25 | 2018-06-15 | 维沃移动通信有限公司 | 一种权限控制方法及移动终端 |
Non-Patent Citations (1)
Title |
---|
张涛涛: ""语音声纹密码验证技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223710A (zh) * | 2019-04-18 | 2019-09-10 | 深圳壹账通智能科技有限公司 | 多重联合认证方法、装置、计算机装置及存储介质 |
CN111833883A (zh) * | 2020-08-26 | 2020-10-27 | 深圳创维-Rgb电子有限公司 | 一种语音控制方法、装置、电子设备及存储介质 |
CN112185344A (zh) * | 2020-09-27 | 2021-01-05 | 北京捷通华声科技股份有限公司 | 语音交互方法、装置、计算机可读存储介质和处理器 |
CN116186672A (zh) * | 2023-04-20 | 2023-05-30 | 北京万讯博通科技发展有限公司 | 一种多特征变量的用户协同识别方法及*** |
Also Published As
Publication number | Publication date |
---|---|
KR20200007673A (ko) | 2020-01-22 |
JP2020013126A (ja) | 2020-01-23 |
US20200019687A1 (en) | 2020-01-16 |
CN109101801B (zh) | 2021-04-27 |
US11294995B2 (en) | 2022-04-05 |
JP7123871B2 (ja) | 2022-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109101801A (zh) | 用于身份认证的方法、装置、设备和计算机可读存储介质 | |
CN111226274B (zh) | 自动阻止音频流中包含的敏感数据 | |
EP3327720B1 (en) | User voiceprint model construction method and apparatus | |
US11916913B2 (en) | Secure audio transcription | |
CN108040032A (zh) | 一种声纹认证方法、账号注册方法及装置 | |
US11983259B2 (en) | Authentication via a dynamic passphrase | |
KR101795593B1 (ko) | 전화상담원 보호 장치 및 그 방법 | |
US11380303B2 (en) | System and method for call classification | |
WO2019174073A1 (zh) | 通话中客户信息修改方法、装置、计算机设备及存储介质 | |
US11095601B1 (en) | Connection tier structure defining for control of multi-tier propagation of social network content | |
US20220199102A1 (en) | Speaker-specific voice amplification | |
US11283806B2 (en) | Adaptive security system | |
Shirvanian et al. | Voicefox: Leveraging inbuilt transcription to enhance the security of machine-human speaker verification against voice synthesis attacks | |
Savchenko et al. | Method for measuring distortions in speech signals during transmission over a communication channel to a biometric identification system | |
US20230085012A1 (en) | Ai based system and method for corners of trust for a caller | |
TWM578858U (zh) | 跨通路人工智慧對話式平台 | |
KR102353947B1 (ko) | 지능형 단계별 검증과정을 기반으로 금융상품 가입 서비스를 제공하기 위한 서버 | |
US20180122404A1 (en) | Determining a behavior of a user utilizing audio data | |
Saini et al. | Speaker Anonymity and Voice Conversion Vulnerability: A Speaker Recognition Analysis | |
Lim et al. | Overo: Sharing Private Audio Recordings | |
CN115050390B (zh) | 一种语音隐私保护方法、装置、电子设备及存储介质 | |
Šandor et al. | Resilience of Biometric Authentication of Voice Assistants against Deepfakes | |
CN115022002B (zh) | 验证方式确定方法、装置、存储介质和电子设备 | |
EP3813059A1 (en) | Optimal pii-safe training set generation for speech recognition model | |
US9837074B2 (en) | Information exchange during audio conversations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |