CN115310066A - 一种升级方法、装置及电子设备 - Google Patents
一种升级方法、装置及电子设备 Download PDFInfo
- Publication number
- CN115310066A CN115310066A CN202110493970.XA CN202110493970A CN115310066A CN 115310066 A CN115310066 A CN 115310066A CN 202110493970 A CN202110493970 A CN 202110493970A CN 115310066 A CN115310066 A CN 115310066A
- Authority
- CN
- China
- Prior art keywords
- model
- user
- verification
- electronic device
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 122
- 238000012795 verification Methods 0.000 claims abstract description 276
- 238000012545 processing Methods 0.000 claims abstract description 65
- 230000001755 vocal effect Effects 0.000 claims abstract description 7
- 238000004590 computer program Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 abstract description 72
- 230000006870 function Effects 0.000 description 36
- 238000000605 extraction Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 15
- 238000007726 management method Methods 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000001413 cellular effect Effects 0.000 description 5
- 238000010295 mobile communication Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/60—Software deployment
- G06F8/65—Updates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Hardware Design (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Telephone Function (AREA)
Abstract
本申请实施例提供一种升级方法、装置及电子设备,方法包括:电子设备采集用户录入的第一验证语音;使用电子设备中保存的第一模型对第一验证语音进行处理,获得第一声纹特征;基于第一声纹特征、以及电子设备中保存的第一用户特征模板验证用户的身份;在验证用户的身份通过之后,若电子设备已接收到第二模型,则使用第二模型对第一验证语音进行处理,以获得第二声纹特征;使用第二声纹特征更新第一用户特征模板,使用第二模型更新第一模型。本申请实施例将验证过程中获取的验证语音作为新的注册语音完成声纹识别***的升级注册,可以在用户无感知的情况下实现对声纹识别***的升级,能够兼顾声纹识别性能和用户体验。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种升级方法、装置及电子设备。
背景技术
声纹识别是一种通过语音信号来自动辨识和确认说话人身份的技术。声纹识别的基本方案包括注册流程和验证流程两个阶段。在注册流程阶段,电子设备上的声纹识别***采用预先训练好的深度模型(本文称之为“声纹特征提取模型”或“模型”)从用户录入的注册语音中提取声纹特征,将其作为用户特征模板保存在电子设备中;在验证流程阶段,电子设备上的声纹识别***采用与注册流程中相同的声纹特征提取模型从验证语音中提取声纹特征作为待验证特征,然后基于待验证特征和注册流程中获取的用户特征模板对用户的身份进行验证。
目前,在对电子设备上的声纹识别***进行升级(例如更新声纹特征提取模型)时,需要重新执行注册流程(即用户重新录入注册语音,级电子设备使用新的声纹特征提取模型从新的注册语音中提取声纹特征作为新的用户特征模板)。如果不重新注册,后续的验证流程中,电子设备使用新的声纹特征提取模型提取的待验证特征无法跟旧的用户模板特征匹配,导致声纹识别***的识别性能反而会变差;但是,如果每次升级都重新执行注册流程,又会对用户的使用体验产生很大的负面影响。
因此,如何兼顾声纹识别性能和用户体验,是亟需解决的问题。
发明内容
本申请实施例提供一种升级方法、装置及电子设备,可以在用户无感知的情况下实现对声纹识别***的升级,兼顾声纹识别性能和用户体验。
第一方面,提供一种升级方法,应用于电子设备,该方法包括:电子设备采集用户录入的第一验证语音;使用电子设备中保存的第一模型对第一验证语音进行处理,获得第一声纹特征;基于第一声纹特征、以及电子设备中保存的第一用户特征模板验证该用户的身份;其中,第一用户特征模板为电子设备使用第一模型对该用户的历史验证语音或注册语音进行处理所获得的声纹特征;在验证该用户的身份通过之后,若电子设备已接收到第二模型,则使用第二模型对第一验证语音进行处理,以获得第二声纹特征;使用第二声纹特征更新电子设备中保存的第一用户特征模板,以及使用第二模型更新电子设备中保存的第一模型。
本申请实施例在对声纹识别***进行升级时,将验证过程中获取的验证语音作为新的注册语音,完成升级注册,可以在用户无感知的情况下实现对声纹识别***的升级,能够兼顾声纹识别性能和用户体验。
一种可能的实现方式中,电子设备可以计算第一声纹特征和第一用户特征模板的相似度;通过判断相似度是否大于第一模型对应的第一验证门限来验证用户的身份;若为是,则验证通过;否则,验证不通过。在电子设备使用第二模型对第一验证语音进行处理之后,若电子设备已接收到第二模型对应的第二验证门限,则还使用第二验证门限更新第一验证门限。
如此,不同的模型对应不同的验证门限,电子设备在升级***时可以字段更新验证门限,可以进一步提高声纹识别***的性能。
一种可能的实现方式中,电子设备可以在第一验证语音的质量满足第一预设条件时,才使用第二模型对第一验证语音进行处理。其中,第一预设条件例如包括但不限于:第一声纹特征和第一用户特征模板的相似度大于或等于第一免注册门限;和/或,第一验证语音的信噪比大于或等于第一信噪比门限。
如此,可以保证第二声纹特征的质量,进而保证升级后的声纹识别***的性能。
一种可能的实现方式中,第一免注册门限大于或等于第一模型对应的第一验证门限。
如此,可进一步提高第二声纹特征的质量,提高升级后的声纹识别***的性能。
一种可能的实现方式中,电子设备在使用第二模型对第一验证语音进行处理之后,若电子设备已接收到第二免注册门限,则还可以使用第二免注册门限更新第一免注册门限;和/或,电子设备在使用第二模型对第一验证语音进行处理之后,若电子设备已接收到第二信噪比门限,则还可以使用第二信噪比门限更新第一信噪比门限。
如此,免注册门限、信噪比门限等也可以自动更新,可进一步提高第二声纹特征质量,提高升级后的声纹识别***的性能。
一种可能的实现方式中,电子设备可以在电子设备累计获得的第二声纹特征的数量达到预设数量之后,才使用预设数量的第二声纹特征更新电子设备中保存的第一用户特征模板,以及使用第二模型更新电子设备中保存的第一模型。
如此,可以保证升级后的声纹识别***中具有多个用户特征模板(即第二声纹特征),可进一步提高升级后的声纹识别***的性能。
一种可能的实现方式中,电子设备在使用第二声纹特征更新电子设备中保存的第一用户特征模板,使用第二模型更新电子设备中保存的第一模型之后,还采集用户录入的第二验证语音;使用第二模型对第二验证语音进行处理,获得第三声纹特征;基于第三声纹特征、以及第二声纹特征验证用户的身份。
如此,在完成升级之后,电子设备会使用新的模型和新的用户特征模板来执行验证流程,可进一步提高电子设备的声纹识别性能。
一种可能的实现方式中,电子设备在采集用户录入的第一验证语音之前,还可以提示用户录入验证语音。例如显示屏显示提示信息,或者扬声器输提示语音等。
如此,可提高用户体验。
第二方面,提供一种升级装置,该装置可以是电子设备或电子设备中的芯片,该装置包括用于执行上述第一方面或第一方面任一种可能的实现方式中所述的方法的单元/模块。
示例性的,该装置可以包括:数据采集单元,用于采集用户录入的第一验证语音;计算单元,用于使用装置中保存的第一模型对第一验证语音进行处理,获得第一声纹特征;基于第一声纹特征、以及装置中保存的第一用户特征模板验证该用户的身份;其中,第一用户特征模板为装置使用第一模型对该用户的历史验证语音或注册语音进行处理所获得的声纹特征;在验证该用户的身份通过之后,若装置已接收到第二模型,则使用第二模型对第一验证语音进行处理,以获得第二声纹特征;使用第二声纹特征更新装置中保存的第一用户特征模板,以及使用第二模型更新装置中保存的第一模型。
第三方面,提供一种电子设备,包括:麦克风和处理器;其中,麦克风用于:采集用户录入的第一验证语音;处理器用于:使用电子设备中保存的第一模型对第一验证语音进行处理,获得第一声纹特征;基于第一声纹特征、以及电子设备中保存的第一用户特征模板验证该用户的身份;其中,第一用户特征模板为电子设备使用第一模型对该用户的历史验证语音或注册语音进行处理所获得的声纹特征;在验证该用户的身份通过之后,若电子设备已接收到第二模型,则使用第二模型对第一验证语音进行处理,以获得第二声纹特征;使用第二声纹特征更新电子设备中保存的第一用户特征模板,以及使用第二模型更新电子设备中保存的第一模型。
第四方面,提供一种芯片,该芯片与电子设备中的存储器耦合,执行如上述第一方面或第一方面任一种可能的实现方式中所述的方法。
第五方面,提供一种计算机存储介质,计算机存储介质中存储计算机指令,该计算机指令在被一个或多个处理模块执行时实现上述第一方面或第一方面任一种可能的实现方式中所述的方法。
第六方面,提供一种包含指令的计算机程序产品,所述计算机程序产品中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一种可能的实现方式中所述的方法。
附图说明
图1为本申请实施例提供的一种电子设备的结构示意图;
图2为本申请实施例提供的一种电子设备的结构示意图;
图3为本申请实施例提供的一种升级方法的流程图;
图4为电子设备提示用户录入注册语音的示意图;
图5为用户触发电子设备采集验证语音的示意图;
图6A为本申请实施例提供的一种具体的免注册升级处理方式的示意图;
图6B为本申请实施例提供的另一种具体的免注册升级处理方式的示意图;
图6C为本申请实施例提供的另一种具体的免注册升级处理方式的示意图;
图6D本申请实施例提供的另一种具体的免注册升级处理方式的示意图。
具体实施方式
声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。声纹具有稳定性、可测量性、唯一性等特点。人成年以后,人的声音可保持长期相对稳定不变。人在讲话时使用的发声器官在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异,不同人的声音在语谱图中共振峰的分布情况不同。声纹识别正是通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个人,从而实现“闻声识人”的功能。
声纹识别从算法上看,还可分为文本相关(Text-Dependent)和文本无关(Text-1ndependent)两种。与文本有关的声纹识别***要求用户按照规定的内容发音,每个人的声纹模型逐个被精确地建立,而识别时也必须按规定的内容发音,因此可以达到较好的识别效果,但***需要用户配合,如果用户的发音与规定的内容不符合,则无法正确识别该用户。与文本无关的识别***则不规定说话人的发音内容,模型建立相对困难,但用户使用方便,可应用范围较宽。因为要考虑到实用性,目前终端设备上一般都是使用文本相关的声纹识别算法。
声纹识别从应用上看,可分为说话人辨认(SI)和说话人确认(SV)两种。其中,说话人辨认,用以判断某段语音是若干人中的哪一个人所说的,是“多选一”问题。说话人确认,用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。
本文主要涉及说话人确认功能。在后文中,除非有特别说明之外,出现的声纹识别功能均指说话人确认功能,即“说话人确认功能”与“声纹识别功能”可以相互替换。
说话人确认功能包括注册流程和验证流程两部分。注册流程包括:在用户正式使用声纹识别功能之前,声纹识别***采集用户录入的注册语音,然后根据预先训练好的深度模型(本文称之为“声纹特征提取模型”或“模型”)从注册语音中提取声纹特征,将该声纹特征作为用户特征模板保存在电子设备中;验证流程包括:在用户使用声纹识别功能时,声纹识别***采集用户录入的验证语音,使用与注册流程中相同的声纹特征提取模型从验证语音中提取声纹特征作为待验证特征,然后对待验证特征和注册流程中获取的用户特征模板进行相似度打分,根据打分结果确认用户身份。
因为用户的语音是比较敏感的个人信息,不能存储,更不能上传到云端,所以基于隐私安全的考虑,声纹识别***一般是离线运行在电子设备上的,需要预先把训练好的声纹特征提取模型存储在电子设备上。
然而,具有声纹识别功能的电子设备一直在推陈出新,型号迭代非常快,基本一年更新一次。随着电子设备更新,对说话人确认技术的要求也会不断提高。当需要对说话人确认技术进行升级又要保证升级后的新算法在旧设备上兼容的时候,就需要对旧设备上的声纹识别***进行升级,即远程推送新的声纹特征提取模型至电子设备。电子设备接收到新的声纹特征提取模型后,需要基于新的声纹特征提取模型重新执行注册流程(即需要用户重新录入注册语音,声纹识别***使用新的声纹特征提取模型从用户新录入的注册语音中提取声纹特征作为新的用户特征模板)。如果不重新注册,则后续的验证流程中,声纹识别***使用新的声纹特征提取模型提取的待验证特征无法跟旧的用户模板特征匹配,声纹识别***的识别性能反而会变差;但是,如果每次升级都重新执行注册流程,又会对用户的使用体验产生很大的负面影响。
鉴于此,本申请实施例提供一种升级方案,当电子设被检测到有新的特征提取模型后,不需要用户重新提供注册语音进行用户注册,而是直接根据验证过程中获取的验证语音进行用户注册。如此,可以在用户无感知的情况下实现对声纹识别***的升级,兼顾声纹识别性能和用户体验。
应理解,本申请实施例技术方案可以应用于具有声纹识别功能的任何电子设备。参见图1,本申请实施例中的电子设备至少具备数据采集单元01、存储单元02、通信单元03以及计算单元04,各单元之间可以通过输入输出(IO)接口连接和通信。
其中,数据采集单元01用于采集用户录入的语音(注册语音、验证语音等)。其具体实现可以是麦克风、声音传感器等。
存储单元02,用于存储声纹识别功能使用的声纹特征提取模型、门限、以及计算单元04中用户注册模块获得的用户模板特征。
通信单元03,用于接收新的声纹特征提取模型,还可以用于接收新的门限,提供给计算单元04。
计算单元04包括:
用户注册模块401,用于根据数据采集单元01获取的注册语音提取用户模板特征,提供给验证模块402;
验证模块402,用于根据数据采集单元01获取的验证语音及存储单元02中存储的用户模板特征、模型和门限,对说话人的身份进行验证,得到验证结果;
免注册升级模块403,用于根据通信单元03接收的新模型,以及验证模块获取的验证语音、打分结果(可选的),确定新用户模板特征,并基于新用户模板特征、新模型更新存储单元02中的旧用户模板特征、旧模型。可选的,免注册升级模块还对存储单元02中存储的门限进行更新。
本申请实施例中电子设备的具体产品形态可以有多种。例如,包括但不限于:手机、平板电脑、人工智能(artificial intelligence,AI)智能语音终端、可穿戴设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、车载终端、膝上型计算机(Laptop)、台式计算机、智能家居设备(例如智能电视、智能音箱)等。
以电子设备是手机为例,如图2所示,为本申请实施例的一种手机100的硬件结构示意图。
手机100包括处理器110、内部存储器121、外部存储器接口122、摄像头131、显示屏132、传感器模块140、用户标识模块(subscriber identification module,SIM)卡接口151、按键152、音频模块160、扬声器161、受话器162、麦克风163、耳机接口164、通用串行总线(universal serial bus,USB)接口170、充电管理模块180、电源管理模块181、电池182、移动通信模块191和无线通信模块192。在另一些实施例中,手机100还可以包括马达、指示器、按键等。
应理解,图2所示的硬件结构仅是一个示例。本申请实施例的手机100可以具有比图中所示手机100更多的或者更少的部件,可以组合两个或更多的部件,或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
其中,处理器110可以包括一个或多个处理单元。例如:处理器110可以包括应用处理器(application processor,AP)、调制解调器、图形处理器(graphics processingunit,GPU)、图像信号处理器(image signal processor,ISP)、控制器、视频编解码器、数字信号处理器(digital signal processor,DSP)、基带处理器、和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
在一些实施例中,处理器110中还可以设置缓存器,用于存储指令和/或数据。示例的,处理器110中的缓存器可以为高速缓冲存储器。该缓存器可以用于保存处理器110刚用过的、生成的、或循环使用的指令和/或数据。如果处理器110需要使用该指令或数据,可从该缓存器中直接调用。有助于减少了处理器110获取指令或数据的时间,从而有助于提高***的效率。
内部存储器121可以用于存储程序和/或数据。在一些实施例中,内部存储器121包括存储程序区和存储数据区。
其中,存储程序区可以用于存储操作***(如Android、IOS等操作***)、至少一个功能所需的计算机程序等。例如,存储程序区可以存储声纹识别功能所需的计算机程序(如声纹识别***)等。存储数据区可以用于存储手机100使用过程中所创建、和/或采集的数据(比如音频数据)等。示例的,处理器110可以通过调用内部存储器121中存储的程序和/或数据,使得手机100执行相应的方法,从而实现一种或多种功能。例如,处理器110调用内部存储器中的某些程序和/或数据,使得手机100执行本申请实施例中所提供的升级方法。
其中,内部存储器121可以采用高速随机存取存储器、和/或非易失性存储器等。例如,非易失性存储器可以包括一个或多个磁盘存储器件、闪存器件、和/或通用闪存存储器(universal flash storage,UFS)等中的至少一个。
外部存储器接口122可以用于连接外部存储卡(例如,Micro SD卡),实现扩展手机100的存储能力。外部存储卡通过外部存储器接口122与处理器110通信,实现数据存储功能。例如手机100可以通过外部存储器接口122将图像、音乐、视频等文件保存在外部存储卡中。
摄像头131可以用于捕获动、静态图像等。通常情况下,摄像头131包括镜头和图像传感器。其中,物体通过镜头生成的光学图像投射到图像传感器上,然后转换为电信号,在进行后续处理。示例的,图像传感器可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。图像传感器把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。需要说明的是,手机100可以包括1个或N个摄像头131,其中,N为大于1的正整数。
显示屏132可以包括显示面板,用于显示用户界面。显示面板可以采用液晶显示屏(liquid crystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)、有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organiclight emitting diode,AMOLED)、柔性发光二极管(flex light-emitting diode,FLED)、Miniled、MicroLed、Micro-oLed、量子点发光二极管(quantum dot light emittingdiodes,QLED)等。需要说明的是,手机100可以包括1个或M个显示屏132,M为大于1的正整数。示例的,手机100可以通过GPU、显示屏132、应用处理器等实现显示功能。
传感器模块140可以包括一个或多个传感器。例如,触摸传感器140A、陀螺仪140B、加速度传感器140C、指纹传感器140D、压力传感器140E等。在一些实施例中,传感器模块140还可以包括环境光传感器、距离传感器、接近光传感器、骨传导传感器、温度传感器等。
SIM卡接口151用于连接SIM卡。SIM卡可以通过***SIM卡接口151,或从SIM卡接口151拔出,实现和手机100的接触和分离。手机100可以支持1个或K个SIM卡接口151,K为大于1的正整数。SIM卡接口151可以支持Nano SIM卡、Micro SIM卡、和/或SIM卡等。同一个SIM卡接口151可以同时***多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口151也可以兼容不同类型的SIM卡。SIM卡接口151也可以兼容外部存储卡。手机100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,手机100还可以采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在手机100中,不能和手机100分离。
按键152可以包括开机键、音量键等。按键152可以是机械按键,也可以是触摸式按键。手机100可以接收按键输入,产生与手机100的用户设置以及功能控制有关的键信号输入。
手机100可以通过音频模块160、扬声器161、受话器162、麦克风163、耳机接口164以及应用处理器等实现音频功能。例如,音频播放功能、录音功能、声纹注册功能、声纹验证功能、声纹识别功能等。
音频模块160可以用于对音频数据进行数模转换、和/或模数转换,还可以用于对音频数据进行编码和/或解码。示例的,音频模块160可以独立于处理器设置,也可以设置于处理器110中,或将音频模块160的部分功能模块设置于处理器110中。
扬声器161,也称“喇叭”,用于将音频数据转换为声音,并播放声音。例如,手机0100可以通过扬声器161收听音乐、接听免提电话、或者发出语音提示等。
受话器162,也称“听筒”,用于将音频数据转换成声音,并播放声音。例如,当手机0100接听电话时,可以通过将受话器162靠近人耳进行接听。
麦克风163,也称“话筒”、“传声器”,用于采集声音(例如周围环境声音,包括人发出的声音、设备发出的声音等),并将声音转换为音频电数据。当拨打电话或发送语音时,用户可以通过人嘴靠近麦克风163发出声音,麦克风163采集用户发出的声音。当手机100的声纹识别功能已开启的情况下,麦克风163可以实时采集周围环境声音,获取音频数据。
需要说明的是,手机100可以设置至少一个麦克风163。例如,手机100中设置两个麦克风163,除了采集声音,还可以实现降噪功能。又示例如,手机100中还可以设置三个、四个或更多个麦克风163,从而可以在实现声音采集、降噪的基础上,还可以实现声音来源的识别、或定向录音功能等。
耳机接口164用于连接有线耳机。耳机接口164可以是USB接口170,也可以是3.5mm的开放移动手机100平台(open mobile terminal platform,OMTP)标准接口、美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口等。
USB接口170是符合USB标准规范的接口,具体可以是Mini USB接口、Micro USB接口、USB Type C接口等。USB接口170可以用于连接充电器为手机100充电,也可以用于手机100与***设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。示例的,USB接口170除了可以为耳机接口164以外,还可以用于连接其他手机100,例如AR设备、计算机等。
充电管理模块180用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块180可以通过USB接口170接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块180可以通过手机100的无线充电线圈接收无线充电输入。充电管理模块180为电池182充电的同时,还可以通过电源管理模块180为手机100供电。
电源管理模块181用于连接电池182、充电管理模块180与处理器110。电源管理模块181接收电池182和/或充电管理模块180的输入,为处理器110、内部存储器121、显示屏132、摄像头131等供电。电源管理模块181还可以用于监测电池容量、电池循环次数、电池健康状态(漏电、阻抗)等参数。在其他一些实施例中,电源管理模块181也可以设置于处理器110中。在另一些实施例中,电源管理模块181和充电管理模块180也可以设置于同一个器件中。
移动通信模块191可以提供应用在手机100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块191可以包括滤波器、开关、功率放大器、低噪声放大器(low noiseamplifier,LNA)等。
无线通信模块192可以提供应用在手机100上的包括WLAN(如Wi-Fi网络)、蓝牙(Bluetooth,BT)、全球导航卫星***(global navigation satellite system,GNSS)、调频(frequency modulation,FM)、近距离无线通信技术(near field communication,NFC)、红外技术(infrared,IR)等无线通信的解决方案。无线通信模块192可以是集成至少一个通信处理模块的一个或多个器件。
在一些实施例中,手机100的天线1和移动通信模块191耦合,天线2和无线通信模块192耦合,使得手机100可以与其他设备通信。具体的,移动通信模块191可以通过天线1与其它设备通信,无线通信模块193可以通过天线2与其它设备通信。
例如,手机100可以基于无线通信模块192从其它设备接收升级信息(包括新的声纹特征提取模型、新的门限等),进而基于升级信息对电子设备上的声纹识别***进行更新(例如更新声纹特征提取模型、更新门限等)。可选的,该其它设备可以是云服务厂商的服务器,例如是由手机100的厂商或运营商建立、维护、通过网络以按需、按易扩展的方式提供所需服务的平台,具体例如是手机厂商“华为”的服务器。当然,其它设备也可以是其它电子设备,本申请对此不做限制。
本申请实施例以下将结合附图和应用场景,对本申请实施例提供的声纹识别方法进行详细介绍。以下实施例均可以在具有上述硬件结构的手机100中实现。
参见图3,示例性的示出了本申请实施例提供的一种升级方法的流程。
S301、电子设备采集用户录入的第一注册语音;
具体的,电子设备可以通过麦克风163采集周围环境声音,获得用户录入的第一注册语音。
在具体实施时,用户可以在电子设备的提示下说出第一注册语音。例如,如图4所示,电子设备可以在显示屏132上显示文字提示用户说出注册语“1234567”。又例如,电子设备也可以通过扬声器161进行语音提示,等等。其中,电子设备提示用户录入注册语音的场景可以有多种,例如,可以是用户首次启动电子设备的声纹识别功能时电子设备自动提示用户说出注册语音,或者,也可以是用户首次启动电子设备的声纹识别功能时由用户操作电子设备提示用户说出注册语音,或者,也可以是用户在后续启动声纹识别功能时用户根据需求触发电子设备提示用户说出注册语音。
可选的,用户在进行声纹注册时可以多次输入注册语音,从而可以提高声纹识别的准确性。
S302、电子设备使用预先保存的第一模型对第一注册语音进行处理,获得第一用户特征模板,并保存第一用户特征模板;
其中,第一模型是预先用神经网络训练好的声纹特征提取模型,第一模型的输入为语音,输出为输入语音对应的声纹特征。第一模型基于的算法可以但不限于采用滤波器组(filter bank,FBank)、梅尔频率倒谱系数(mel-frequency cepstral coefficients,MFCC)、D-vector等算法。
可选的,因为注册语音的好坏会对识别精度有比较大的影响,所以在电子设备使用预先保存的第一模型对第一注册语音进行处理之前,可以先对第一注册语音做质量检测。只有第一注册语音的质量满足第一预设要求时,才使用第一注册语音进行注册(即预先保存的第一模型对第一注册语音进行处理,获得第一用户特征模板,并保存第一用户特征模板)。如果质量不佳的话,可以拒绝使用该第一注册语音进行注册,还可以提示用户重新录入注册语音再次尝试注册等。
例如,电子设备在显示屏132上提示用户说三遍语音助手的关键词,如“小艺小艺”。用户每说一遍小艺小艺,电子设备的麦克风163都会把采集到的语音发给手机的处理器110。处理器110把关键字对应的那段语音切分出来,作为注册语音。然后处理器110确定注册语音的信噪比,并判断信噪比是否满足要求,当信噪比低于设定阈值(即噪声过大),则会拒绝注册。对通过信噪比检测的语音,处理器110使用第一模型对语音进行计算得到用户模板特征,存储在内部存储器121中。
可选的,电子设备保存的第一用户特征模板的数量可以是多个,从而可以提高声纹识别的准确性。
应理解,上述S301~S302是电子设备首次对用户的语音进行注册,即在用户首次使用声纹识别功能之前执行。在首次注册完成之后,用户就可以开始使用声纹识别功能,如S303~S304所示。
S303、电子设备采集用户录入的第一验证语音;
在具体实施时,用户可以在电子设备的提示下说出验证语音。其中,电子设备提示用户说出验证语的方法与电子设备提示用户说出注册语的方法类似,重复之处不再一一赘述。
电子设备提示用户录入验证语音的场景可以有多种,例如:可以是用户开机后电子设备自动提示用户说出第一验证语音,第一验证语音用于验证用户身份以解锁电子设备,或者,也可以是用户打开加密的应用(如日记本)时电子设备自动提示用户说出第一验证语音,第一验证语音用于验证用户身份以解锁应用,或者,还可以是也可以是用户打开应用准备登录账号时电子设备自动提示用户说出第一验证语音,第一验证语音用于验证用户身份以自动填充用户的账号和密码。
其中,电子设备可以是在用户的操作触发下采集用户录入的第一验证语音,例如,用户通过操作电子设备触发验证指令,从而电子设备在收到验证指令后采集提示用户录入第一验证语音,并采集用户录入的第一验证语音。例如,用户可以通过点击电子设备的触摸屏上声纹识别功能对应图标的相应位置触发验证指令,从而电子设备提示用户说出第一验证语音;又例如,用户可以通过操作物理实体(如物理键、鼠标、摇杆等)进行触发;又例如,用户可以通过特定手势(如双击电子设备的触摸屏等等)进行触发验证指令,从而电子设备提示用户说出第一验证语音。又例如,用户可以向电子设备(如智能手机、车载装置等等)说出关键词“声纹识别”,电子设备通过麦克风163采集到用户发出的关键词“声纹识别”后触发验证指令,并提示用户说出第一验证语音。
或者,用户也可以在向电子设备说出用于控制电子设备的控制命令时,电子设备采集该控制命令,并将该控制命令作为第一验证语音进行声纹识别。即,电子设备在接收到控制命令时触发验证指令,并将该控制指令作为第一验证语音进行声纹识别。例如,如图5所示,用户可以向电子设备(如智能手机、车载装置等等)发出控制命令“打开音乐”,电子设备通过麦克风163采集到用户发出的语音“打开音乐”后,将该语音作为第一验证语音进行声纹识别。又例如,用户可以向电子设备(如智能空调)发出控制命令“调到27℃”,电子设备通过麦克风163采集到用户发出的语音“调到27℃”后,将该语音作为第一验证语音进行声纹识别。
可选的,用户在进行声纹验证时,可以多次输入验证语音,从而可以提高声纹识别的准确性。
S304、电子设备使用第一模型对第一验证语音进行处理,获得第一声纹特征;基于第一声纹特征、以及电子设备中保存的第一用户特征模板验证用户的身份;
首先,电子设备将第一验证语音输入与S302注册流程中相同的模型(即第一模型)中,第一模型输出声纹特征。
然后,电子设备计算第一声纹特征和第一用户特征模板的相似度。其中,计算相似度的方法可以但不限于包括:余弦距离(cosine distance,CDS)、线性判别分析(lineardiscriminant analysis,LDA)、概率线性判别分析(prob-ailistic linear discriminantanalysis,PLDA)等算法。例如,余弦距离模型打分:计算待验证的第一声纹特征的特征向量和用户模板特征的特征向量之间的余弦值,作为相似度得分(即打分结果);例如,概率线性判别分析模型打分:使用预先训练好的概率线性判别分析模型来计算待验证的第一声纹特征和用户模板特征之间的相似度得分(即打分结果)。应理解,如果用户注册了多条用户模板特征,则可以根据待验证的第一声纹特征和多条用户模板特征进行融合匹配打分。
之后,电子设备根据打分结果,选择接受或者拒绝该验证语音对应的控制指令。例如,电子设备判断相似度是否大于第一模型对应的第一验证门限;若为是,则验证通过,即验证语音的说话人和注册语音的说话人一致,之后执行相应的控制操作(例如解锁电子设备、打开应用或登陆账号密码等);否则,验证不通过,即验证语音的说话人和注册语音的说话人不一致,不执行相应的控制操作。可选的,验证不通过的情况下,电子设备可以在显示屏132上显示验证结果,提示用户验证未通过,或者电子设备还可以提示用户重新录入验证语音再次尝试验证。
S305、电子设备在验证用户的身份通过之后,若电子设备已经接收到第二模型,则使用第二模型对第一验证语音进行处理,以获得第二声纹特征,使用第二声纹特征更新电子设备中保存的第一用户特征模板,以及使用第二模型更新电子设备中保存的第一模型。
应理解,电子设备接收第二模型的时间晚于电子设备接收第一模型的时间,换而言之,第二模型是比第一模型更新的模型。
第二模型是预先用神经网络训练好的声纹特征提取模型,第二模型的输入为语音,输出为输入语音对应的声纹特征。第二模型基于的算法可以但不限于采用FBank、MFCC、D-vector等算法。
第二模型的来源,可以是云服务器主动推送。例如,云服务器可以在需要对电子设备上的声纹识别模型进行升级时,将新的模型(例如第二模型)推送给电子设备。
电子设备在接收到第二模型之后,使用之前验证流程(前提是该次验证流程的验证结果是通过,以确保该次验证流程中获取的验证语音(如第一验证语音)是注册人说出的)中获取的第一验证语音,将其作为新的注册语音,使用第二模型对第一验证语音进行处理,获得第二声纹特征。之后,电子设备使用第二声纹特征更新电子设备中保存的第一用户特征模板,以及使用第二模型更新电子设备中保存的第一模型,从而实现用户无感知(用户不需要执行录入注册语音的操作)的升级注册。
其中,电子设备使用第二声纹特征更新电子设备中保存的第一用户特征模板的具体实现方式包括但不限于以下两种:
方式1、电子设备直接将第二声纹特征作为新的用户特征模板(为了与第一用户特征模板相区分,这里将第二声纹特征称为第二用户特征模板),使用第二用户特征模板替换电子设备中保存的第一用户特征模板。
方式2、电子设备将第二声纹特征和第一用户模板进行加权/合并处理,获得第三用户特征模板,使用第三用户特征模板替换电子设备中保存的第一用户特征模板。
应理解,以上两种方式仅为示例而非限定,实际不限于此。
同理,对于模型的更新,可以是电子设备直接使用第二模型替换第一模型,也可以是电子设备对第一模型和第二模型进行加权/合并处理,本申请不做限制。另外,还可以是电子设备只接收到模型的部分更新参数,然后基于该些更新参数对第一模型的相关参数进行更新,而不是直接更新整个模型。
可选的,对于不同的模型,可以对应不同的验证门限。电子设备在使用第二模型对第一验证语音进行处理之后,若电子设备已接收到第二模型对应的第二验证门限,则还可以使用第二验证门限更新第一验证门限,实现对验证门限的更新。在这种情况下,电子设备还可以在确定第二模型以及第二验证门限均已经接收到之后,才使用第二模型对第一验证语音进行处理。其中,验证门限的更新方式可以是使用第二验证门限替换第一验证门限,也可以是将第二验证门限和第一验证门限进行加权/合并处理,使用加权/合并处理后获得的验证门限替换第一验证门限,本申请对此不做限制。
可选的,为保证升级后的声纹识别***的性能,电子设备可以在确定第一验证语音的质量满足第二预设要求之后,才使用第二模型对第一验证语音进行处理(即使用第一验证语音作为新的注册语音)。
第一预设条件包括但不限于以下两种:
1)第一声纹特征和第一用户特征模板的相似度大于或等于第一免注册门限。
其中,第一免注册门限可以是根据验证流程中使用的第一验证门限值计算得到的(例如,第一免注册门限比第一验证门限值高几个分贝),也可以是电子设备预先设置(例如预先从云服务器接收并保存),本申请不做限定。
2)第一验证语音的信噪比大于或等于第一信噪比门限。
其中,第一信噪比门限可以是根据注册流程(S301)中使用的设定阈值得到(例如,第一信噪比门限与设定阈值一致,或者第一信噪比门限比设定阈值高几个分贝等),也可以是电子设备预先设置(例如预先从云服务器接收并保存),本申请不做限定。
一般情况下,第一信噪比门限大于或等于20dB。可选的,在具体实施时,还可以根据电子设备的具体形态对第一信噪比门限的数值进行微调,例如,对于手机,第一信噪比门限可以设置为22dB,而对于智能音箱,第一信噪比门限可以设置为20dB。
进一步可选的,第一免注册门限大于或等于第一模型对应的第一验证门限。如此,可保证作为新的注册语音的验证语音的质量较高,可以进一步提高升级后的声纹识别***的性能。
进一步可选的,云服务器还可以向电子设备推送新的免注册门限,电子设备对免注册门限进行更新。例如,在电子设备基于第一免注册门限判断第一验证语音的质量满足要求,且使用第二模型对第一验证语音进行处理之后,若电子设备已接收到第二免注册门限,则使用第二免注册门限更新第一免注册门限。其中,免注册门限的更新方式可以是使用第二免注册门限替换第一免注册门限,也可以是将第二免注册门限和第一免注册门限进行加权/合并处理,使用加权/合并处理后获得的免注册门限替换第一免注册门限,本申请对此不做限制。如此,可以进一步提高升级后的声纹识别***的性能。
进一步的可选的,云服务器还可以向电子设备推送新的信噪比门限,电子设备对信噪比门限进行更新。例如,在电子设备基于第一信噪比门限判断第一验证语音的质量满足要求,且使用第二模型对第一验证语音进行处理之后,若电子设备已接收到第二信噪比门限,则使用第二信噪比门限更新第一信噪比门限。其中,信噪比门限的更新方式可以是使用第二信噪比门限替换第一信噪比门限,也可以是将第二信噪比门限和第一信噪比门限进行加权/合并处理,使用加权/合并处理后获得的信噪比门限替换第一信噪比门限,本申请对此不做限制。如此,可以进一步提高升级后的声纹识别***的性能。
应理解,以上两种条件(即免注册门限和信噪比门限)可以分别单独实施,也可以同时实施,本申请不做限制。并且,以上两种条件仅为示例而非限定,具体实施时,第一预设条件还可以有其它实现方式。
可选的,在电子设备中保存的用户特征模板的数量为多个时,电子设备可以在累计获得的第二用户特征模板的数量达到预设数量之后,才使用该预设数量的第二用户特征模板更新电子设备中保存的第一用户特征模板,以及使用第二模型更新电子设备中保存的第一模型。
具体的,电子设备在执行完验证流程验证用户身份通过之后,使用第二模型对本次获得的验证语音进行处理,获得至少一个第二声纹特征,将每个第二声纹特征作为第二用户特征模板存储到内部存储器121中,然后判断内部存储器121中累计的第二用户特征模板是否达到预设数量(如3);若未达到预设数量,则等待下一次验证流程,在下一次验证流程中,基于第二模型和该下一次验证流程中的验证语音获取第二用户特征模板;若已达到预设数量,则使用所有第二用户特征模板更新所有的第一用户特征模板,以及使用第二模型更新电子设备中保存的第一模型。
如此,可以保证升级后的声纹识别***中有多个第二用户特征模板可用,可以进一步提高升级后的声纹识别***的性能。
应理解,上述各个用于触发电子设备将验证语音作为新的注册语音(即电子设备使用第二模型对第一验证语音进行处理,获得第二声纹特征(即第二用户特征模板))的前提条件(如判断电子设备是否收到第二模型和/或第二验证门限,判断第一验证语音的质量是否满足第二预设要求等),可以互结合实施,并且电子设备判断各前提条件的先后顺序可以相互调换。
例如,以下是步骤S305的几种可能的具体实现方式:
第一种实现方式中,如图6A所示:电子设备在执行验证流程且验证通过之后,判断验证流程获得的打分结果是否大于或等于第一免注册门限;若打分结果小于第一免注册门限,则进入下一次验证流程;若打分结果大于或等于第一免注册门限,则继续判断电子设备是否已经接收到第二模型和第二验证门限;若电子设备还未接收到第二模型和第二验证门限,则进入下一次验证流程;若电子设备已经接收到第二模型和第二验证门限,则使用第二模型对第一验证语音进行处理,获得第二用户特征模板;电子设备判断累计的第二用户特征模板是否达到预设数量;若累计的第二用户特征模板未达到预设数量,则进入下一次验证流程;若累计的第二用户特征模板已达到预设数量,则使用所有第二用户特征模板更新电子设备中保存的所有第一用户特征模板,以及使用第二模型更新电子设备中保存的第一模型,以及使用第二验证门限更新电子设备中保存的第一验证门限。
第二种实现方式中,如图6B所示:电子设备在执行验证流程且验证通过之后,判断电子设备是否已经接收到第二模型和第二验证门限;若电子设备还未接收到第二模型和第二验证门限,则进入下一次验证流程;若电子设备已经接收到第二模型和第二验证门限,则继续判断验证流程获得的打分结果是否大于或等于第一免注册门限;若打分结果小于第一免注册门限,则进入下一次验证流程;若打分结果大于或等于第一免注册门限,则使用第二模型对第一验证语音进行处理,获得第二用户特征模板;电子设备判断累计的第二用户特征模板是否达到预设数量;若累计的第二用户特征模板未达到预设数量,则进入下一次验证流程;若累计的第二用户特征模板已达到预设数量,则使用所有第二用户特征模板更新电子设备中保存的所有第一用户特征模板,以及使用第二模型更新电子设备中保存的第一模型,以及使用第二验证门限更新电子设备中保存的第一验证门限。
第三种实现方式中,如图6C所示:电子设备在执行验证流程且验证通过之后,判断第一验证语音的信噪比是否大于或等于第一信噪比门限;若第一验证语音的信噪比小于第一信噪比门限,则进入下一次验证流程;若第一验证语音的信噪比大于或等于第一信噪比门限,则继续判断电子设备是否已经接收到第二模型和第二验证门限;若电子设备还未接收到第二模型和第二验证门限,则进入下一次验证流程;若电子设备已经接收到第二模型和第二验证门限,则使用第二模型对第一验证语音进行处理,获得第二用户特征模板;电子设备判断累计的第二用户特征模板是否达到预设数量;若累计的第二用户特征模板未达到预设数量,则进入下一次验证流程;若累计的第二用户特征模板已达到预设数量,则使用所有第二用户特征模板更新电子设备中保存的所有第一用户特征模板,以及使用第二模型更新电子设备中保存的第一模型,以及使用第二验证门限更新电子设备中保存的第一验证门限。
第四种实现方式中,如图6D所示:电子设备在执行验证流程且验证通过之后,判断第一验证语音的信噪比是否大于或等于第一信噪比门限;若第一验证语音的信噪比小于第一信噪比门限,则进入下一次验证流程;若第一验证语音的信噪比大于或等于第一信噪比门限,则继续判断验证流程获得的打分结果是否大于或等于第一免注册门限;若打分结果小于第一免注册门限,则进入下一次验证流程;若打分结果大于或等于第一免注册门限,则继续判断电子设备是否已经接收到第二模型和第二验证门限;若电子设备还未接收到第二模型和第二验证门限,则进入下一次验证流程;若电子设备已经接收到第二模型和第二验证门限,则使用第二模型对第一验证语音进行处理,获得第二用户特征模板;电子设备判断累计的第二用户特征模板是否达到预设数量;若累计的第二用户特征模板未达到预设数量,则进入下一次验证流程;若累计的第二用户特征模板已达到预设数量,则使用所有第二用户特征模板更新电子设备中保存的所有第一用户特征模板,以及使用第二模型更新电子设备中保存的第一模型,以及使用第二验证门限更新电子设备中保存的第一验证门限。
应理解,以上仅例举了四种可能的组合方式,实际不仅限于此。
当电子设备在使用第二用户特征模板更新电子设备中保存的第一用户特征模板,使用第二模型更新电子设备中保存的第一模型之后(即完成第一次免注册升级之后),用户再次使用声纹验证功能时,电子设备可使用更新后的模型执行验证流程,例如:采集用户录入的第二验证语音,并使用第二模型对第二验证语音进行处理,获得第三声纹特征;基于第三声纹特征、以及第二用户特征模板验证用户的身份。具体实现方法可参考S303~S304,这里不再赘述。
当然,电子设备在收到比第二模型更新的模型之后,则进行新一轮的免注册升级处理。例如,在上述基于第二模型的验证流程完成且验证用户身份通过之后,若电子设备已收到第三模型,则使用第三模型对第二验证语音进行处理,获得第三用户特征模板,之后使用第三用户特征模板更新电子设备中保存的第二用户特征模板,以及使用第三模型更新电子设备中保存的第二模型。具体实现方法可参考S305,这里不再赘述。
以上,是以一个用户场景为例,对该一个用户的注册、验证和免注册升级进行了详细说明。在具体实施时,本申请实施例同样适用于多用户场景。多用户的场景下的主要区别有:在首次注册流程中,需要同时注册多个用户的第一用户特征模板;在验证流程中,需要从多个用户的用户特征模板中确定出当前用户的用户特征模板,来对当前用户进行身份验证;在升级免注册流程中,需要同时对多个用户的用户特征模板进行更新。
基于上述可知,本申请实施例在对声纹识别***进行升级时,将验证过程中获取的验证语音作为新的注册语音,以完成升级注册,可以在用户无感知的情况下实现对声纹识别***的升级,能够兼顾声纹识别性能和用户体验。
基于同一技术构思,本申请实施例还提供一种芯片,该芯片与电子设备中的存储器耦合,可以执行如图3、图6A~图6D中所示的方法。
基于同一技术构思,本申请实施例还提供一种计算机存储介质,该计算机存储介质中存储计算机指令,该计算机指令在被一个或多个处理模块执行时实现图3、图6A~图6D中所示的方法。
基于同一技术构思,本申请实施例还提供一种包含指令的计算机程序产品,所述计算机程序产品中存储有指令,当其在计算机上运行时,使得计算机执行图3、图6A~图6D中所示的方法。
应理解,在本申请中除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本申请中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。“至少一个”是指一个或者多个,“多个”是指两个或两个以上。
在本申请中,“示例的”、“在一些实施例中”、“在另一些实施例中”等用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用示例的一词旨在以具体方式呈现概念。
另外,本申请中涉及的“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,也不能理解为指示或暗示顺序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (27)
1.一种升级方法,其特征在于,应用于电子设备,所述方法包括:
采集用户录入的第一验证语音;
使用所述电子设备中保存的第一模型对所述第一验证语音进行处理,获得第一声纹特征;基于所述第一声纹特征、以及所述电子设备中保存的第一用户特征模板验证所述用户的身份;其中,所述第一用户特征模板为所述电子设备使用所述第一模型对所述用户的历史验证语音或注册语音进行处理所获得的声纹特征;
在验证所述用户的身份通过之后,若所述电子设备已接收到第二模型,则使用所述第二模型对所述第一验证语音进行处理,以获得第二声纹特征;使用所述第二声纹特征更新所述电子设备中保存的所述第一用户特征模板,以及使用所述第二模型更新所述电子设备中保存的所述第一模型。
2.如权利要求1所述的方法,其特征在于,
基于所述第一声纹特征、以及所述电子设备中保存的第一用户特征模板验证所述用户的身份,包括:
计算所述第一声纹特征和所述第一用户特征模板的相似度;判断所述相似度是否大于所述第一模型对应的第一验证门限;若为是,则验证通过;否则,验证不通过;
在使用所述第二模型对所述第一验证语音进行处理之后,所述方法还包括:
若所述电子设备已接收到所述第二模型对应的第二验证门限,则使用所述第二验证门限更新所述第一验证门限。
3.如权利要求1或2所述的方法,其特征在于,使用所述第二模型对所述第一验证语音进行处理,包括:
在所述第一验证语音的质量满足第一预设条件时,使用所述第二模型对所述第一验证语音进行处理;
其中,所述第一预设条件包括:所述第一声纹特征和所述第一用户特征模板的相似度大于或等于第一免注册门限;和/或,所述第一验证语音的信噪比大于或等于第一信噪比门限。
4.如权利要求3所述的方法,其特征在于,所述第一免注册门限大于或等于所述第一模型对应的第一验证门限。
5.如权利要求3所述的方法,其特征在于,在使用所述第二模型对所述第一验证语音进行处理之后,所述方法还包括:
若所述电子设备已接收到第二免注册门限,则使用所述第二免注册门限更新所述第一免注册门限;和/或,
若所述电子设备已接收到第二信噪比门限,则使用所述第二信噪比门限更新所述第一信噪比门限。
6.如权利要求1-5任一项所述的方法,其特征在于,使用所述第二声纹特征更新所述电子设备中保存的所述第一用户特征模板,以及使用所述第二模型更新所述电子设备中保存的所述第一模型,包括:
在所述电子设备累计获得的所述第二声纹特征的数量达到预设数量之后,使用所述预设数量的所述第二声纹特征更新所述电子设备中保存的所述第一用户特征模板,以及使用所述第二模型更新所述电子设备中保存的所述第一模型。
7.如权利要求1-6任一项所述的方法,其特征在于,在使用所述第二声纹特征更新所述电子设备中保存的所述第一用户特征模板,使用所述第二模型更新所述电子设备中保存的所述第一模型之后,还包括:
采集所述用户录入的第二验证语音;
使用所述第二模型对所述第二验证语音进行处理,获得第三声纹特征;基于所述第三声纹特征、以及所述第二声纹特征验证所述用户的身份。
8.如权利要求1-7任一项所述的方法,其特征在于,在采集用户录入的第一验证语音之前,还包括:
提示用户录入验证语音。
9.一种升级装置,其特征在于,所述装置包括:
数据采集单元,用于采集用户录入的第一验证语音;
计算单元,用于使用所述装置中保存的第一模型对所述第一验证语音进行处理,获得第一声纹特征;基于所述第一声纹特征、以及所述装置中保存的第一用户特征模板验证所述用户的身份;其中,所述第一用户特征模板为所述装置使用所述第一模型对所述用户的历史验证语音或注册语音进行处理所获得的声纹特征;在验证所述用户的身份通过之后,若所述装置已接收到第二模型,则使用所述第二模型对所述第一验证语音进行处理,以获得第二声纹特征;使用所述第二声纹特征更新所述装置中保存的所述第一用户特征模板,以及使用所述第二模型更新所述装置中保存的所述第一模型。
10.如权利要求9所述的装置,其特征在于,所述计算单元在基于所述第一声纹特征、以及所述装置中保存的第一用户特征模板验证所述用户的身份时,具体用于:
计算所述第一声纹特征和所述第一用户特征模板的相似度;判断所述相似度是否大于所述第一模型对应的第一验证门限;若为是,则验证通过;否则,验证不通过;
所述计算单元还用于:在使用所述第二模型对所述第一验证语音进行处理之后,若所述装置已接收到所述第二模型对应的第二验证门限,则使用所述第二验证门限更新所述第一验证门限。
11.如权利要求9或10所述的装置,其特征在于,所述计算单元在使用所述第二模型对所述第一验证语音进行处理时,具体用于:
在所述第一验证语音的质量满足第一预设条件时,使用所述第二模型对所述第一验证语音进行处理;
其中,所述第一预设条件包括:所述第一声纹特征和所述第一用户特征模板的相似度大于或等于第一免注册门限;和/或,所述第一验证语音的信噪比大于或等于第一信噪比门限。
12.如权利要求11所述的装置,其特征在于,所述第一免注册门限大于或等于所述第一模型对应的第一验证门限。
13.如权利要求11所述的装置,其特征在于,所述计算单元还用于:
在使用所述第二模型对所述第一验证语音进行处理之后,若所述装置已接收到第二免注册门限,则使用所述第二免注册门限更新所述第一免注册门限;和/或,若所述装置已接收到第二信噪比门限,则使用所述第二信噪比门限更新所述第一信噪比门限。
14.如权利要求9-13任一项所述的装置,其特征在于,所述计算单元在使用所述第二声纹特征更新所述装置中保存的所述第一用户特征模板,以及使用所述第二模型更新所述装置中保存的所述第一模型时,具体用于:
在累计获得的所述第二声纹特征的数量达到预设数量之后,使用所述预设数量的所述第二声纹特征更新所述装置中保存的所述第一用户特征模板,以及使用所述第二模型更新所述装置中保存的所述第一模型。
15.如权利要求9-14任一项所述的装置,其特征在于,所述计算单元还用于:
在使用所述第二声纹特征更新所述装置中保存的所述第一用户特征模板,使用所述第二模型更新所述装置中保存的所述第一模型之后,采集所述用户录入的第二验证语音;
使用所述第二模型对所述第二验证语音进行处理,获得第三声纹特征;基于所述第三声纹特征、以及所述第二声纹特征验证所述用户的身份。
16.如权利要求9-15任一项所述的装置,其特征在于,所述计算单元还用于:
在所述数据采集单元采集用户录入的第一验证语音之前,提示用户录入验证语音。
17.一种电子设备,其特征在于,包括:麦克风和处理器;
所述麦克风用于:采集用户录入的第一验证语音;
所述处理器用于:使用所述电子设备中保存的第一模型对所述第一验证语音进行处理,获得第一声纹特征;基于所述第一声纹特征、以及所述电子设备中保存的第一用户特征模板验证所述用户的身份;其中,所述第一用户特征模板为所述电子设备使用所述第一模型对所述用户的历史验证语音或注册语音进行处理所获得的声纹特征;在验证所述用户的身份通过之后,若所述电子设备已接收到第二模型,则使用所述第二模型对所述第一验证语音进行处理,以获得第二声纹特征;使用所述第二声纹特征更新所述电子设备中保存的所述第一用户特征模板,以及使用所述第二模型更新所述电子设备中保存的所述第一模型。
18.如权利要求17所述的电子设备,其特征在于,所述处理器在基于所述第一声纹特征、以及所述电子设备中保存的第一用户特征模板验证所述用户的身份时,具体用于:
计算所述第一声纹特征和所述第一用户特征模板的相似度;判断所述相似度是否大于所述第一模型对应的第一验证门限;若为是,则验证通过;否则,验证不通过;
所述处理器还用于:在使用所述第二模型对所述第一验证语音进行处理之后,若所述电子设备已接收到所述第二模型对应的第二验证门限,则使用所述第二验证门限更新所述第一验证门限。
19.如权利要求17或18所述的电子设备,其特征在于,所述处理器在使用所述第二模型对所述第一验证语音进行处理时,具体用于:
在所述第一验证语音的质量满足第一预设条件时,使用所述第二模型对所述第一验证语音进行处理;
其中,所述第一预设条件包括:所述第一声纹特征和所述第一用户特征模板的相似度大于或等于第一免注册门限;和/或,所述第一验证语音的信噪比大于或等于第一信噪比门限。
20.如权利要求19所述的电子设备,其特征在于,所述第一免注册门限大于或等于所述第一模型对应的第一验证门限。
21.如权利要求19所述的电子设备,其特征在于,所述处理器还用于:
在使用所述第二模型对所述第一验证语音进行处理之后,若所述电子设备已接收到第二免注册门限,则使用所述第二免注册门限更新所述第一免注册门限;和/或,若所述电子设备已接收到第二信噪比门限,则使用所述第二信噪比门限更新所述第一信噪比门限。
22.如权利要求17-21任一项所述的电子设备,其特征在于,所述处理器在使用所述第二声纹特征更新所述电子设备中保存的所述第一用户特征模板,以及使用所述第二模型更新所述电子设备中保存的所述第一模型时,具体用于:
在所述电子设备累计获得的所述第二声纹特征的数量达到预设数量之后,使用所述预设数量的所述第二声纹特征更新所述电子设备中保存的所述第一用户特征模板,以及使用所述第二模型更新所述电子设备中保存的所述第一模型。
23.如权利要求17-22任一项所述的电子设备,其特征在于,所述处理器还用于:
在使用所述第二声纹特征更新所述电子设备中保存的所述第一用户特征模板,使用所述第二模型更新所述电子设备中保存的所述第一模型之后,采集所述用户录入的第二验证语音;
使用所述第二模型对所述第二验证语音进行处理,获得第三声纹特征;基于所述第三声纹特征、以及所述第二声纹特征验证所述用户的身份。
24.如权利要求17-23任一项所述的电子设备,其特征在于,所述处理器还用于:
在所述麦克风采集用户录入的第一验证语音之前,提示用户录入验证语音。
25.一种芯片,其特征在于,所述芯片与电子设备中的存储器耦合,执行如权利要求1至8中任一项所述的方法。
26.一种计算机存储介质,其特征在于,所述计算机存储介质中存储计算机指令,该计算机指令在被一个或多个处理模块执行时实现如权利要求1至8中任一项所述的方法。
27.一种包含指令的计算机程序产品,其特征在于,所述计算机程序产品中存储有指令,当其在计算机上运行时,使得计算机执行如权利要求1至8中任一项所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110493970.XA CN115310066A (zh) | 2021-05-07 | 2021-05-07 | 一种升级方法、装置及电子设备 |
EP22798580.1A EP4318465A4 (en) | 2021-05-07 | 2022-04-21 | LEVELING METHOD AND APPARATUS, AND ELECTRONIC DEVICE |
JP2023568018A JP2024517830A (ja) | 2021-05-07 | 2022-04-21 | アップグレード方法、アップグレード装置、および電子デバイス |
PCT/CN2022/088237 WO2022233239A1 (zh) | 2021-05-07 | 2022-04-21 | 一种升级方法、装置及电子设备 |
US18/502,517 US20240071392A1 (en) | 2021-05-07 | 2023-11-06 | Upgrade method, upgrade apparatus, and electronic device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110493970.XA CN115310066A (zh) | 2021-05-07 | 2021-05-07 | 一种升级方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115310066A true CN115310066A (zh) | 2022-11-08 |
Family
ID=83854270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110493970.XA Pending CN115310066A (zh) | 2021-05-07 | 2021-05-07 | 一种升级方法、装置及电子设备 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20240071392A1 (zh) |
EP (1) | EP4318465A4 (zh) |
JP (1) | JP2024517830A (zh) |
CN (1) | CN115310066A (zh) |
WO (1) | WO2022233239A1 (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10152974B2 (en) * | 2016-04-15 | 2018-12-11 | Sensory, Incorporated | Unobtrusive training for speaker verification |
CN106782564B (zh) * | 2016-11-18 | 2018-09-11 | 百度在线网络技术(北京)有限公司 | 用于处理语音数据的方法和装置 |
CN109683938B (zh) * | 2018-12-26 | 2022-08-02 | 思必驰科技股份有限公司 | 用于移动终端的声纹模型升级方法和装置 |
CN110047490A (zh) * | 2019-03-12 | 2019-07-23 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备以及计算机可读存储介质 |
WO2020192890A1 (en) * | 2019-03-25 | 2020-10-01 | Omilia Natural Language Solutions Ltd. | Systems and methods for speaker verification |
CN112735438B (zh) * | 2020-12-29 | 2024-05-31 | 科大讯飞股份有限公司 | 一种在线声纹特征更新方法及设备、存储设备和建模设备 |
-
2021
- 2021-05-07 CN CN202110493970.XA patent/CN115310066A/zh active Pending
-
2022
- 2022-04-21 JP JP2023568018A patent/JP2024517830A/ja active Pending
- 2022-04-21 WO PCT/CN2022/088237 patent/WO2022233239A1/zh active Application Filing
- 2022-04-21 EP EP22798580.1A patent/EP4318465A4/en active Pending
-
2023
- 2023-11-06 US US18/502,517 patent/US20240071392A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022233239A1 (zh) | 2022-11-10 |
EP4318465A4 (en) | 2024-07-24 |
EP4318465A1 (en) | 2024-02-07 |
JP2024517830A (ja) | 2024-04-23 |
US20240071392A1 (en) | 2024-02-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3968144A1 (en) | Voice control method and related apparatus | |
US9685161B2 (en) | Method for updating voiceprint feature model and terminal | |
CN111131601B (zh) | 一种音频控制方法、电子设备、芯片及计算机存储介质 | |
US11626104B2 (en) | User speech profile management | |
WO2022033556A1 (zh) | 电子设备及其语音识别方法和介质 | |
WO2021013255A1 (zh) | 一种声纹识别方法及装置 | |
US10916249B2 (en) | Method of processing a speech signal for speaker recognition and electronic apparatus implementing same | |
CN110660398B (zh) | 声纹特征更新方法、装置、计算机设备及存储介质 | |
CN110364156A (zh) | 语音交互方法、***、终端及可读存储介质 | |
EP4002363A1 (en) | Method and apparatus for detecting an audio signal, and storage medium | |
CN112307451A (zh) | 一种多模态身份识别方法及设备 | |
WO2022199405A1 (zh) | 一种语音控制方法和装置 | |
KR20140067687A (ko) | 대화형 음성인식이 가능한 차량 시스템 | |
CN118197323A (zh) | 一种语音交互方法及相关电子设备 | |
CN111835522A (zh) | 一种音频处理方法及装置 | |
CN113299309A (zh) | 语音翻译方法及装置、计算机可读介质和电子设备 | |
CN108174030B (zh) | 定制化语音控制的实现方法、移动终端及可读存储介质 | |
WO2022233239A1 (zh) | 一种升级方法、装置及电子设备 | |
CN115019806A (zh) | 声纹识别方法和装置 | |
CN114093368A (zh) | 跨设备声纹注册方法、电子设备及存储介质 | |
CN115035886B (zh) | 声纹识别方法及电子设备 | |
CN113066501B (zh) | 语音启动终端的方法及装置、介质和电子设备 | |
WO2023065854A1 (zh) | 分布式语音控制方法及电子设备 | |
CN117953872A (zh) | 语音唤醒模型更新方法、存储介质、程序产品及设备 | |
CN116189718A (zh) | 语音活性检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |