CN115035886A - 声纹识别方法及电子设备 - Google Patents

声纹识别方法及电子设备 Download PDF

Info

Publication number
CN115035886A
CN115035886A CN202111094139.3A CN202111094139A CN115035886A CN 115035886 A CN115035886 A CN 115035886A CN 202111094139 A CN202111094139 A CN 202111094139A CN 115035886 A CN115035886 A CN 115035886A
Authority
CN
China
Prior art keywords
electronic device
voice signal
voiceprint information
signal
voiceprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111094139.3A
Other languages
English (en)
Other versions
CN115035886B (zh
Inventor
孙运平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202111094139.3A priority Critical patent/CN115035886B/zh
Publication of CN115035886A publication Critical patent/CN115035886A/zh
Application granted granted Critical
Publication of CN115035886B publication Critical patent/CN115035886B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephone Function (AREA)

Abstract

本申请提供一种声纹识别方法及电子设备。该方法包括:电子设备在接收到目标语音信号和第一肌肉振动信号之后,对目标语音信号分离得到第一语音信号和第二语音信号。两个语音信号分别与第一肌肉振动信号进行参数提取和计算,分别得到第一声纹信息和对应的置信度,以及,第二声纹信息和对应的置信度。将两个声纹信息对应的置信度分别与注册声纹置信度临界值做比较,可以得到第一声纹信息属于注册用户,也可以得到第二声纹信息不属于注册用户。最后将属于注册用户的第一声纹信息对应的第一语音信号,发送至另一电子设备。从而在注册用户正确佩戴可穿戴电子设备情境下,在语音信号与肌肉振动信号共同作用下,判断出哪一个语音信号是注册用户发出的。

Description

声纹识别方法及电子设备
技术领域
本申请涉及可穿戴电子设备领域,尤其涉及一种声纹识别方法及电子设备。
背景技术
随着可穿戴电子设备的功能技术的发展,可穿戴电子设备在游戏、娱乐、教育等多个领域都得到了广泛应用。作为可穿戴电子设备技术领域的发展核心,精准的识别声音信息,对于可穿戴电子设备与各类终端或显示设备结合使用具有显著意义,可使得用户在使用可穿戴电子设备时,具有更好的使用体验。
目前的可穿戴电子设备的声音识别技术包括应用麦克风采集声音信息,可穿戴电子设备的应用范围较广,例如,可穿戴电子设备能够与手机互联,通过可穿戴电子设备识别用户的声音指令,进而将该声音指令发送至手机,手机接收该声音指令后可以进行一系列的操作。然而,用户在实际应用可穿戴电子设备的过程中,无法控制周边的环境,身处嘈杂环境或多人声环境的情况时有发生,现有的可穿戴电子设备在这些环境下会出现设备唤醒率低,需要多次提高音量唤醒,或者出现非用户本人误唤醒的事件。
发明内容
为了解决上述技术问题,本申请提供一种声纹识别方法及电子设备。该方法通过电子设备根据接收到的语音信号和肌肉振动信号,获取声纹信息,并根据声纹信息与注册声纹置信度临界值做比较,确定是否为注册用户的声纹信息,并将确定是注册用户的声纹信息所对应的语音信号发送至另一电子设备,能够提高电子设备的唤醒率,降低误唤醒率,提升用户使用体验。
第一方面,本申请提供一种声纹识别方法。该方法包括:电子设备获取目标语音信号和第一肌肉振动信号,目标语音信号包括第一语音信号和第二语音信号。电子设备对目标语音信号进行分离,得到第一语音信号和第二语音信号。接着,基于第一语音信号与第一肌肉振动信号,电子设备获取第一声纹信息。以及,基于第二语音信号与第一肌肉振动信号,电子设备获取第二声纹信息。进一步的,基于第一声纹信息,电子设备获取第一声纹信息的置信度。以及,基于第二声纹信息,电子设备获取第二声纹信息的置信度。电子设备检测到第一声纹信息的置信度大于或者等于注册声纹置信度临界值,确定第一声纹信息属于注册用户。电子设备检测到第二声纹信息的置信度小于注册声纹置信度临界值,确定第二声纹信息不属于注册用户。最后,电子设备将第一声纹信息对应的第一语音信号,发送至另一电子设备。这样,在第一肌肉振动信号的协助下,第一肌肉振动信号与各语音信号的结合,能够获得不同的声纹信息。不同的声纹信息中只有属于注册用户的语音信号和属于注册用户的肌肉振动信号共同形成的声纹信息,才会在声纹判断过程中,通过与注册声纹置信度临界值的比较,得到该声纹信息属于注册用户的结论,即,能够找到属于注册用户的声纹信息。
示例性的,第一语音信号、第二语音信号和第一肌肉振动信号可以是同时接收到,也可以是有先有后。各信号之间被接收的先后顺序不做限定。
示例性的,第一语音信号和第一肌肉振动信号可以是注册用户发出;第二语音信号可以是由第一用户发出。第一用户可以是一个用户,也可以是两个或者多个用户的声音。
示例性的,另一电子设备可以是可穿戴电子设备,也可以是手机。
示例性的,对于声纹信息的生成步骤中,可以先计算第一声纹信息,也可以先计算第二声纹信息,两者也可以同时进行。本申请对于各声纹信息的计算时序不做限定。
根据第一方面,在将第一声纹信息对应的第一语音信号发送至另一电子设备的步骤之前,方法还包括:电子设备滤除第二声纹信息对应的第二语音信号。这样,滤除第二语音信号后,目标语音信号中只保留了第一语音信号,从而得到纯净语音环境,电子设备将只属于注册用户的第一语音信号发送至另一电子设备,以使两个电子设备之间在通讯过程中所交互的语音数据更加清晰,能够提升用户的体验感。
根据第一方面,或者以上第一方面的任意一种实现方式,在获取目标语音信号和第一肌肉振动信号的步骤之前,电子设备处于熄屏状态,方法还包括:电子设备获取第三语音信号和第二肌肉振动信号。基于第三语音信号与第二肌肉振动信号,电子设备获取第三声纹信息。接着,基于第三声纹信息,电子设备获取第三声纹信息的置信度。之后,当电子设备检测到第三声纹信息的置信度大于或者等于注册声纹置信度临界值,确定第三声纹信息属于注册用户,电子设备显示桌面。当电子设备检测到第三声纹信息的置信度小于注册声纹置信度临界值,确定第三声纹信息不属于注册用户,电子设备仍处于熄屏状态。这样,本申请的电子设备,示例性的,本申请的电子设备可以是可穿戴电子设备或者手机,在未使用状态下,一直处于熄屏状态,当接收到用户说出唤醒词的第三语音信号和第二肌肉振动信号后,通过两种信号获取该用户的声纹信息。接着,通过声纹比对的方式,电子设备可以确认该声纹信息属于注册用户的声纹信息,进而,电子设备解锁,并显示桌面。或者,通过声纹比对的方式,电子设备可以确认声纹信息不属于注册用户的声纹信息,进而,电子设备仍处于熄屏状态。采用这样声纹识别方法,可以降低电子设备的误唤醒率,提升用户的体验感。
示例性的,第三语音信号和第二肌肉振动信号可以是同时接收到,也可以是有先有后。各信号之间被接收的先后顺序不做限定。
示例性的,电子设备熄屏状态为不显示桌面的状态。
示例性的,电子设备熄屏状态下可以进行各信号的接收、处理以及发送。
根据第一方面,或者以上第一方面的任意一种实现方式,在电子设备显示桌面的步骤之后,方法还包括:电子设备获取第四语音信号和第三肌肉振动信号,第四语音信号用于指示电子设备启动目标应用。基于第四语音信号和第三肌肉振动信号,电子设备启动目标应用。采用本申请的声纹识别方法,电子设备能够在接收到注册用户的指令类语音信号及肌肉振动信号后,电子设备执行指令。从而能够提升电子设备的唤醒效率,提升用户的体验感。
示例性的,第四语音信号和第三肌肉振动信号可以是同时接收到,也可以是有先有后。各信号之间被接收的先后顺序不做限定。
示例性的,本申请的第四语音信号和第三肌肉振动信号属于注册用户。
根据第一方面,或者以上第一方面的任意一种实现方式,在获取目标语音信号和第一肌肉振动信号的步骤之前,方法还包括:电子设备获取第五语音信号和第四肌肉振动信号。接着,基于第五语音信号与第四肌肉振动信号,电子设备获取注册声纹信息。之后,基于注册声纹信息,电子设备获取注册声纹置信度临界值。采用本申请的声纹识别方法,能够使电子设备持有者,也就是注册用户。在使用电子设备之前,能够在电子设备上预先存储属于注册用户的注册声纹信息。其中,注册声纹信息通过模型计算的统计方法,可以得到注册声纹置信度临界值。注册声纹置信度临界值可以作为上述任意一种实现方式中,涉及到的声纹比对过程中的参考依据。具体的,注册声纹信息是根据第五语音信号和第四肌肉振动信号得到的,在注册用户的肌肉振动信号的结合下,能够更加精准的得到属于注册用户的声纹信息,从而与其他声纹信息做区分。注册用户的声纹信息,可以理解为电子设备的持有者的专属ID信息。
根据第一方面,或者以上第一方面的任意一种实现方式,方法还包括:电子设备为可穿戴电子设备。
根据第一方面,或者以上第一方面的任意一种实现方式,方法还包括:可穿戴电子设备包括:麦克风和至少一个振动传感器;至少一个振动传感器对应用户颈部的肌肉振动热区贴合设置。
根据第一方面,或者以上第一方面的任意一种实现方式,方法还包括:获取目标语音信号和第一肌肉振动信号的方法包括:可穿戴电子设备通过麦克风采集目标语音信号;以及,可穿戴电子设备通过至少一个振动传感器采集所述第一肌肉振动信号。通过可穿戴电子设备上的至少一个振动传感器采集到用户说话时的肌肉振动信号,能够对肌肉振动信号与语音信号结合处理得到声纹信息,从而对不同声纹信息进行比对,并获得属于注册用户的声纹信息,该种用于识别声纹信息的方法有利于快速识别用户,同时,还能够提升电子设备的唤醒率,降低误唤醒率。
根据第一方面,或者以上第一方面的任意一种实现方式,方法还包括:电子设备为手机。
示例性的,电子设备也可以是平板、电脑等。
示例性的,电子设备可以从可穿戴电子设备端接收到上文的各信号,并对各信号进行处理。
根据第一方面,或者以上第一方面的任意一种实现方式,方法还包括:获取目标语音信号和第一肌肉振动信号的方法包括:手机接收可穿戴电子设备采集的目标语音信号和第一肌肉振动信号。能够实现如上的效果,此处不再赘述。
第二方面,本申请提供一种电子设备。该电子设备包括:存储器和处理器,存储器和处理器耦合。存储器存储有程序指令,程序指令由处理器执行时,使得电子设备执行如下步骤:获取目标语音信号和第一肌肉振动信号。之后,对目标语音信号进行分离,得到第一语音信号和第二语音信号。基于第一语音信号与第一肌肉振动信号,可以获取第一声纹信息。基于第二语音信号与第一肌肉振动信号,还可以获取第二声纹信息。基于第一声纹信息,进一步获取第一声纹信息的置信度。基于第二声纹信息,进一步获取第二声纹信息的置信度。当检测到第一声纹信息的置信度大于或等于注册声纹置信度临界值,确定第一声纹信息属于注册用户。当检测到第二声纹信息的置信度小于注册声纹置信度临界值,确定第二声纹信息不属于注册用户。最后,将第一声纹信息对应的第一语音信号,发送至另一电子设备。
根据第二方面,在将第一声纹信息对应的第一语音信号,发送至另一电子设备的步骤之前,程序指令由处理器执行时,使得电子设备执行如下步骤:滤除第二声纹信息对应的第二语音信号。
根据第二方面,或者以上第二方面的任意一种实现方式,在获取目标语音信号和第一肌肉振动信号的步骤之前,程序指令由处理器执行时,使得电子设备执行如下步骤:获取第三语音信号和第二肌肉振动信号。基于第三语音信号与第二肌肉振动信号,可以获取第三声纹信息。基于第三声纹信息,进一步获取第三声纹信息的置信度。当检测到第三声纹信息的置信度大于或者等于注册声纹置信度临界值,确定第三声纹信息属于注册用户,电子设备显示桌面。当检测到第三声纹信息的置信度小于注册声纹置信度临界值,确定第三声纹信息不属于注册用户,电子设备仍处于熄屏状态。
根据第二方面,或者以上第二方面的任意一种实现方式,在电子设备显示桌面的步骤之后,程序指令由处理器执行时,使得电子设备执行如下步骤:获取第四语音信号和第三肌肉振动信号,其中,第四语音信号用于指示电子设备启动目标应用。基于第四语音信号和第三肌肉振动信号,启动目标应用。
根据第二方面,或者以上第二方面的任意一种实现方式,在获取目标语音信号和第一肌肉振动信号的步骤之前,程序指令由处理器执行时,使得电子设备执行如下步骤:获取第五语音信号和第四肌肉振动信号。基于第五语音信号与第四肌肉振动信号,可以获取注册声纹信息。基于注册声纹信息,进一步获取注册声纹置信度临界值。
根据第二方面,或者以上第二方面的任意一种实现方式,所述电子设备可以为可穿戴电子设备。
根据第二方面,或者以上第二方面的任意一种实现方式,所述可穿戴电子设备可以包括:麦克风和至少一个振动传感器。其中,所述至少一个振动传感器对应用户颈部的肌肉振动热区贴合设置。
根据第二方面,或者以上第二方面的任意一种实现方式,所述程序指令由所述处理器执行时,使得所述可穿戴电子设备执行如下步骤:所述获取目标语音信号和第一肌肉振动信号的方法包括通过所述麦克风采集所述目标语音信号。以及,通过所述至少一个振动传感器采集所述第一肌肉振动信号。
根据第二方面,或者以上第二方面的任意一种实现方式,所述电子设备为手机。
根据第二方面,或者以上第二方面的任意一种实现方式,所述程序指令由所述处理器执行时,使得所述电子设备执行如下步骤:所述获取目标语音信号和所述第一肌肉振动信号的方法包括接收可穿戴电子设备采集的所述目标语音信号和所述第一肌肉振动信号。
第二方面以及第二方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第二方面以及第二方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第三方面,本申请提供了一种计算机可读介质,用于存储计算机程序,该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的指令。
第四方面,本申请提供一种芯片。包括:一个或多个处理电路和一个或多个收发管脚;其中,收发管脚和处理电路通过内部连接通路互相通信,处理电路执行第一方面或第一方面的任意可能的实现方式中的方法的指令,以控制接收管脚接收信号,以控制发送管脚发送信号。
第五方面,本申请提供了一种计算机程序,该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的指令。
附图说明
图1是示例性示出的电子设备的结构示意图;
图2是示例性示出的电子设备的佩戴示意图一;
图3是示例性示出的电子设备的佩戴示意图二;
图4是示例性示出的电子设备的佩戴示意图三;
图5是示例性示出的电子设备的软件结构示意图;
图6是示例性示出的手机与电子设备交互时的一个应用场景示意图;
图7是示例性示出的手机与电子设备交互时的一个流程示意图;
图8是示例性示出的又一个应用场景示意图;
图9是示例性示出的手机与电子设备交互时的又一个流程示意图;
图10是示例性示出的手机与电子设备交互时的又一个流程示意图;
图11是示例性示出的手机与电子设备交互时的又一个流程示意图;
图12是示例性示出的手机与电子设备交互时的又一个流程示意图;
图13是示例性示出的手机与电子设备交互时的又一个流程示意图;
图14是示例性示出的又一个应用场景图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本申请保护的范围。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
本申请实施例的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一目标对象和第二目标对象等是用于区别不同的目标对象,而不是用于描述目标对象的特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
本申请实施例的描述中,以可穿戴电子设备和手机为例进行说明,在其他实施例中,本申请同样适用于大屏、膝上型计算机、桌上型计算机、掌上型计算机(如平板电脑、智能手机等)等电子设备与智能穿戴设备(如智能颈环、智能颈部耳机等)等电子设备的连接场景。
如图1所示,为本申请实施例的手机的硬件结构示意图,或者,也可以为本申请实施例的可穿戴电子设备的硬件结构示意图,下面以电子设备100为手机进行硬件结构的描述。电子设备100可以包括:处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriberidentification module,SIM)卡接口195等。
示例性的,音频模块170可以包括扬声器170A,受话器170B,麦克风170C,耳机接口170D等。
示例性的,传感器模块180可以包括压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等;本申请实施例中,传感器模块180还可以包括振动传感器。
此外,处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。
可理解的,在具体的电子设备中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
此外,在一些实施例中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
此外,处理器110中的存储器主要用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wireless local area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星***(global navigation satellitesystem,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near fieldcommunication,NFC),红外技术(infrared,IR)等无线通信的解决方案。
在一些实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行电子设备100的各种功能应用以及数据处理。例如:处理器110通过执行内部存储器121中存储的指令,从而能够使得电子设备100执行本申请实施例提供的声纹识别方案。
此外,需要说明的,在具体实现中,内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作***,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flashstorage,UFS)等。
电子设备100可以通过音频模块170中包括的扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能,例如扬声器170A可以用于播放音乐,受话器170B可以用于录音,麦克风170C可以用于采集语音信号等。
骨传导传感器可以获取振动信号。在一些实施例中,骨传导传感器可以获取人体声部振动骨块的振动信号。骨传导传感器也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器也可以设置于耳机中,结合成骨传导耳机。音频模块170可以基于所述骨传导传感器获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器获取的血压跳动信号解析心率信息,实现心率检测功能。具体的,在一些实施例中,骨传导传感器可以为振动传感器,用于采集声带外周的肌肉振动信号。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
此外,电子设备100中的按键190包括开机键,音量键等。
需要说明的是,图1所示电子设备100仅是电子设备的一个范例,在具体实现中,电子设备100可以具有比图中所示的更多的或者更少的部件,可以组合两个或多个的部件,或者可以具有不同的部件配置。图1中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
此外,需要说明的是,关于上述所描述的电子设备100的硬件结构,可以是本申请实施例中涉及的手机,例如可以是手机的硬件结构,也可是本申请实施例中涉及的可以同时采集语音信号以及肌肉振动信号的可穿戴电子设备,例如可以是蓝牙耳机、智能穿戴(如智能手表)、颈带项圈等,此次不再一一列举,本申请对此也不做限制。
以下结合图2-图4对可穿戴电子设备进行描述。可穿戴电子设备的硬件结构可以包括上述的电子设备100的硬件结构。示例性的,可穿戴电子设备可以包括受话器170B和麦克风170C。可穿戴电子设备还可以包括振动传感器,振动传感器可以设置至少一个。
示例性的,本申请实施例中的可穿戴电子设备可以是颈部穿戴式蓝牙耳机。参见图2,为用户佩戴颈部穿戴式蓝牙耳机的示意图。结合用户发声的部位,图2中颈部虚线所示区域为人说话时,声带振动带动外周的肌肉随之振动的肌肉振动热区。可穿戴电子设备上用于环绕且朝向颈部的一侧设置有第一区域和与第一区域隔离设置的第二区域,第一区域内设置有第一振动传感器,第二区域内设置有第二振动传感器。当用户将可穿戴电子设备佩戴在颈部时,第一区域和第二区域分别能够与用户的颈部贴合,以能够确保各振动传感器的感应范围包含于肌肉振动热区。示例性的,参见图2,为用户佩戴穿戴式蓝牙耳机的示意图。
示例性的,参见图3,为用户佩戴开口式颈部穿戴设备的示意图。示例性的,开口式颈部穿戴设备上用于环绕且朝向颈部的一侧设置有第三区域和与第三区域间隔设置的第四区域,第三区域和第四区域分别贴合于用户颈部的靠近喉咙的两侧,并且,贴合的位置位于肌肉振动热区内,第三区域和第四区域内分别设置有第三振动传感器和第四振动传感器。
示例性的,参见图4,为用户佩戴闭环式项圈的示意图。示例性的,闭环式项圈上环绕颈部的位置上相互间隔设置有第五区域、第六区域和第七区域,其中,第六区域贴合于颈部的靠近喉咙的位置,第五区域和第七区域分别贴合于喉咙的两侧,贴合的位置均位于肌肉振动热区内,第五区域、第六区域和第七区域内分别设置有第五振动传感器、第六振动传感器和第七振动传感器。
具体的,振动传感器的布放位置,可以通过用户体验设计,以及结合历史颈带产品的用户大数据,得到用户颈部接触部位热区。示例性的,用户颈部接触部位热区包含于肌肉振动热区;对振动传感器的布放数量不做限定,可以根据产品的定位以及期望达到的效果来设定。示例性的,以上各情景下的各振动传感器的布放位置,越靠近用户的喉咙贴合,采集到的肌肉振动信号的信号越强。
基于以上的可穿戴电子设备,可以通过振动传感器采集用户说话时的肌肉振动信号,可以通过麦克风170C采集用户说话时的语音信号。采集到的肌肉振动信号和语音信号可以发送至手机进行相应处理。下面结合图5对电子设备100的软件结构进行描述。在对电子设备100的软件结构进行说明之前,首先对电子设备100的软件***可以采用的架构进行说明。
具体的,在实际应用中,电子设备100的软件***可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。
此外,可理解的,目前主流的电子设备使用的软件***包括但不限于Windows***、Android***和iOS***。为了便于说明,本申请实施例以分层架构的Android***为例,示例性说明电子设备100的软件结构。
此外,后续关于本申请实施例提供的声纹识别方案的描述,涉及的可穿戴电子设备及手机,本申请均以Android***为例。但在具体实现中,本申请实施例提供的声纹识别方案同样适用于其他***。
参见图5,为本申请实施例的电子设备100的软件结构框图。
如图5所示,电子设备100的分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android***分为三层,从上至下分别为应用程序层,应用程序框架层以及内核层,参见图5。
其中,应用程序层可以包括一系列应用程序包。如图5所示,应用程序包可以包括应用市场,通话,导航,蓝牙,Wi-Fi,设置等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。
其中,应用程序框架层包括一些预先定义的函数。如图5所示,应用程序框架层可以包括前端处理模块、融合特征提取模块、声纹打分判断模块、语音识别解析模块、通话模块等。
需要说明的是,关于图5中示出的位于应用程序框架层中预先定义的函数,具体是实现本申请实施例提供的声纹识别方案所涉及的,在具体实现中,应用程序框架层还可以根据实际的业务需求包括其他预先定义的函数,如用于提供电子设备100的通信功能的电话管理器,以实现对电子设备100的通话状态的管理(接通、挂断等),还可以包括为应用程序提供各种资源,如本地化字符串、图标、图片、布局文件、视频文件等的资源管理器,本申请对此不做限制。
此外,可理解的,Android***中的内核层是硬件和软件之间的层。内核层至少包含显示驱动、Wi-Fi驱动、蓝牙驱动、音频驱动、传感器驱动。
需要说明的是,图5示出的软件结构中的层以及各层中包含的部件,并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的层,以及每个层中可以包括更多或更少的部件,本申请不做限定。
为了更好的说明本申请实施例提供的声纹识别方法的实现流程,本申请实施例以可穿戴电子设备和手机的交互流程为例,参考图6,可穿戴电子设备与手机进行蓝牙连接。
在蓝牙连接状态下,通过以下几个场景对本申请实施例提供的声纹识别方案进行说明。需要指出的是,声纹识别方案可以包括声纹注册方法、注册用户声纹确定法以及声纹滤噪方法等。
下面结合图7、图8对本申请实施例提供的声纹注册方法进行详细说明。为了更好的理解声纹注册方案,下面以用户首次使用可穿戴电子设备为场景,且用户正确佩戴可穿戴电子设备为前提,即,可穿戴电子设备上配置有振动传感器的位置能够与颈部上喉咙外周的肌肉振动热区贴合。参考图7和图8对声纹识别方案中的声纹注册方案进行描述。
请参照图7,具体包括:
S101a,可穿戴电子设备内的采集模块采集语音信号。
示例性的,如图8所示,可穿戴电子设备通过麦克风采集语音信号。示例性的,本申请实施例中的语音信号可以为产品设定的特定唤醒词,例如“我的荣耀”。通过特定唤醒词进行特定用户的声纹注册,其中,特定用户指可穿戴电子设备的注册用户。
示例性的,本申请实施例的各语音信号和各肌肉振动信号可以是同时采集的,也可以是先后采集的。本实施例对各语音信号和各肌肉振动信号的采集时序不做限定。
S101b,可穿戴电子设备发送语音信号至手机的前端处理模块。
具体的,基于可穿戴电子设备与手机之间的蓝牙连接,可穿戴电子设备将语音信号的数据发送给手机。
示例性的,本申请实施例的各语音信号和各肌肉振动信号可以是同时发送的,也可以是先后发送的。本实施例对各语音信号和各肌肉振动信号的发送时序不做限定。
示例性的,本申请实施例的各语音信号和各肌肉振动信号可以是同时接收的,也可以是先后接收的。本实施例对各语音信号和各肌肉振动信号的接收时序不做限定。
S102a,可穿戴电子设备内的采集模块采集肌肉振动信号。
请参考图8,可穿戴电子设备通过振动传感器或者骨传导传感器采集肌肉振动信号。
示例性的,本申请实施例中的肌肉振动信号,可以为用户发出特定唤醒词的声音时的肌肉振动信号。
S102b,可穿戴电子设备将S102a采集到的肌肉振动信号发送至手机的前端处理模块。
具体的,基于可穿戴电子设备与手机之间的蓝牙连接,可穿戴电子设备将肌肉振动信号的数据发送给手机。示例性的,可穿戴设备向电子设备发送请求消息(也可以称为目标信号、请求信息等),请求消息中包括语音信号和肌肉振动信号,用于请求电子设备对语音信号和肌肉振动信号进行处理。
S103,手机对接收到的语音信号和肌肉振动信号进行降噪处理。具体的,经由降噪处理后,得到降噪后的语音信号和肌肉振动信号。
示例性的,手机中的前端处理模块对接收到的语音信号和肌肉振动信号进行降噪处理。降噪处理包括但不限于:环境噪音滤除。示例性的,环境噪音滤除可以通过前端降噪算法实现。示例性的,前端降噪算法可以是典型的LMS自适应滤波算法及其改进算法、谱减法、维纳滤波降噪算法等方法。本申请实施例对前端降噪算法不做限定,只要能够实现降噪效果即可。本申请实施例对语音信号及肌肉振动信号的降噪计算的顺序不做限定。可穿戴电子设备发送来的语音信号和肌肉振动信号,经过降噪算法处理后,可以有效去除信号中的噪声成分,获取信噪比更高的有用信号。
S104,前端处理模块发送降噪后的语音信号和肌肉振动信号至融合特征提取模块。
示例性的,前端处理模块位于手机中,融合特征提取模块位于云端服务器中,前端处理模块与融合特征提取模块可以通过云端局域网传输降噪后的语音信号和肌肉振动信号数据。
S105,提取特征参数,进行模型计算。具体的,对降噪后的语音信号和肌肉振动信号提取特征参数,进行模型计算。
具体的,特征参数包括从说话人的语音信号及振动信号中提取出能表征说话人特定器官结构或习惯行为的特征参数。特征参数由于个体差异导致个体的声音特征参数不同。例如声腔的尺寸不同,具体包括咽喉、鼻腔和口腔等,这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。因此不同的人虽然说同样的话,但是声音的频率分布是不同的,听起来有的低沉有的洪亮。每个人的发声腔都是不同的,就像指纹一样,每个人的声音也就有独特的特征。发声器官***纵的方式不同,发声器官包括唇、齿、舌、软腭及腭肌肉等,他们之间相互作用就会产生清晰的语音。而他们之间的协作方式是人通过后天与周围人的交流中随机学习到的。人在学习说话的过程中,通过模拟周围不同人的说话方式,就会逐渐形成自己的声纹特征。示例性的,特征参数提取的方法很多。示例性的,特征参数可以采用信号频谱参数提取,如提取基音频谱及其轮廓、基音帧的能量,基音共振峰的出现频率等参数特征。示例性的,特征参数也可以采用线性预测参数方法提取。示例性的,也可以采用已有的数学模型,用相应的逼近参数来估计信号特征。如线性预测倒谱(LPCC)、Mel频率倒谱(MFCC)等不同方法进行特征系数提取。
进一步的,模型计算包括模式匹配识别相关技术。模式匹配识别相关技术包括获取到特征参数的基础上,将待识别的特征参数与训练学习时得到的模型库做匹配,从而判断输出可能结果中最好的结果。示例性的,模式匹配识别相关技术可以应用支持向量机(SVM)等的矢量化模型。示例性的,模式匹配识别相关技术可以应用隐马尔可夫模型(HMM)或高斯混合模型(GMM)等的随机模型。示例性的,模式匹配识别相关技术可以应用神经网络模型。本申请实施例对模式匹配识别相关技术的特征提取的方法不做具体限定。
S106,获取注册声纹信息。
示例性的,提取得到的特征参数以一定的形式保存下来,以使特征参数形成固定的说话人的声纹信息。声纹信息的体现方式与S105应用的模型不同而有所区别。示例性的,声纹信息可以是以数字组合的形式体现。本申请实施例对声纹信息的体现形式不做限定。
综上,手机内可以成功保存注册声纹信息。需要指出的是,以上的注册声纹信息的生成过程可以在安静环境下操作,并且,振动传感器能够识别到注册用户喉咙外周的肌肉振动信号。
注册声纹信息成功生成后,可以进行后续的功能使用。下面以可穿戴电子设备与手机保持蓝牙连接状态为前提,且手机处于熄屏状态。示例性的,手机处于熄屏状态时,手机不显示桌面,可以进行信号的接收、处理和发送。请参考图9,对用户如何唤醒手机的流程进行描述,即对注册声纹确定法的具体方案进行描述。
S201a,可穿戴电子设备内的采集模块采集语音信号。
具体内容可参照S101a中的描述。示例性的,本实施例中的语音信号可以为用户说到“解锁”时的语音信号。
S201b,可穿戴电子设备发送语音信号至手机的前端处理模块。
具体内容可参照S101b中的内容。
S202a,可穿戴电子设备内的采集模块采集肌肉振动信号。
具体内容可参照S102a中的内容。示例性的,本实施例中的肌肉振动信号可以为用户说到“解锁”时的肌肉振动信号。
S202b,可穿戴电子设备将S202a采集到的肌肉振动信号发送至手机的前端处理模块。
具体内容参照S102b中的内容。
S203,前端处理模块对接收的语音信号和肌肉振动信号进行降噪处理。
具体内容参照S103中的内容。
S204,前端处理模块发送降噪后的语音信号和肌肉振动信号至手机内的融合特征提取模块。具体内容参照S104中的内容。
S205,提取特征参数,进行模型计算。
示例性的,在融合特征提取模块中,对接收到的降噪后的语音信号和肌肉振动信号提取特征参数,进行模型计算。特征参数的提取方式及模型参考依据与S105相同,此处不做限定,只要能够实现对说话人的特征参数的提取并获取声纹信息即可。
S206,获取第一声纹信息。
具体的,第一声纹信息为当前用户的声纹信息,第一声纹信息的体现形式与S106中的注册用户的声纹信息的体现形式相同,在此不做赘述。
S207,融合特征提取模块发送第一声纹信息至声纹打分判断模块。
示例性的,融合特征提取模块和声纹打分判断模块均可以位于云端服务器内,两者之间的数据传输可以在云端服务器内实现。
S208,检测到第一声纹信息的置信度得分大于或者等于注册声纹置信度临界值。
具体的,在声纹打分判断模块中,将当前用户的第一声纹信息,与注册用户的声纹信息进行比较,其中最为常见的为对置信度的比较。置信度也称为可靠度或置信水平、置信系数,即在抽样对总体参数作出估计时,由于样本的随机性,其结论总是不确定的。因此,采用一种概率的陈述方法,也就是数理统计中的区间估计法,即估计值与总体参数在一定允许的误差范围以内,其相应的概率有多大,这个相应的概率称作置信度。
一个示例中,如果第一声纹信息的置信度得分大于或者等于注册声纹置信度临界值,执行S209。
另一个示例中,如果第一声纹信息的置信度得分小于注册声纹置信度临界值,则第一声纹信息与注册用户的声纹信息之间的差异较大,第一声纹信息不属于注册用户,不执行S209。
示例性的,声纹打分判断模块可以采用高斯混合模型(GMM)和隐马尔科夫模型(HMM)。对声纹打分判断模块内的模型计算不做限定,只要能够进行声纹的比较即可。示例性的,无论应用哪个模型,都会获取声纹的置信度,将第一声纹信息的置信度与注册用户的置信度临界值进行比较,当检测到第一声纹信息的置信度得分大于或者等于注册用户的置信度临界值,执行S209的步骤。
S209,确定当前用户属于注册用户。
具体的,由于检测到第一声纹信息的置信度得分大于或者等于注册用户的声纹信息的置信度得分,可以得出第一声纹信息属于注册用户,进一步得出当前用户为注册用户的结果。
S210,手机被唤醒。
具体的,手机解锁,例如可以显示桌面。在一些实施例中,手机也可以显示应用界面等,本申请不做限定
示例性的,当手机获取“确定当前用户属于注册用户”的信息后,手机解锁,并显示桌面,即手机被成功唤醒。
采用上述的注册用户声纹确定法能够确定当前佩戴可穿戴电子设备的用户是否为注册用户,当确定当前用户属于注册用户时,手机可以被唤醒,通过拾取的信号与注册用户的声纹信息进行匹配,用于是否为注册用户的声纹判断,融合了振动信号的声纹信息,有助于提高唤醒率,降低误闯率及误唤醒率。同时在融合的振动信号的声纹信息的作用下,识别用户指令并完成,能够防止录音攻击及合成语音攻击。
进一步通过可穿戴电子设备,手机可以识别及执行当前用户的后续指令,具体的,下面结合图10,以可穿戴电子设备与手机A保持蓝牙连接状态为场景,以当前用户为注册用户为前提,且当前用户正确佩戴可穿戴电子设备,以使可穿戴电子设备上的振动传感器能够采集喉咙外周的肌肉振动信号,可穿戴电子设备上的麦克风能够采集语音信号。下面以手机被唤醒后接收通话指令举例,对可穿戴电子设备、手机A、手机B的交互流程做详细描述。请参照图10,具体包括:
当前用户发出“打电话给手机B”的声音信号,此时,交互流程的具体步骤如下:
S301a,可穿戴电子设备内的采集模块采集语音信号。
具体的,如图8所示,可穿戴电子设备通过麦克风采集语音信号。示例性的,本申请实施例中的语音信号可以为执行指令类别的语音信号,例如“打电话给手机B”。
S301b,可穿戴电子设备发送语音信号至手机的前端处理模块。
具体内容参照S101b中的内容,其中语音信号的内容参照S301a。
S302a,可穿戴电子设备内的采集模块采集肌肉振动信号。
具体内容参照S102a中的内容,其中肌肉振动信号可以为发出S301a的语音信号时的肌肉振动信号。
S302b,可穿戴电子设备将S302a采集到的肌肉振动信号发送至手机A的前端处理模块。
具体内容参照S102b中的内容。
S303,手机A的前端处理模块对接收到的语音信号及肌肉振动信号进行降噪处理,得到降噪后的语音信号和肌肉振动信号。
示例性的,降噪处理的方法与S103中提及的方法相同,此处不做限定,只要能够实现降噪效果即可。
S304,手机A的前端处理模块发送降噪后的语音信号和肌肉振动信号至手机A的语音识别解析模块。
具体的,前端处理模块和语音识别解析模块均设置于手机A内,两者之间的信号传输通过电信号直接发送。
S305,识别并解析降噪后的语音信号和肌肉振动信号,得到指令信号。
具体的,在手机A的语音识别解析模块内对“打电话给手机B”的语音信号进行识别和解析后,得到具体的指令信号,以使该指令信号能够被指向手机A的通话模块。
S306,手机A的语音识别解析模块发送指令信号至手机A通话模块。
具体的,语音识别解析模块和通话模块均设置于手机A内,两者之间的信号传输通过电信号直接发送。
S307,交互语音数据。
示例性的,手机A的通话模块接收到“打电话给手机B”的指令信号后,进行拨号给手机B的操作,同时手机A与手机B交互语音数据。
采用上述的流程可以实现可穿戴电子设备对“打电话给手机B”的指令更加准确,从而使手机A能够准确执行打电话的动作,提高了可穿戴电子设备的采集信号的准确率,同时,提高了手机A被唤醒及进行指令识别的准确率。进一步的,当手机A处于通话过程时,可以对可穿戴电子设备采集的语音信号和肌肉震动信号进行滤除非注册用户声音的处理,即滤除注册用户以外的说话人的语音信号,下面结合图11对滤除非注册用户声音过程涉及的交互流程做描述。
当前用户发出“我想和你预约一下时间”的通话声音时,其所处环境内同一时刻也有其他用户发出的任意声音,为了确保通话内容能够被手机B清晰接收,手机A可以对同一时段的声音信息进行滤噪处理,将注册用户以外的声纹滤除,请参照图11,具体包括:
S401a,可穿戴电子设备内的采集模块采集语音信号。
具体内容参照S101a的内容。示例性的,语音信号可以为通话过程中的通话信息,例如“我想和你预约一下时间”。同时,本实施例的语音信号中还可以包括其他用户的语音。
S401b,可穿戴电子设备发送语音信号至手机的前端处理模块。
具体内容参照S101b的内容。
S402a,可穿戴电子设备内的采集模块采集肌肉振动信号。
具体内容参照S102a的内容。示例性的,肌肉振动信号可以为用户通话过程中说话时的肌肉振动信号,例如在说“我想和你预约一下时间”时的肌肉振动信号。
S402b,可穿戴电子设备将S402a采集到的肌肉振动信号发送至手机A的前端处理模块。
具体内容参照S102b的内容。
S403,通过分离技术,分离出多个语音音轨。
具体的,手机A的前端处理模块对接收到的语音信号及肌肉振动信号进行环境声音的降噪处理。示例性的,降噪处理的方法与S103中提及的方法相同,此处不做限定,只要能够实现降噪效果即可。示例性的,前端处理模块还能够将接收到的语音信号及肌肉振动信号通过分离技术将不同人的语音在不同的语音音轨中体现,例如当前用户在说出“我想和你预约一下时间”的时候,还有另外两个人发出了声音,并且被可穿戴电子设备的麦克风采集到,通过分离技术,该时段的语音可以被分成三个语音音轨,每个语音音轨对应其中一个人的语音信号。
S404,前端处理模块发送各语音音轨的语音信号至手机A的融合特征提取模块。
具体内容参照S104的内容。
S405,提取各语音信号的特征参数,进行模型计算。
示例性的,依据S403的举例,三个音轨分别对应三个人的语音信号。示例性的,三个音轨包括:第一语音音轨、第二语音音轨和第三语音音轨,三个人的语音信号包括:第一语音信号、第二语音信号和第三语音信号。其中,第一语音音轨对应第一语音信号,第二语音音轨对应第二语音信号,第三语音音轨对应第三语音信号。
示例性的,第一语音音轨对应的第一语音信号、第二语音音轨对应的第二语音信号、第三语音音轨对应的第三语音信号分别结合S402a采集到的肌肉振动信号,结合后分别进行特征参数的提取,以及模型计算,具体内容参照S105的内容,在此不做赘述。
S406,获取各声纹信息。
示例性的,基于S405的特征参数的提取及模型计算,分别获取与第一语音信号对应的第一声纹信息,与第二语音信号对应的第二声纹信息,以及,与第三语音信号对应的第三声纹信息。
示例性的,三个声纹信息可以是同时获取的,也可以是先后获取的,本申请实施例对于三个声纹信息的计算时序不做限定。
具体的,由于注册用户佩戴有可穿戴电子设备,且振动传感器是和注册用户的颈部紧贴,所以,注册用户的声纹信息是由注册用户的语音信号和肌肉振动信号共同处理得到,其中,肌肉振动信号只有与注册用户的语音信号结合进行特征参数提取,才能计算得到属于注册用户的声纹信息。即使其他用户的语音信号与注册用户的肌肉振动信号相结合,其特征参数提取的过程、计算的结果均与注册用户的不同,只会得到与注册用户的声纹信息不同的声纹信息。因而在肌肉振动信号的协作下,可以确保同一时段不会出现相同的声纹信息,因此,执行S407。
S407,融合特征提取模块发送各声纹信息至声纹打分判断模块。
具体内容参照S207的内容。
S408,声纹打分判断模块检测到其中一个声纹信息的置信度的值大于或者等于注册声纹置信度临界值。
具体内容参照S208的内容。示例性的,假设第一声纹信息的置信度大于注册声纹置信度临界值。
S409,确定该声纹信息属于注册用户。
具体的,基于S408的检测步骤,确定该其中一个声纹信息属于注册用户。示例性的,基于第一声纹信息的置信度大于注册声纹置信度临界值,确定第一声纹信息属于注册用户。
S410,声纹打分判断模块发送其中一个声纹信息为注册用户声纹信息至前端处理模块。
示例性的,声纹打分判断模块和前端处理模块可以均位于手机内,两者之间的数据传输可以直接通过电信号传输。
示例性的,声纹打分判断模块和前端处理模块也可以均位于云端服务器内,两者之间的数据传输可以在局域网内直接传输。
示例性的,依据S408的检测,其中一个声纹信息指第一声纹信息。
S411,从语音信号中滤除非注册用户的语音音轨。
示例性的,前端处理模块接收到“第一声纹信息为注册用户声纹信息”,进行滤除非注册用户的语音音轨的操作。示例性的,滤除非注册用户的语音音轨的操作可以包括清除注册声纹信息以外的声纹信息对应的语音音轨,从而只保留对应注册声纹信息的注册用户的语音音轨。示例性的,由于第一声纹信息为注册用户声纹信息,此步骤可以将第二声纹信息对应的第二语音音轨、第三声纹信息对应的第三语音音轨滤除,以保留第一声纹信息对应的第一语音音轨,第一语音音轨是承载第一语音信号的载体。
S412,生成纯净语音信号。
具体的,基于S411的滤除注册用户以外的声纹信息的操作,可以得到载有第一语音信号的第一语音音轨,进一步得到只有注册用户声纹信息的第一语音信号,以生成纯净语音信号。
S413,前端处理模块发送纯净语音信号至手机A的通话模块。
具体的,前端处理模块将S412的纯净语音信号发送至手机A的通话模块,以使手机A与其他手机之间进行纯净语音交互。
采用上述的流程可以实现通话过程中既可以滤除环境噪音,还可以滤除注册用户以外的说话人的声音,从而使通话环境更加干净,通话质量也能够提升,进而使通话效率增强,能够使与可穿戴电子设备连接的手机A将注册用户的通话声音准确传送至其他手机。
以上为确认当前用户为注册用户之后,涉及通话相关的信号处理流程,下面结合图12,以可穿戴电子设备与手机A保持蓝牙连接状态为场景,以当前用户为注册用户为前提,且当前用户正确佩戴可穿戴电子设备,以使可穿戴电子设备上的振动传感器能够采集喉咙外周的肌肉振动信号,可穿戴电子设备上的受话器或者麦克风能够采集语音信号。下面以手机被唤醒后接收打开手机内部其中一个应用程序做举例,对可穿戴电子设备、手机的交互流程做详细描述。请参照图12,具体包括:
当前用户发出“打开导航”的语音信号,此时,交互流程的具体步骤如下:
S501a,可穿戴电子设备内的采集模块采集语音信号。
具体内容参照S101a的内容。示例性的,语音信号可以为打开手机内的应用程序的指令信息,例如“打开导航”。
S501b,可穿戴电子设备发送语音信号至手机的前端处理模块。
具体内容参照S101b的内容。
S502a,可穿戴电子设备内的采集模块采集肌肉振动信号。
具体内容参照S102a的内容。示例性的,肌肉振动信号可以为用户通话过程中说话时的肌肉振动信号,例如在说“打开导航”时的肌肉振动指令信号。
S502b,可穿戴电子设备发送肌肉振动信号至手机的前端处理模块。
具体内容参照S102b的内容。
S503,手机的前端处理模块对接收到的语音信号和肌肉振动信号进行环境声音的降噪处理,得到降噪后的语音信号和肌肉振动信号。
具体内容参照S103的内容。示例性的,前端处理模块还可以与融合特征提取模块、声纹打分判断模块交互进行S406-S412的滤除非注册用户的语音信号的操作,得到纯净语音信号。
S504,前端处理模块发送降噪后的语音信号和肌肉振动信号至手机的语音识别解析模块。
具体内容参照S304的内容。
S505,识别并解析降噪后的语音信号和肌肉振动信号,得到指令信号。
示例性的,在手机的语音识别解析模块内对“打开导航”的语音信号及肌肉振动信号进行识别和解析,得到指令信号,以使该指令能够被指向手机的导航模块。
S506,手机的语音识别解析模块发送指令信号至手机的导航模块。
示例性的,语音识别解析模块和导航模块均可以位于手机内,两者之间的信号传输可以通过电信号直接发送。
S507,执行指令,打开导航。
示例性的,手机的导航模块接收到“打开导航”的指令信号后,导航模块执行指令,调取蜂窝数据并响应打开导航。
S508,手机的语音识别解析模块发送指令信号至手机的导航模块。
具体的,继续对可穿戴电子设备发出“导航到地点A”的语音信号,继续执行S501a-S505的步骤,得到“导航到地点A”的指令信号,语音识别解析模块发送指令信号至导航模块。
S509,执行指令,导航至目的地。
具体的,导航模块接收“导航至地点A”的指令信号,执行指令,导航至目的地“地点A”。示例性的,指令信息不限于“导航”两个字,也可以为“地点A在哪儿”、“去地点A怎么走”、“搜索地点A”、“地点A”等。只要能够识别目的地的名称即可识别导航指令。导航模块在导航过程中,会进行导航播报。
S510,导航模块发送导航播报信息至可穿戴电子设备,以使当前用户能够通过可穿戴电子设备听到导航模块的导航播报信息,使导航使用效果更加智能便捷。
在执行本实施例的“导航至地点A”的指令信号后,导航模块可以通过蜂窝网络或者无线网络即时搜索地点A的位置,此处与上述的“打电话给手机B”的处理过程不同,“打电话给手机B”的指令信号需要在通信网络下执行。
采用上述的流程可以使导航指令既可以滤除环境噪音,还可以滤除注册用户以外的说话人的声音,从而使发出的指令被准确识别。
基于以上均为注册用于正确佩戴可穿戴电子设备,且可穿戴电子设备与手机保持蓝牙连接状态,确定当前用户属于注册用户的前提下不同场景下的交互流程,下面结合图13,针对没有正确佩戴可穿戴电子设备的情况,手机处于熄屏状态,即使发出唤醒词的声音也不会唤醒手机的情况加以说明。请参照图13,具体包括:
S601,可穿戴电子设备内的采集模块采集语音信号。
具体内容参照S101a的内容。
S602,可穿戴电子设备发送语音信号至手机的前端处理模块。
具体内容参照S101b的内容。
S603,对接收的语音信号进行降噪处理。
具体的,前端处理模块对接收的语音信号进行降噪处理,得到降噪后的语音信号。
示例性的,降噪处理的方法与S103中提及的方法相同,此处不做限定,只要能够实现降噪效果即可。
S604,前端处理模块发送降噪后的语音信号至手机内的融合特征提取模块。
具体内容参照S104的内容。
S605,提取特征参数,进行模型计算。
具体的,在融合特征提取模块中,对接收到的语音信号提取特征参数,进行模型计算。特征参数的提取方式及模型参考依据与S105相同,此处不做限定,只要能够实现对说话人的特征参数的提取并获取声纹信息即可。
S606,获取第二声纹信息。
具体的,基于S605的计算结果,获取当前用户的声纹信息,即第二声纹信息。第二声纹信息的体现形式与S106中的注册用户的声纹信息的体现形式相同,在此不做限定。
S607,融合特征提取模块发送第二声纹信息至手机内的声纹打分判断模块。
具体内容参照S207的内容。
S608,检测到第二声纹信息的置信度得分小于注册用户置信度临界值。
具体的,在声纹打分判断模块中,将当前用户的第二声纹信息,与注册用户的声纹信息进行比较,检测到第二声纹信息的置信度得分小于注册用户的置信度临界值,在声纹打分判断模块中执行S609。
S609,确定第二用户不属于注册用户。
具体的,基于S608检测到第二声纹信息的置信度得分小于注册用户的置信度临界值,确定当前用户不属于注册用户。
S610,手机不被唤醒。具体的,手机仍处于熄屏状态。
具体的,基于S609的“确定当前用户不属于注册用户”,手机不被唤醒,手机始终处于熄屏状态。
以上可知,当用户没有正确佩戴可穿戴电子设备,即振动传感器没有位于前述的感应区域内时,振动传感器不能识别到肌肉振动信号,即使受话器或者麦克风识别到语音信号,在缺少肌肉振动信号的情况下,用户的语音信号对应的声纹信息与注册时带有肌肉振动信号和语音信号对应的声纹信息是不匹配的,因此,没有正确佩戴可穿戴电子设备情况下,终端是不会被唤醒的。
需要说明的是,本申请实施例中对信号进行处理的执行主体均为电子设备,例如手机。在其他实施例中,执行主体也可以是可穿戴电子设备。例如,可穿戴电子设备采集到语音信号和肌肉振动信号之后,可以对语音信号和肌肉振动信号进行相应处理,具体处理过程与上文实施例中手机的处理过程类似,本申请不再重复说明。
此外,需要说明的是,本申请实施例还提供一种电子设备100(具体为手机或者可穿戴电子设备),该电子设备包括存储器和处理器,所述存储器和所述处理器耦合;所述存储器存储有程序指令,所述程序指令由所述处理器执行时,使得所述电子设备执行上述相关方法步骤实现上述实施例中的声纹识别方法。
另外,本申请实施例还提供一种计算机可读存储介质,该计算机存储介质中存储有计算机指令,当该计算机指令在电子设备上运行时,使得电子设备执行上述相关方法步骤实现上述实施例中的声纹识别方法。
另外,本申请实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的声纹识别方法。
另外,本申请的实施例还提供一种芯片(也可以是组件或模块),该芯片可包括一个或多个处理电路和一个或多个收发管脚;其中,所述收发管脚和所述处理电路通过内部连接通路互相通信,所述处理电路执行上述相关方法步骤实现上述实施例中的声纹识别方法,以控制接收管脚接收信号,以控制发送管脚发送信号。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (22)

1.一种声纹识别方法,其特征在于,包括:
获取目标语音信号和第一肌肉振动信号;
对所述目标语音信号进行分离,得到第一语音信号和第二语音信号;
基于所述第一语音信号与所述第一肌肉振动信号,获取第一声纹信息;
基于所述第二语音信号与所述第一肌肉振动信号,获取第二声纹信息;
基于所述第一声纹信息,获取所述第一声纹信息的置信度;
基于所述第二声纹信息,获取所述第二声纹信息的置信度;
检测到所述第一声纹信息的置信度大于或者等于注册声纹置信度临界值,确定所述第一声纹信息属于注册用户;
检测到所述第二声纹信息的置信度小于所述注册声纹置信度临界值,确定所述第二声纹信息不属于注册用户;
将所述第一声纹信息对应的所述第一语音信号,发送至另一电子设备。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一声纹信息对应的第一语音信号,发送至另一电子设备的步骤之后,所述方法还包括:
滤除所述第二声纹信息对应的所述第二语音信号。
3.根据权利要求1所述的方法,其特征在于,所述获取目标语音信号和第一肌肉振动信号的步骤之前,电子设备处于熄屏状态,所述方法还包括:
获取第三语音信号和第二肌肉振动信号;
基于所述第三语音信号与所述第二肌肉振动信号,获取第三声纹信息;
基于所述第三声纹信息,获取所述第三声纹信息的置信度;
当检测到所述第三声纹信息的置信度大于或者等于所述注册声纹置信度临界值,确定所述第三声纹信息属于注册用户,所述电子设备显示桌面;
当检测到所述第三声纹信息的置信度小于所述注册声纹置信度临界值,确定所述第三声纹信息不属于所述注册用户,所述电子设备仍处于所述熄屏状态。
4.根据权利要求3所述的方法,其特征在于,所述电子设备显示桌面的步骤之后,所述方法还包括:
获取第四语音信号和第三肌肉振动信号,所述第四语音信号用于指示所述电子设备启动目标应用;
基于所述第四语音信号和所述第三肌肉振动信号,启动所述目标应用。
5.根据权利要求1-4任一项所述的方法,其特征在于,在获取目标语音信号和第一肌肉振动信号的步骤之前,所述方法还包括:
获取第五语音信号和第四肌肉振动信号;
基于所述第五语音信号与所述第四肌肉振动信号,获取注册声纹信息;
基于所述注册声纹信息,获取所述注册声纹置信度临界值。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述电子设备为可穿戴电子设备。
7.根据权利要求6所述的方法,其特征在于,所述可穿戴电子设备包括:
麦克风和至少一个振动传感器;所述至少一个振动传感器对应用户颈部的肌肉振动热区贴合设置。
8.根据权利要求7所述的方法,其特征在于,所述获取目标语音信号和第一肌肉振动信号的方法包括:
通过所述麦克风采集所述目标语音信号;以及,通过所述至少一个振动传感器采集所述第一肌肉振动信号。
9.根据权利要求1-5任一项所述的方法,其特征在于,所述电子设备为手机。
10.根据权利要求9所述的方法,其特征在于,所述获取目标语音信号和所述第一肌肉振动信号的方法包括:
接收可穿戴电子设备采集的所述目标语音信号和所述第一肌肉振动信号。
11.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器耦合;
所述存储器存储有程序指令,所述程序指令由所述处理器执行时,使得所述电子设备执行如下步骤:
获取目标语音信号和第一肌肉振动信号;
对所述目标语音信号进行分离,得到第一语音信号和第二语音信号;
基于所述第一语音信号与所述第一肌肉振动信号,获取第一声纹信息;
基于所述第二语音信号与所述第一肌肉振动信号,获取第二声纹信息;
基于所述第一声纹信息,获取所述第一声纹信息的置信度;
基于所述第二声纹信息,获取所述第二声纹信息的置信度;
检测到所述第一声纹信息的置信度大于或等于注册声纹置信度临界值,确定第一声纹信息属于注册用户;
检测到所述第二声纹信息的置信度小于所述注册声纹置信度临界值,确定第二声纹信息不属于注册用户;
将所述第一声纹信息对应的第一语音信号,发送至另一电子设备。
12.根据权利要求11所述的电子设备,其特征在于,在所述将所述第一声纹信息对应的第一语音信号,发送至另一电子设备的步骤之前,所述程序指令由所述处理器执行时,使得所述电子设备执行如下步骤:
滤除所述第二声纹信息对应的所述第二语音信号。
13.根据权利要求11或12所述的电子设备,其特征在于,在所述获取目标语音信号和第一肌肉振动信号的步骤之前,所述程序指令由所述处理器执行时,使得所述电子设备执行如下步骤:
获取第三语音信号和第二肌肉振动信号;
基于所述第三语音信号与所述第二肌肉振动信号,获取第三声纹信息;
基于所述第三声纹信息,获取所述第三声纹信息的置信度;
当检测到所述第三声纹信息的置信度大于或者等于所述注册声纹置信度临界值,确定所述第三声纹信息属于注册用户,电子设备显示桌面;
当检测到所述第三声纹信息的置信度小于所述注册声纹置信度临界值,确定所述第三声纹信息不属于所述注册用户,所述电子设备仍处于所述熄屏状态。
14.根据权利要求13所述的电子设备,其特征在于,在所述电子设备显示桌面的步骤之后,所述程序指令由所述处理器执行时,使得所述电子设备执行如下步骤:
获取第四语音信号和第三肌肉振动信号,所述第四语音信号用于指示所述电子设备启动目标应用;
基于所述第四语音信号和所述第三肌肉振动信号,启动所述目标应用。
15.根据权利要求11-14任一项所述的电子设备,其特征在于,在所述获取目标语音信号和第一肌肉振动信号的步骤之前,所述程序指令由所述处理器执行时,使得所述电子设备执行如下步骤:
获取第五语音信号和第四肌肉振动信号;
基于所述第五语音信号与所述第四肌肉振动信号,获取注册声纹信息;
基于所述注册声纹信息,获取所述注册声纹置信度临界值。
16.根据权利要求11-15任一项所述的电子设备,其特征在于,所述电子设备为可穿戴电子设备。
17.根据权利要求16所述的电子设备,其特征在于,所述可穿戴电子设备包括:
麦克风和至少一个振动传感器;所述至少一个振动传感器对应用户颈部的肌肉振动热区贴合设置。
18.根据权利要求17所述的电子设备,其特征在于,所述程序指令由所述处理器执行时,使得所述可穿戴电子设备执行如下步骤:所述获取目标语音信号和第一肌肉振动信号的方法包括通过所述麦克风采集所述目标语音信号;以及,通过所述至少一个振动传感器采集所述第一肌肉振动信号。
19.根据权利要求11-15任一项所述的电子设备,其特征在于,所述电子设备为手机。
20.根据权利要求19所述的电子设备,其特征在于,所述程序指令由所述处理器执行时,使得所述电子设备执行如下步骤:所述获取目标语音信号和所述第一肌肉振动信号的方法包括接收可穿戴电子设备采集的所述目标语音信号和所述第一肌肉振动信号。
21.一种计算机可读存储介质,包括计算机程序,其特征在于,当所述计算机程序在电子设备上运行时,使得所述电子设备执行如权利要求1至7任一项所述的声纹识别方法。
22.一种芯片,包括一个或多个处理电路和一个或多个收发管脚;其中,所述收发管脚和所述处理电路通过内部连接通路互相通信,所述处理电路执行权利要求1至7任一项所述的声纹识别方法,以控制接收管脚接收信号,以控制发送管脚发送信号。
CN202111094139.3A 2021-09-17 2021-09-17 声纹识别方法及电子设备 Active CN115035886B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111094139.3A CN115035886B (zh) 2021-09-17 2021-09-17 声纹识别方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111094139.3A CN115035886B (zh) 2021-09-17 2021-09-17 声纹识别方法及电子设备

Publications (2)

Publication Number Publication Date
CN115035886A true CN115035886A (zh) 2022-09-09
CN115035886B CN115035886B (zh) 2023-04-14

Family

ID=83118013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111094139.3A Active CN115035886B (zh) 2021-09-17 2021-09-17 声纹识别方法及电子设备

Country Status (1)

Country Link
CN (1) CN115035886B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190179594A1 (en) * 2017-12-07 2019-06-13 Motorola Mobility Llc Electronic Devices and Methods for Selectively Recording Input from Authorized Users
CN111475206A (zh) * 2019-01-04 2020-07-31 优奈柯恩(北京)科技有限公司 用于唤醒可穿戴设备的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190179594A1 (en) * 2017-12-07 2019-06-13 Motorola Mobility Llc Electronic Devices and Methods for Selectively Recording Input from Authorized Users
CN111475206A (zh) * 2019-01-04 2020-07-31 优奈柯恩(北京)科技有限公司 用于唤醒可穿戴设备的方法及装置

Also Published As

Publication number Publication date
CN115035886B (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
CN108615526B (zh) 语音信号中关键词的检测方法、装置、终端及存储介质
CN108363706A (zh) 人机对话交互的方法和装置、用于人机对话交互的装置
WO2022033556A1 (zh) 电子设备及其语音识别方法和介质
CN111131601B (zh) 一种音频控制方法、电子设备、芯片及计算机存储介质
CN108198569A (zh) 一种音频处理方法、装置、设备及可读存储介质
US20180054688A1 (en) Personal Audio Lifestyle Analytics and Behavior Modification Feedback
CN110364156A (zh) 语音交互方法、***、终端及可读存储介质
CN109040641A (zh) 一种视频数据合成方法及装置
CN110047468A (zh) 语音识别方法、装置及存储介质
CN112289325A (zh) 一种声纹识别方法及装置
US20240013789A1 (en) Voice control method and apparatus
CN114299933A (zh) 语音识别模型训练方法、装置、设备、存储介质及产品
CN110910876A (zh) 物品声寻装置及控制方法、语音控制设置方法和***
CN114067776A (zh) 电子设备及其音频降噪方法和介质
CN111081275B (zh) 基于声音分析的终端处理方法、装置、存储介质及终端
CN109670025A (zh) 对话管理方法及装置
CN115035886B (zh) 声纹识别方法及电子设备
CN113744736B (zh) 命令词识别方法、装置、电子设备及存储介质
CN115019806A (zh) 声纹识别方法和装置
CN109815806B (zh) 人脸识别方法及装置、计算机设备、计算机存储介质
EP3288035B1 (en) Personal audio analytics and behavior modification feedback
CN115273216A (zh) 目标运动模式的识别方法及相关设备
CN115249364A (zh) 一种目标用户确定方法、电子设备和计算机可读存储介质
CN115331672B (zh) 设备控制方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant