CN111341326A

CN111341326A - 语音处理方法及相关产品

Info

Publication number: CN111341326A
Application number: CN202010100865.0A
Authority: CN
Inventors: 蒋波
Original assignee: Realme Chongqing Mobile Communications Co Ltd
Current assignee: Realme Chongqing Mobile Communications Co Ltd
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2020-06-26
Anticipated expiration: 2040-02-18
Also published as: CN111341326B

Abstract

本发明实施例公开了一种语音处理方法及相关产品，其中方法应用于电子设备，该电子设备包括语音拾取器，该方法包括：在所述电子设备满足预设声纹验证条件时，通过所述语音拾取器采集待验证用户输入的待验证语音信号；确定所述待验证语音信号对应的语音文本；若预设语音样本库不包括所述语音文本，则根据所述语音文本，对预先存储的目标用户的第一声纹识别模型进行更新，得到第二声纹识别模型；将所述待验证语音信号输入至所述第二声纹识别模型，得到所述待验证用户和所述目标用户之间声纹特征的第一相似值；若所述第一相似值大于或等于第一阈值，则确定所述待验证用户为所述目标用户。采用本发明，可提高声纹识别的成功率。

Description

语音处理方法及相关产品

技术领域

本申请涉及电子设备技术领域，具体涉及一种语音处理方法及相关产品。

背景技术

声纹识别是一种利用声纹特征信息对未知用户进行身份确认的技术。声纹识别通常包括两个过程：目标用户的注册过程和未知用户的身份识别过程。在目标用户的注册过程中，电子设备会提供一个注册字符串供目标用户朗读。电子设备采集目标用户朗读时产生的注册语音信号，并根据注册语音信号训练得到目标用户的声纹识别模型。在未知用户的身份识别过程中，将未知用户朗读一个识别字符串时的待验证语音信号输入至声纹识别模型，以得到未知用户和目标用户之间声音特征的相似值。当相似值大于预设阈值时，将未知用户识别为目标用户。

然而，注册字符串通常为数字或字符，身份识别过程中用户朗读的识别字符串通常为语句。因此，识别字符串与注册字符串可能区别较大，易造成声纹识别失败的情况。

发明内容

本发明实施例提供一种语音处理方法及相关产品，可提高声纹识别的成功率。

第一方面，本申请实施例提供一种语音处理方法，应用于电子设备，所述电子设备包括语音拾取器，所述方法包括：

在所述电子设备满足预设声纹验证条件时，通过所述语音拾取器采集待验证用户输入的待验证语音信号；

确定所述待验证语音信号对应的语音文本；

若预设语音样本库不包括所述语音文本，则根据所述语音文本，对预先存储的目标用户的第一声纹识别模型进行更新，得到第二声纹识别模型；

将所述待验证语音信号输入至所述第二声纹识别模型，得到所述待验证用户和所述目标用户之间声纹特征的第一相似值；

若所述第一相似值大于或等于第一阈值，则确定所述待验证用户为所述目标用户。

第二方面，本申请实施例提供一种语音处理装置，应用于电子设备，所述电子设备包括语音拾取器，所述装置包括：

采集单元，用于在所述电子设备满足预设声纹验证条件时，通过所述语音拾取器采集待验证用户输入的待验证语音信号；

处理单元，用于确定所述待验证语音信号对应的语音文本；若预设语音样本库不包括所述语音文本，则根据所述语音文本，对预先存储的目标用户的第一声纹识别模型进行更新，得到第二声纹识别模型；将所述待验证语音信号输入至所述第二声纹识别模型，得到所述待验证用户和所述目标用户之间声纹特征的第一相似值；若所述第一相似值大于或等于第一阈值，则确定所述待验证用户为所述目标用户。

第三方面，本申请实施例提供一种电子设备，包括处理器、与所述处理器连接的语音拾取器和存储器，其中：

所述存储器，用于存储预设样本库和目标用户的第一声纹识别模型；

所述语音拾取器，用于在所述电子设备满足预设声纹验证条件时，采集待验证用户输入的待验证语音信号；

所述处理器，用于确定所述待验证语音信号对应的语音文本；若所述预设语音样本库不包括所述语音文本，则根据所述语音文本，对所述第一声纹识别模型进行更新，得到第二声纹识别模型；将所述待验证语音信号输入至所述第二声纹识别模型，得到所述待验证用户和所述目标用户之间声纹特征的第一相似值；若所述第一相似值大于或等于第一阈值，则确定所述待验证用户为所述目标用户；

所述存储器，还用于将存储的所述第一声纹识别模型更新为所述第二声纹识别模型。

第四方面，本申请实施例提供一种电子设备，包括处理器、通信接口、存储器以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，所述程序包括用于如第一方面中所描述的部分或全部步骤的指令。

第五方面，本申请实施例提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。

第六方面，本申请实施例提供了一种计算机程序产品，其中，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

在本申请实施例中，在电子设备满足预设声纹验证条件时，通过语音拾取器采集待验证用户输入的待验证语音信号。然后确定该待验证语音信号对应的语音文本。若预设语音样本库不包括该语音文本，则根据语音文本对预先存储的目标用户的第一声纹识别模型进行更新得到第二声纹识别模型。然后将待验证语音信号输入至第二声纹识别模型得到待验证用户与目标用户之间声纹特征的第一相似值。若第一相似值大于第一阈值，则确定待验证用户为目标用户。如此，在识别之前，先针对待验证用户输入的语音文本更新声纹识别模型，以学习不同的语音文本，可提高声纹识别的成功率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种电子设备的正面示意图；

图2为本发明实施例提供的一种电子设备的底部示意图；

图3为本发明实施例提供的一种语音处理方法的流程示意图；

图4为本发明实施例提供的另一种语音处理方法的流程示意图；

图5为本发明实施例提供的又一种语音处理方法的流程示意图；

图6为本发明实施例提供的一种电子设备的结构示意图；

图7为本发明实施例提供的一种语音处理装置的结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例所涉及到的电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(user equipment，UE)，移动台(mobile station，MS)，终端设备(terminaldevice)等等。为方便描述，上面提到的设备统称为电子设备。

请参阅图1，图1是本申请实施例提供了一种电子设备100的结构示意图。如图1所示，上述电子设备100包括：壳体110、设置于所述壳体110上的显示器120、设置于所述壳体110内的主板130，主板130上设置有与显示器120连接的处理器140，以及与处理器140连接的存储器150、射频电路160和传感器模块170。

在本申请实施例中，显示器120包括显示器驱动电路、显示屏和触控屏。其中，显示器驱动电路用于控制所述显示屏根据画面的显示数据和显示参数(例如，亮度，颜色，饱和度等)进行内容显示。显示屏可以包括液晶显示屏，有机发光二极管显示屏，电子墨水显示屏，等离子显示屏，使用其它显示技术的显示屏中一种或者几种的组合。触控屏用于检测触控操作。该触控屏可以是由透明的触摸传感器电极(例如氧化铟锡(ITO)电极)阵列形成的电容式触摸传感器，或者可以是使用其它触摸技术形成的触摸传感器，例如音波触控，压敏触摸，电阻触摸，光学触摸等，本申请实施例不作限制。

主板130的形状大小可以为所述电子设备100能够容纳的任意大小和形状，在此不做唯一限定。

处理器140是电子设备100的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器150内的软件程序和/或模块，以及调用存储在存储器150内的数据，执行电子设备100的各种功能和处理数据，从而对电子设备100进行整体监控。处理器140包括应用处理器和基带处理器。其中，应用处理器主要处理操作***、用户界面和应用程序等。基带处理器主要处理无线通信。可以理解，上述基带处理器也可以不集成到处理器中。

存储器150可用于存储软件程序以及模块，处理器140通过运行存储在存储器150的软件程序以及模块，从而执行电子设备100的各种功能应用以及数据处理。存储器150可主要包括存储程序区和存储数据区。其中，存储程序区可存储操作***、至少一个功能所需的应用程序等。存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器150可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

射频电路160用于为电子设备100提供与外部设备通信的能力。射频电路160可以包括模拟和数字输入输出接口电路，和基于射频信号和/或光信号的无线通信电路。射频电路160中的无线通信电路可以包括射频收发器电路、功率放大器电路、低噪声放大器、开关、滤波器和天线。举例来说，射频电路160中的无线通信电路可以包括用于通过发射和接收近场耦合电磁信号来支持近场通信(near field communication，NFC)的电路。例如，射频电路160可以包括近场通信天线和近场通信收发器。射频电路160还可以包括蜂窝电话收发器和天线，无线局域网收发器电路和天线等。

传感器模块170包括语音拾取器171。该语音拾取器171用于采集语音信号。也就是将采集到的声音转换为电信号，再将电信号转化为数字信号的过程。该语音拾取器171可以是如图2所示的主麦克风1711，也可以是如图1所示的副麦克风1712，还可以是隐藏在如图1所示的显示器120的下方的隐藏麦克风1713，在此不做限定。

在本申请实施例中，传感器模块170还可包括电子罗盘、陀螺仪、光传感器、气压计、湿度计、温度计、红外传感器等等传感器(图中未示出)。

以上仅为举例，电子设备100还包括音频输入接口、串行端口、键盘、扬声器、充电接口等输入输出接口，摄像头、蓝牙模块等未示出的模块，本申请不作限定。

在本申请实施例中，所述存储器150用于存储预设样本库和目标用户的第一声纹识别模型；所述语音拾取器171用于在所述电子设备100满足预设声纹验证条件时，采集待验证用户输入的待验证语音信号；所述处理器140用于确定所述待验证语音信号对应的语音文本；若所述预设语音样本库不包括所述语音文本，则根据所述语音文本，对所述第一声纹识别模型进行更新，得到第二声纹识别模型；将所述待验证语音信号输入至所述第二声纹识别模型，得到所述待验证用户和所述目标用户之间声纹特征的第一相似值；若所述第一相似值大于或等于第一阈值，则确定所述待验证用户为所述目标用户；所述存储器150还用于将存储的所述第一声纹识别模型更新为所述第二声纹识别模型。

可见，在识别之前，先针对待验证用户输入的语音文本更新声纹识别模型，以学习不同的语音文本，可提高声纹识别的成功率。

在一个可能的示例中，在所述根据所述语音文本，对所述第一声纹识别模型进行更新，得到第二声纹识别模型方面，所述处理器140具体用于根据所述预设语音样本库确定与所述语音文本对应的第一语音样本；根据所述第一语音样本和所述语音文本之间的相似值设置第二阈值，所述第二阈值小于所述第一阈值；将所述第一语音样本输入至所述第一声纹识别模型，得到所述第一语音样本对应的用户和所述目标用户之间声纹特征的第二相似值；若所述第二相似值大于所述第二阈值，则根据所述第二相似值，对所述第一声纹识别模型进行更新，得到第二声纹识别模型。

在一个可能的示例中，在所述根据所述预设语音样本库确定与所述语音文本对应的第一语音样本方面，所述处理器140具体用于确定所述预设语音样本库中每一语音样本与所述语音文本之间的相似值，得到多个相似值；将所述多个相似值中大于第三阈值的语音样本作为参考语音样本，所述第三阈值大于所述第一阈值；根据所述参考语音样本获取第一语音样本。

在一个可能的示例中，在所述确定所述预设语音样本库中每一语音样本与所述语音文本之间的相似值，得到多个相似值方面，所述处理器140具体用于确定目标语音样本对应的多个第一音节，以及所述语音文本对应的多个第二音节，所述目标语音样本为所述预设语音样本库中的任一语音样本；统计所述多个第一音节和所述多个第二音节的字符总数，以及所述多个第一音节和所述多个第二音节之间相同的音节的字符数量；计算所述字符数量和所述字符总数之间的比值，得到所述目标语音样本与所述语音文本之间的相似值。

在一个可能的示例中，所述处理器140还用于提取所述待验证语音信号的噪声信号；根据所述噪声信号确定所述电子设备的场景安全值；根据所述场景安全值确定所述第三阈值；

在一个可能的示例中，所述处理器140还用于若所述第一相似值小于所述第一阈值，则确定所述待验证用户非所述目标用户；在预设时长内，若接收到所述待验证用户提交的报错指令，则根据所述待验证语音信号，对所述第二声纹识别模型进行训练，得到第三声纹识别模型；所述存储器150还用于将所述第二声纹识别模型更新为所述第三声纹识别模型。

在一个可能的示例中，所述处理器140还用于在所述预设时长内，若未接收到所述报错指令，则根据所述待验证语音信号对应的声纹特征，对所述第二声纹识别模型进行更新，得到第四声纹识别模型；所述存储器150还用于将所述第二声纹识别模型更新为所述第四声纹识别模型。

下面对本申请实施例进行详细介绍。

请参阅图3，图3是本申请实施例提供的一种语音处理方法的流程示意图。如图3所示，本语音处理方法应用于电子设备，该电子设备包括语音拾取器。

该方法包括：

S301：在电子设备满足预设声纹验证条件时，通过语音拾取器采集待验证用户输入的待验证语音信号。

本申请实施例对于预设声纹验证条件不做限定，可以是预设姿态，例如，抬起45度。当用户握持电子设备的姿态为预设姿态时，确定电子设备满足预设声纹验证条件。预设声纹验证条件也可以是针对显示器的预设触摸操作，例如，单击预设位置、双击、画“S”曲线等。当检测到用户针对显示器的触摸操作为预设触摸操作时，确定电子设备满足预设声纹验证条件。预设声纹验证条件还可以是检测到目标应用或接收到目标应用对应的信息，目标应用可以是即时通信应用、金融类应用等。预设声纹验证条件还可以是预设位置检测到人脸图像，进一步的，可以是人脸识别成功，以增强电子设备的安全性。

如前所述，语音拾取器用于采集语音信号。如此，在电子设备满足预设声纹验证条件时，可通过语音拾取器采集待验证用户输入的待验证语音信号。其中，待验证语音信号为语音拾取器当前采集的语音信号，待验证用户为待验证语音信号对应的用户。

需要说明的是，待验证语音信号可包括多个用户的声音。因此，在语音拾取器采集到待验证语音信号之后，可对待验证语音信号进行分析得到多个声纹特征。确定各个声纹特征对应的音量，将最大音量对应的声纹特征的语音信号作为待验证语音信号。此外，还可预先处理该待验证语音信号，例如，对待验证语音信号进行去噪、归一化等。

S302：确定所述待验证语音信号对应的语音文本。

在本申请实施例中，语音文本是待验证语音信号对应的语义内容，可采用语音识别技术将待验证语音信号进行语义识别得到。

S303：若预设语音样本库不包括所述语音文本，则根据所述语音文本，对预先存储的目标用户的第一声纹识别模型进行更新，得到第二声纹识别模型。

在本申请实施例中，预设语音样本库包括多个语音样本，该语音样本为文本形式。该语音样本可以包括注册过程中随机生成的语音文本，也可以包括身份识别过程中用户输入的语音文本，还可以包括用于声纹识别模型训练的语音信号的文本等。该语音样本可以是文字，也可以是数字，还可以是英文字符等，在此不做限定。

神经网络模型为多层神经网络。神经网络的正向传播阶段对应于正向运算，是输入数据输入至输出数据输出的过程。在正向运算中，当上一层神经网络执行完成之后，将该层得到的输出神经元作为下一层的输入神经元进行运算(或者是对该输出神经元进行某些操作再作为下一层的输入神经元)。同时，将权值也替换为下一层的权值。

神经网络的反向传播阶段对应于反向运算，是最终结果数据与期望输出数据之间的误差反向通过正向传播阶段的过程。在反向运算中，当上一层人工神经网络的反向运算执行完成后，将上一层得到的输入神经元梯度作为下一层的输出神经元梯度进行运算(或者是对该输入神经元梯度进行某些操作再作为下一层的输出神经元梯度)，同时将权值替换为下一层的权值。

通过周而复始的正向传播和反向传播，按照误差梯度下降的方式修正各层权值，对各层权值进行调整，也是神经网络学习训练的过程，可减少网络输出的误差。

在本申请实施例中，将输入数据输入至神经网络，并完成一次正向运算和反向运算的过程称为神经网络的更新过程。将N个训练数据输入至神经网络，并完成N次正向运算和N次反向运算，再将M个测试数据输入至神经网络，并完成M次正向运算和M次反向运算的过程，称为神经网络的训练过程。其中，M为大于0的正整数，N是大于M的正整数。可选的，N与M之间的比值为7:3。

在目标用户的注册过程中，电子设备会提供一个注册字符串供目标用户朗读。电子设备采集目标用户朗读时产生的注册语音信号，并根据注册语音信号训练得到目标用户的声纹识别模型。在本申请实施例中，将该声纹识别模型作为第一声纹识别模型。

本申请对于第一声纹识别模型的更新方法不做限定，可根据目标用户的声纹特征生成语音文本对应的目标语音信号，然后将目标语音信号输入至第一声纹识别模型得到目标语音信号对应的用户与目标用户之间的目标相似值。再根据该目标相似值和预先设置的误差阈值，对第一声纹识别模型进行更新，得到第二声纹识别模型。

S304：将所述待验证语音信号输入至所述第二声纹识别模型，得到所述待验证用户和所述目标用户之间声纹特征的第一相似值。

在本申请实施例中，第二声纹识别模型为第一声纹识别模型针对语音文本得到的神经网络模型。无论是第一声纹识别模型，还是第二声纹识别模型，均用于提取输入的语音信号中的声纹特征，再将该声纹特征与该声纹识别模型对应的预设声纹特征进行比对，得到该声纹特征与预设声纹特征之间的相似值。即待验证用户与目标用户之间的相似值，在本申请中，将待验证用户和目标用户之间声纹特征的相似值作为第一相似值，也就是说，将待验证用户的声纹特征和目标用户的声纹特征之间的相似值作为第一相似值。

S305：若所述第一相似值大于或等于第一阈值，则确定所述待验证用户为所述目标用户。

本申请对于第一阈值不做限定，例如，1。在本申请实施例中，可根据预设声纹验证条件设置第一阈值。例如，若预设声纹验证条件为人脸识别成功，则通过一层身份验证，第一阈值可设置为0.8。若预设声纹验证条件为预设姿态，而预设姿态可能是误操作，则第一阈值可设置为0.9。若预设声纹验证条件为预设触摸操作，则第一阈值可设置为0.85。

在本申请实施例中，在第一相似值大于或等于第一阈值时，确定待验证用户为目标用户，否则，为非目标用户。

可选的，若预设语音样本库包括待验证语音信号对应的语音文本，则直接将待验证语音信号输入至第一声纹识别模型得到待验证用户的声纹特征与目标用户的声纹特征之间的第三相似值。

在图3所示的方法中，若预设语音样本库不包括待验证语音信号对应的语音文本，则根据语音文本对预先存储的目标用户的第一声纹识别模型进行更新得到第二声纹识别模型。再将待验证语音信号输入至第二声纹识别模型得到待验证用户的声纹特征与目标用户的声纹特征之间的第一相似值。也就是说，在识别之前，先针对待验证用户输入的语音文本更新声纹识别模型，以学习不同的语音文本，可提高声纹识别的成功率。

与上述图3所示的实施例一致的，请参阅图4，图4是本申请实施例提供的另一种语音处理方法的流程示意图。如图4所示，本语音处理方法应用于电子设备，该电子设备包括语音拾取器。该方法包括：

S401：在电子设备满足预设声纹验证条件时，通过语音拾取器采集待验证用户输入的待验证语音信号。

S402：确定所述待验证语音信号对应的语音文本。

其中，步骤S401和步骤S402可参照步骤S301和步骤S302的描述，在此不再赘述。

S403：若预设语音样本库不包括所述语音文本，则根据所述预设语音样本库确定与所述语音文本对应的第一语音样本。

如前所述，预设语音样本库包括多个语音样本。在本申请实施例中，可以根据语音文本，从多个语音样本中获取第一语音样本。例如，解析语音文本得到多个字符串，从多个语音样本中查找每一字符串对应的片段得到多个片段，根据多个片段生成第一语音样本。

在本申请实施例中，也可以是预设语音样本库中与语音文本近似的第一语音样本。在一种可能的示例中，步骤S403包括以下步骤A11-A13，其中：

A11：确定所述预设语音样本库中每一语音样本与所述语音文本之间的相似值，得到多个相似值。

本申请对于确定相似值的方法不做限定。在一种可能的示例中，步骤A11包括：确定目标语音样本对应的多个第一音节，以及所述语音文本对应的多个第二音节；统计所述多个第一音节和所述多个第二音节的字符总数，以及所述多个第一音节和所述多个第二音节之间相同的音节的字符数量；计算所述字符数量和所述字符总数之间的比值，得到所述目标语音样本与所述语音文本之间的相似值。

其中，目标语音样本为所述预设语音样本库中的任一语音样本。音节是由音素(包括辅音和元音)组合发音的语音单位。拼音语言的音节是由元音和辅音组合发音，汉语的音节是声母和韵母组合发音，能发音的单个元音也是音节。

需要说明的是，多个第一音节和多个第二音节中均可能包括重复的音节。

举例来说，若语音文本为芝麻开门，则多个第一音节有zh、i、m、a、m、en。若目标语音样本为29里面，则多个第二音节有er、j、iu、l、i、m、i、an。可见，字符总数为14，字符数量为4，则比值为4/14，约等于0.3。

在该示例中，拆分语音样本和语音文本的音节，且以音节计算相似值，可提高确定相似值的准确率。

A12：将所述多个相似值中大于第三阈值的语音样本作为参考语音样本。

本申请对于第三阈值不做限定，第三阈值大于第一阈值。可以理解，当第三阈值大于第一阈值时，可提取相似值大于第一阈值的参考语音样本，便于提高第一语音样本和语音文本之间的相似性，从而可提高声纹识别的准确率。

在一种可能的示例中，所述方法还包括：提取所述待验证语音信号的噪声信号；根据所述噪声信号确定所述电子设备的场景安全值；根据所述场景安全值确定所述第三阈值；

其中，噪声信号为待验证语音信号中除了待验证用户对应的语音信号之外的信号。该噪声信号可以包括其他人的声音信号，也可包括环境中的噪声。场景安全值用于描述电子设备所处环境的安全系数，其场景安全值越大，安全系数越高。

可以理解，噪声信号可体现电子设备所处环境的状态。因此，在该示例中，先提取待验证语音信号的噪声信号，再根据该噪声信号确定电子设备的场景安全值，可提高确定场景安全值的准确率。然后，根据该场景安全值确定第三阈值，以提高确定第三阈值的准确率。

A13：根据所述参考语音样本获取第一语音样本。

在步骤A13中，可提取参考语音样本中与语音文本近似的部分片段作为第一语音样本。需要说明的是，参考语音样本的数量可以是多个。因此可先选取同一个用户的参考语音样本，再分别提取参考语音样本中与语音文本近似的部分片段，最后进行组合得到第一语音样本。

在步骤A11-A13中，先确定各个语音样本与语音文本之间的相似值，再将大于第三阈值的语音样本作为参考语音样本。然后根据参考语音样本获取第一语音样本。如此，以第一语音样本更新声纹识别模型，便于提高声纹识别的成功率。

S404：根据所述第一语音样本和所述语音文本之间的相似值设置第二阈值。

在本申请实施例中，第二阈值为声纹识别模型的误差阈值。也就是说，当输入数据通过声纹识别模型得到的输出数据大于误差阈值时，针对输出数据对声纹识别模型进行更新。本申请对于第二阈值不做限定，第二阈值小于第一阈值。可以理解，当第二阈值小于第一阈值时，对于声纹识别模型的误差要求越精细，从而便于提高声纹识别的准确率。

S405：将所述第一语音样本输入至预先存储的目标用户的第一声纹识别模型，得到所述第一语音样本对应的用户和所述目标用户之间声纹特征的第二相似值。

S406：若所述第二相似值大于所述第二阈值，则根据所述第二相似值，对所述第一声纹识别模型进行更新，得到第二声纹识别模型。

S407：将所述待验证语音信号输入至所述第二声纹识别模型，得到所述待验证用户和所述目标用户之间声纹特征的第一相似值。

S408：若所述第一相似值大于或等于第一阈值，则确定所述待验证用户为所述目标用户。

在步骤S405-S408中，可参照步骤S303-S305的描述，在此不再赘述。

在图4所示的方法中，以第一语音样本和语音文本之间的相似值设置第二阈值，并根据第一语音样本和第二阈值更新声纹识别模型，便于进一步提高声纹识别的成功率。

与上述图3所示的实施例一致的，请参阅图5，图5是本申请实施例提供的又一种语音处理方法的流程示意图。如图5所示，本语音处理方法应用于电子设备，该电子设备包括语音拾取器。该方法包括：

S501：在电子设备满足预设声纹验证条件时，通过语音拾取器采集待验证用户输入的待验证语音信号。

S502：确定所述待验证语音信号对应的语音文本。

S503：若预设语音样本库不包括所述语音文本，则根据所述语音文本，对预先存储的目标用户的第一声纹识别模型进行更新，得到第二声纹识别模型。

S504：将所述待验证语音信号输入至所述第二声纹识别模型，得到所述待验证用户和所述目标用户之间声纹特征的第一相似值。

其中，步骤S501-S504可参照步骤S301-S304的描述，在此不再赘述。

S505：若所述第一相似值小于第一阈值，则确定所述待验证用户非所述目标用户。

S506：在预设时长内，检测是否接收到所述待验证用户提交的报错指令。

本申请对于预设时长不做限定，可以是锁屏时长，也可以根据当前显示信息进行设置。报错指令用于提示电子设备身份识别错误。该报错指令可以是针对预设姿态或预设触摸手势触发的，在此也不做限定。在预设时长内，若接收到待验证用户提交的报错指令，则执行S507。否则，执行S508。

S507：根据所述待验证语音信号，对所述第二声纹识别模型进行训练，得到第三声纹识别模型。

在本申请实施例中，可根据待验证语音信号的声纹特征或语音文本获取训练语音信号集，然后将训练语音信号集中的语音信号分为训练子集和测试子集，再针对训练子集对第二声纹识别模型进行训练得到待测试模型，针对测试子集对待测试模型进行测试得到第三声纹识别模型。

S508：根据所述待验证语音信号对应的声纹特征，对所述第二声纹识别模型进行更新，得到第四声纹识别模型。

其中，步骤S508可参照步骤S303中神经网络的更新过程的描述，在此不再赘述。

在图5所示的方法中，若第一相似值小于第一阈值，则确定待验证用户非目标用户。在预设时长内，若接收到待验证用户提交的报错指令，则根据待验证语音信号对第二声纹识别模型进行训练得到第三声纹识别模型。否则，根据待验证语音信号对应的声纹特征对第二声纹识别模型进行更新得到第四声纹识别模型。也就是说，在身份验证失败的情况下，分情况对第二声纹识别模型进行更新或训练，从而学习了不同场景下的语音文本，便于提高下一次声纹识别的准确率。

与上述图3、图4和图5所示的实施例一致的，请参阅图6，图6是本申请实施例提供的又一种电子设备100的结构示意图。如图6所示，该电子设备100包括处理器140、语音拾取器171、通信接口161和存储器150。处理器140通过总线180连接语音拾取器171、通信接口161和存储器150。其中，存储器150包括一个或多个程序151，上述程序151被配置由上述处理器140执行，上述程序151包括用于执行以下步骤的指令：

在所述电子设备100满足预设声纹验证条件时，通过所述语音拾取器171采集待验证用户输入的待验证语音信号；

确定所述待验证语音信号对应的语音文本；

可以看出，在识别之前，先针对待验证用户输入的语音文本更新声纹识别模型，以学习不同的语音文本，可提高声纹识别的成功率。

在一个可能的示例中，所述根据所述语音文本，对预先存储的目标用户的第一声纹识别模型进行更新，得到第二声纹识别模型方面，所述程序151中的指令具体用于执行以下操作：

根据所述预设语音样本库确定与所述语音文本对应的第一语音样本；

根据所述第一语音样本和所述语音文本之间的相似值设置第二阈值，所述第二阈值小于所述第一阈值；

将所述第一语音样本输入至预先存储的目标用户的第一声纹识别模型，得到所述第一语音样本对应的用户和所述目标用户之间声纹特征的第二相似值；

若所述第二相似值大于所述第二阈值，则根据所述第二相似值，对所述第一声纹识别模型进行更新，得到第二声纹识别模型。

在一个可能的示例中，在所述根据所述预设语音样本库确定与所述语音文本对应的第一语音样本方面，所述程序151中的指令具体用于执行以下操作：

确定所述预设语音样本库中每一语音样本与所述语音文本之间的相似值，得到多个相似值；

将所述多个相似值中大于第三阈值的语音样本作为参考语音样本，所述第三阈值大于所述第一阈值；

根据所述参考语音样本获取第一语音样本。

在一个可能的示例中，在所述确定所述预设语音样本库中每一语音样本与所述语音文本之间的相似值，得到多个相似值方面，所述程序151中的指令具体用于执行以下操作：

确定目标语音样本对应的多个第一音节，以及所述语音文本对应的多个第二音节，所述目标语音样本为所述预设语音样本库中的任一语音样本；

统计所述多个第一音节和所述多个第二音节的字符总数，以及所述多个第一音节和所述多个第二音节之间相同的音节的字符数量；

计算所述字符数量和所述字符总数之间的比值，得到所述目标语音样本与所述语音文本之间的相似值。

在一个可能的示例中，所述程序151中的指令还用于执行以下操作：

提取所述待验证语音信号的噪声信号；

根据所述噪声信号确定所述电子设备的场景安全值；

根据所述场景安全值确定所述第三阈值；

若所述第一相似值小于所述第一阈值，则确定所述待验证用户非所述目标用户；

在预设时长内，若接收到所述待验证用户提交的报错指令，则根据所述待验证语音信号，对所述第二声纹识别模型进行训练，得到第三声纹识别模型。

在所述预设时长内，若未接收到所述报错指令，则根据所述待验证语音信号对应的声纹特征，对所述第二声纹识别模型进行更新，得到第四声纹识别模型。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的模块及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

请参照图7，图7所示的语音处理装置应用于电子设备，该电子设备包括语音拾取器。如图7所示，该语音处理装置700包括：

采集单元701，用于在所述电子设备满足预设声纹验证条件时，通过所述语音拾取器采集待验证用户输入的待验证语音信号；

处理单元702，用于确定所述待验证语音信号对应的语音文本；若预设语音样本库不包括所述语音文本，则根据所述语音文本，对预先存储的目标用户的第一声纹识别模型进行更新，得到第二声纹识别模型；将所述待验证语音信号输入至所述第二声纹识别模型，得到所述待验证用户和所述目标用户之间声纹特征的第一相似值；若所述第一相似值大于或等于第一阈值，则确定所述待验证用户为所述目标用户。

在一个可能的示例中，所述处理单元702具体用于根据所述预设语音样本库确定与所述语音文本对应的第一语音样本；根据所述第一语音样本和所述语音文本之间的相似值设置第二阈值，所述第二阈值小于所述第一阈值；将所述第一语音样本输入至预先存储的目标用户的第一声纹识别模型，得到所述第一语音样本对应的用户和所述目标用户之间声纹特征的第二相似值；若所述第二相似值大于所述第二阈值，则根据所述第二相似值，对所述第一声纹识别模型进行更新，得到第二声纹识别模型。

在一个可能的示例中，所述处理单元702具体用于确定所述预设语音样本库中每一语音样本与所述语音文本之间的相似值，得到多个相似值；将所述多个相似值中大于第三阈值的语音样本作为参考语音样本，所述第三阈值大于所述第一阈值；根据所述参考语音样本获取第一语音样本。

在一个可能的示例中，所述处理单元702具体用于确定目标语音样本对应的多个第一音节，以及所述语音文本对应的多个第二音节，所述目标语音样本为所述预设语音样本库中的任一语音样本；统计所述多个第一音节和所述多个第二音节的字符总数，以及所述多个第一音节和所述多个第二音节之间相同的音节的字符数量；计算所述字符数量和所述字符总数之间的比值，得到所述目标语音样本与所述语音文本之间的相似值。

在一个可能的示例中，所述处理单元702还用于提取所述待验证语音信号的噪声信号；根据所述噪声信号确定所述电子设备的场景安全值；根据所述场景安全值确定所述第三阈值。

在一个可能的示例中，所述处理单元702还用于若所述第一相似值小于所述第一阈值，则确定所述待验证用户非所述目标用户；在预设时长内，若接收到所述待验证用户提交的报错指令，则根据所述待验证语音信号，对所述第二声纹识别模型进行训练，得到第三声纹识别模型。

在一个可能的示例中，所述处理单元702还用于在所述预设时长内，若未接收到所述报错指令，则根据所述待验证语音信号对应的声纹特征，对所述第二声纹识别模型进行更新，得到第四声纹识别模型。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于存储计算机程序，该计算机程序使得计算机执行如方法实施例中记载的任一方法的部分或全部步骤，计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，计算机程序可操作来使计算机执行如方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模式并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模式的形式实现。

集成的单元如果以软件程序模式的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(read-only memory，ROM)、随机存取存储器(randomaccess memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音处理方法，其特征在于，应用于电子设备，所述电子设备包括语音拾取器，所述方法包括：

确定所述待验证语音信号对应的语音文本；

2.根据权利要求1所述的方法，其特征在于，所述根据所述语音文本，对预先存储的目标用户的第一声纹识别模型进行更新，得到第二声纹识别模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述预设语音样本库确定与所述语音文本对应的第一语音样本，包括：

根据所述参考语音样本获取第一语音样本。

4.根据权利要求3所述的方法，其特征在于，所述确定所述预设语音样本库中每一语音样本与所述语音文本之间的相似值，得到多个相似值，包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

提取所述待验证语音信号的噪声信号；

根据所述噪声信号确定所述电子设备的场景安全值；

根据所述场景安全值确定所述第三阈值。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.一种语音处理装置，其特征在于，应用于电子设备，所述电子设备包括语音拾取器，所述装置包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器，所述存储器用于存储一个或多个程序，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-7任一项所述的方法中的步骤的指令。

10.一种计算机可读存储介质，其特征在于，其用于存储计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-7任一项所述的方法。