CN112185382A

CN112185382A - 一种唤醒模型的生成和更新方法、装置、设备及介质

Info

Publication number: CN112185382A
Application number: CN202011060011.0A
Authority: CN
Inventors: 陈都; ***; 李家魁; 吕安超
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-05
Anticipated expiration: 2040-09-30
Also published as: CN112185382B

Abstract

本发明公开了一种唤醒模型的生成和更新方法、装置、设备及介质，用以解决现有无法快速生成适合布局在智能设备上的该自定义唤醒词对应的唤醒模型的问题。由于本发明实施例中只需确定自定义唤醒词对应的唤醒模型中的目标参数的信息，即确定自定义唤醒词对应的唤醒模型中的至少一个可调整的参数的信息，从而减少确定该自定义唤醒词对应的唤醒模型中全部参数的信息所耗费的时间，并在确定目标参数的信息之后，只将该目标参数的信息发送至智能设备，减少用于数据传输所耗费的时间，以及占用的网络资源。

Description

一种唤醒模型的生成和更新方法、装置、设备及介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种唤醒模型的生成和更新方法、装置、设备及介质。

背景技术

随着语音交互技术的发展，语音交互技术在智能车载、智能家居等领域中的应用前景越来越广阔。在语音交互的过程中，用户一般通过包含有唤醒词的语音信息唤醒智能设备之后，才能控制智能设备执行各种任务。其中，由于越来越多的用户希望对自己控制的智能设备进行个性化唤醒，即自定义唤醒智能设备的唤醒词，因此，如何通过包含有自定义唤醒词的语音信息唤醒智能设备是近几年来人们日益关注的问题。

现有技术中，一般是基于大量的包含自定义唤醒词的语音样本，对原始唤醒模型进行训练，以获取到训练完成的该自定义唤醒词对应的唤醒模型。该方法，对原始唤醒模型的训练需要大量的语音样本，使得获取该自定义唤醒词对应的唤醒模型的训练时间会非常的长，无法快速生成适合布局在智能设备上的该自定义唤醒词对应的唤醒模型。

发明内容

本发明实施例提供了一种唤醒模型的生成和更新方法、装置、设备及介质，用以解决现有无法快速生成适合布局在智能设备上的该自定义唤醒词对应的唤醒模型的问题。

本发明实施例提供了一种唤醒模型的生成方法，所述方法包括：

获取自定义唤醒词的信息；

将所述自定义唤醒词的信息与已配置的唤醒词的信息进行匹配，根据匹配结果，确定唤醒模型的目标参数的信息，并发送至智能设备，其中，所述目标参数为所述唤醒模型中的至少一个可调整的参数。

在一种可能的实施方式中，所述根据匹配结果，确定唤醒模型的目标参数的信息，包括：

若所述匹配结果为所述自定义唤醒词的信息与已配置的任一唤醒词的信息匹配，则获取匹配的唤醒词的信息对应的可调参数的信息，并将所述可调参数的信息确定为目标参数的信息。

若所述匹配结果为所述自定义唤醒词的信息与已配置的唤醒词的信息均不匹配，则基于包含所述自定义唤醒词的正语音样本及所述正语音样本对应的标签，对基础唤醒模型的可调参数进行调整，并将调整后的可调参数的信息确定为目标参数的信息；

其中，所述正语音样本对应的标签用于标识所述正语音样本中包含所述自定义唤醒词，所述基础唤醒模型为已完成固定参数配置的模型，所述基础唤醒模型的固定参数是基于大量的通用语音数据训练得到的。

在一种可能的实施方式中，通过如下方式获取所述正语音样本：

通过文本转语音TTS处理，得到多个包含所述自定义唤醒词的语音数据，并将得到的语音数据确定为正语音样本。

在一种可能的实施方式中，所述得到多个包含所述自定义唤醒词的语音数据之后，所述方法还包括：

对至少一个所述语音数据进行加噪处理，将加噪后的语音数据确定为所述正语音样本。

在一种可能的实施方式中，所述基于包含所述自定义唤醒词的正语音样本及所述正语音样本对应的标签，对训练完成的基础唤醒模型的可调参数进行调整，包括：

基于包含所述自定义唤醒词的正语音样本及所述正语音样本对应的标签、以及不包含所述自定义唤醒词的负语音样本及所述负语音样本对应的标签，对所述基础唤醒模型的可调参数进行调整，其中，所述负语音样本对应的标签用于标识所述负语音样本中不包含所述自定义唤醒词。

在一种可能的实施方式中，所述基于包含所述自定义唤醒词的正语音样本、不包含所述自定义唤醒词的负语音样本及其分别对应的标签，对所述训练完成的基础唤醒模型的可调参数进行调整，包括：

获取多个语音样本及所述语音样本对应的标签，所述语音样本包括所述正语音样本和所述负语音样本；

确定所述语音样本对应的声学特征；

通过所述基础唤醒模型中固定参数所对应的网络层，确定所述声学特征对应的目标特征向量；

通过所述基础唤醒模型中可调参数所对应的网络层，基于所述目标特征向量，判断所述语音样本中是否包含有自定义唤醒词；以及

根据所述语音样本的判断结果以及所述语音样本的标签，对所述基础唤醒模型的可调参数进行调整。

在一种可能的实施方式中，所述将调整后的可调参数的信息确定为目标参数的信息之后，所述方法还包括：

保存所述自定义唤醒词的信息以及所述自定义唤醒词对应的唤醒模型的可调参数的信息。

本发明实施例提供了一种唤醒模型的更新方法，所述方法包括：

获取自定义唤醒词并将所述自定义唤醒词发送至服务器；

接收所述服务器发送的唤醒模型的目标参数的信息；

根据所述目标参数的信息，对本地保存的唤醒模型的可调参数进行更新，其中，所述唤醒模型的目标参数为所述唤醒模型中的至少一个可调整的参数。

本发明实施例提供了一种唤醒模型的生成装置，所述装置包括：

获取单元，用于获取自定义唤醒词的信息；

处理单元，用于将所述自定义唤醒词的信息与已配置的唤醒词的信息进行匹配，根据匹配结果，确定唤醒模型的目标参数的信息，并发送至智能设备，其中，所述目标参数为所述唤醒模型中的至少一个可调整的参数。

在一种可能的实施方式中，所述处理单元，具体用于：

若所述匹配结果为所述自定义唤醒词的信息与已配置的唤醒词的信息均不匹配，则基于包含所述自定义唤醒词的正语音样本及所述正语音样本对应的标签，对基础唤醒模型的可调参数进行调整，并将调整后的可调参数的信息确定为目标参数的信息；其中，所述正语音样本对应的标签用于标识所述正语音样本中包含所述自定义唤醒词，所述基础唤醒模型为已完成固定参数配置的模型，所述基础唤醒模型的固定参数是基于大量的通用语音数据训练得到的。

在一种可能的实施方式中，所述处理单元，具体用于：

得到多个包含所述自定义唤醒词的语音数据之后，对至少一个所述语音数据进行加噪处理，将加噪后的语音数据确定为所述正语音样本。

在一种可能的实施方式中，所述处理单元，具体用于：基于包含所述自定义唤醒词的正语音样本及所述正语音样本对应的标签、以及不包含所述自定义唤醒词的负语音样本及所述负语音样本对应的标签，对所述基础唤醒模型的可调参数进行调整，其中，所述负语音样本对应的标签用于标识所述负语音样本中不包含所述自定义唤醒词。

在一种可能的实施方式中，所述处理单元，具体用于：

获取多个语音样本及所述语音样本对应的标签，所述语音样本包括所述正语音样本和所述负语音样本；确定所述语音样本对应的声学特征；通过所述基础唤醒模型中固定参数所对应的网络层，确定所述声学特征对应的目标特征向量；通过所述基础唤醒模型中可调参数所对应的网络层，基于所述目标特征向量，判断所述语音样本中是否包含有自定义唤醒词；以及根据所述语音样本的判断结果以及所述语音样本的标签，对所述基础唤醒模型的可调参数进行调整。

在一种可能的实施方式中，所述处理单元，具体用于：

将调整后的可调参数的信息确定为目标参数的信息之后，保存所述自定义唤醒词的信息以及所述自定义唤醒词对应的唤醒模型的可调参数的信息。

本发明实施例提供了一种唤醒模型的更新装置，所述装置包括：

获取模块，用于获取自定义唤醒词并将所述自定义唤醒词发送至服务器；

接收模块，用于接收所述服务器发送的唤醒模型的目标参数的信息；

更新模块，用于根据所述目标参数的信息，对本地保存的唤醒模型的可调参数进行更新，其中，所述唤醒模型的目标参数为所述唤醒模型中的至少一个可调整的参数。

本发明实施例提供了一种电子设备，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如上述所述唤醒模型的生成方法的步骤，或实现上述所述唤醒模型的更新方法的步骤。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述唤醒模型的生成方法的步骤，或实现上述所述唤醒模型的更新方法的步骤。

由于本发明实施例中只需确定自定义唤醒词对应的唤醒模型中的目标参数的信息，即确定自定义唤醒词对应的唤醒模型中的至少一个可调整的参数的信息，从而减少确定该自定义唤醒词对应的唤醒模型中全部参数的信息所耗费的时间，并在确定目标参数的信息之后，只将该目标参数的信息发送至智能设备，减少用于数据传输所耗费的时间，以及占用的网络资源。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种唤醒模型的生成过程示意图；

图2为本发明实施例提供的具体的唤醒模型的生成流程示意图；

图3为本发明实施例提供的一种唤醒模型的更新过程示意图；

图4为本发明实施例提供的具体的唤醒模型的更新流程示意图；

图5为本发明实施例提供的一种唤醒模型的生成装置的结构示意图；

图6为本发明实施例提供的一种唤醒模型的更新装置的结构示意图；

图7为本发明实施例提供的一种电子设备结构示意图；

图8为本发明实施例提供的再一种电子设备结构示意图。

具体实施方式

下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了快速生成适合布局在智能设备上的自定义唤醒词对应的唤醒模型，本发明实施例提供了一种唤醒模型的生成和更新方法、装置、设备及介质。

实施例1：

图1为本发明实施例提供的一种唤醒模型的生成过程示意图，该过程包括：

S101：获取自定义唤醒词的信息。

本发明实施例提供的唤醒模型的生成方法应用于电子设备，该电子设备可以为如机器人等智能设备，也可以是服务器。

在实际应用场景中，当用户希望通过包含自定义唤醒词的语音信息唤醒智能设备时，可以通过语音信息控制智能设备执行自定义唤醒词的设置功能，或者通过点击智能设备的显示界面上的设置自定义唤醒词的图标，预先设置唤醒该智能设备的自定义唤醒词。当然，用户在设置自定义唤醒词时，可以直接输入包含自定义唤醒词的语音信息，也可以是在智能设备的显示界面上输入文本形式的自定义唤醒词。具体实施中可以根据需求进行灵活设置，在此不做具体限定。后续电子设备基于该自定义唤醒词的信息进行相应的处理，从而确定该自定义唤醒词对应的唤醒模型。

其中，该自定义唤醒词的信息可以是该自定义唤醒词的文本信息，也可以是该自定义唤醒词的声韵母序列。获取的自定义唤醒词的信息可以是接收其他设备发送的，也可以是电子设备根据接收到的用户设置的自定义唤醒词确定的。

需要说明的是，声韵母序列包含有自定义唤醒词中包含的每个字对应的声韵母信息。具体的，该声韵母信息可以是无声调的声韵母信息。

比如，以自定义唤醒词的信息为自定义唤醒词的无声调声韵母序列，生成唤醒模型的电子设备为服务器为例，若智能设备采集到用户输入的包含自定义唤醒词的语音信息，可以先对其进行语音识别，基于语音识别结果，获取该自定义唤醒词的无声调声韵母序列并发送至服务器，也可以直接将该语音信息直接发送至服务器，后续服务器对该语音信息进行语音识别，基于语音识别结果，获取该自定义唤醒词的无声调声韵母序列。

仍以上述为例，当智能设备获取到用户输入的文本形式的自定义唤醒词时，可以将该文本形式的自定义唤醒词，转化为无声调声韵母序列并发送至服务器，也可以将该文本形式的自定义唤醒词直接发送至服务器，后续服务器直接对该文本形式的自定义唤醒词进行处理，获取该自定义唤醒词的无声调声韵母序列。

需要说明的是，对文本形式的自定义唤醒词进行处理，获取该自定义唤醒词的无声调声韵母序列的过程属于现有技术，在此不作赘述。

S102：将所述自定义唤醒词的信息与已配置的唤醒词的信息进行匹配，根据匹配结果，确定唤醒模型的目标参数的信息，并发送至智能设备，其中，所述目标参数为所述唤醒模型中的至少一个可调整的参数。

在实际应用过程中，一般情况下智能设备在出厂前，会预先配置可唤醒该智能设备的至少一个唤醒词。针对每个唤醒词，基于包含该唤醒词的语音样本，预先配置了该唤醒词对应的唤醒模型，并保存该唤醒词的信息以及该唤醒词对应的唤醒模型。后续确定用户设置了其中任一唤醒词作为自定义唤醒词时，可以直接将保存的该唤醒词对应的唤醒模型发送给智能设备。

当然，在实际应用过程中，用户选择一个自定义的字、词或句子作为自定义唤醒词，因此，需要根据该用户设置的自定义唤醒词，获取该自定义唤醒词对应的唤醒模型。在获取到该自定义唤醒词对应的唤醒模型之后，可以保存该自定义唤醒词的信息以及该自定义唤醒词对应的唤醒模型，即将该自定义唤醒词作为已配置的唤醒词，保存该已配置的唤醒词以及该已配置的唤醒词对应的唤醒模型，以方便后续及时生成与该自定义唤醒词的信息相同的唤醒词对应的唤醒模型。

基于此，在本申请中，已配置的唤醒词可以是出厂前预先配置的，也可以是在实际应用过程中用户所输入的。

当基于上述实施例获取到自定义唤醒词的信息之后，将该自定义唤醒词的信息分别与已配置的每个唤醒词的信息进行匹配。根据匹配的结果，确定是否已配置了该自定义唤醒词对应的唤醒模型。

在实际应用过程中，不同自定义唤醒词对应的唤醒模型中的大部分参数一般是一致的，比如，不同自定义唤醒词对应的唤醒模型中特征提取层对应的参数一般是不发生变化的，而只有少部分参数会因为自定义唤醒词的不同而不同，比如，不同自定义唤醒词对应的唤醒模型中接近输出层的网络层以及输出层所对应的参数。因此，在本发明实施例中，将可能会因为自定义唤醒词的不同而不同的参数确定为可调参数(即顶层参数)，该可调参数为该自定义唤醒词对应的唤醒模型中可调整的参数，将不会因为自定义唤醒词的不同而不同的参数确定为固定参数(即底层参数)。在确定自定义唤醒词对应的唤醒模型时，只需确定该自定义唤醒词对应的唤醒模型中的可调参数的信息，即确定该自定义唤醒词对应的唤醒模型的目标参数的信息。具体实施过程中，目标参数可以是部分可调参数，也可以是全部可调参数。

具体实施过程中，当基于上述实施例获取到匹配结果之后，进行相应的处理，确定该自定义唤醒词对应的唤醒模型中的目标参数的信息，并发送至智能设备。后续智能设备在更新本地保存的唤醒模型中的参数的信息时，可以只根据接收到的目标参数的信息，对本地保存的唤醒模型的可调参数的信息进行更新，从而实现智能设备获取到自定义唤醒词对应的唤醒模型。

由于本发明实施例中只需确定自定义唤醒词对应的唤醒模型中的目标参数的信息，即确定自定义唤醒词对应的唤醒模型中的可调整的参数的信息，从而减少确定该自定义唤醒词对应的唤醒模型中全部参数的信息所耗费的时间，并在确定目标参数的信息之后，只将该目标参数的信息发送至智能设备，减少用于数据传输所耗费的时间，以及占用的网络资源。

实施例2：

为了快速生成自定义唤醒词对应的唤醒模型，在上述实施例的基础上，在本发明实施例中，根据匹配结果，确定唤醒模型的目标参数的信息，包括：

在一种可能的实施方式中，当基于上述实施例将自定义唤醒词的信息与已配置的每个唤醒词的信息进行匹配，获取的匹配结果可能为该自定义唤醒词的信息与已配置的任一唤醒词的信息匹配，说明当前已配置了该自定义唤醒词对应的唤醒模型中可调参数的信息，则获取匹配的唤醒词的信息对应的可调参数的信息，将该可调参数的信息确定为目标参数的信息。其中，匹配是指该自定义唤醒词的信息与已配置的任一唤醒词的信息一致。

在另一种可能的实施方式中，当基于上述实施例将自定义唤醒词的信息分别与已配置的每个唤醒词的信息进行匹配，获取的匹配结果可能为该自定义唤醒词的信息与已配置的每个唤醒词的信息均不匹配，说明当前没有配置过该自定义唤醒词对应的唤醒模型，则需要训练得到该自定义唤醒词对应的唤醒模型。

具体的，若所述匹配结果为所述自定义唤醒词的信息与已配置的唤醒词的信息均不匹配，则基于包含所述自定义唤醒词的正语音样本及所述正语音样本对应的标签，对基础唤醒模型的可调参数进行调整，并将调整后的可调参数的信息确定为目标参数的信息；

同样的，由于不同自定义唤醒词对应的唤醒模型中的大部分参数一般是一致的，可以将这些不随自定义唤醒词的不同而不同的参数确定为固定参数，并在训练不同自定义唤醒词对应的唤醒模型的过程中，不对这些固定参数进行调整，从而减少在训练自定义唤醒词对应的唤醒模型所耗费的资源和时间。因此，为了准确地确定这些固定参数的参数值，方便后续训练得到该自定义唤醒词对应的唤醒模型，在本发明实施例中，预先基于大量的通用语音数据，对原始唤醒模型进行训练，将训练完成的唤醒模型确定为基础唤醒模型，并获取该基础唤醒模型的固定参数的参数值，比如，将基础唤醒模型中特征提取层中的参数均确定为固定参数等，基础唤醒模型训练完成后，该基础唤醒模型中的固定参数的参数值将不再改变，而该基础唤醒模型所包含的全部参数中除固定参数之外的其他参数均确定为可调参数，后续再对该基础唤醒模型进行训练时，可以只对该基础唤醒模型中的可调参数进行调整。其中，通用语音数据可为不同应用场景的语音数据(如录制的语音数据)，和/或，为通过文本转语音TTS处理的方式获取的。该通用语音数据中包括包含有任一唤醒词的语音数据，和/或，不包含有唤醒词的语音数据。

其中，确定该基础唤醒模型中的固定参数可以是根据人工经验确定的，也可以是在根据包含不同唤醒词的语音数据对原始唤醒模型进行训练的过程中，参数值变化浮动在预设的浮动范围内的参数。

基于上述实施例，确定当前获取的匹配结果为该自定义唤醒词的信息与已配置的每个唤醒词的信息均不匹配时，则获取包含有该自定义唤醒词的每个正语音样本及每个正语音样本分别对应的标签。基于每个正语音样本以及每个正语音样本分别对应的标签，对上述获取的基础唤醒模型中的可调参数进行调整，以将训练完成的唤醒模型中调整后的可调参数的信息确定为目标参数的信息。

其中，任一正语音样本对应的标签用于标识该正语音样本中包含自定义唤醒词，该标签可以表示为数字、字母等，也可以表示为其他形式，只要可以能够标识该正语音样本中包含自定义唤醒词即可。

在本发明实施例中，如果希望训练得到该自定义唤醒词对应的唤醒模型，则需要获取到用于训练该自定义唤醒词对应的唤醒模型的语音样本，该语音样本中应至少包括包含有该自定义唤醒词的语音信息。

在实际应用场景中，尽可能的收集不同用户发出的包含有自定义唤醒词的正语音样本，并将其用于对原始唤醒模型中的原始可调参数进行训练，则会进一步提高训练得到的该自定义唤醒词对应的唤醒模型的精度。因此，如果在工期允许且资金较为充足的情况下，可以收集不同用户在不同环境中发出的包含有该自定义唤醒词的语音数据，直接将该包含有该自定义唤醒词的语音数据确定为正语音样本，后续直接基于该正语音样本，对基础唤醒模型进行训练。

由于语音样本数量越多，训练得到的基础唤醒模型的各可调参数的参数值的精确度越高，为了得到高精度的基础唤醒模型，通过上述方式获取包含有该自定义唤醒词的语音数据需要耗费大量的时间，才能收集到满足训练所需的正语音样本数量。为了缩短收集正语音样本所需的时间，还可以向一些数据提供公司购买包含有该自定义唤醒词的语音数据，以快速获取到大量的包含有该自定义唤醒词的语音数据。对于该种方法，由于在实际应用场景中，用户一般在通过语音唤醒智能设备时，距离智能设备会较远，比如，2米、1米等，而从数据提供公司购买的包含有该自定义唤醒词的语音数据，是对应的发音者在距离语音采集设备较近的距离的情况下录制的，比如，10厘米、20厘米等，因此，基于数据提供公司购买的包含有该自定义唤醒词的语音数据，训练得到的唤醒模型也并不一定能很好的适用于实际应用场景中，并且用户可以设置的自定义唤醒词的种类非常的多，如果针对每个自定义唤醒词，都从数据提供公司购买包含该自定义唤醒词的语音数据，其所耗费的成本会非常的大。

因此，为了节约获取包含自定义唤醒词的正语音样本所耗费的成本，并快速收集到满足训练所需的正语音样本数量，在本发明实施例中，还可以通过对该自定义唤醒词的信息进行文本转语音(Text-to-Speech，简称TTS)处理，得到多个包含该自定义唤醒词的语音数据，并确定为正语音样本。

需要说明的是，通过对该自定义唤醒词的信息进行TTS处理，确定包含该自定义唤醒词的语音数据的过程属于现有技术，在此不做赘述。

其中，为了获取大量的包含有该自定义唤醒词的语音数据，可以通过不同的语音合成模型，不同语音合成模型的至少一个参数的参数值不同，例如，语速参数不同，音高参数不同，音长参数不同、音强参数不同等，从而获取大量的包含有自定义唤醒词的不同语音数据。比如，通过多个设置了不同语速参数的文本转语音模型，分别获取不同语速的包含有自定义唤醒词的语音数据，或者通过多个设置了不同音高参数的文本转语音模型，分别获取不同音高的包含有自定义唤醒词的语音数据等；还可以通过自适应的方式修改文本转语音模型中的至少一个参数的参数值，获取大量不同的包含有自定义唤醒词的语音数据。

当获取到包含有自定义唤醒词的正语音样本及每个正语音样本对应的标签之后，可以直接基于每个正语音样本及每个正语音样本对应的标签，对基础唤醒模型中的可调参数进行调整。

在一种可能的实施方式中，为了提高该自定义唤醒词对应的唤醒模型的鲁棒性，使其尽可能地识别出各种应用场景下的包含自定义唤醒词的语音信息，还可以对上述文本转语音TTS处理获取到的至少一个语音数据进行加噪处理，获取加噪后的语音数据，并确定其对应的标签，从而使该自定义唤醒词的正语音样本更加多样性，尽可能的多。具体的，得到多个包含所述自定义唤醒词的语音数据之后，所述方法还包括：

其中，对获取的语音数据进行加噪的方法，可以是预先针对智能设备的每种工作场景中，采集的语音数据中可能会出现的噪声，根据这些噪声的种类，对获取的至少一个语音数据进行加噪处理。据统计，在智能设备的工作场景中，比较常见的噪声种类包括：白噪声、高斯噪声、椒盐噪声等。在加噪处理过程中所使用的噪声种类还应尽可能的多，以使该加噪后的语音数据更加多样化，从而提高后续确定的自定义唤醒词对应的唤醒模型的精度。

当然，对获取的语音数据进行加噪的方法，还可以是对获取的部分或全部语音数据进行加速度扰动、音量扰动等方式对语音数据进行加噪处理。具体的，加速度扰动、音量扰动对语音数据进行加噪处理的过程属于现有技术，在此不做具体限定。

其中，任一加噪后的语音数据对应的标签，与对应的加噪前的语音数据的标签相同，以标识该加噪后的语音数据中包含有自定义唤醒词。

将上述实施例中获取到该自定义唤醒词的正语音样本之后，为了减少用于对该自定义唤醒词对应的唤醒模型进行训练所耗费的时间，可以只根据获取的正语音样本及其对应的标签，对基础唤醒模型进行训练。

其中，该自定义唤醒词的正语音样本包括至少一个语音数据，和/或，至少一个加噪后的语音数据。比如，只将部分或全部语音数据作为该自定义唤醒词的正语音样本，或者只将部分或全部加噪后的语音数据作为该自定义唤醒词的正语音样本，或者将部分语音数据以及全部的加噪后的语音数据作为该自定义唤醒词的正语音样本，或者将全部语音数据以及部分的加噪后的语音数据作为该自定义唤醒词的正语音样本等。具体实施过程中，可以根据需求灵活设置该自定义唤醒词的正语音样本，在此不做具体限定。

实施例3：

为了快速生成自定义唤醒词对应的唤醒模型，在上述各实施例的基础上，在本发明实施例中，基于包含所述自定义唤醒词的正语音样本及所述正语音样本对应的标签，对训练完成的基础唤醒模型的可调参数进行调整，包括：

在一种可能的实施方式中，为了保证该自定义唤醒词对应的唤醒模型可以识别出不包含自定义唤醒词的语音信息，即降低该自定义唤醒词对应的唤醒模型的误唤醒率，则预先收集不包含该自定义唤醒词的语音数据，将其作为该自定义唤醒词的负语音样本，并确定其对应的标签。该负语音样本可以是包含其他唤醒词的语音数据，也可以是不包含任一唤醒词的语音数据。后续根据包含该自定义唤醒词的正语音样本及该正语音样本对应的标签、以及不包含自定义唤醒词的负语音样本及该负语音样本对应的标签，一起对基础唤醒模型进行训练，以对基础唤醒模型的可调参数进行调整。

其中，任一负语音样本对应的标签用于标识该负语音样本中不包含自定义唤醒词。比如，标识包含自定义唤醒词的标签为“1”，标识不包含自定义唤醒词的标签为“0”，则正语音样本以及加噪后的正语音样本对应的标签均为“1”，负语音样本以及加噪后的负语音样本对应的标签均为“0”。

为了提高该自定义唤醒词对应的唤醒模型的鲁棒性，进一步降低误唤醒率，还可以对负语音样本也进行加噪处理，获取该自定义唤醒词的加噪后的语音数据，将该加噪后的语音数据也确定为负语音样本，从而使负语音样本更加多样性，尽可能的多。

其中，对负语音样本进行加噪处理的方法，与上述对正语音样本进行加噪的方法相同，重复之处不再赘述。

在本发明实施例中，可以基于上述不同的需求，灵活设置该自定义唤醒词的语音样本(包括：正语音样本以及其他语音样本)，从而获取满足需求的语音样本。即可以根据部分或者全部正语音样本，和部分或全部负语音样本，对该基础唤醒模型中的可调参数进行调整。

在一种可能的实施方式中，基于包含所述自定义唤醒词的正语音样本、不包含所述自定义唤醒词的负语音样本及其分别对应的标签，对所述训练完成的基础唤醒模型的可调参数进行调整，包括：

确定所述语音样本对应的声学特征；

为了快速生成自定义唤醒词对应的唤醒模型，可以预先基于大量的通用语音数据及其分别对应的通用标签，先对原始唤醒模型中的全部参数进行调整，以获取训练完成的基础唤醒模型。其中，若该通用语音数据包含唤醒词，则该通用语音数据对应的通用标签标识该通用语音数据中包含的唤醒词的信息；若该通用语音数据包含唤醒词，则该通用语音数据对应的通用标签标识该通用语音数据中不包含唤醒词，在对原始唤醒模型进行训练之前，该原始唤醒模型中各参数的参数值可以是随机的，也可以预先配置的初始值。

需要说明的是，具体的根据通用语音样本及其对应的通用标签，对原始唤醒模型中的参数进行调整的过程属于现有技术，在此不做赘述。

当基于上述实施例获取到基础唤醒模型之后，确定该基础唤醒模型中的固定参数，将该基础唤醒模型中的固定参数的参数值固定，即确定该固定参数的参数值不随后续的训练过程而改变，将基础唤醒模型所包含的全部参数中除固定参数之外的其他参数确定为可调参数，从而方便后续根据不同自定义唤醒词的语音样本，只对该基础唤醒模型中的可调参数进行调整。

具体的，获取任一语音样本及其对应的标签，确定该语音样本对应的声学特征。其中，确定声学特征的方法可以是通过特征提取算法确定，比如，梅尔倒谱系数(MFCC)、滤波器组(FBank)等特征提取算法，也可以通过其他方法获取，具体实施中可以根据实际需求进行灵活设置，在此不做具体限定。

通过基础唤醒模型，基于该语音样本的声学特征，可以判断该语音样本中是否包含有该自定义唤醒词，根据该语音样本的判断结果以及该语音样本对应的标签，对基础唤醒模型中的可调参数进行调整。

具体实施过程中，通过基础唤醒模型，基于该语音样本的声学特征，判断该语音样本中是否包含有该自定义唤醒词的过程包括：

通过该基础唤醒模型中固定参数所对应的网络层，确定输入的语音样本的声学特征对应的目标特征向量，其中，该目标特征向量的维数是预设的，比如，100维，200维等，该目标特征向量标识通过该基础唤醒模型中固定参数所对应的网络层，从该语音样本的声学特征中提取到的更加抽象、更高维度的声学特征。

当获取到该语音样本的目标特征向量之后，将该目标特征向量输入到基础唤醒模型中可调参数所对应的网络层。通过基础唤醒模型中可调参数所对应的网络层，基于该目标特征向量，判断该语音样本中是否包含有自定义唤醒词。

其中，该语音样本的判断结果可以是直接根据基础唤醒模型的输出的该语音样本中是否包含有自定义唤醒词的标识值确定，比如，包含有自定义唤醒词的标识值为“1”，不包含有自定义唤醒词的标识值为“0”，也可以是基于基础唤醒模型输出的该语音样本中是否包含有自定义唤醒词的概率确定的。

需要说明的是，若基础唤醒模型输出的是该语音样本中是否包含有自定义唤醒词的概率，则为了判断该语音样本中是否包含有自定义唤醒词，预设有决策阈值。当基于上述实施例获取到该语音样本中是否包含有自定义唤醒词的概率之后，将该概率值与决策阈值进行比较，从而确定该语音样本中是否包含有自定义唤醒词。具体的，若该概率大于决策阈值，则确定该语音样本中包含有自定义唤醒词，否则，确定该语音样本中不包含有自定义唤醒词。

比如，决策阈值为0.8，基于基础唤醒模型输出的某一语音样本中是否包含有自定义唤醒词的概率值为0.9，确定该概率值0.9大于该决策阈值0.8，确定该语音样本中包含有自定义唤醒词。

其中，该决策阈值可以是根据经验进行设置，也可以不同的场景，设置的不同的值。比如，如果对识别语音样本中是否包含有自定义唤醒词的准确度的要求较高，则可以将该决策阈值设置的大一些；如果希望避免将包含自定义唤醒词的语音样本误检，则可以将该决策阈值设置的小一些。具体的，可以根据实际的需求，进行灵活的设置，在此不做具体限定。

在另一种可能的实施方式中，在设置决策阈值时，除了基于上述实施例的方法确定决策阈值，还可以在对原始唤醒模型进行训练的过程中，对该决策阈值也进行调整。

该自定义唤醒词对应有大量的语音样本，对每个语音样本都进行上述操作，当满足预设的收敛条件时，该自定义唤醒词对应的唤醒模型训练完成。其中，满足预设的收敛条件可以为基于每个语音样本的判断结果以及对应的标签所确定的损失值的和不大于预设的损失阈值，或对基础唤醒模型进行训练的迭代次数达到设置的最大迭代次数等。具体实施中可以灵活进行设置，在此不做具体限定。

需要说明的是，本发明实施例中的自定义唤醒词对应的唤醒模型一般是深度神经网络模型，其主要是采用迁移学习的思想训练得到的，即在基础唤醒模型确定的固定参数的基础上，对可调参数进行调优。该唤醒模型中的参数主要分为两部分，一部分为固定参数，另一部分为可调参数。该固定参数的数量一般非常的大，大约40万左右，而可调参数的数量则相对较少，一般只有5万左右，从而大大减少训练时所需调整的参数的数量，以及后续用于数据传输的数据量。

在一种可能的实施方式中，在对基础唤醒模型中的可调参数进行调整时，可以把该自定义唤醒词的语音样本分为训练语音样本和测试语音样本，先基于训练语音样本对基础唤醒模型中的可调参数进行训练，再基于测试语音样本对上述以训练完成的该自定义唤醒词对应的唤醒模型的可靠程度进行验证。

进一步地，将调整后的可调参数的信息确定为目标参数的信息之后，所述方法还包括：

在本发明实施例中，当确定当前没有保存与该自定义唤醒词的信息匹配的唤醒词的信息时，则需要基于上述实施例中的方法确定该自定义唤醒词对应的唤醒模型中可调参数的信息。为了方便后续快速生成该自定义唤醒词对应的唤醒模型，在将调整后的可调参数的信息确定为目标参数的信息之后，可以保存该自定义唤醒词的信息以及该自定义唤醒词对应的唤醒模型的可调参数的信息。后续当其他用户设置该自定义唤醒词时，无需再次训练该自定义唤醒词对应的唤醒模型中可调参数的信息，直接将保存的该自定义唤醒词对应的唤醒模型的可调参数的信息确定为目标参数的信息，并发送至其他用户的智能设备。

在一种可能的实施方式中，为了进一步方便后续追溯每个用户设置的自定义唤醒词，还可以将用户的标识信息、自定义唤醒词的信息、该自定义唤醒词对应的唤醒模型的可调参数的信息保存，以便可以查询到哪一个用户进行自定义唤醒词的设置，设置的自定义唤醒词是什么。

比如，生成唤醒模型的电子设备为服务器，在该服务器本地保存有每个已配置的唤醒词对应的可调参数的数据库，该可调参数的数据库中保存有已配置的唤醒词、对应的唤醒模型中的可调参数、以及设置该唤醒词的每个用户的标识信息。

其中，该用户的标识信息可以是根据该用户的声纹特征确定的，也可以是根据该用户的人脸特征确定的，当然也可以是根据该用户的智能设备的设备标识信息。具体实施中，可以根据需求进行灵活设置，在此不做具体限定。

实施例4：

下面通过具体的流程对本发明实施例提供的唤醒模型的生成方法进行介绍，图2为本发明实施例提供的具体的唤醒模型的生成流程示意图，该流程包括：

S201：获取自定义唤醒词的信息。

S202：将该自定义唤醒词的信息与已配置的唤醒词的信息进行匹配，判断是否存在与该自定义唤醒词的信息匹配的唤醒词的信息，若是，执行S203，否则，执行S204。

S203：获取匹配的唤醒词的信息对应的可调参数的信息，并将该可调参数的信息确定为目标参数的信息，然后执行S210。

S204：确定用于训练该自定义唤醒词对应的唤醒模型的语音样本，该语音样本包括包含有该自定义唤醒词的正语音样本和不包含有该自定义唤醒词的负语音样本。

S205：获取任一语音样本及该语音样本对应的标签，该语音样本为正语音样本或负语音样本。

其中，任一正语音样本对应的标签用于标识该正语音样本中包含该自定义唤醒词；任一负语音样本对应的标签用于标识该负语音样本中不包含该自定义唤醒词。

S206：确定语音样本对应的声学特征。

S207：通过基础唤醒模型，基于该声学特征，判断该语音样本中是否包含有自定义唤醒词。

具体的，通过该基础唤醒模型中固定参数所对应的网络层，确定该声学特征对应的目标特征向量；通过该基础唤醒模型中可调参数所对应的网络层，基于该目标特征向量，判断该语音样本中是否包含有自定义唤醒词。

S208：根据该语音样本的判断结果以及该语音样本的标签，对该基础唤醒模型的可调参数进行调整。

该自定义唤醒词的语音样本一般包含有若干个，针对每个语音样本均执行上述S205～S208的步骤，当确定训练的唤醒模型满足收敛条件时，则确定获取到该自定义唤醒词对应的唤醒模型中可调参数的信息。

S209：将调整后的可调参数的信息确定为目标参数的信息。

S210：将目标参数的信息发送至智能设备，以使智能设备根据该目标参数的信息，对本地保存的唤醒模型的可调参数进行更新。

实施例5：

本发明实施例提供了一种唤醒模型的更新方法，图3为本发明实施例提供的一种唤醒模型的更新过程示意图，该过程包括：

S301：获取自定义唤醒词并将所述自定义唤醒词发送至服务器。

S302：接收所述服务器发送的唤醒模型的目标参数的信息。

S303：根据所述目标参数的信息，对本地保存的唤醒模型的可调参数进行更新，其中，所述唤醒模型的目标参数为所述唤醒模型中的至少一个可调整的参数。

在本发明实施例中，该唤醒模型的更新方法应用于智能设备。具体的解决问题的原理已在上述实施例中进行说明，重复之处不做赘述。

图4为本发明实施例提供的具体的唤醒模型的更新流程示意图，该流程包括：

S801：智能设备获取自定义唤醒词。

S802：智能设备将该自定义唤醒词发送至服务器。

S803：服务器根据智能设备发送的自定义唤醒词，获取该自定义唤醒词的信息。

S804：服务器将该自定义唤醒词的信息与已配置的唤醒词的信息进行匹配，根据匹配结果，确定自定义唤醒词对应的唤醒模型的目标参数的信息。

具体的，当存在与该自定义唤醒词的信息匹配的唤醒词的信息时，服务器获取匹配的唤醒词的信息对应的可调参数的信息，并将该可调参数的信息确定为目标参数的信息；

当不存在与该自定义唤醒词的信息匹配的唤醒词的信息时，服务器基于包含该自定义唤醒词的正语音样本及该正语音样本对应的标签，对基础唤醒模型的可调参数进行调整，并将调整后的可调参数的信息确定为目标参数的信息。

其中，将调整后的可调参数的信息确定为目标参数的信息之后，保存该自定义唤醒词的信息以及该自定义唤醒词对应的唤醒模型的可调参数的信息。

S805：服务器将确定的目标参数的信息发送至智能设备。

S806：智能设备接收服务器发送的唤醒模型的目标参数的信息，根据该目标参数的信息，对本地保存的唤醒模型的可调参数进行更新。

实施例6：

图5为本发明实施例提供的一种唤醒模型的生成装置的结构示意图，本发明实施例提供了一种唤醒模型的生成装置，所述装置包括：

获取单元41，用于获取自定义唤醒词的信息；

处理单元42，用于将所述自定义唤醒词的信息与已配置的唤醒词的信息进行匹配，根据匹配结果，确定唤醒模型的目标参数的信息，并发送至智能设备，其中，所述目标参数为所述唤醒模型中的至少一个可调整的参数。

在一种可能的实施方式中，所述处理单元42，具体用于：

在一种可能的实施方式中，所述处理单元42，具体用于：基于包含所述自定义唤醒词的正语音样本及所述正语音样本对应的标签、以及不包含所述自定义唤醒词的负语音样本及所述负语音样本对应的标签，对所述基础唤醒模型的可调参数进行调整，其中，所述负语音样本对应的标签用于标识所述负语音样本中不包含所述自定义唤醒词。

在一种可能的实施方式中，所述处理单元42，具体用于：

实施例7：

图6为本发明实施例提供的一种唤醒模型的更新装置的结构示意图，本发明实施例提供了一种唤醒模型的更新装置，所述装置包括：

获取模块51，用于获取自定义唤醒词并将所述自定义唤醒词发送至服务器；

接收模块52，用于接收所述服务器发送的唤醒模型的目标参数的信息；

更新模块53，用于根据所述目标参数的信息，对本地保存的唤醒模型的可调参数进行更新，其中，所述唤醒模型的目标参数为所述唤醒模型中的至少一个可调整的参数。

实施例8：

图7为本发明实施例提供的一种电子设备结构示意图，该电子设备，包括：处理器61、通信接口62、存储器63和通信总线64，其中，处理器61，通信接口62，存储器63通过通信总线64完成相互间的通信；

所述存储器63中存储有计算机程序，当所述程序被所述处理器61执行时，使得所述处理器61执行如下步骤：

获取自定义唤醒词的信息；

由于上述电子设备解决问题的原理与唤醒模型的生成方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口62用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例9：

图8为本发明实施例提供的再一种电子设备结构示意图，该电子设备，包括：处理器71、通信接口72、存储器73和通信总线74，其中，处理器71，通信接口72，存储器73通过通信总线74完成相互间的通信；

所述存储器73中存储有计算机程序，当所述程序被所述处理器71执行时，使得所述处理器71执行如下步骤：

获取自定义唤醒词并将所述自定义唤醒词发送至服务器；

接收所述服务器发送的唤醒模型的目标参数的信息；

由于上述电子设备解决问题的原理与唤醒模型的更新方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

通信接口72用于上述电子设备与其他设备之间的通信。

实施例10：

在上述各实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有可由处理器执行的计算机程序，当所述程序在所述处理器上运行时，使得所述处理器执行时实现如下步骤：

获取自定义唤醒词的信息；

上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。

由于计算机可读存储介质解决问题的原理与上述实施例中的唤醒模型的生成方法相似，因此具体实施可以参见唤醒模型的生成方法的实施。

实施例11：

获取自定义唤醒词并将所述自定义唤醒词发送至服务器；

接收所述服务器发送的唤醒模型的目标参数的信息；

由于计算机可读存储介质解决问题的原理与上述实施例中的唤醒模型的更新方法相似，因此具体实施可以参见唤醒模型的更新方法的实施。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种唤醒模型的生成方法，其特征在于，所述方法包括：

获取自定义唤醒词的信息；

2.根据权利要求1所述的方法，其特征在于，所述根据匹配结果，确定唤醒模型的目标参数的信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据匹配结果，确定唤醒模型的目标参数的信息，包括：

4.根据权利要求3所述的方法，其特征在于，通过如下方式获取所述正语音样本：

5.根据权利要求4所述的方法，其特征在于，所述得到多个包含所述自定义唤醒词的语音数据之后，所述方法还包括：

6.一种唤醒模型的更新方法，其特征在于，所述方法包括：

获取自定义唤醒词并将所述自定义唤醒词发送至服务器；

接收所述服务器发送的唤醒模型的目标参数的信息；

7.一种唤醒模型的生成装置，其特征在于，所述装置包括：

获取单元，用于获取自定义唤醒词的信息；

8.一种唤醒模型的更新装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-5所述唤醒模型的生成方法的步骤，或者实现如权利要求6所述唤醒模型的更新方法的步骤。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5所述唤醒模型的生成方法的步骤，或者实现如权利要求6所述唤醒模型的更新方法的步骤。