CN111091813A - 语音唤醒模型更新方法、装置、设备及介质 - Google Patents
语音唤醒模型更新方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN111091813A CN111091813A CN201911419885.8A CN201911419885A CN111091813A CN 111091813 A CN111091813 A CN 111091813A CN 201911419885 A CN201911419885 A CN 201911419885A CN 111091813 A CN111091813 A CN 111091813A
- Authority
- CN
- China
- Prior art keywords
- voice
- awakening
- voice information
- model
- updated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims description 25
- 238000012360 testing method Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 7
- 230000003993 interaction Effects 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 24
- 238000004891 communication Methods 0.000 description 8
- 238000009826 distribution Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000002618 waking effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Traffic Control Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种语音唤醒模型的更新方法、装置、设备及介质,用以解决不同的应用场景下的智能设备采用相同的语音唤醒模型,导致智能设备交互性能差的问题。由于本发明实施例通过获取训练集中的任一第一语音信息样本,及第一语音信息样本对应的第一标签,第一标签标识第一语音信息样本中是否包含唤醒词,其中,第一语音信息样本是目标智能设备采集并发送的语音信息;通过第一语音信息样本以及第一语音信息样本对应的第一标签,对目标智能设备对应的第一语音唤醒模型进行更新,并将更新后的第一语音唤醒模型的信息发送给目标智能设备。从而使更新后的第一语音唤醒模型更加适合该目标智能设备应用的场景,提高目标智能设备的交互性能。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种语音唤醒模型的更新方法、装置、设备及介质。
背景技术
随着智能交互技术的飞速发展,许多智能设备已经拥有了强大的处理能力,可以在一定程度上像人类一样理解自然语言。但如何能够快速响应,语音唤醒模型的性能成为影响智能交互技术进一步发展的主要问题。
现有技术中,智能设备中的语音唤醒模型一般都是智能设备的厂商统一设置,并在出厂前配置到智能设备中的,即每个智能设备上的语音唤醒模型都是一样的。然而,在实际应用中,用户在唤醒智能设备时,智能设备会采集用户的语音信息,也会采集到智能设备在应用场景下的各种噪声,导致智能设备无法通过本地保存的语音唤醒模型,正确识别出采集的语音信息是否为唤醒智能设备的唤醒语音信息。比如,用户住在飞机场附近,智能设备经常在采集语音信息时采集到飞机飞行时产生的噪声,从而导致智能设备通过本地保存的语音唤醒模型,无法正确识别采集到的语音信息是否为唤醒语音信息,或者误将非唤醒语音信息作为唤醒语音信息进行响应。因此,智能设备采用同一个语音唤醒模型的话,会很难适应不同的应用场景,从而使智能设备在应用场景下的交互性能降低。
发明内容
本发明实施例提供了一种语音唤醒模型的更新方法、装置、设备及介质,用于解决由于不同的应用场景下的智能设备采用相同的语音唤醒模型,导致智能设备交互性能差的问题。
本发明实施例提供了一种语音唤醒模型的更新方法,对于任一目标智能设备的第一语音唤醒模型的更新过程包括:
获取训练集中的任一第一语音信息样本,及所述第一语音信息样本对应的第一标签,所述第一标签标识所述第一语音信息样本中是否包含唤醒词,其中,所述第一语音信息样本是所述目标智能设备采集并发送的语音信息;
通过所述第一语音信息样本以及所述第一语音信息样本对应的第一标签,对所述目标智能设备对应的第一语音唤醒模型进行更新,并将更新后的第一语音唤醒模型的信息发送给所述目标智能设备。
本发明实施例还提供了一种语音唤醒模型的更新方法,所述方法包括:
智能设备接收服务器发送的更新后的第一语音唤醒模型的信息,并根据所述更新后的第一语音唤醒模型的信息,对所述智能设备当前本地保存的第一语音唤醒模型进行更新,其中,所述更新后的第一语音唤醒模型是根据所述智能设备采集并发送给所述服务器的语音信息更新的。
本发明实施例还提供了一种基于上述的更新后的语音唤醒模型的唤醒方法,所述方法包括:
智能设备采集到语音信息;
所述智能设备将采集到的语音信息发送给服务器,并且所述智能设备通过所述第一语音唤醒模型,获取所述语音信息包含唤醒词的第三分值;
根据所述第三分值与设定的阈值的比较结果,和/或,接收到的所述服务器发送的是否唤醒所述智能设备的反馈信息,确定是否唤醒所述智能设备。
本发明实施例还提供了一种语音唤醒模型的更新***,所述***包括用于执行如上述任一所述语音唤醒模型的更新方法的步骤的服务器,及执行如上述的所述语音唤醒模型的更新方法的步骤的智能设备。
本发明实施例还提供了一种语音唤醒模型的更新装置,所述装置应用于服务器,所述装置包括:
获取单元,用于获取训练集中的任一第一语音信息样本,及所述第一语音信息样本对应的第一标签,所述第一标签标识所述第一语音信息样本中是否包含唤醒词,其中,所述第一语音信息样本是所述目标智能设备采集并发送的语音信息;
处理单元,用于通过所述第一语音信息样本以及所述第一语音信息样本对应的第一标签,对所述目标智能设备对应的第一语音唤醒模型进行更新,并将更新后的第一语音唤醒模型的信息发送给所述目标智能设备。
本发明实施例还提供了一种语音唤醒模型的更新装置,所述装置包括:
接收单元,用于智能设备接收服务器发送的更新后的第一语音唤醒模型的信息;
更新单元,用于根据所述更新后的第一语音唤醒模型的信息,对所述智能设备当前本地保存的第一语音唤醒模型进行更新,其中,所述更新后的第一语音唤醒模型是根据所述智能设备采集并发送给所述服务器的语音信息更新的。
本发明实施例还提供了一种基于上述更新后的语音唤醒模型的唤醒装置,所述装置包括:
采集单元,用于采集到语音信息;
确定单元,用于将采集到的语音信息发送给服务器,并且所述智能设备通过所述第一语音唤醒模型,获取所述语音信息包含唤醒词的第三分值;
处理单元,用于根据所述第三分值与设定的阈值的比较结果,和/或,接收到的所述服务器发送的是否唤醒所述智能设备的反馈信息,确定是否唤醒所述智能设备。
本发明实施例还提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器用于存储程序指令,所述处理器用于执行存储器中存储的计算机程序时实现如上述任一所述语音唤醒模型的更新方法的步骤,或实现如上述所述语音唤醒模型的更新方法的步骤,或实现如上述任一所述基于上述的更新后的语音唤醒模型的唤醒方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一所述语音唤醒模型的更新方法的步骤,或实现如上述所述语音唤醒模型的更新方法的步骤,或实现如上述任一所述基于上述的更新后的语音唤醒模型的唤醒方法的步骤。
由于本发明实施例通过获取训练集中的任一第一语音信息样本,及第一语音信息样本对应的第一标签,第一标签标识第一语音信息样本中是否包含唤醒词,其中,第一语音信息样本是目标智能设备采集并发送的语音信息;通过第一语音信息样本以及第一语音信息样本对应的第一标签,对目标智能设备对应的第一语音唤醒模型进行更新,并将更新后的第一语音唤醒模型的信息发送给目标智能设备。从而使更新后的第一语音唤醒模型更加适合该目标智能设备应用的场景,提高目标智能设备的交互性能。
附图说明
图1为本发明实施例提供的一种语音唤醒模型的更新过程示意图;
图2为本发明实施例提供的具体的语音唤醒模型的更新方法流程示意图;
图3为本发明实施例提供的一种语音唤醒模型的更新过程示意图;
图4为本发明实施例提供的一种唤醒过程示意图;
图5为本发明实施例提供的一种语音唤醒模型的更新***结构示意图;
图6为本发明实施例提供的一种语音唤醒模型的更新装置结构示意图;
图7为本发明实施例提供的一种语音唤醒模型的更新装置结构示意图;
图8为本发明实施例提供的一种唤醒装置结构示意图;
图9为本发明实施例提供的一种电子设备结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了提高智能设备的交互性能,本发明实施例提供了一种语音唤醒模型的更新方法、装置、设备及介质。
实施例1:图1为本发明实施例提供的一种语音唤醒模型的更新过程示意图,该过程包括以下步骤:
S101:获取训练集中的任一第一语音信息样本,及所述第一语音信息样本对应的第一标签,所述第一标签标识所述第一语音信息样本中是否包含唤醒词,其中,所述第一语音信息样本是目标智能设备采集并发送的语音信息。
本发明实施例提供的语音信息的处理方法应用于服务器。
本发明实施例中,目标智能设备在其应用场景中采集并发送给服务器的语音信息可以是该目标智能设备采集的任一语音信息,也可以是该目标智能设备无法确定是否包含唤醒词的语音信息,具体的可以根据实际需求灵活设置。如果对更新的语音唤醒模型的精度要求比较高时,目标智能设备可以将采集的任一语音信息均发送给服务器,以使服务器对该语音信息中是否包含唤醒词进行识别,而如果希望能够减少语音信息发送所占用的网络资源,目标智能设备可以基于本地离线模型先对采集到的语音信息是否包含唤醒词进行识别,将无法确定是否包含唤醒词的语音信息发送给服务器进行识别。
具体的,本发明实施例公开的是服务器对任一目标智能设备的第一语音唤醒模型进行更新的过程。
在本发明提供的一实施例中,服务器是按照设定的周期对每个目标智能设备的第一语音唤醒模型进行更新的,其中,每个目标智能设备对应的周期可以相同,也可以不同。
服务器保存的该目标智能设备对应的训练集中的任一第一语音信息样本,均是该目标智能设备采集并发送的语音信息。而第一语音信息样本对应的第一标签,则是服务器基于该第一语音信息样本进行唤醒识别处理确定的,其中,该第一标签标识该第一语音信息样本中是否包含唤醒词。
S102:通过所述第一语音信息样本以及所述第一语音信息样本对应的第一标签,对所述目标智能设备对应的第一语音唤醒模型进行更新,并将更新后的第一语音唤醒模型的信息发送给所述目标智能设备。
因为第一语音唤醒模型的更新是周期性进行的,服务器可以针对该周期内接收到的目标智能设备发送的语音信息进行更新,也可以针对该周期及该周期之前的设定周期接收到的语音信息进行更新。当服务器在对第一语音唤醒模型进行更新时,由于服务器本地对应该目标智能设备的训练集中保存的第一语音信息样本,因此,服务器可以从对应该目标智能设备的训练集中,获取第一语音信息样本,以对第一语音唤醒模型进行更新,从而将基于上述第一语音信息样本更新后的第一语音唤醒模型的信息发送给目标智能设备。
示例性的,更新后的第一唤醒语音模型的信息是一个文件,该文件中记录有更新后的第一语音唤醒模型更新的参数,以及更新的参数的参数值。
由于本发明实施例通过获取训练集中的任一第一语音信息样本,及第一语音信息样本对应的第一标签,第一标签标识第一语音信息样本中是否包含唤醒词,其中,第一语音信息样本是目标智能设备采集并发送的语音信息;通过第一语音信息样本以及第一语音信息样本对应的第一标签,对目标智能设备对应的第一语音唤醒模型进行更新,并将更新后的第一语音唤醒模型的信息发送给目标智能设备。从而使更新后的第一语音唤醒模型更加适合该目标智能设备应用的场景,提高目标智能设备的唤醒率。
实施例2:为了能够准确地更新目标智能设备对应的第一语音唤醒模型,在上述实施例的基础上,在本发明实施例中,所述获取训练集中的任一第一语音信息样本之前,所述方法还包括:
获取所述目标智能设备发送的任一语音信息,并将所述语音信息作为语音信息样本;
通过第二语音唤醒模型,获得所述语音信息样本包含唤醒词的第一分值;
若所述第一分值大于预设的第一阈值,则确定所述语音信息样本中包含唤醒词,且所述语音信息样本对应标识所述语音信息样本中包含唤醒词的标签;或者若所述第一分值不大于所述第一阈值,则确定所述语音信息样本不包含唤醒词,且所述语音信息样本对应标识所述语音信息样本中不包含唤醒词的标签;
将所述语音信息样本、以及所述语音信息样本对应的标签,保存在所述训练集或测试集中。
服务器接收到目标智能设备采集并发送的语音信息后,为了方便进行后续的第一语音唤醒模型的更新,可以根据语音信息中是否包含唤醒词,确定该语音信息对应的标签。为了提高准确率,也可以通过人工标注的方式来确定。但为了减少人工成本,提高服务器处理的自动化程度,服务器可以自动的识别语音信息中是否包含唤醒词,从而确定该语音信息对应的标签。
在另一种可能的实施方式中,服务器本地保存有第二语音唤醒模型,第二语音唤醒模型是比目标智能设备本地保存的第一语音唤醒模型精度更高的模型。因此当服务器接收到目标智能设备发送的语音信息后,可以准确的确定出该语音信息对应的第一标签。
具体的,服务器接收到目标智能设备发送的任一语音信息,将该语音信息作为语音信息样本。通过第二语音唤醒模型,可以获得该语音信息样本包含唤醒词的第一分值,通过判断该第一分值是否大于设定的第一阈值,从而确定该语音信息样本对应的标签。若该第一分值大于设定的第一阈值,说明该语音信息样本极有可能包含唤醒词,则确定该语音信息样本对应标识语音信息样本中包含唤醒词的标签;若该第一分值不大于设定的第一阈值,说明该语音信息样本极有可能不包含唤醒词,则确定该语音信息样本对应标识该语音信息样本中不包含唤醒词的标签。
其中,该设定的第一阈值可以根据使用场景的不同,设置为不同值,如果为了避免将包含唤醒词的语音信息样本误判定为不包含唤醒词的语音信息样本,则可以将该第一阈值设置的比较低,而如果对确定的语音信息样本是否包含唤醒词的识别结果有严格要求,则可以将该第一阈值设置的比较高。
例如,设定的第一阈值为0.7,某一语音信息样本通过服务器本地保存的第二语音唤醒模型输出的第一分值为0.8,该第一分值0.8大于设定的第一阈值0.7,说明该语音信息样本极有可能包含唤醒词,则确定该语音信息样本对应标识语音信息样本中包含唤醒词的标签。
某一语音信息样本通过服务器本地保存的第二语音唤醒模型输出的第一分值为0.6,该第一分值0.6不大于设定的第一阈值0.7,说明该语音信息样本极有可能不包含唤醒词,则确定该语音信息样本对应标识语音信息样本中不包含唤醒词的标签。
在本发明实施例中,预先配置了训练集和测试集中包含的语音信息样本的比例,当获取到语音信息样本的标签后,根据该设定周期接收到的语音信息样本,以及每个语音信息样本对应的标签,按照比例进行分组。也可以在接收的过程中,根据接收到的语音信息样本以及该语音信息样本对应的标签,按照比例进行分组。
具体的,当确定了每个语音信息样本的标签后,针对该设定周期接收到的语音信息样本,按照每种标签的样本数量的分配比例进行分组时,服务器已确定当前在设定周期内接收到该目标智能设备发送的所有语音信息样本中,标签为标识包含唤醒词的语音信息样本的数量,以及标签为标识不包含唤醒词的语音信息样本的数量,则按照每种标签的样本数量的分配比例,确定保存到该训练集的语音信息样本。
示例性的,服务器在设定的周期内接收到目标智能设备采集并发送的100条语音信息样本,其中80条语音信息样本对应的标签为包含唤醒词,20条语音信息样本对应的标签为不包含唤醒词,服务器根据每种标签的样本数量的分配比例8:2,将这80条标签为标识包含唤醒词的语音信息样本中的64条语音样本信息样本作为第一语音信息样本保存到训练集,并将20条标签为标识不包含唤醒词的语音信息样本中的16条语音信息样本也作为第一语音信息样本保存在训练集中,将剩下的20条语音信息样本作为第二语音信息样本保存到测试集。
在接收的过程中对语音信息样本按照比例进行分组时,预先设置有每种标签的样本的分配比例,服务器根据该每种标签的样本的分配比例,以及接收到的语音信息样本对应的标签,将服务器接收到的语音信息样本,保存到对应该目标智能设备的训练集或测试集中。
示例性的,按照每种标签的样本的分配比例3:2,将接收到的语音信息样本分别保存到训练集和测试集中,将每接收到5条语音信息样本作为一组,服务器在每接收5条标签为标识包含唤醒词的语音信息样本的过程中,按照该目标智能设备的训练集及测试集中保存的样本数量的比例,将接收的第1到第3条标签为标识包含唤醒词的语音信息样本作为第一语音信息样本保存到该训练集中,将接收的第4到第5条标签为标识包含唤醒词的语音信息样本作为第二语音信息样本保存到该测试集中,对于服务器在每接收5条标签为标识不包含唤醒词的语音信息样本的过程中,按照该目标智能设备的训练集及测试集中保存的样本数量的比例,将接收的第1到第3条标签为标识不包含唤醒词的语音信息样本作为第一语音信息样本保存到该训练集中,将接收的第4到第5条标签为标识不包含唤醒词的语音信息样本作为第二语音信息样本保存到该测试集中。
由于本发明实施例中将目标智能设备发送的语音信息作为样本语音信息,通过服务器本地保存的第二语音唤醒模型,确定该语音信息样本对应的标签,提高了语音唤醒模型的更新过程的自动化程度,并且使后续可以准确的根据该语音信息样本更新目标智能设备对应的第一语音唤醒模型。
实施例3:为了进一步提高目标智能设备的唤醒效率,在上述各实施例的基础上,在本发明实施例中,所述将更新后的第一语音唤醒模型的信息发送给所述目标智能设备,包括:
若所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件,将所述更新后的第一语音唤醒模型的信息发送给所述目标智能设备。
由于在更新第一语音唤醒模型时,服务器根据当前周期内接收到的语音信息进行更新,或根据该周期及该周期之前的设定周期内接收到的语音信息进行更新。并且在对目标智能设备对应的第一语音模型进行更新时,是在本地保存的上一次更新后的第一语音唤醒模型的基础上进行的。因此,该更新后的第一语音唤醒模型的精度一定比上次更新的第一语音唤醒模型的精度高,且更加适用于该目标智能设备的应用场景。当按照设定的周期更新第一语音唤醒模型后,因为该更新后的第一语音唤醒模型是在上一次更新后的第一语音唤醒模型上的更新,可以直接将该更新后的第一语音唤醒模型的信息发送给目标智能设备,以提高目标智能设备的交互性能。
在基于该周期目标智能设备采集的语音信息更新第一语音唤醒模型时,由于该目标智能设备在该周期内采集的语音信息的数量可能并不多,而更新后的第一语音唤醒模型的精度也并没有太大的提升。为了节约传输更新后的第一语音唤醒模型的信息的网络资源,在本发明实施例中,在向目标智能设备发送更新后的第一语音唤醒模型的信息之前,需要对该更新后的第一语音唤醒模型的性能参数进行判断,判断该更新后第一语音唤醒模型的性能参数是否满足预设的发送条件,若满足,则将该第一语音唤醒模型的信息发送给目标智能设备,否则,不将该第一语音唤醒模型的信息发送给目标智能设备。
为了有效提高目标智能设备的唤醒率和/或降低目标智能设备的误唤醒率,确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件,包括:
获取所述更新后的第一语音唤醒模型的第一误唤醒率,根据所述第一误唤醒率,确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件;
和/或
获取所述更新后的第一语音唤醒模型的第一唤醒率,根据所述第一唤醒率,确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件。
一般在确定语音唤醒模型的性能时,是通过该语音唤醒模型的误唤醒率和/或唤醒率进行衡量的。其中,该误唤醒率为错误唤醒的次数与所有唤醒次数的比值,唤醒率为所有唤醒次数与进行是否包含唤醒词识别的次数的比值。
例如,分别将80条语音信息输入到语音唤醒模型中,根据每个输出结果,不包含唤醒词但唤醒了智能设备的语音信息的数量为20条,唤醒了智能设备的语音信息的总数量为50条,则该语音唤醒模型的误唤醒率为20/50=0.4,唤醒率为50/80=0.625。
因此,在本发明实施例,在向目标智能设备发送更新后的第一语音唤醒模型的信息之前,需要获取该更新后的第一语音唤醒模型的第一误唤醒率和第一唤醒率,从而判断该更新后的第一语音唤醒模型的误唤醒率和/或唤醒率是否满足预设的发送条件。
具体的,获取所述更新后的第一语音唤醒模型的第一误唤醒率,根据第一误唤醒率,确定更新后的第一语音唤醒模型的性能参数满足预设的发送条件;和/或,获取更新后的第一语音唤醒模型的第一唤醒率,根据第一唤醒率,确定该更新后的第一语音唤醒模型的性能参数满足预设的发送条件。
若预设的发送条件仅针对第一误唤醒率配置,根据该更新后的第一语音唤醒模型的第一误唤醒率,确定更新后的第一语音唤醒模型满足预设的发送条件;若预设的发送条件仅针对第一唤醒率配置,根据该更新后的第一语音唤醒模型的第一唤醒率,确定更新后的第一语音唤醒模型满足预设的发送条件;若预设的发送条件针对第一误唤醒率和第一唤醒率配置,根据该更新后的第一语音唤醒模型的第一误唤醒率和第一唤醒率,确定更新后的第一语音唤醒模型满足预设的发送条件。
在一种可能的实施方式中,为了有效降低目标智能设备的误唤醒率,所述根据所述第一误唤醒率,确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件,包括:
若确定预先保存的第二误唤醒率与所述第一误唤醒率的第一差值大于设定第二阈值,则确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件,其中,所述第二误唤醒率为所述目标智能设备上一次更新后的第一语音唤醒模型的误唤醒率;和/或
若确定所述第一误唤醒率小于设定第三阈值,则确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件。
在一示例中,在获取到更新后的第一语音唤醒模型后,可以根据更新后的第一语音唤醒模型的第一误唤醒率,可以通过以下三种方式确定更新后的第一语音唤醒模型的性能参数满足预设的发送条件,具体的:
方式一:服务器预先设置有第二阈值,并且保存了目标智能设备上一次更新后的第一语音唤醒模型的误唤醒率,即第二误唤醒率。当获取到更新后的第一语音唤醒模型的第一误唤醒率后,确定预先保存的第二误唤醒率与第一误唤醒率的第一差值,判断该第一差值是否大于设定的第二阈值,从而确定该更新后的第一语音唤醒模型的性能参数是否满足预设的发送条件。具体的,若该第一差值大于设定的第二阈值,确定该更新后的第一语音唤醒模型的性能参数满足预设的发送条件。
其中,在设置第二阈值时,可以根据场景的不同,设置不同的值,为了有效地降低更新后的第一语音唤醒模型错误识别的概率,则可以将该第二阈值设置的比较大,如果为了能够及时更新目标智能设备对应的第一语音唤醒模型,则可以将该第二阈值设置的比较低。
方式二:服务器预先设置有第三阈值。当获取更新后的第一语音唤醒模型的第一误唤醒率后,判断该第一误唤醒率是否小于设定的第三阈值,从而确定该更新后的第一语音唤醒模型的性能参数是否满足预设的发送条件。具体的,若该第一误唤醒率小于设定的第三阈值,确定该更新后的第一语音唤醒模型的性能参数满足预设的发送条件。
其中,第三阈值与第二阈值可以相同,也可以不同。
方式三:如果对更新后的第一语音唤醒模型错误识别的概率有严格的要求,则服务器可以预先设置有第二阈值和第三阈值,并且保存了目标智能设备上一次更新后的第一语音唤醒模型的误唤醒率,即第二误唤醒率。当获取更新后的第一语音唤醒模型的第一误唤醒率后,确定预先保存的第二误唤醒率与第一误唤醒率的第一差值,判断该第一差值是否大于设定的第二阈值,以及该第一误唤醒率是否小于设定的第三阈值。若该第一差值大于设定的第二阈值,且该第一误唤醒率小于设定的第三阈值,则确定该更新后的第一语音唤醒模型的性能参数满足预设的发送条件。
在另一种可能的实施方式中,为了有效的提高目标智能设备的唤醒率,所述根据所述第一唤醒率,确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件,包括:
若确定所述第一唤醒率与预先保存的第二唤醒率的第二差值大于设定第四阈值,则确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件,其中,所述第二唤醒率为所述目标智能设备上一次更新后的第一语音唤醒模型的唤醒率;和/或
若确定所述第一唤醒率大于设定第五阈值,则确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件。
在一示例中,在获取到更新后的第一语音唤醒模型后,可以根据更新后的第一语音唤醒模型的第一唤醒率,可以通过以下三种方式确定更新后的第一语音唤醒模型的性能参数满足预设的发送条件,具体的:
方式1:服务器预先设置有第四阈值,并且保存了目标智能设备上一次更新后的第一语音唤醒模型的唤醒率,即第二唤醒率。当获取更新后的第一语音唤醒模型的第一唤醒率后,确定第一唤醒率与预先保存的第二唤醒率的第二差值,判断该第二差值是否大于设定的第四阈值,从而确定该更新后的第一语音唤醒模型的性能参数是否满足预设的发送条件。具体的,若该第二差值大于设定的第四阈值,确定该更新后的第一语音唤醒模型的性能参数满足预设的发送条件。
其中,在设置第四阈值时,可以根据场景的不同,设置不同的值,为了有效地提高更新后的第一语音唤醒模型唤醒率,则可以将该第四阈值设置的比较高,如果为了及时更新目标智能设备对应的第一语音唤醒模型,则可以将该第四阈值设置的比较高低。
方式2:服务器预先设置有第五阈值。当获取更新后的第一语音唤醒模型的第一唤醒率后,判断该第一唤醒率是否大于设定的第五阈值,从而确定该更新后的第一语音唤醒模型的性能参数是否满足预设的发送条件。具体的,若该第一误唤醒率大于设定的第五阈值,确定该更新后的第一语音唤醒模型的性能参数满足预设的发送条件。
其中,第五阈值与第四阈值可以是相同的,也可以是不同的。
方式3:如果对更新后的第一语音唤醒模型的唤醒率有严格的要求,则服务器可以预先设置有第四阈值和第五阈值,并且保存了目标智能设备上一次更新后的第一语音唤醒模型的唤醒率,即第二唤醒率。当获取更新后的第一语音唤醒模型的第一唤醒率后,确定第一唤醒率与预先保存的第二唤醒率的第二差值,判断该第二差值是否大于设定的第四阈值,及该第一唤醒率是否大于设定的第五阈值。若该第二差值大于设定的第四阈值且该第一唤醒率大于设定的第五阈值,则确定该更新后的第一语音唤醒模型的性能参数满足预设的发送条件。
在一示例中,在获取到更新后的第一语音唤醒模型后,可以根据更新后的第一语音唤醒模型的第一唤醒率和第一唤醒率,通过将上述的方式一到方式三中的任一中方式,与方式1到方式3中的任一种方式进行结合。如将方式一与方式1结合,方式二与方式3结合等,只有通过两种方式均确定满足预设的发送条件,才确定更新后的第一语音唤醒模型的性能参数满足预设的发送条件。
例如,将方式一与方式1结合,服务器预先设置有第二阈值和第四阈值,并且保存了目标智能设备上一次更新后的第一语音唤醒模型的误唤醒率和唤醒率,即第二误唤醒率和第二唤醒率。当获取更新后的第一语音唤醒模型的第一唤醒率和第一误唤醒率后,分别确定预先保存的第二误唤醒率与第一误唤醒率的第一差值,第一唤醒率与预先保存的第二唤醒率的第二差值,判断该第一差值是否大于设定的第二阈值,且该第二差值是否大于设定的第四阈值,从而确定该更新后的第一语音唤醒模型的性能参数是否满足预设的发送条件。具体的,若第一差值大于设定的第二阈值,且该第二差值大于设定的第四阈值,确定该更新后的第一语音唤醒模型的性能参数满足预设的发送条件。
基于上述任一实施例,在一种可能的实施方式中,获取所述更新后的第一语音唤醒模型的第一误唤醒率和/或第一唤醒率包括:
获取测试集中的每个语音信息样本(记为第二语音信息样本),及每个所述第二语音信息样本对应的第二标签,所述第二标签标识对应的第二语音信息样本中是否包含唤醒词;
通过所述更新后的第一语音唤醒模型,分别获得每个所述第二语音信息样本包含唤醒词的第二分值;
根据每个所述第二分值是否大于设定的第六阈值,分别确定每个所述第二语音信息样本是否包含唤醒词;
根据确定的每个所述第二语音信息样本是否包含唤醒词以及对应的第二标签,获取所述更新后的第一语音唤醒模型的第一误唤醒率和/或第一唤醒率。
在具体实施中,通过更新后的第一语音唤醒模型,可以获得输入的第二语音信息样本包含唤醒词的第二分值,判断该第二分值是否大于设定的第六阈值,从而确定该第二语音信息样本是否包含唤醒词。若该第二分值大于设定的第六阈值,则确定该第二语音信息样本包含唤醒词;若该第二分值不大于设定的第六阈值,则确定该第二语音信息样本不包含唤醒词。
其中,该设定的第六阈值与上述设定的第一阈值可以相同,也可以不同。
例如,设定的第六阈值为0.7,某一第二语音信息样本通过更新后的第一语音唤醒模型输出的第二分值为0.8,该第二分值0.8大于设定的第六阈值0.7,则确定该第二语音信息样本包含唤醒词。
某一第二语音信息样本通过更新后的第一语音唤醒模型输出的第二分值为0.6,该第二分值0.6不大于设定的第六阈值0.7,则确定该第二语音信息样本不包含唤醒词。
当确定了测试集中的每个第二语音信息样本是否包含唤醒词之后,将确定的包含唤醒词,但对应的第二标签标识对应的第二语音信息样本不包含唤醒词的第二语音信息样本的数量,以及确定的包含唤醒词的第二语音信息样本的数量,获取该更新后的第一语音唤醒模型的误唤醒率。将确定的包含唤醒词的第二语音信息样本的数量,以及所有的第二语音信息样本的数量,获取该更新后的第一语音唤醒模型的唤醒率。
例如,第二标签用于标识该第二语音信息样本包含唤醒词的标签为“1”,用于标识该第二语音信息样本不包含唤醒词的标签为“0”。分别将200条第二语音信息样本输入到更新后的第一语音唤醒模型中,通过该更新后的第一语音唤醒模型,获得每个第二语音信息样本的第二分值,判断每个第二分值是否大于设定的第六阈值,从而确定每个第二语音信息样本是否包含唤醒词,其中,确定的包含唤醒词,但对应的第二标签为“0”的第二语音信息样本的数量为20,确定的包含唤醒词的第二语音信息样本的数量为160条,则该更新后的第一语音唤醒模型的误唤醒率为20/160=0.125,唤醒率为160/200=0.8。
由于本发明实施例在更新第一语音唤醒模型后,还需要通过唤醒率和/或误唤醒率判断该更新后的第一语音唤醒模型的性能参数是否满足预设的发送条件,从而保证准确发送性能更好的更新后的第一语音唤醒模型的信息给目标智能设备,从而帮助该目标智能设备更新第一语音唤醒模型,有利于该目标智能设备在应用场景中更好的识别采集的语音信息。
实施例4:图2为本发明实施例提供的具体的语音唤醒模型的更新方法流程示意图,该方法执行主体以服务器为例进行说明:
S201:服务器获取目标智能设备发送的任一语音信息,并将语音信息作为语音信息样本。
S202:通过第二语音唤醒模型,获得语音信息样本包含唤醒词的第一分值。
S203:服务器判断第一分值是否大于设定的第一阈值,若是,执行S204,否则,执行S205。
S204:服务器确定语音信息样本中包含唤醒词,且语音信息样本对应标识语音信息样本中包含唤醒词的标签。
S205:服务器确定语音信息样本不包含唤醒词,且语音信息样本对应标识语音信息样本中不包含唤醒词的标签。
S206:服务器将语音信息样本、以及语音信息样本对应的标签,保存在训练集或测试集中。
上述S201到S206是在设定周期内执行的步骤,即在设定周期内,服务器不断接收目标智能设备采集并发送的语音信息,将接收到的语音信息作为语音信息样本,根据该目标智能设备的训练集及测试集中保存的样本数量的比例,以及每个语音信息样本对应的标签,将服务器接收到的语音信息样本,保存到对应该目标智能设备的训练集或测试集中。
S207:在需要对任一目标智能设备对应的第一语音唤醒模型进行更新时,服务器获取训练集中的任一第一语音信息样本,及第一语音信息样本中的第一标签,其中,第一语音信息样本是目标智能设备采集并发送的语音信息。
S208:服务器通过第一语音信息样本以及第一语音信息样本对应的第一标签,对目标智能设备对应的第一语音唤醒模型进行更新。
S209:服务器获取测试集中的每个第二语音信息样本,及每个第二语音信息样本对应的第二标签,第二标签标识对应的第二语音信息样本中是否包含唤醒词。
需要说明的是,该第二语音信息样本及第二语音信息样本对应的第二标签的生成方法和来源与上述该第一语音信息样本及第一语音信息样本对应的第一标签的生成方法和来源一致,在此不再赘述。
S210:服务器通过更新后的第一语音唤醒模型,分别获得每个第二语音信息样本包含唤醒词的第二分值。
S211:服务器根据每个第二分值是否大于设定的第六阈值,分别确定每个第二语音信息样本是否包含唤醒词。
S212:服务器根据确定的每个第二语音信息样本是否包含唤醒词以及对应的第二标签,获取更新后的第一语音唤醒模型的第一误唤醒率。
S213:服务器判断第一误唤醒率是否小于设定的第三阈值,若是,执行S214,否则,执行S215。
S214:服务器确定更新后的第一语音唤醒模型满足预设的发送条件,将更新后的第一语音唤醒模型的信息发送给目标智能设备。
其中,更新后的第一唤醒语音模型的信息是一个文件,该文件中记录有更新后的第一语音唤醒模型更新的参数,以及更新的参数的参数值。
S215:服务器不发送该更新后的第一语音唤醒模型。
实施例5:图3为本发明实施例提供的一种语音唤醒模型的更新过程示意图,该过程包括以下步骤:
S301:智能设备接收服务器发送的更新后的第一语音唤醒模型的信息。
S302:根据所述更新后的第一语音唤醒模型的信息,对所述智能设备当前本地保存的第一语音唤醒模型进行更新,其中,所述更新后的第一语音唤醒模型是根据所述智能设备采集并发送给所述服务器的语音信息更新的。
该语音唤醒模型的更新方法应用于智能设备。该智能设备为进行语音唤醒模型更新的智能设备,该智能设备可以是机器人、终端、智能空调等。
本发明实施例中,由于智能设备是持续不断的采集语音信息的,如果将采集的所有的语音信息均发送给服务器,在发送过程中会占用非常大的网络资源。而该智能设备是可以通过本地保存的语音唤醒模型,确定是否对采集的语音信息进行响应的。如果智能终端只向服务器发送采集到的、无法确定是否包含唤醒词的语音信息,将会有效的减少语音信息发送所占用的网络资源。因此,为了减少语音信息发送所占用的网络资源,智能设备可以只将采集到的、无法确定是否包含唤醒词的语音信息发送给服务器。
具体的,预先设置有阈值范围,当采集的某一语音信息后,通过智能设备本地保存的第一语音唤醒模型,获取该语音信息对应的分值,若该分值在预设的阈值范围内时,说明该智能设备无法确定该语音信息是否包含唤醒词,此时该智能设备可以将该语音信息发送给服务器;若该分值不在预设的阈值范围内时,说明该智能设备可以确定该语音信息是否包含唤醒词,该智能设备不需要将该语音信息发送给服务器。
例如,预设的阈值范围为[0.8,0.9],智能设备通过本地保存的第一语音唤醒模型,获取该语音信息对应的分值为0.86,该分值在预设的阈值范围内,说明该智能设备无法确定该语音信息是否包含唤醒词,则该智能设备将该语音信息发送给服务器。
其中,可以根据使用场景的不同,从而设置不同的阈值范围。如果对语音唤醒模型的识别结果有严格的要求,则可以将该预设的阈值范围设置得大一些;如果为了进一步减少语音信息发送所占用的网络资源,则可以将该预设的阈值范围设置小一些。
在智能设备无法确定采集的语音信息是否包含唤醒词,并将该语音信息发送给服务器的同时,还需要智能设备确定是否针对该语音信息进行唤醒。如果为了避免该语音信息中包含唤醒词但智能设备没有进行唤醒的情况,则智能设备针对该语音信息进行唤醒;如果为了避免该语音信息中不包含唤醒词但智能设备进行唤醒的情况,则智能设备针对该语音信息不进行唤醒。具体可以根据实际需求进行灵活设置,在此不做限定。
在上述实施例中,设置有预设的阈值范围,根据该阈值范围,可以确定上限阈值和下限阈值,其中,该上限阈值大于下限阈值。当智能设备采集到语音信息后,通过该智能设备本地保存有第一语音唤醒模型,获取该语音信息的分值,若该分值不在预设的阈值范围内,需要判断该分值是不小于上限阈值还是不大于下限阈值,从而确定该智能设备是否进行唤醒。因此,为了准确地确定智能设备是否进行唤醒,在本发明实施例中,若某一语音信息对应的分值不在预设的阈值范围内,判断该分值是不小于上限阈值还是不大于下限阈值,若该分值是不小于上限阈值,说明该语音信息极有可能包含唤醒词,需要智能设备进行唤醒。若该分值不大于下限阈值,说明该语音信息极有可能不包含唤醒词,则不需要智能设备进行唤醒。
其中,智能设备接收的服务器发送的更新后的第一语音唤醒模型的信息是根据上述实施例中的方法确定的,在此不再赘述。
当智能终端接收到服务器31发送的训练完成的第一语音唤醒模型后,直接将本地保存的语音唤醒模型更新为当前接收到的训练完成的第一语音唤醒模型即可。
由于本发明实施例智能设备的第一语音唤醒模型可以根据服务器发送的更新后的第一语音唤醒模型的信息进行更新,从而使更新后的第一语音唤醒模型更加适合该智能设备应用的场景,提高目标智能设备的交互性能。
实施例6:图4为本发明实施例提供的一种唤醒过程示意图,该过程包括以下步骤:
S401:智能设备采集到语音信息;
S402:所述智能设备将采集到的语音信息发送给服务器,并且所述智能设备通过所述第一语音唤醒模型,获取所述语音信息包含唤醒词的第三分值;
S403:根据所述第三分值与设定的阈值的比较结果,和/或,接收到的所述服务器发送的是否唤醒所述智能设备的反馈信息,确定是否唤醒所述智能设备。
本发明实施例提供的唤醒方法应用于智能设备,该智能设备可以是机器人、终端、智能空调等。
本发明实施例中,智能设备是持续不断的采集该智能设备应用场景下的语音信息的,针对采集的语音信息,智能设备对该语音信息进行后续的处理,从而确定是否唤醒智能设备。
具体实施中,当智能设备采集到语音信息后,将该语音信息发送给服务器,并同时根据智能设备本地保存的第一语音唤醒模型,获取该语音信息包含唤醒词的第三分值。
其中,智能设备本地保存的第一语音唤醒模型是根据上述实施例中的语音唤醒模型的更新方法更新的第一语音唤醒模型。
尽管通过智能设备本地保存的第一语音唤醒模型确定是否唤醒智能设备的时间较短,但该方法易受智能设备保存的第一语音唤醒模型的性能的影响,针对一些应用场景中的语音信息,该智能设备准确识别的概率并不高。而服务器保存有比智能设备本地保存的第一语音唤醒模型,更加精确的第二语音唤醒模型,通过服务器本地保存的第二语音唤醒模型,确定是否唤醒智能设备的结果会比智能设备确定是否唤醒智能设备的结果更加准确,但也由于该方法多了数据传输的步骤,该方法会比智能设备确定是否唤醒智能设备的方法的效率低。因此,为了提高智能设备的交互性能,智能设备预先设置有第三分值。根据第三分值与设定阈值的比较结果,和/或,接收到的服务器发送的是否唤醒智能设备的反馈信息,确定是否唤醒智能设备。具体的,智能设备可以根据第三分值与设定阈值的比较结果,确定是否唤醒智能设备;可以根据接收到的服务器发送的是否唤醒智能设备的反馈信息,确定是否唤醒智能设备;还可以根据第三分值与设定阈值的比较结果,以及接收到的服务器发送的是否唤醒智能设备的反馈信息,确定是否唤醒智能设备。
具体的,为了准确地确定是否唤醒智能设备,所述根据所述第三分值与预先设置的阈值的比较结果,和/或,接收到的所述服务器发送的控制指令,确定是否唤醒所述智能设备包括:
若所述第三分值大于设定的上限阈值,则确定唤醒所述智能设备;或者
若所述第三分值小于设定的下限阈值,则确定不唤醒所述智能设备;或者
若所述第三分值不大于所述上限阈值且不小于所述下限阈值,且所述反馈信息指示唤醒所述智能设备,则确定唤醒所述智能设备;或者
若所述第三分值不大于所述上限阈值且不小于所述下限阈值,且所述反馈信息指示不唤醒所述智能设备,则确定不唤醒所述智能设备。
由于智能设备通过本地的第一语音唤醒模型,可以很快的识别出一些可能为用于训练该第一语音唤醒模型的语音信息样本的语音信息,或者一些发音清晰标准的语音信息中是否包含唤醒词。针对这些语音信息,智能设备并不需要通过服务器,确定是否唤醒智能设备。因此,智能采集到语音信息后,将该语音信息发送给服务器,并通过本地保存的第一语音唤醒模型,获取该语音信息包含唤醒词的第三分值,若该第三分值大于设定的上限阈值,说明该语音信息极有可能包含唤醒词,智能设备不需要等待服务器的反馈信息,直接确定唤醒智能设备;若第三分值小于设定的下限阈值,说明该语音信息极有可能不包含唤醒词,智能设备也不需要等待服务器的反馈信息,直接确定不唤醒智能设备。
其中,上限阈值与下限阈值不同,且上限阈值大于下限阈值。
对于智能设备在应用场景下采集到的一些特殊的语音信息,比如受到应用场景中的噪声影响很大的语音信息,有回声的语音信息等,则通过智能设备本地保存的第一语音唤醒模型并不能很好的识别出该语音信息是否包含唤醒词,从而确定是否唤醒,因此,若第三分值不大于上限阈值且不小于下限阈值,且反馈信息指示唤醒智能设备,说明该语音信息中极有可能包含唤醒词,则确定唤醒该智能设备;若所述第三分值不大于上限阈值且不小于下限阈值,且反馈信息指示不唤醒所述智能设备,说明该语音信息中极有可能包含唤醒词,则确定不唤醒智能设备。
由于本发明实施例智能设备采集到语音信息后,将采集语音信息发送给服务器,同时根据智能设备本地保存的第一语音唤醒模型,获取该语音信息包含唤醒词的第三分值,根据该第四分支与设定的阈值的比较结果,和/或,接收到的服务器发送的是否唤醒智能设备的反馈信息,确定是否唤醒智能设备,从而使智能设备可以更加准确地对应用场景下的唤醒语音信息进行唤醒,提高了智能设备的交互性能。
实施例7:图5为本发明实施例提供的一种语音唤醒模型的更新***结构示意图,所述***包括用于执行如上述实施例1-4中任一所述语音唤醒模型的更新方法的步骤的服务器51,及用于执行如上述实施例5中所述语音唤醒模型的更新方法的步骤的智能设备52。
服务器51和智能设备52分别具有上述各实施例中相应的功能,在此不再赘述。
实施例8:图6为本发明实施例提供的一种语音唤醒模型的更新装置结构示意图,该装置包括:
获取单元61,用于获取训练集中的任一第一语音信息样本,及所述第一语音信息样本对应的第一标签,所述第一标签标识所述第一语音信息样本中是否包含唤醒词,其中,所述第一语音信息样本是所述目标智能设备采集并发送的语音信息;
处理单元62,用于通过所述第一语音信息样本以及所述第一语音信息样本对应的第一标签,对所述目标智能设备对应的第一语音唤醒模型进行更新,并将更新后的第一语音唤醒模型的信息发送给所述目标智能设备。
在一种可能的实施方式中,所述获取单元62,还用于:
获取所述目标智能设备发送的任一语音信息,并将所述语音信息作为语音信息样本;通过第二语音唤醒模型,获得所述语音信息样本包含唤醒词的第一分值;若所述第一分值大于预设的第一阈值,则确定所述语音信息样本中包含唤醒词,且所述语音信息样本对应标识所述语音信息样本中包含唤醒词的标签;或者若所述第一分值不大于所述第一阈值,则确定所述语音信息样本不包含唤醒词,且所述语音信息样本对应标识所述语音信息样本中不包含唤醒词的标签;将所述语音信息样本、以及所述语音信息样本对应的标签,保存在所述训练集或测试集中。
在一种可能的实施方式中,所述处理单元62,还用于:
若所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件,将所述更新后的第一语音唤醒模型的信息发送给所述目标智能设备。
在一种可能的实施方式中,所述处理单元62,具体用于:
获取所述更新后的第一语音唤醒模型的第一误唤醒率,根据所述第一误唤醒率,确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件;和/或,获取所述更新后的第一语音唤醒模型的第一唤醒率,根据所述第一唤醒率,确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件。
在一种可能的实施方式中,所述处理单元62,具体用于:
若确定预先保存的第二误唤醒率与所述第一误唤醒率的第一差值大于设定第二阈值,则确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件,其中,所述第二误唤醒率为所述目标智能设备上一次更新后的第一语音唤醒模型的误唤醒率;和/或,若确定所述第一误唤醒率小于设定第三阈值,则确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件。
在一种可能的实施方式中,所述处理单元62,具体用于:
若确定所述第一唤醒率与预先保存的第二唤醒率的第二差值大于设定第四阈值,则确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件,其中,所述第二唤醒率为所述目标智能设备上一次更新后的第一语音唤醒模型的唤醒率;和/或,若确定所述第一唤醒率大于设定第五阈值,则确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件。
在一种可能的实施方式中,所述处理单元62,具体用于:
获取测试集中的每个第二语音信息样本,及每个所述第二语音信息样本对应的第二标签,所述第二标签标识对应的第二语音信息样本中是否包含唤醒词;通过所述更新后的第一语音唤醒模型,分别获得每个所述第二语音信息样本包含唤醒词的第二分值;根据每个所述第二分值是否大于设定的第六阈值,分别确定每个所述第二语音信息样本是否包含唤醒词;根据确定的每个所述第二语音信息样本是否包含唤醒词以及对应的第二标签,获取所述更新后的第一语音唤醒模型的第一误唤醒率和/或第一唤醒率。
实施例9:图7为本发明实施例提供的一种语音唤醒模型的更新装置结构示意图,该装置包括:
接收单元71,用于智能设备接收服务器发送的更新后的第一语音唤醒模型的信息;
更新单元72,用于根据更新后的第一语音唤醒模型的信息,对所述智能设备当前本地保存的第一语音唤醒模型进行更新,其中,所述更新后的第一语音唤醒模型是根据所述智能设备采集并发送给所述服务器的语音信息更新的。
实施例10:图8为本发明实施例提供的唤醒装置结构示意图,装置包括:
采集单元81,用于采集到语音信息;
确定单元82,用于将采集到的语音信息发送给服务器,并且所述智能设备通过所述第一语音唤醒模型,获取所述语音信息包含唤醒词的第三分值;
处理单元83,用于根据所述第三分值与设定的阈值的比较结果,和/或,接收到的所述服务器发送的是否唤醒所述智能设备的反馈信息,确定是否唤醒所述智能设备。
在一种可能的实施方式中,所述处理单元83,具体用于:
若所述第三分值大于设定的上限阈值,则确定唤醒所述智能设备;或者,若所述第三分值小于设定的下限阈值,则确定不唤醒所述智能设备;或者,若所述第三分值不大于所述上限阈值且不小于所述下限阈值,且所述反馈信息指示唤醒所述智能设备,则确定唤醒所述智能设备;或者,若所述第三分值不大于所述上限阈值且不小于所述下限阈值,且所述反馈信息指示不唤醒所述智能设备,则确定不唤醒所述智能设备。
实施例11:如图9为本发明实施例提供的一种电子设备结构示意图,在上述各实施例的基础上,本发明实施例还提供了一种电子设备,如图9所示,包括:处理器91、通信接口92、存储器93和通信总线94,其中,处理器91,通信接口92,存储器93通过通信总线94完成相互间的通信;
所述存储器93中存储有计算机程序,当所述程序被所述处理器91执行时,使得所述处理器91执行如上述实施例1-4中任一所述语音唤醒模型的更新方法的步骤,或实现如上述实施例5中所述语音唤醒模型的更新方法的步骤,或实现如上述实施例6中所述唤醒方法的步骤。
由于上述电子设备解决问题的原理与上述实施例中的方法相似,因此上述电子设备的实施可以参见方法的实施,重复之处不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口92用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字指令处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
实施例12:在上述各实施例的基础上,本发明实施例提供的一种计算机可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如实施例1-4中任一所述语音唤醒模型的更新方法的步骤,或实现如实施例5中所述语音唤醒模型的更新方法的步骤,或实现如实施例6中所述基于上述的更新后的语音唤醒模型的唤醒方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个+流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种语音唤醒模型的更新方法,其特征在于,对于任一目标智能设备的第一语音唤醒模型的更新过程包括:
获取训练集中的任一第一语音信息样本,及所述第一语音信息样本对应的第一标签,所述第一标签标识所述第一语音信息样本中是否包含唤醒词,其中,所述第一语音信息样本是所述目标智能设备采集并发送的语音信息;
通过所述第一语音信息样本以及所述第一语音信息样本对应的第一标签,对所述目标智能设备对应的第一语音唤醒模型进行更新,并将更新后的第一语音唤醒模型的信息发送给所述目标智能设备。
2.根据权利要求1所述的方法,其特征在于,所述获取训练集中的任一第一语音信息样本之前,所述方法还包括:
获取所述目标智能设备发送的任一语音信息,并将所述语音信息作为语音信息样本;
通过第二语音唤醒模型,获得所述语音信息样本包含唤醒词的第一分值;
若所述第一分值大于预设的第一阈值,则确定所述语音信息样本中包含唤醒词,且所述语音信息样本对应标识所述语音信息样本中包含唤醒词的标签;或者若所述第一分值不大于所述第一阈值,则确定所述语音信息样本不包含唤醒词,且所述语音信息样本对应标识所述语音信息样本中不包含唤醒词的标签;
将所述语音信息样本、以及所述语音信息样本对应的标签,保存在所述训练集或测试集中。
3.根据权利要求2所述的方法,其特征在于,所述将更新后的第一语音唤醒模型的信息发送给所述目标智能设备,包括:
若所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件,将所述更新后的第一语音唤醒模型的信息发送给所述目标智能设备。
4.根据权利要求3所述的方法,其特征在于,确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件,包括:
获取所述更新后的第一语音唤醒模型的第一误唤醒率,根据所述第一误唤醒率,确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件;和/或
获取所述更新后的第一语音唤醒模型的第一唤醒率,根据所述第一唤醒率,确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一误唤醒率,确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件,包括:
若确定预先保存的第二误唤醒率与所述第一误唤醒率的第一差值大于设定第二阈值,则确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件,其中,所述第二误唤醒率为所述目标智能设备上一次更新后的第一语音唤醒模型的误唤醒率;和/或
若确定所述第一误唤醒率小于设定第三阈值,则确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件。
6.根据权利要求4所述的方法,其特征在于,所述根据所述第一唤醒率,确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件,包括:
若确定所述第一唤醒率与预先保存的第二唤醒率的第二差值大于设定第四阈值,则确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件,其中,所述第二唤醒率为所述目标智能设备上一次更新后的第一语音唤醒模型的唤醒率;和/或
若确定所述第一唤醒率大于设定第五阈值,则确定所述更新后的第一语音唤醒模型的性能参数满足预设的发送条件。
7.根据权利要求5或6所述的方法,其特征在于,获取所述更新后的第一语音唤醒模型的第一误唤醒率和/或第一唤醒率包括:
获取测试集中的每个第二语音信息样本,及每个所述第二语音信息样本对应的第二标签,所述第二标签标识对应的第二语音信息样本中是否包含唤醒词;
通过所述更新后的第一语音唤醒模型,分别获得每个所述第二语音信息样本包含唤醒词的第二分值;
根据每个所述第二分值是否大于设定的第六阈值,分别确定每个所述第二语音信息样本是否包含唤醒词;
根据确定的每个所述第二语音信息样本是否包含唤醒词以及对应的第二标签,获取所述更新后的第一语音唤醒模型的第一误唤醒率和/或第一唤醒率。
8.一种语音唤醒模型的更新装置,其特征在于,所述装置应用于服务器,所述装置包括:
获取单元,用于获取训练集中的任一第一语音信息样本,及所述第一语音信息样本对应的第一标签,所述第一标签标识所述第一语音信息样本中是否包含唤醒词,其中,所述第一语音信息样本是所述目标智能设备采集并发送的语音信息;
处理单元,用于通过所述第一语音信息样本以及所述第一语音信息样本对应的第一标签,对所述目标智能设备对应的第一语音唤醒模型进行更新,并将更新后的第一语音唤醒模型的信息发送给所述目标智能设备。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器用于存储程序指令,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任一所述语音唤醒模型的更新方法的步骤。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述语音唤醒模型的更新方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911419885.8A CN111091813B (zh) | 2019-12-31 | 2019-12-31 | 语音唤醒模型更新及唤醒方法、***、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911419885.8A CN111091813B (zh) | 2019-12-31 | 2019-12-31 | 语音唤醒模型更新及唤醒方法、***、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111091813A true CN111091813A (zh) | 2020-05-01 |
CN111091813B CN111091813B (zh) | 2022-07-22 |
Family
ID=70398691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911419885.8A Active CN111091813B (zh) | 2019-12-31 | 2019-12-31 | 语音唤醒模型更新及唤醒方法、***、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111091813B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111627449A (zh) * | 2020-05-20 | 2020-09-04 | Oppo广东移动通信有限公司 | 屏幕的声纹解锁方法和装置 |
CN112185382A (zh) * | 2020-09-30 | 2021-01-05 | 北京猎户星空科技有限公司 | 一种唤醒模型的生成和更新方法、装置、设备及介质 |
CN112365883A (zh) * | 2020-10-29 | 2021-02-12 | 安徽江淮汽车集团股份有限公司 | 座舱***语音识别测试方法、装置、设备及存储介质 |
CN112820273A (zh) * | 2020-12-31 | 2021-05-18 | 青岛海尔科技有限公司 | 唤醒判别方法和装置、存储介质及电子设备 |
CN114071200A (zh) * | 2022-01-17 | 2022-02-18 | 北京智象信息技术有限公司 | 一种动态更新tv拾音外设唤醒词的方法和*** |
WO2022143048A1 (zh) * | 2020-12-31 | 2022-07-07 | 华为技术有限公司 | 对话任务管理方法、装置及电子设备 |
CN115376524A (zh) * | 2022-07-15 | 2022-11-22 | 荣耀终端有限公司 | 一种语音唤醒方法、电子设备及芯片*** |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150154953A1 (en) * | 2013-12-02 | 2015-06-04 | Spansion Llc | Generation of wake-up words |
CN107123417A (zh) * | 2017-05-16 | 2017-09-01 | 上海交通大学 | 基于鉴别性训练的定制语音唤醒优化方法及*** |
CN109817219A (zh) * | 2019-03-19 | 2019-05-28 | 四川长虹电器股份有限公司 | 语音唤醒测试方法及*** |
CN109817200A (zh) * | 2019-01-30 | 2019-05-28 | 北京声智科技有限公司 | 语音唤醒的优化装置及方法 |
CN110070857A (zh) * | 2019-04-25 | 2019-07-30 | 北京梧桐车联科技有限责任公司 | 语音唤醒模型的模型参数调整方法及装置、语音设备 |
CN110097876A (zh) * | 2018-01-30 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 语音唤醒处理方法和被唤醒设备 |
CN110310628A (zh) * | 2019-06-27 | 2019-10-08 | 百度在线网络技术(北京)有限公司 | 唤醒模型的优化方法、装置、设备及存储介质 |
-
2019
- 2019-12-31 CN CN201911419885.8A patent/CN111091813B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150154953A1 (en) * | 2013-12-02 | 2015-06-04 | Spansion Llc | Generation of wake-up words |
CN107123417A (zh) * | 2017-05-16 | 2017-09-01 | 上海交通大学 | 基于鉴别性训练的定制语音唤醒优化方法及*** |
CN110097876A (zh) * | 2018-01-30 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 语音唤醒处理方法和被唤醒设备 |
CN109817200A (zh) * | 2019-01-30 | 2019-05-28 | 北京声智科技有限公司 | 语音唤醒的优化装置及方法 |
CN109817219A (zh) * | 2019-03-19 | 2019-05-28 | 四川长虹电器股份有限公司 | 语音唤醒测试方法及*** |
CN110070857A (zh) * | 2019-04-25 | 2019-07-30 | 北京梧桐车联科技有限责任公司 | 语音唤醒模型的模型参数调整方法及装置、语音设备 |
CN110310628A (zh) * | 2019-06-27 | 2019-10-08 | 百度在线网络技术(北京)有限公司 | 唤醒模型的优化方法、装置、设备及存储介质 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111627449A (zh) * | 2020-05-20 | 2020-09-04 | Oppo广东移动通信有限公司 | 屏幕的声纹解锁方法和装置 |
CN111627449B (zh) * | 2020-05-20 | 2023-02-28 | Oppo广东移动通信有限公司 | 屏幕的声纹解锁方法和装置 |
CN112185382A (zh) * | 2020-09-30 | 2021-01-05 | 北京猎户星空科技有限公司 | 一种唤醒模型的生成和更新方法、装置、设备及介质 |
CN112185382B (zh) * | 2020-09-30 | 2024-03-08 | 北京猎户星空科技有限公司 | 一种唤醒模型的生成和更新方法、装置、设备及介质 |
CN112365883A (zh) * | 2020-10-29 | 2021-02-12 | 安徽江淮汽车集团股份有限公司 | 座舱***语音识别测试方法、装置、设备及存储介质 |
CN112365883B (zh) * | 2020-10-29 | 2023-12-26 | 安徽江淮汽车集团股份有限公司 | 座舱***语音识别测试方法、装置、设备及存储介质 |
CN112820273A (zh) * | 2020-12-31 | 2021-05-18 | 青岛海尔科技有限公司 | 唤醒判别方法和装置、存储介质及电子设备 |
WO2022143048A1 (zh) * | 2020-12-31 | 2022-07-07 | 华为技术有限公司 | 对话任务管理方法、装置及电子设备 |
CN114071200A (zh) * | 2022-01-17 | 2022-02-18 | 北京智象信息技术有限公司 | 一种动态更新tv拾音外设唤醒词的方法和*** |
CN115376524A (zh) * | 2022-07-15 | 2022-11-22 | 荣耀终端有限公司 | 一种语音唤醒方法、电子设备及芯片*** |
Also Published As
Publication number | Publication date |
---|---|
CN111091813B (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111091813B (zh) | 语音唤醒模型更新及唤醒方法、***、装置、设备及介质 | |
CN106782536B (zh) | 一种语音唤醒方法及装置 | |
CN107610702B (zh) | 终端设备待机唤醒方法、装置及计算机设备 | |
CN110544477A (zh) | 一种语音识别方法、装置、设备及介质 | |
US9928831B2 (en) | Speech data recognition method, apparatus, and server for distinguishing regional accent | |
CN111599371B (zh) | 语音增加方法、***、装置及存储介质 | |
CN109065046A (zh) | 语音唤醒的方法、装置、电子设备及计算机可读存储介质 | |
CN108055617B (zh) | 一种麦克风的唤醒方法、装置、终端设备及存储介质 | |
CN111105786B (zh) | 一种多采样率语音识别方法、装置、***及存储介质 | |
CN107948437B (zh) | 熄屏显示方法和装置 | |
CN113436611B (zh) | 车载语音设备的测试方法、装置、电子设备和存储介质 | |
CN112309384B (zh) | 一种语音识别方法、装置、电子设备及介质 | |
CN110473542B (zh) | 语音指令执行功能的唤醒方法、装置及电子设备 | |
CN112185382B (zh) | 一种唤醒模型的生成和更新方法、装置、设备及介质 | |
CN113380229B (zh) | 语音响应速度确定方法、相关装置及计算机程序产品 | |
CN112767935B (zh) | 唤醒指标监测方法、装置及电子设备 | |
CN111081251B (zh) | 语音唤醒方法及装置 | |
CN111161745A (zh) | 一种智能设备的唤醒方法、装置、设备及介质 | |
CN113488050B (zh) | 语音唤醒方法、装置、存储介质及电子设备 | |
CN111554288A (zh) | 智能设备的唤醒方法、装置、电子设备及介质 | |
CN115065574A (zh) | 车辆控制器的唤醒方法、装置、电子设备和自动驾驶车辆 | |
CN113889086A (zh) | 语音识别模型的训练方法、语音识别方法及相关装置 | |
CN111124512B (zh) | 智能设备的唤醒方法、装置、设备和介质 | |
CN113593549A (zh) | 确定语音设备的唤醒率的方法及装置 | |
CN115148199A (zh) | 语音误唤醒处理方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |