CN115691505A - 智能语音设备的控制方法、装置、设备、介质及程序产品 - Google Patents

智能语音设备的控制方法、装置、设备、介质及程序产品 Download PDF

Info

Publication number
CN115691505A
CN115691505A CN202110839690.XA CN202110839690A CN115691505A CN 115691505 A CN115691505 A CN 115691505A CN 202110839690 A CN202110839690 A CN 202110839690A CN 115691505 A CN115691505 A CN 115691505A
Authority
CN
China
Prior art keywords
voiceprint
preset
voice
similarity
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110839690.XA
Other languages
English (en)
Inventor
朱文博
张卓博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Haier Technology Co Ltd
Haier Smart Home Co Ltd
Original Assignee
Qingdao Haier Technology Co Ltd
Haier Smart Home Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Haier Technology Co Ltd, Haier Smart Home Co Ltd filed Critical Qingdao Haier Technology Co Ltd
Priority to CN202110839690.XA priority Critical patent/CN115691505A/zh
Publication of CN115691505A publication Critical patent/CN115691505A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明属于语音识别技术领域,具体涉及一种智能语音设备的控制方法、装置、设备、介质及程序产品。本发明旨在解决现有语音指令识别准确率较差的问题。本发明实施例提供的智能语音设备的控制方法、装置、设备、介质及程序产品,该方法包括:通过接收用户输入的语音指令,将声纹信息与每个功能程序对应的预设声纹进行匹配,获取与每个预设声纹的相似度,根据每个预设声纹对应的相似度和预设相似阈值,从所述预设声纹中确定目标声纹,控制智能语音设备执行目标声纹对应的目标功能程序,能够有效提高对语音指令识别准确率以及对智能语音设备的控制精确度,且实现过程中应用的算法较为简单,易于实现,能够与用户达到较好的交互效果。

Description

智能语音设备的控制方法、装置、设备、介质及程序产品
技术领域
本发明实施例属于语音识别技术领域,具体涉及一种智能语音设备的控制方法、装置、设备、介质及程序产品。
背景技术
在智能语音对话***中,智能语音设备可以根据用户的语音指令进行工作。但由于部分用户的口音较重,在使用方言向智能语音设备发送语音指令时,智能语音设备无法准确识别语音指令中的内容,导致智能语音设备无法准确依据语音指令进行工作。因此,如何准确识别用户的语音指令是关键。
现有技术中,识别用户语音指令主要是用户根据地域位置选择相应的方言模式(如闽南话模式,山东话模式,上海话模式等)后,向智能语音设备发送语音指令,智能语音设备接收用户发送的语音指令,并利用用户选择的方言模式对应的方言模型对语音指令进行识别,根据识别结果进行工作。
然而,由于方言有很多种类,且还存在许多介于不同方言之间不能被完全划分定位的方言,导致对语音指令识别准确率以及对智能语音设备的控制精确度较差。
发明内容
为了解决现有技术中的上述问题,即为了解决现有技术中由于方言有很多种类,且还存在许多介于不同方言之间不能完全被划分定位的方言,导致对语音指令识别准确率较差以及对智能语音设备的控制精确度较差的问题,本发明实施例提供了一种智能语音设备的控制方法、装置、设备、介质及程序产品。
第一方面,本申请实施例提供一种智能语音设备的控制方法,包括:
接收用户输入的语音指令,所述语音指令包括声纹信息;
将所述声纹信息与每个功能程序对应的预设声纹进行匹配,获取与每个预设声纹的相似度,所述每个功能程序对应的预设声纹是基于所述用户预先输入的语音获取的;
根据每个预设声纹对应的相似度和预设相似阈值,从所述预设声纹中确定目标声纹;
控制智能语音设备执行所述目标声纹对应的目标功能程序。
在一种具体实施方式中,所述将所述声纹信息与每个功能程序对应的预设声纹进行匹配,获取与每个预设声纹的相似度,包括:
将所述语音指令中的声纹信息输入预先获取的匹配模型中进行处理,获取所述声纹信息与每个功能程序对应的预设声纹的相似度,所述匹配模型是根据多个用户的声纹样本训练得到的。
在一种具体实施方式中,所述方法还包括:
将所述语音指令的声纹信息与所述每个功能程序对应的预设声纹的相似度按照由高到低的顺序进行排列;
其中,所述根据每个预设声纹对应的相似度和预设相似阈值,从所述预设声纹中确定目标声纹,包括:
将与所述声纹信息的相似度最高,且所述相似度超过预设相似阈值的预设声纹确定为所述目标声纹。
可选的,所述方法还包括:
在排在第一位的相似度小于或等于预设相似阈值时,生成匹配失败信息,所述匹配失败信息用于表示无法获取与所述语音指令对应的所述目标功能程序。
在一种具体实施方式中,所述获取用户输入的语音指令之前,所述方法还包括:
获取所述用户输入的语音,所述语音包括预设声纹;
响应于所述用户对于功能程序的选择操作,建立所述预设声纹与所述功能程序的映射关系。
可选的,所述生成匹配失败信息之后,所述方法还包括:
输出所述匹配失败信息,
或,
向所述用户的终端设备发送所述匹配失败信息。
第二方面,本申请实施例提供一种智能语音设备的控制装置,包括:
接收模块,用于接收用户输入的语音指令,所述语音指令包括声纹信息;
处理模块,用于将所述声纹信息与每个功能程序对应的预设声纹进行匹配,获取与每个预设声纹的相似度,所述每个功能程序对应的预设声纹是基于所述用户预先输入的语音获取的;
所述处理模块,还用于根据每个预设声纹对应的相似度和预设相似阈值,从所述预设声纹中确定目标声纹;
所述处理模块,还用于控制智能语音设备执行所述目标声纹对应的目标功能程序。
在一种具体实施方式中,所述处理模块,具体用于:
将语音指令中的声纹信息输入预先获取的匹配模型中进行处理,获取声纹信息与每个功能程序对应的预设声纹的相似度,匹配模型是根据多个用户的声纹样本训练得到的。
可选的,所述处理模块,还用于:
将语音指令的声纹信息与每个功能程序对应的预设声纹的相似度按照由高到低的顺序进行排列;
其中,所述处理模块还用于将与所述声纹信息的相似度最高,且所述相似度超过预设相似阈值的预设声纹确定为所述目标声纹。
可选的,所述处理模块,还用于:
在排在第一位的相似度小于或等于预设相似阈值时,生成匹配失败信息,匹配失败信息用于表示无法获取与语音指令对应的目标功能程序。
在一种具体实施方式中,获取用户输入的语音指令之前,所述接收模块,还用于:获取用户输入的语音,语音包括预设声纹。
所述处理模块,还用于:响应于用户对于功能程序的选择操作,建立预设声纹与功能程序的映射关系。
在一种具体实施方式中,该智能语音设备的控制装置还可以包括:
输出模块,用于输出匹配失败信息,
或,
发送模块,用于向用户的终端设备发送匹配失败信息。
第三方面,本申请实施例提供一种电子设备,包括:接收器、处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序指令,所述接收器耦合至所述处理器,所述处理器控制所述接收器的接收动作,所述处理器执行所述计算机程序指令时用于实现第一方面以及各可能设计提供的方法。
第四方面,本申请实施例可提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现第一方面以及各可能设计提供的方法。
第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时用于实现第一方面以及各可能设计提供的方法。
本领域技术人员能够理解的是,本发明实施例提供的智能语音设备的控制方法、装置、设备、介质及程序产品,该方法包括:通过接收用户输入的语音指令,将声纹信息与每个功能程序对应的预设声纹进行匹配,获取与每个预设声纹的相似度,根据每个预设声纹对应的相似度和预设相似阈值,从所述预设声纹中确定目标声纹,控制智能语音设备执行目标声纹对应的目标功能程序。通过获取声纹信息与每个预设声纹的相似度,将超过预设相似阈值的且与声纹信息相似度最高的预设声纹作为目标声纹,能够有效提高对语音指令识别准确率以及对智能语音设备的控制精确度,且实现过程中应用的算法较为简单,易于实现,能够与用户达到较好的交互效果,容易工业化落地。且与现有技术相比,可以使用公开的数据集中的文本无关的声纹信息数据对匹配模型进行训练,能够有效减少成本,使本方案更容易实现。
附图说明
下面参照附图并结合智能语音设备来描述本发明的智能语音设备的控制方法的优选实施方式。附图为:
图1为本申请实施例提供的智能语音设备的控制方法的一种应用场景示意图;
图2为本申请实施例提供的智能语音设备的控制方法实施例一的流程示意图;
图3为本申请实施例提供的智能语音设备的控制方法实施例二的流程示意图;
图4为本申请实施例提供的智能语音设备的控制方法实施例三的流程示意图;
图5为本申请实施例提供的智能语音设备的控制装置的结构示意图;
图6为本申请实施例提供的电子设备的结构示意图。
具体实施方式
首先,本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。本领域技术人员可以根据需要对其作出调整,以便适应具体的应用场合。
其次,需要说明的是,在本发明实施例的描述中,术语“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或构件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明实施例的描述中,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个构件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明实施例中的具体含义。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在介绍本申请的实施例之前,首先对本申请实施例的背景技术进行解释:
对于具有语音交互功能的智能语音设备,用户可以根据自己的需求向智能语音设备发送语音指令,智能语音设备接收到用户发送的语音指令后根据该语音指令进行工作。示例性的,针对于具有语音交互功能的洗衣机来说,用户在将衣服放入洗衣机后可以对洗衣机说“除螨洗”,洗衣机接收到用户发送的语音指令,也就是用户说的“除螨洗”,启动“除螨洗”对应的除螨洗功能程序,对洗衣机中的衣服进行洗涤。
然而,由于部分用户不会使用普通话,口音较重,在使用方言向智能语音设备发送语音指令时,智能语音设备无法准确识别语音指令中的内容,导致智能语音设备无法准确依据语音指令进行工作。示例性的,用户使用方言向洗衣机发送“除除洗”或其他发音与“除螨洗”类似的语音指令,洗衣机可能会将发音与“除螨洗”类似的语音指令的内容识别为“慢速洗”,从而启动“慢速洗”对应的慢速洗功能程序。由于洗衣机同时存在除螨洗功能程序和慢速洗功能程序,因此洗衣机交互***中存在的语义泛化以及纠错处理不能取得良好效果,如何准确识别用户的语音指令是急需解决的问题。
现有技术中,识别用户语音指令主要是用户根据地域位置选择相应的方言模式(如闽南话模式,山东话模式,上海话模式等)后,向智能语音设备发送语音指令,智能语音设备接受用户发送的语音指令,并利用用户选择的方言模式对应的方言模型对语音指令进行识别,根据识别结果启动相应的功能程序进行工作。
然而,由于方言有很多种类,且还存在许多介于不同方言之间不能被完全划分定位的方言,导致对语音指令识别准确率较差。
针对上述问题,本申请的发明构思如下:在识别用户语音指令的过程中,智能语音设备需要根据语音指令中的文字内容或语音指令中声纹的文本部分获取相应方言模式下对应的功能程序,由于部分方言介于不同方言之间不能被完全划分定位,导致对语音指令识别准确率较差。基于此,发明人发现,若能预先获取该用户对每个功能程序的声纹信息,在用户使用智能语音设备时,只需要将用户发送的语音指令中的声纹信息与每个功能程序对应的声纹信息进行逐一匹配,选取声纹信息与语音指令中的声纹信息匹配度最高的功能程序,就能解决现有技术中对语音指令识别准确率较差的问题,从而可以进一步提高对语音指令识别准确率以及对智能语音设备的控制精确度。
示例性的,本申请实施例提供的智能语音设备的控制方法可以应用于图1所示的一种应用场景示意图中。图1为本申请实施例提供的智能语音设备的控制方法的一种应用场景示意图,用以解决上述技术问题。如图1所示,该应用场景可以包括:智能语音设备(图1中以具有语音交互功能的洗衣机为例进行举例说明)和终端设备。
示例性的,在图1所示的应用场景中,智能语音设备可以接收用户输入的语音指令,根据语音指令中的声纹信息执行智能语音设备的控制方法的程序代码,从而得到目标功能程序,并控制智能语音设备执行目标功能程序。
在本实施例中,智能语音设备还可以根据语音指令中的声纹信息执行智能语音设备的控制方法的程序代码,从而生成匹配失败信息。智能语音设备可以输出匹配失败信息,如智能语音设备可以播放语音“没有找到对应的功能”,可以播放特定的音乐,还可以在智能语音设备的屏幕上显示文字“匹配失败”等。智能语音设备还可以将匹配失败信息发送给用户的终端设备,如智能语音设备可以给用户的终端设备发送短信,还可以向终端设备中绑定该智能语音设备的应用程序发送推送消息,还可以给用户绑定的邮箱发送邮件等。在一些实施例中,智能语音设备可以为可以接收语音指令并对语音指令进行响应的智能家电、智能机器人、智能音箱、智能摄像头等,本申请实施例对此不作限定。
在实际应用中,由于终端设备也是具有数据处理能力和语音交互能力的处理设备,因而,上述图1所示应用场景中的智能语音设备也可以由终端设备实现。在本申请的实施例中,可以将终端设备和智能语音设备统称为电子设备。
可选的,本申请实施例中智能语音设备的控制方法的执行主体为电子设备。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图2为本申请实施例提供的智能语音设备的控制方法实施例一的流程示意图。如图2所示,该方法可以包括如下步骤:
S101、接收用户输入的语音指令。
在本步骤中,在用户使用智能语音设备时,可以向电子设备发送语音指令。电子设备可以接收用户发送的语音指令,以便于后续控制智能语音设备执行相应的功能程序。
其中,语音指令包括声纹信息。
示例性的,以电子设备为智能语音设备(洗衣机)为例进行举例说明。用户在将待洗涤的衣服放入洗衣机,并放入相应的洗涤剂后,启动洗衣机并向洗衣机发送语音指令。洗衣机获取用户输入的语音指令,以便于后续对语音指令中的声纹信息进行分析处理。
示例性的,以电子设备为用户的终端设备为例进行举例说明。终端设备需要响应用户对应用程序中的图形用户界面的点击操作,将应用程序与待控制的智能语音设备进行绑定。终端设备响应用户对图形用户界面中语音输入控件的点击操作,获取用户通过麦克风输入的语音指令,并对语音指令进行分析,获取语音指令中的声纹信息。
S102、将声纹信息与每个功能程序对应的预设声纹进行匹配,获取与每个预设声纹的相似度。
在本步骤中,终端设备获取语音指令中的声纹信息之后,可以与每个功能程序对应的预设声纹进行逐一匹配,以便于获取与声纹信息一致的目标声纹。
其中,每个功能程序对应的预设声纹是通过用户预先输入的语音获取的。获取每个功能程序对应的预设声纹的具体步骤将在实施例二中进行展开说明,在此不再赘述。
可选的,每个预设声纹中可以包括声纹标识,每个声纹标识对应一个功能程序和一个预设声纹。
举例来说,声纹标识可以为长度固定的字符串,声纹标识还可以为固定的字母,如A、B、C等,还可以为文字,如声纹一、声纹二、声纹三等,可以根据实际情况进行设定,本申请实施例对此不进行具体限制。
在一种具体的实施方式中,电子设备可以将语音指令中的声纹信息输入预先获取的匹配模型中进行处理,从而获取声纹信息与每个功能程序对应的预设声纹的相似度。
在该实现方式下,匹配模型是根据多个用户的声纹样本训练得到的。匹配模型可以通过对传统的高斯混合模型-通用背景模型(Gaussian Mixed Model-UniversalBackground Model,GMM-UBM),利用多个用户的声纹样本通过概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)算法进行高斯混合训练得到的。其中多个用户的声纹样本可以从公开的数据集中获取,如aishell数据集、TIMIT(英语:TheDARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus)数据集等。
示例性的,相似度可以用10%、20%、30%等百分数进行表示,可以用10、20、30等固定数字进行表示,还可以通过0.1、0.2、0.3等小数形式进行表示,可以根据实际情况进行设定,本申请实施例对此不进行具体限制。
S103、根据每个预设声纹对应的相似度和预设相似阈值,从预设声纹中确定目标声纹。
在本步骤中,电子设备在获取声纹信息与每个功能程序对应的预设声纹的相似度后,需要根据相似度以及预设相似阈值从预设声纹中确定出目标声纹,以便于后续控制智能语音设备执行目标声纹对应的目标功能程序。
在一种可能的实现方式中,在获取声纹信息与每个功能程序对应的预设声纹的相似度后,可以将语音指令的声纹信息与每个功能程序对应的预设声纹的相似度按照由高到低的顺序进行排列。
在该种实现方式下,电子设备还可以预先设置预设相似阈值,并将排在第一位的相似度与预先设置预设相似阈值进行对比,若排在第一位的相似度小于或等于预设相似阈值,则认为用户输入的语音指令中的声纹信息与每个功能程序都不匹配,后续无法控制智能语音设备按照对应的功能程序工作。当排在第一位的相似度小于或等于预设相似阈值时智能语音设备的具体操作步骤将在实施例三中进行具体展开说明,在此不再在赘述。
在该种实现方式下,还可以将与声纹信息的相似度最高(也就是排在第一位的相似度),且相似度超过预设相似阈值的预设声纹确定为目标声纹。
可选的,当预设声纹中包括声纹标识时,还可以获取相似度最高的预设声纹对应的声纹标识。
示例性的,预设相似阈值可以为90%、可以为90、还可以与0.9,其表示方式需要与声纹信息与每个功能程序对应的预设声纹的相似度的表示方式一致。
S104、控制智能语音设备执行目标声纹对应的目标功能程序。
在本步骤中,电子设备获取目标声纹后,可以控制智能语音设备根据该目标声纹对应的目标功能程序进行工作。
在一种具体的实施方式中,以电子设备为智能语音设备(洗衣机)为例进行举例说明。洗衣机获取目标声纹后,控制洗衣机按照目标声纹对应的目标功能程序进行工作,对洗衣机内的衣服进行洗涤、甩干、烘干等操作。
在另一种具体的实施方式中,以电子设备为用户的终端设备为例进行举例说明。终端设备获取目标声纹后,可以向智能语音设备发送执行功能程序命令,该执行功能程序命令中包括目标声纹。智能语音设备接收到执行功能程序命令后,根据执行功能程序命令中的目标声纹获取目标声纹对应的目标功能程序,并控制智能语音设备执行目标功能程序进行工作。
现有技术中,电子设备对于语音指令的处理通常是提取语音指令中的文字部分,或使用文本相关的声纹,通过将语音指令中的文字或声纹中的文本与每个功能程序对应的指令词进行匹配(如除螨洗功能程序对应的指令词是“除螨洗”),从而确定需要执行的功能程序。然而文本相关的声纹在使用前,需要录制不同说话人在同一说话内容情况下的数据,并使用该数据对相应的模型进行训练,过程较为繁杂,成本较高。且使用文本进行对比的方法,由于部分用户的口音较重,可能存在平翘舌不分的情况,在使用方言发送语音指令时,即使使用方言模型对语音指令进行识别,由于方言模型很难涵盖所有的方言,依然不能保证语音指令识别准确率。
本申请实施例提供的智能语音设备的控制方法,通过接收用户输入的语音指令,将声纹信息与每个功能程序对应的预设声纹进行匹配,获取与每个预设声纹的相似度,根据每个预设声纹对应的相似度和预设相似阈值,从所述预设声纹中确定目标声纹,控制智能语音设备执行目标声纹对应的目标功能程序。通过获取声纹信息与每个预设声纹的相似度,将超过预设相似阈值的且与声纹信息相似度最高的预设声纹作为目标声纹,能够有效提高对语音指令识别准确率以及对智能语音设备的控制精确度,且实现过程中应用的算法较为简单,易于实现,能够与用户达到较好的交互效果,容易工业化落地。且与现有技术相比,可以使用公开的数据集中的文本无关的声纹信息数据对匹配模型进行训练,能够有效减少成本,使本方案更容易实现。
在实际应用中,使用本申请实施例提供的智能语音设备的控制方法,针对于1000个语音指令,在安静环境下的等错率为0.34%,针对于30个语音指令,在线上真实用户测试下等错率为0。
在上述实施例的基础上,图3为本申请实施例提供的智能语音设备的控制方法实施例二的流程示意图。如图3所示,在S101之前,该智能语音设备的控制方法还包括以下步骤:
S201、获取用户输入的语音。
在本步骤中,在用户使用智能语音设备之前,电子设备需要预先获取用户输入的语音中的预设声纹,以便于与后续获取的用户输入的语音指令的声纹信息进行匹配。
其中,用户可以根据智能语音设备的用户使用手册中智能语音设备每个功能程序对应的指令词向电子设备发送语音。用户可以根据每个指令词向电子设备发送语音,也可以根据常用且容易识别有问题指令词向电子设备发送语音。
其中,语音包括预设声纹。
在一种具体的实现方式中,以电子设备为智能语音设备(洗衣机)为例进行说明。用户可以点击洗衣机控制面板上的相应控件,向洗衣机发送语音。洗衣机接收用户发送的语音,以便于后续对该语音进行操作。
在一种具体的实现方式中,以终端设备为例进行说明。终端设备通过响应用户对绑定智能语音设备的应用程序中图形用户界面的绑定功能程序控件的点击操作,获取用户输入的语音。
S202、响应于用户对于功能程序的选择操作,建立预设声纹与功能程序的映射关系。
在本步骤中,电子设备接收到用户输入的语音后,需要将语音中的预设声纹与功能程序建立映射关系。
在一种具体的实施方式中,以电子设备为智能语音设备(洗衣机)为例进行说明。洗衣机接收到用户发送的语音后,需要为用户展示功能程序选择界面,以便于用户对于功能程序进行选择。用户根据语音内容点击功能程序选择界面中对应的功能程序,洗衣机响应于用户的点击操作,将语音中的预设声纹与功能程序建立映射关系。
在一种具体的实现方式中,以终端设备为例进行说明。终端设备通过响应用户的对应用程序中图形用户界面中功能程序图标的点击操作,将语音中的预设声纹与功能程序建立映射关系。
可选的,在对预设声纹与功能程序建立映射关系后,还可以为预设声纹设置声纹标识,每个声纹标识对应一个功能程序和一个声纹标识。
示例性的,在本申请实施例中,以电子设备为智能语音设备(洗衣机)进行举例说明。洗衣机收到用户输入的语音“除除洗”,并响应于用户对洗衣机控制面板的点击操作,建立语音“除除洗”中预设声纹与除螨洗功能程序的映射关系。
本申请实施例提供的智能语音设备的控制方法,通过获取用户输入的语音,响应于用户对于功能程序的选择操作,建立预设声纹与功能程序的映射关系。可以根据用户的不同需求对不同的功能程序设置预设声纹,能够进一步提高用户的个性化体验,为后续识别用户的语音指令奠定了基础。
在上述实施例的基础上,图4为本申请实施例提供的智能语音设备的控制方法实施例三的流程示意图。如图4所示,在S103之前,该智能语音设备的控制方法还包括以下步骤:
S301、将语音指令的声纹信息与每个功能程序对应的预设声纹的相似度按照由高到低的顺序进行排列。
S302、在排在第一位的相似度小于或等于预设相似阈值时,生成匹配失败信息。
在本步骤中,由于相似度越高代表语音指令的声纹信息与该功能程序对应的预设声纹越相似,则需要根据相似度确定语音指令对应的功能程序。
其中,若排在第一位的相似度小于或等于预设相似阈值,则说明用户输入的语音指令中的声纹信息与每个功能程序的对应程度较低,与每个功能程序都不匹配,因此无法根据语音指令对智能语音设备进行控制,因此电子设备还可以生成匹配失败信息。
其中,匹配失败信息用于表示无法获取与语音指令对应的目标功能程序。
S302、输出匹配失败信息,或,向用户的终端设备发送匹配失败信息。
在本步骤中,电子设备生成匹配失败信息后需要告知用户,以便于提醒用户重新发送语音指令。
在一种具体的实施方式中,以电子设备为智能语音设备(洗衣机)为例进行举例说明,洗衣机生成匹配失败信息后,可以输出匹配失败信息。如智能语音设备可以播放语音“没有找到对应的功能”,可以播放特定的音乐,还可以在智能语音设备的屏幕上显示文字“匹配失败”等,可以根据实际情况进行设定,本申请实施例对此不进行具体限制。
在该种实现方式中,洗衣机还可以向用户的终端设备发送匹配失败信息。如洗衣机可以给用户的终端设备发送短信,可以向终端设备中绑定该智能语音设备的应用程序发送推送消息,还可以给用户绑定的邮箱中发送邮件等。可以根据实际情况进行设定,本申请实施例对此不进行具体限制。
在另一种具体的实施方式中,以电子设备为终端设备进行举例说明。终端设备生成匹配失败信息后,可以输出匹配失败信息。如终端设备可以播放语音“没有找到对应的功能”,可以播放特定的音乐,还可以在应用程序的图像显示界面显示文字“匹配失败”等,可以根据实际情况进行设定,本申请实施例对此不进行具体限制。
本申请实施例提供的智能语音设备的控制方法,通过将语音指令的声纹信息与每个功能程序对应的预设声纹的相似度按照由高到低的顺序进行排列,若排在第一位的相似度小于或等于预设相似阈值,则生成匹配失败信息,输出匹配失败信息,或,向用户的终端设备发送匹配失败信息,进一步提高了对语音指令识别的准确率。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图5为本申请实施例提供的智能语音设备的控制装置的结构示意图。如图5所示,该智能语音设备的控制装置包括:
接收模块51,用于接收用户输入的语音指令,语音指令包括声纹信息;
处理模块52,用于将声纹信息与每个功能程序对应的预设声纹进行匹配,获取与每个预设声纹的相似度,每个功能程序对应的预设声纹是基于用户预先输入的语音获取的;
处理模块52,还用于根据每个预设声纹对应的相似度和预设相似阈值,从所述预设声纹中确定目标声纹;
处理模块52,还用于控制智能语音设备执行目标声纹对应的目标功能程序。
在一种具体实施方式中,处理模块52,具体用于:
将语音指令中的声纹信息输入预先获取的匹配模型中进行处理,获取声纹信息与每个功能程序对应的预设声纹的相似度,匹配模型是根据多个用户的声纹样本训练得到的。
可选的,处理模块52,还用于:
将语音指令的声纹信息与每个功能程序对应的预设声纹的相似度按照由高到低的顺序进行排列;
其中,处理模块52还用于将与声纹信息的相似度最高,且相似度超过预设相似阈值的预设声纹确定为目标声纹。
可选的,处理模块52,还用于:
在排在第一位的相似度小于或等于预设相似阈值时,生成匹配失败信息,匹配失败信息用于表示无法获取与语音指令对应的目标功能程序。
在一种具体实施方式中,获取用户输入的语音指令之前,接收模块51,还用于:获取用户输入的语音,语音包括预设声纹。
处理模块52,还用于:响应于用户对于功能程序的选择操作,建立预设声纹与功能程序的映射关系。
在一种具体实施方式中,该智能语音设备的控制装置还可以包括:
输出模块,用于输出匹配失败信息,
或,
发送模块,用于向用户的终端设备发送匹配失败信息。
本申请实施例提供的智能语音设备的控制装置,可用于执行上述任一实施例中的智能语音设备的控制控制方法,其实现原理和技术效果类似,在此不再赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。此外,这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
图6为本申请实施例提供的电子设备的结构示意图。如图6所示,该电子设备可以包括:接收器61、处理器62、存储器63及存储在所述存储器63上并可在处理器62上运行的计算机程序指令,所述处理器62执行所述计算机程序指令时实现前述任一实施例提供的智能语音设备的控制方法。
可选的,该电子设备的上述各个器件之间可以通过***总线连接。
应理解,处理器62可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
接收器61耦合至处理器62,所述处理器62控制所述接收器61的接收动作。
可选的,在硬件实现上,上述图5所示实施例中的接收模块51对应于本实施例中的接收器61。
存储器63可以是单独的存储单元,也可以是集成在处理器中的存储单元。处理器的数量为一个或者多个。
***总线可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。***总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。存储器可能包含随机存取存储器(randomaccess memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储器(存储介质)包括:只读存储器(英文:read-only memory,简称:ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(英文:magnetic tape)、软盘(英文:floppydisk)、光盘(英文:optical disc)及其任意组合。
本申请实施例提供的电子设备,可以实现为服务器、终端设备、洗衣机以及智能音响,可用于执行上述任一方法实施例提供的智能语音设备的控制方法,其实现原理和技术效果类似,在此不再赘述。
本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行上述智能语音设备的控制方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
可选的,将可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中,至少一个处理器可以从该计算机可读存储介质中读取该计算机程序,所述至少一个处理器执行所述计算机程序时可实现上述智能语音设备的控制方法。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种智能语音设备的控制方法,其特征在于,包括:
接收用户输入的语音指令,所述语音指令包括声纹信息;
将所述声纹信息与每个功能程序对应的预设声纹进行匹配,获取与每个预设声纹的相似度,所述每个功能程序对应的预设声纹是基于预先输入的语音获取的;
根据每个预设声纹对应的相似度和预设相似阈值,从所述预设声纹中确定目标声纹;
控制智能语音设备执行所述目标声纹对应的目标功能程序。
2.根据权利要求1所述的方法,其特征在于,所述将所述声纹信息与每个功能程序对应的预设声纹进行匹配,获取与每个预设声纹的相似度,包括:
将所述语音指令中的声纹信息输入预先获取的匹配模型中进行处理,获取所述声纹信息与每个功能程序对应的预设声纹的相似度,所述匹配模型是根据多个用户的声纹样本训练得到的。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
将所述语音指令的声纹信息与所述每个功能程序对应的预设声纹的相似度按照由高到低的顺序进行排列;
其中,所述根据每个预设声纹对应的相似度和预设相似阈值,从所述预设声纹中确定目标声纹,包括:
将与所述声纹信息的相似度最高,且所述相似度超过预设相似阈值的预设声纹确定为所述目标声纹。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在排在第一位的相似度小于或等于预设相似阈值时,生成匹配失败信息,所述匹配失败信息用于表示无法获取与所述语音指令对应的所述目标功能程序。
5.根据权利要求1或4所述的方法,其特征在于,所述获取用户输入的语音指令之前,所述方法还包括:
获取所述用户输入的语音,所述语音包括预设声纹;
响应于所述用户对于功能程序的选择操作,建立所述预设声纹与所述功能程序的映射关系。
6.根据权利要求4所述的方法,其特征在于,所述生成匹配失败信息之后,所述方法还包括:
输出所述匹配失败信息,
或,
向所述用户的终端设备发送所述匹配失败信息。
7.一种智能语音设备的控制装置,其特征在于,包括:
接收模块,用于接收用户输入的语音指令,所述语音指令包括声纹信息;
处理模块,用于将所述声纹信息与每个功能程序对应的预设声纹进行匹配,获取与每个预设声纹的相似度,所述每个功能程序对应的预设声纹是基于所述用户预先输入的语音获取的;
所述处理模块,还用于根据每个预设声纹对应的相似度和预设相似阈值,从所述预设声纹中确定目标声纹;
所述处理模块,还用于控制智能语音设备执行所述目标声纹对应的目标功能程序。
8.一种电子设备,其特征在于,包括:接收器、处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序指令,所述接收器耦合至所述处理器,所述处理器控制所述接收器的接收动作,所述处理器执行所述计算机程序指令时用于实现如权利要求1至6任一项所述的智能语音设备的控制方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至6任一项所述的智能语音设备的控制方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时用于实现如权利要求1至6任一项所述的智能语音设备的控制方法。
CN202110839690.XA 2021-07-23 2021-07-23 智能语音设备的控制方法、装置、设备、介质及程序产品 Pending CN115691505A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110839690.XA CN115691505A (zh) 2021-07-23 2021-07-23 智能语音设备的控制方法、装置、设备、介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110839690.XA CN115691505A (zh) 2021-07-23 2021-07-23 智能语音设备的控制方法、装置、设备、介质及程序产品

Publications (1)

Publication Number Publication Date
CN115691505A true CN115691505A (zh) 2023-02-03

Family

ID=85044968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110839690.XA Pending CN115691505A (zh) 2021-07-23 2021-07-23 智能语音设备的控制方法、装置、设备、介质及程序产品

Country Status (1)

Country Link
CN (1) CN115691505A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116610062A (zh) * 2023-07-20 2023-08-18 钛玛科(北京)工业科技有限公司 一种传感器自动对中的语音控制***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116610062A (zh) * 2023-07-20 2023-08-18 钛玛科(北京)工业科技有限公司 一种传感器自动对中的语音控制***
CN116610062B (zh) * 2023-07-20 2023-11-03 钛玛科(北京)工业科技有限公司 一种传感器自动对中的语音控制***

Similar Documents

Publication Publication Date Title
CN108847241B (zh) 将会议语音识别为文本的方法、电子设备及存储介质
CN107591155B (zh) 语音识别方法及装置、终端及计算机可读存储介质
US20160328205A1 (en) Method and Apparatus for Voice Operation of Mobile Applications Having Unnamed View Elements
CN111627436B (zh) 一种语音控制的方法及装置
CN110223695A (zh) 一种任务创建方法及移动终端
CN104850542A (zh) 非可听语音输入校正
CN112286485B (zh) 通过语音控制应用的方法、装置、电子设备与存储介质
JP7264957B2 (ja) 音声インタラクション方法、装置、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラム
CN109637536B (zh) 一种自动化识别语义准确性的方法及装置
CN109144458B (zh) 用于执行与语音输入相对应的操作的电子设备
EP3547310A1 (en) Electronic device for processing user voice
WO2023142451A1 (zh) 工作流生成方法、装置、电子设备
CN106228047B (zh) 一种应用程序图标处理方法及终端设备
CN108897517B (zh) 一种信息处理方法及电子设备
CN112612877A (zh) 多类型消息智能答复方法、装置、计算机设备及存储介质
CN111326154B (zh) 语音交互的方法、装置、存储介质及电子设备
CN116797695A (zh) 一种数字人与虚拟白板的交互方法、***及存储介质
CN109857910B (zh) Xml文件的生成方法、装置、计算机设备及存储介质
CN115691505A (zh) 智能语音设备的控制方法、装置、设备、介质及程序产品
CN113641328A (zh) 基于语音识别的电脑控制方法、装置、设备及存储介质
CN112989008A (zh) 一种多轮对话改写方法、装置和电子设备
CN115862031B (zh) 文本处理方法、神经网络的训练方法、装置和设备
CN109656704B (zh) 一种信息处理方法及信息处理装置
CN111475129A (zh) 一种语音识别候选同音词的展示方法及设备
CN114202363A (zh) 基于人工智能的话术调用方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination