CN113555018A

CN113555018A - 语音交互方法及装置

Info

Publication number: CN113555018A
Application number: CN202110817882.0A
Authority: CN
Inventors: 刘璐
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-10-26
Anticipated expiration: 2041-07-20
Also published as: CN113555018B

Abstract

本申请提供了一种语音交互方法及装置。该方法包括：获取语音文本，并对语音文本进行分析，得到第一语音指令。基于预设的语音指令集合和第一语音指令确定待补充语音指令，其中，预设的语音指令集合中包括实现语音文本对应的功能的所有语音指令。再将待补充语音指令对应的提示信息发送给用户，以使用户输入待补充语音指令。本申请可以获取到语音文本对应的功能的所有语音指令，从而分析出用户的完整需求，使得智能电子设备可以实现相应的操作，更好地实现用户需要的功能，提高用户的体验性。

Description

语音交互方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音交互方法及装置。

背景技术

随着人工智能技术的发展，语音交互功能逐渐进入人们生活中的各种领域。人们可以可利用语音交互功能，实现语音控制智能电子设备，例如：显示设备、空调和洗衣机等。人们可以利用进行语音交互功能进行看视频、听音乐、查天气、设备控制等一系列操作。

对于智能电子设备，在实现语音交互功能的过程中，一般由语音识别模块将用户输入的语音指令识别为文本，之后语义分析模块对该文本进行词法句法和语义的分析，从而分析出用户的需求。最后控制端根据用户的需求控制智能电子设备进行相应的操作。

然而，当用户使用语音交互功能时，其输入的语音指令有可能并不完整。例如，语音指令中缺少一些关键的槽位参数，导致无法分析出用户的完整需求，此时，智能电子设备无法实现相应的操作，使得用户对智能电子设备的使用体验较差。

发明内容

本发明提供了一种语音交互方法及装置。以解决相关技术中，用户对智能电子设备的使用体验较差的问题。

第一方面，本申请提供一种语音交互方法，该方法包括：

获取语音文本，所述语音文本为对用户输入的第一语音信号解析得到的；对语音文本进行分析，得到第一语音指令；基于预设的语音指令集合和所述第一语音指令确定待补充语音指令，预设的语音指令集合中包括实现所述语音文本对应的功能的所有语音指令；将待补充语音指令对应的提示信息发送给用户，以使用户输入待补充语音指令。

在一些实现方式中，所述基于预设的语音指令集合和所述第一语音指令确定待补充语音指令，包括：

确定所述语音文本对应的第一语音功能；在预设的数据库中获取所述第一语音功能对应的预设的语音指令集合，所述数据库中存储有所有的语音功能以及每种语音功能对应的预设的语音指令集合；根据所述第一语音功能对应的预设的语音指令集合确定实现第一语音功能的所有语音指令；确定所述所有语音指令中除了所述第一语音指令外的语音指令，得到待补充语音指令。

在一些实现方式中，在所述对语音文本进行分析，得到第一语音指令的步骤后，还包括：

获取所述第一语音指令中的第一槽位参数；获取第一槽位参数集合，所述第一槽位参数集合中包括所述第一语音指令中需要包含的所有槽位参数；基于所述第一槽位参数集合和所述第一槽位参数确定第二槽位参数；将第二槽位参数对应的槽位参数提示信息发送给用户，以使用户输入第二槽位参数。

在一些实现方式中，所述确定第一槽位参数集合，包括：

根据预设的语音指令数据库确定所述第一语音指令对应的槽位参数集合，得到第一槽位参数集合；所述预设的语音指令数据库中存储有所有的语音指令以及每种语音指令对应的槽位参数集合；

在一些实现方式中，所述基于所述第一槽位参数集合和所述第一槽位参数确定第二槽位参数，包括：

确定所述第一槽位参数集合中除了所述第一槽位参数外的其余槽位参数，得到第二槽位参数。

在一些实现方式中，该方法还包括：

接收用户输入的第二语音信号；对所述第二语音信号进行解析，得到第二语音指令；基于待补充语音指令和所述第二语音指令确定第三语音指令，所述第三语音指令为所述待补充语音指令中除了所述第二语音指令之外的所有语音指令；将第三语音指令对应的提示信息发送给用户，以使用户输入第三语音指令。

在一些实现方式中，该方法还包括：

获取所述第二语音指令与所述第一语音指令的关联度；当检测到所述关联度达到预设的关联阈值时，执行基于待补充语音指令和所述第二语音指令确定第三语音指令的步骤。

在一些实现方式中，获取所述第二语音指令与所述第一语音指令的关联度，包括：

获取所述第一语音指令中的所有槽位参数；计算每个槽位参数和所述第二语音指令的关联度；计算所有关联度的平均值，并将平均值作为所述第二语音指令与所述第一语音指令的关联度。

在一些实现方式中，所述计算每个槽位参数和所述第二语音指令的关联度，包括：

获取所述第二语音指令的多种语义以及每种语义的语义分数，并将分数最高的语义分数确定为第一分数；将每个槽位参数分别和所述第二语音指令的多种语义进行匹配，并将匹配成功的语义对应的语义分数确定为每个槽位参数的第二分数；将第一分数减去第二分数，得到每个槽位参数和所述第二语音指令的差别度；根据差别度确定每个槽位参数和所述第二语音指令的关联度，其中，差别度和关联度的和为1。

在一些实现方式中，该方法还包括：

当检测所述关联度没有达到预设的关联阈值时，将所述第二语音指令作为新的第一语音指令，并执行确定待补充语音指令的步骤。

第二方面，本申请提供一种语音交互装置，该装置包括：

语音文本获取单元，被配置为获取语音文本，所述语音文本为对用户输入的第一语音信号解析得到的；

语音文本分析单元，被配置为对语音文本进行分析，得到第一语音指令；

待补充语音指令确定单元，被配置为基于预设的语音指令集合和所述第一语音指令确定待补充语音指令，预设的语音指令集合中包括实现所述语音文本对应的功能的所有语音指令；

提示信息单元，被配置为将待补充语音指令对应的提示信息发送给用户，以使用户输入待补充语音指令。

由以上技术方案可以看出，本申请提供了一种语音交互方法及装置。可以获取语音文本，并对语音文本进行分析，得到第一语音指令。基于预设的语音指令集合和第一语音指令确定待补充语音指令，其中，预设的语音指令集合中包括实现语音文本对应的功能的所有语音指令。再将待补充语音指令对应的提示信息发送给用户，以使用户输入待补充语音指令。本申请可以获取到语音文本对应的功能的所有语音指令，从而分析出用户的完整需求，使得智能电子设备可以实现相应的操作，更好地实现用户需要的功能，提高用户的体验性。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音识别网络架构示意图；

图2示出了一些实施例中语音交互方法的应用场景示意图；

图3示出了一些实施例中语音交互方法的流程图；

图4示出了一些实施例中确定待补充语音指令的流程示意图；

图5示出了一些实施例中检测语音指令的流程示意图；

图6示出了一些实施例中第二语音指令的语义分数图的示意图；

图7示出了一些实施例中语音交互装置的示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“待补充”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

为清楚说明本申请的实施例，下面结合图1对本申请实施例提供的一种语音识别网络架构进行描述。

参见图1，图1为本申请实施例提供的一种语音识别网络架构示意图。图1中，智能设备用于接收输入的信息以及输出对该信息的处理结果。语音识别服务设备为部署有语音识别服务的电子设备，语义服务设备为部署有语义服务的电子设备，业务服务设备为部署有业务服务的电子设备。这里的电子设备可包括服务器、计算机等，这里的语音识别服务、语义服务(也可称为语义引擎)和业务服务为可部署在电子设备上的web服务，其中，语音识别服务用于将音频识别为文本，语义服务用于对文本进行语义解析，业务服务用于提供具体的服务如墨迹天气的天气查询服务、QQ音乐的音乐查询服务等。在一个实施例中，图1所示架构中可存在部署有不同业务服务的多个实体服务设备，也可以一个或多个实体服务设备中集合一项或多项功能服务。

一些实施例中，下面对基于图1所示架构处理输入智能设备的信息的过程进行举例描述，以输入智能设备的信息为通过语音输入的查询语句为例，上述过程可包括如下三个过程：

[语音识别]

智能设备可在接收到通过语音输入的查询语句后，将该查询语句的音频上传至语音识别服务设备，以由语音识别服务设备通过语音识别服务将该音频识别为文本后返回至智能设备。在一个实施例中，将查询语句的音频上传至语音识别服务设备前，智能设备可对查询语句的音频进行去噪处理，这里的去噪处理可包括去除回声和环境噪声等步骤。

[语义理解]

智能设备将语音识别服务识别出的查询语句的文本上传至语义服务设备，以由语义服务设备通过语义服务对该文本进行语义解析，得到文本的业务领域、意图等。

[语义响应]

语义服务设备根据对查询语句的文本的语义解析结果，向相应的业务服务设备下发查询指令以获取业务服务给出的查询结果。智能设备可从语义服务设备获取该查询结果并输出。作为一个实施例，语义服务设备还可将对查询语句的语义解析结果发送至智能设备，以由智能设备输出该语义解析结果中的反馈语句。

需要说明的是，图1所示架构只是一种示例，并非对本申请保护范围的限定。本申请实施例中，也可采用其他架构来实现类似功能，例如：三个过程全部或部分可以由智能终端来完成，在此不做赘述。

在一些实施例中，图1所示的智能设备可为显示设备，如智能电视，语音识别服务设备的功能可由显示设备上设置的声音采集器和控制器配合实现，语义服务设备和业务服务设备的功能可由显示设备的控制器实现，或者由显示设备的服务器来实现。图1所示的智能设备也可以为冰箱、空调或烤箱等电子设备，本申请实施例不作限定。

当用户使用语音交互功能时，其输入的语音指令有可能并不完整。例如，语音指令中缺少一些关键的槽位参数，导致无法分析出用户的完整需求，此时，智能电子设备无法实现相应的操作，使得用户对智能电子设备的使用体验较差。

为了解决上述问题，本申请实施例提供一种语音交互方法，该方法可以在用户使用语音交互功能时，分析出用户的完整需求，从而更好地实现用户需要的操作，提高用户的体验性。

图2示出了一些实施例中语音交互方法的应用场景示意图，该方法可应用于用户使用语音操控智能电子设备的场景中，并由智能电子设备执行，或者由智能电子设备内设置的专用于进行语音交互的装置执行，下面以执行主体为智能电子设备作为示例性的说明，而非对其进行限定。智能电子设备可以是手机、电脑、电视机、洗衣机、空调、音箱等电子设备。

图3示出了一些实施例中语音交互方法的流程图，该方法包括以下步骤：

步骤S101、获取语音文本。其中，语音文本可以为对用户输入的第一语音信号解析得到的。

当用户使用智能电子设备时，可以利用语音交互功能，实现利用语音操控智能电子设备。此时用户可以在智能电子设备能够接收到信号的范围内，通过输入语音信号的方式实现对智能电子设备的控制。例如，假设智能电子设备为空调，当用户想要使用空调时，可以对空调说出“打开空调，制冷20度”的语音，以使空调实现相应的制冷功能。

智能电子设备可以通过内部的声音采集器，例如麦克风，接受用户输入的语音信号。在接收到语音信号后，可以对语音信号进行解析，从而得到语音信号对应的语音文本。

步骤S102、对语音文本进行分析，得到第一语音指令。

在对用户输入的第一语音信号进行解析后，可以得到语音文本。为了分析出用户的需求，智能电子设备可以继续对语音文本进行分析，从而得到语音文本中包含的语音指令。例如，智能电子设备为空调时，对于用户输入的语音“打开空调，制冷20度”，将语音文本进行分析后，可以得知语音文本中包含两条指令。一条指令是“制冷”，其详细含义应该为“打开空调的制冷模式”。另一条指令是“20度”，其详细含义为“将空调指示的温度设置为20度”。因此，第一语音指令包括上述两条指令。

在一些实施例中，智能电子设备中可以设置有语义理解单元，通过将语音文本输入到语义理解单元中，可以得到第一语音指令。

步骤S103、基于预设的语音指令集合和第一语音指令确定待补充语音指令。其中，预设的语音指令集合中包括实现语音文本对应的功能的所有语音指令。

当用户使用智能电子设备的过程中，智能电子设备可以实现多种功能，当实现的功能不同时，用户输入的指令也不同。例如，当智能电子设备为空调时，可以实现模式调节功能、温度调节功能或者定时功能。其中，模式调节功能可以控制空调实现制冷效果或制热效果。温度调节功能可以对空调指示的温度进行修改。定时功能可以设置空调的工作时间。为了实现某个功能，需要满足其对应的条件，即用户需要输入相应的指令。

对于智能电子设备可以实现的不同功能来说，每个功能的复杂程度是不同的，有的较为简单，有的较为复杂。对于较为复杂的功能，其需要满足的条件也较为复杂，一般是由多种指令组合定义从而构成对应的条件。此时用户需要输入多条指令，才能实现相应的功能。例如，当用户想要空调实现模式调节功能时，需要明确给出具体模式的相关指令，可以是“进入制冷模式”或“制热”。同时还需要设置空调指示的具体温度是多少，例如“设置温度为20度”。空调只有接受到这两条指令“空调的模式”和“空调的温度”时，才能够实现模式调节功能。在本申请实施例中，可以设定智能电子设备的功能包括两种类型：单指令功能和多指令功能。其中，单指令功能指的是实现起来较为简单的功能，用户输入一条指令即可实现。多指令功能指的是实现起来较为复杂的功能，用户需要输入多条指令才可以实现。

对于每种语音功能来说，可以预先设置一个语音指令集合，该语音指令集合中包括实现该语音功能的所有语音指令。每种语音功能的语音指令集合可以由用户自行设定，本申请实施例不作具体限定。同时，智能电子设备中还可以预先设置有数据库，数据库中存储有智能电子设备可以实现的所有的语音功能，以及每种语音功能对应的语音指令集合。因此，通过预设的数据库，即可得知实现每种语音功能需要满足的所有语音指令。需要说明的是，本申请实施例中的语音功能指的是智能电子设备可以实现的功能。

当用户利用语音操控智能电子设备时，如果想要实现某个较为复杂的功能，即多指令功能时，可能以不了解实现该功能所满足的条件，即不知道所有的指令。此时，用户可能只说出部分指令，导致无法实现对应的功能。例如，用户想要实现空调的模式调节功能，但在使用过程中只说出了“制冷”，但并没有设置具体的温度，此时空调无法实现模式调节功能。在这种情况下，智能电子设备需要引导用户给出其余的指令，从而实现对应的功能。

在一些实施例中，首先可以确定语音文本对应的第一语音功能。可以具体确定出第一语音功能是单指令功能还是多指令功能。

在确定了语音文本对应的第一语音功能后，可以判断用户输入的指令是否能够满足实现第一语音功能的条件，即判断第一语音指令中是否包含了第一语音功能对应的所有语音指令。

具体的，可以在预设的数据库中获取第一语音功能对应的预设的语音指令集合。根据该语音指令集合即可确定实现第一语音功能的所有语音指令。

在一些实施例中，如果第一语音功能为单指令功能时，只要用户输入了正确的语音指令，即可实现第一语音功能，此时不需要检测其他的语音指令，因为第一语音功能只有一条语音指令。

如果第一语音功能为多指令功能，并且第一语音指令中包括了实现第一语音功能的所有语音指令，即满足了实现第一语音功能的条件，那么智能电子设备可以直接实现第一语音功能。

如果第一语音功能为多指令功能，但是第一语音指令中没有包括实现第一语音功能的所有语音指令时，智能电子设备还不能实现第一语音功能。此时，需要确定为了实现第一语音功能，还需要满足的待补充语音指令。具体的，可以确定所有语音指令中除了第一语音指令外的语音指令，从而得到待补充语音指令。图4示出了一些实施例中确定待补充语音指令的流程示意图。

例如，当用户使用烤箱时，想要使用烤箱的预热功能，同时输入语音“预热10分钟”。烤箱在接收到用户的语音后，可以先对语音文本进行分析，得到用户的语音指令为“设定预热时间为10分钟”。再根据语音文本确定用户想要实现的功能。当确定用户想要实现预热功能后，可以在数据库中查询预热功能对应的所有语音指令，包括“预热过程的时间”以及“预热过程的温度”。因此，可以确定出用户没有输入实现预热功能需要的全部语音指令。此时，可以获取待补充语音指令，即“预热过程的温度”。

步骤S104、将待补充语音指令对应的提示信息发送给用户，以使用户输入待补充语音指令。

当确定待补充语音指令后，为了实现相应的第一语音功能，需要告知用户语音指令不完善的情况，从而使用户输入待补充语音指令。

具体的，可以根据待补充语音指令生成相关的提示信息。例如，当待补充语音指令为“预热过程的温度”时，可以制作提示信息“请告诉我您要设置的温度”。同时将该提示信息转换为主动询问语音，并通过智能电子设备的音频输出接口，例如扬声器，将该主动询问语音播报给用户，以使用户可以输入待补充语音指令。至此，用户和智能电子设备完成了第一轮的语音交互过程。

用户在收听到待补充语音指令对应的主动询问语音后，可以将待补充语音指令输入给智能电子设备。智能电子设备接收到待补充语音指令后，可以实现第一语音功能。例如，用户听到主动询问语音“请告诉我您要设置的温度”时，可以继续输入语音指令，例如“200度”。此时，烤箱已经接收到实现预热功能所需要的全部语音指令，因此可以进行相应的预热操作。烤箱还可以继续回复用户提示信息“好的”，从而实现第二轮语音交互过程。至此，用户和烤箱之间的语音交互过程全部结束，同时也实现了用户需要的预热功能。

在一些实施例中，用户输入的单条语音指令也可能存在不完整的情况，导致智能电子设备无法准确识别出正确的语音指令。

例如，用户使用冰箱的过程中，想要实现冰箱门开启功能，同时输入语音“打开冰箱门”。冰箱接收到语音信号后，检测到该功能为单指令功能，同时查询到实现该功能的语音指令为“开启的冰箱门类型”。需要说明的是，对于冰箱来说，其拥有冷藏室、冷冻室、宽温室等储藏室，每个储藏室都有配套的冰箱门。然而此时用户仅仅输入了打开门的指令，并未具体限定出打开哪个储藏室的门。因此用户输入的语音指令是不完整的，冰箱无法识别正确的语音指令。虽然用户输入了冰箱门开启功能对应的语音指令，但该指令不正确，因此依旧无法实现相应的功能。在这种情况下，智能电子设备需要引导用户给出完整的指令，才能实现对应的功能。

在一些实施例中，可以预先设置语音指令结构体，用于完整表述语音指令。语音指令结构体可以由多个槽位组成，例如指令类型(CommandType)、目的(Object)、目的值(Value)、部件(Section)和单位(Units)等，从而保证语音指令的完整性，以成功实现每一种语音指令。其中，指令类型为具体的动作，例如设置、增加或减少；目的为调节的各种功能目的，例如温度、各种模式等；目的值为调节的程度，例如具体设置的数值，20度中的“20”；部件为调节的具体部件，例如冷藏室、冷冻室或宽温室；单位即为数值的计量单位，例如分钟、摄氏度等。

每一种语音指令可以有自己唯一的语音指令结构体，可以包括固定的槽位，每一个槽位的槽位参数由用户输入。当用户输入同一种类型的语音指令时，但输入了不同的槽位参数时，语音指令的效果也不同。例如，对于语音指令“预热过程的时间”，其语音指令结构体可以包括四个槽位：指令类型、目的、目的值和单位。其中，指令类型的槽位参数一般为“设置”，目的的槽位参数一般为“预热”，目的值的槽位参数一般为具体的时间值，单位的槽位参数一般为“分钟”或“秒”。当用户输入的语音为“预热10分钟”时，可以分析出该语音是实际含义为“设定预热时间为10分钟”。因此可以确定指令类型的槽位参数为“设置”，目的的槽位参数为“预热”，目的值的槽位参数为“10”，单位的槽位参数为“分钟”。

如果用户输入的语音中缺少了部分槽位参数，则语音指令是不完整的。例如，用户给出语音“预热”，此时缺少了目的值和单位的槽位参数，。需要引导用户给出完整的指令，即给出缺少的槽位参数。

需要说明的是，每种语音指令的语音指令结构体可以由技术人员自行设定，例如，由语音交互功能相关算法的开发者设定，从而实现智能电子设备的语音交互功能。

在一些实施例中，可以获取每个第一语音指令中的第一槽位参数。例如，对于第一语音指令“打开冰箱门”，可以确定其包含的第一槽位参数为：指令类型的槽位参数为“设置”，目的的槽位参数为“门”，目的值的槽位参数为“打开”。

对于每种语音指令来说，可以预先设置一个槽位参数集合，该槽位参数集合中包括该语音指令需要包含的所有槽位参数。具体的，可以将语音指令对应的语音指令结构体中所有的槽位进行统计，并将这些槽位需要的槽位参数制成每个语音指令的槽位参数集合。同时可以将每种语音指令的槽位参数集合存储到预设的语音指令数据库中。因此，通过预设的语音指令数据库，即可得知实现每种语音指令需要包含的所有槽位参数。

因此可以通过预设的数据获取第一语音指令对应的第一槽位参数集合。根据第一槽位参数集合和第一槽位参数即可确定第一语音指令是否完整。

当第一槽位参数中包含有第一语音指令需要包含的所有槽位参数时，证明第一语音指令是完整的。

当第一槽位参数中没有包含第一语音指令需要包含的所有槽位参数时，第一语音指令是不完整的，此时需要确定还需要补充的槽位参数。具体的，可以确定第一槽位参数集合中除了第一槽位参数外的其余槽位参数，得到第二槽位参数。第二槽位参数即为第一语音指令中需要补充的槽位参数。例如，对于语音指令“打开冰箱门”，可以确定缺少的槽位参数为部件对应的槽位参数，可以是“冷藏室、冷冻室、宽温室”中的一个。

在一些实施例中，用户可能并没有具体说出某个槽位参数，但是根据语音指令的含义可以分析出槽位参数。例如，对于用户输入的语音“打开空调，制冷20度”，将语音文本进行分析后，可以得知语音文本中包含两条指令。一条指令是“制冷”，另一条指令是“20度”。对于语音指令“制冷”，其详细含义应该为“打开空调的制冷模式”。其中，指令类型的槽位参数为“设置”，目的的槽位参数为“模式”，目的值的槽位参数为“制冷”。对于语音指令“20度”，其详细含义为“将空调指示的温度设置为20度”。其中，指令类型的槽位参数为“设置”，目的的槽位参数为“温度”，目的值的槽位参数为“制冷”，单位的槽位参数为“摄氏度”。虽然用户没有将该语音指令所有的槽位信息说出来，但是可以分析出该条指令是完整的。

当确定第二槽位参数后，需要告知用户语音指令不完整的情况，从而使用户输入第二槽位参数。

具体的，可以根据第二槽位参数获取相关的提示信息。例如，当第二槽位参数为部件对应的槽位参数时，可以制作提示信息“请问您要打开哪个储藏室的门”。同时将该提示信息转换为主动询问语音，并通过扬声器将该主动询问语音播报给用户，以使用户可以输入第二槽位参数。用户在收听到第二槽位参数对应的主动询问语音后，可以将第二槽位参数输入给智能电子设备。

在一些实施例中，当用户输入语音后，可以对检测语音文本对应的第一语音功能的类型。图5示出了一些实施例中检测语音指令的流程示意图。

当第一语音功能是单指令功能时，只需要检测语音指令是否完整即可。当语音指令不完整时，需要发送待补充的槽位参数对应的提示信息给用户。

当第一语音功能是多指令功能时，需要同时检测语音指令的数量和完整度。其中，检测语音指令的数量，即检测语音指令是否包含了语音功能对应的所有语音指令。检测语音指令的完整度，即检测每条语音指令的槽位参数是否完整。当语音指令的数量和完整度均不满足条件时，需要发送提示信息给用户。其中，提示信息包含缺少的待补充语音指令，以及第一语音指令中缺少的槽位参数。

通过对语音指令的数量和完整度进行检测，可以确定智能电子设备是否可以实现相应的语音功能。

在一些实施例中，智能电子设备播报主动询问语音后，用户可以继续输入语音信号。然而，用户在前后输入的语音可能无关，此时智能电子设备会理解出错误的语音指令，导致实现了错误的语音功能，降低了用户的体验性。例如，用户输入的第一语音信号为“冰箱温度设为5度”，智能电子设备可以反馈“好的，需要控制哪个储藏室的温度”。如果用户输入的第二语音信号为“请把冷冻室温度调高2度”，则前后的语音是无关的，而冰箱会错误理解成“将冷冻室温度设为5度”，此时冰箱会实现错误的功能。因此，需要判断用户前后输入的语音指令是否是相关的指令。

在一些实施例中，智能电子设备接收到用户输入的第二语音信号时，可以对第二语音指令与第一语音指令进行检测。具体的，可以检测第二语音指令与第一语音指令的关联度。

在一些实施例中，在对第二语音指令与第一语音指令的关联度进行检测时，首先可以确定第一语音指令中的所有槽位参数。例如，当用户输入的第一语音信号为“将冰箱温度设为5度”时，确定的槽位参数如下表所示：

槽位	设备名	目的	指令类型	目的值	单位
						槽位参数	冰箱	温度	设置	5	摄氏度

在对第一语音信号转换的语音指令进行分析后，可以确定包含5个槽位参数，其中，设备名对应的槽位参数为“冰箱”，目的对应的槽位参数为“温度”，指令类型对应的槽位参数为“设置”，目的值对应的槽位参数为“5”，单位对应的槽位参数为“摄氏度”。

在确定第一语音指令中的所有槽位参数后，可以分别计算每个槽位参数和第二语音指令的关联度。

在一些实施例中，在计算槽位参数和第二语音指令的关联度时，首先可以对第二语音信号进行分析，得到第二语音指令。例如，对于语音信号“请把冷冻室温度调高2度”，可以得到第二语音指令为“冷冻室温度调高2度”。然而，由于智能电子设备在分析语义时，并非人为主观判断出最准确的语义，第二语音指令有可能存在多种语义。例如，第二语音指令中的“调高”可以具有多种语义：增加、减少、设置和查询等，每种语义的概率不同，其中“增加”的概率最高。

此时，可以确定第二语音指令的多种语义以及每种语义对应的语义分数。其中，语义分数代表该种语义的概率程度，语义分数越高，概率程度越大，该种语义也就越准确。

在一些实施例中，在确定第二语音指令的多种语义以及每种语义对应的语义分数时，可以先确定第二语音指令包括的所有词语。

在确定第二语音指令包括的所有词语后，可以获取每个词语对应的词语集合，词语集合中可以包括该词语对应的所有词语语义以及每种词语语义的权重值。具体的，可以利用知识图谱获取每个词语对应的词语集合。

知识图谱本质上是一种语义网络，能够代表实体之间的语义关系。知识图谱中以实体为顶点或节点，以关系为边。知识图谱可通过多种方式构建，为现有技术，可以由技术人员自行设定，例如，由语音交互功能相关算法的开发者设定，从而实现智能电子设备的语音交互功能。本申请实施例不做限定。

获取到每个词语对应的词语集合后，可以对每种词语的多种语义进行组合，从而得到第二语音指令的多种语义情况。例如，对于语音指令“冷冻室温度调高2度”，其语义可以包括：“冷冻室温度增加2度”、“冷冻室温度减少2度”、“冷冻室温度设置为2度”以及“查询冷冻室温度”等。

对于第二语音指令的每种语义，其语义得分即为每个词语语义的权重值。可以按照第二语音指令的每种语义的语音分数由大到小的顺序，对所有的语义情况进行排列，得到第二语音指令的语义分数图。图6示出了一些实施例中第二语音指令的语义分数图的示意图。其中，对于目的值槽位，当槽位参数为具体的数值时，可以用#符号表示，也可以填具体的数值；当没有具体的数值时，可以不进行表示。

至此，可以分析出第二语音指令的语义情况。需要说明的是，对语义情况的分析方法为现有技术，本申请实施例只是示例性什么其中一种方法，并非对本申请保护范围的限定。

在一些实施例中，在分析出第二语音指令的语义情况后，可以将所有语义中最高的语义分数作为槽位参数的第一分数。

在计算第一语音指令的某个槽位参数和第二语音指令的关联度时，可以在语义分数图中将该槽位参数和第二语音指令的所有语义进行匹配。当在语义分数图中查找到该槽位参数时，判定包含该槽位参数的语义和该槽位参数匹配成功。即按照语义分数图由上至下的顺序，将该槽位参数首次出现的语义设定为匹配成功的语义。

如果有多个语义中均包含该槽位参数时，则判定语义分数最高的语义和该槽位参数匹配成功。例如，对于槽位参数“增加”，与其匹配成功的语音即为第一行的语义。对于槽位参数“设置”，由于其首次出现在第三行的语义中，因此与其匹配成功的语义即为第三行的语义。

当第一语音指令的某个槽位参数和第二语音指令的某个语义匹配成功时，将该语义的语义分数确定为该槽位参数的第二分数。

在确定了每个槽位参数的第一分数和第二分数后，可以将第一分数减去第二分数，从而得到每个槽位参数和第二语音指令的差别度。差别度越大，说明该槽位参数和第二语音指令的关联度越小。

对于第一语音指令“将冰箱温度设为5度”，起包含5个槽位参数：“冰箱”、“温度”、“设置”、“5”和“摄氏度”。其中，对于槽位参数“冰箱”，其第一分数为38.06，第二分数为38.06，因此槽位参数“冰箱”和第二语音指令的差别度为0。同理，可以得到槽位参数“温度”和第二语音指令的差别度为0；槽位参数“设置”和第二语音指令的差别度为1.69；槽位参数“5”和第二语音指令的差别度为0；槽位参数“摄氏度”和第二语音指令的差别度为0。

需要说明的是，由于目的值槽位和其他槽位存在区别，目的值槽位中可能为具体的数值。因此，在计算目的值槽位的槽位参数对应的差别度时，可以先判断槽位参数是否为具体的数值。如果槽位参数是具体的数值，则可以判断语义分数图中对应的词语语义是否也为具体数值，如果语义分数图中不是具体的数值，则可以认为随意匹配，可以将第一行的语义分数确定为该槽位参数的第二分数。如果语义分数图中是具体的数值，则将该槽位参数和语义分数图中数值进行匹配。当出现语义分数图中的所有数值均未和该槽位参数匹配成功时，可以确定差别度为预设值，例如2。

在一些实施例中，可以设定为槽位参数和第二语音指令的关联度以及差别度的和为1。因此，在获取到每个槽位参数和第二语音指令的差别度后，即可确定每个槽位参数和所述第二语音指令的关联度。其中，关联度＝1-差别度。

例如，对于第一语音指令“将冰箱温度设为5度”，槽位参数“冰箱”、“温度”、“设置”、“5”和“摄氏度”的关联度依次为：1、1、-0.69、-1、1。

在一些实施例中，当确定了第一语音指令中所有槽位参数和第二语音指令的关联度后，可以求取所有的关联度的和，并将该和作为第一语音指令和第二语音指令的关联度。例如，对于第一语音指令“将冰箱温度设为5度”，其整体的关联度为1.31。

可以预先设置一个关联阈值，例如3。当检测到第一语音指令和第二语音指令的关联度达到预设的关联阈值时，则可以认为第一语音指令和第二语音指令的关联性较高，用户回复的内容和本次语音交互过程是相关的，可以继续进行语音交互。

当检测到关联度没有达到预设的关联阈值时，则认为用户回复的内容和本次语音交互过程是不相关的，此时会中断本次的语音交互，智能电子设备不会实现用户需要的第一语音功能。

例如，第一语音指令“将冰箱温度设为5度”的关联度为1.31，小于关联阈值3，因此第一语音指令“将冰箱温度设为5度”和第二语音指令“冷冻室温度调高2度”不相关的，本次的语音交互会中断。

在一些实施例中，考虑到不同的第一语音指令中包含的槽位参数的数量不同，如果判断槽位参数的关联度之和，可能会影响准确性。因此可以在求取所有的槽位参数的关联度的和后，可以进一步计算每个槽位参数的平均关联度，即计算所有关联度的平均值。此时可以将平均值作为第二语音指令与第一语音指令的关联度。

在设置预设的关联阈值时，可以设置一个较小的值，例如0.7。此时可以检测平均值是否达到预设的关联阈值，从而判断第一语音指令和第二语音指令的关联性。

在一些实施例中，当检测到第一语音指令和第二语音指令的关联度大于预设的关联阈值时，可以继续进行语音交互过程。此时可以继续对第二语音指令检测。

此时需要判断用户输入的指令是否能够满足实现第一语音功能的条件。具体的，可以判断第二语音指令中是否包含了待补充语音指令对应的所有语音指令。

如果第二语音指令中包含了待补充语音指令对应的所有语音指令，说明此时智能电子设备接受到实现第一语音功能所需要的全部语音指令，此时可以进行实现第一语音功能对应的操作。同时，智能电子设备可以回复用户“好的”。

如果第二语音指令中没有包含待补充语音指令对应的所有语音指令，则依旧需要用户将剩余的语音指令进行补充。此时，可以确定待补充语音指令中除了第二语音指令之外的所有语音指令，得到第三语音指令。同时可以将第三语音指令对应的提示信息发送给用户，以使用户输入第三语音指令。

在一些实施例中，智能电子设备可以对语音指令的数量和完整度一同检测。当用户的第一语音指令的数量和完整度均不满足条件时，智能电子设备可以发送提示信息给用户。提示信息包含缺少的待补充语音指令，以及第一语音指令中缺少的第二槽位参数。

当接收到用户的第二语音信号时，可以检测用户的第二语音信号中是否包括待补充语音指令以及第二槽位参数。当用户的第二语音信号中包括上述全部内容时，智能电子设备可以实现相应的第一语音功能。

当用户的第二语音信号中依旧缺少一些信息时，智能电子设备需要将缺少的信息对应的提示信息再次播报给用户，以使用户将所有的信息补充完善。

例如，用户输入的第一语音信号为“开启预热”。根据预热功能对应的语音指令集合可以知道，实现预热功能需要的语音指令为“预热过程的时间”以及“预热过程的温度”。下表为一些实施例中的预热功能的完整的语音指令结构体的示意图。

因此，对于“预热过程的时间”指令中，缺少的槽位参数为“目的值”和“单位”对应的槽位参数。同时还缺少整条指令“预热过程的温度”。

此时，烤箱需要将“目的值”和“单位”的槽位参数作为第二槽位参数，“预热过程的温度”作为待补充语音指令，并将对应的提示信息播报给用户，例如提示信息可以是“请告诉我您要设置的时长和温度”，以使用户补充完整。至此，为第一轮语音交互。

用户在收听到提示信息后，可以发送第二语音信号至烤箱。如果第二语音信号中包括第二槽位参数以及待补充语音指令，烤箱可以进行相应的预热操作。烤箱还可以继续回复用户提示信息“好的”，从而实现第二轮语音交互过程。至此，用户和烤箱之间的语音交互过程全部结束，同时也实现了用户需要的预热功能。

如果第二语音信号中没有包括第二槽位参数以及待补充语音指令，依旧有信息缺失。例如用户回复第二语音信号“10分钟”，此时，用户给出了第二槽位参数，从而将“预热过程的时间”指令补充完整，但仍然缺少“预热过程的温度”指令。此时，烤箱可以继续向用户发送提示信息，例如“好的，还请告诉我您要设置的温度”。至此，用户和智能电子设备完成了第二轮的语音交互过程。

当用户再次接受到提示信息时，可以向烤箱说出“200度”的语音指令。此时，烤箱接受到实现预热功能所需要的全部语音指令，因此可以进行相应的预热操作。提示烤箱可以继续回复用户提示信息“好的”，至此，实现第三轮语音交互过程。

在一些实施例中，如果用户输入了错误的语音指令时，智能电子设备可以直接中断本次的语音交互。例如，用户给出第一语音指令“将冰箱温度设为5度”，此时必须可以回复用户“好的，需要控制哪个储藏室的温度”。如果用户输入第二语音指令“冷冻室温度调高2度”，则第二语音指令和第一语音指令无关，冰箱会中断本次的语音交互。

同时，冰箱可以将用户最后一次输入的语音指令作为新的第一语音指令，即将上一次语音交互过程的第二语音指令“冷冻室温度调高2度”作为本次语音交互过程的第一语音指令，并进行后续的语音交互过程。

在一些实施例中，每一次的语音交互过程可能有多轮交互。智能显示设备可以设置每一次语音交互过程中，语音交互的最大轮次。例如，可以设置为每一次语音交互最多交互3轮。如果在3轮的交互过程中，用户依旧没有将所有的语音指令提供完整，则中断本次的语音交互。

当用户第4轮继续输入语音指令时，可以将第4轮的语音指令作为下一次语音交互过程的第1轮的语音指令，并继续下一次的语音交互过程。

本申请实施例提供一种语音交互装置，用于执行图2对应的实施例，如图7所示，语音交互装置包括：

语音文本获取单元201，被配置为获取语音文本，所述语音文本为对用户输入的第一语音信号解析得到的；

语音文本分析单元202，被配置为对语音文本进行分析，得到第一语音指令；

待补充语音指令确定单元203，被配置为基于预设的语音指令集合和所述第一语音指令确定待补充语音指令，预设的语音指令集合中包括实现所述语音文本对应的功能的所有语音指令；

提示信息单元204，被配置为将待补充语音指令对应的提示信息发送给用户，以使用户输入待补充语音指令。

语音交互装置可以安装在各种电子设备中，例如显示设备、冰箱、空调或烤箱。以使得电子设备可以实现如上述的语音交互过程，从而提高用户的体验性。

本说明书中各个实施例之间相同相似的部分互相参照即可，在此不再赘述。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种语音交互方法，其特征在于，包括：

获取语音文本，所述语音文本为对用户输入的第一语音信号解析得到的；

对语音文本进行分析，得到第一语音指令；

基于预设的语音指令集合和所述第一语音指令确定待补充语音指令，预设的语音指令集合中包括实现所述语音文本对应的功能的所有语音指令；

将待补充语音指令对应的提示信息发送给用户，以使用户输入待补充语音指令。

2.根据权利要求1所述的语音交互方法，其特征在于，所述基于预设的语音指令集合和所述第一语音指令确定待补充语音指令，包括：

确定所述语音文本对应的第一语音功能；

在预设的数据库中获取所述第一语音功能对应的预设的语音指令集合，所述数据库中存储有所有的语音功能以及每种语音功能对应的预设的语音指令集合；

根据所述第一语音功能对应的预设的语音指令集合确定实现第一语音功能的所有语音指令；

确定所述所有语音指令中除了所述第一语音指令外的语音指令，得到待补充语音指令。

3.根据权利要求1所述的语音交互方法，其特征在于，在所述对语音文本进行分析，得到第一语音指令的步骤后，还包括：

获取所述第一语音指令中的第一槽位参数；

获取第一槽位参数集合，所述第一槽位参数集合中包括所述第一语音指令中需要包含的所有槽位参数；

基于所述第一槽位参数集合和所述第一槽位参数确定第二槽位参数；

将第二槽位参数对应的槽位参数提示信息发送给用户，以使用户输入第二槽位参数。

4.根据权利要求3所述的语音交互方法，其特征在于，所述确定第一槽位参数集合，包括：

所述基于所述第一槽位参数集合和所述第一槽位参数确定第二槽位参数，包括：

5.根据权利要求1所述的语音交互方法，其特征在于，还包括：

接收用户输入的第二语音信号；

对所述第二语音信号进行解析，得到第二语音指令；

基于待补充语音指令和所述第二语音指令确定第三语音指令，所述第三语音指令为所述待补充语音指令中除了所述第二语音指令之外的所有语音指令；

将第三语音指令对应的提示信息发送给用户，以使用户输入第三语音指令。

6.根据权利要求5所述的语音交互方法，其特征在于，还包括：

获取所述第二语音指令与所述第一语音指令的关联度；

当检测到所述关联度达到预设的关联阈值时，执行基于待补充语音指令和所述第二语音指令确定第三语音指令的步骤。

7.根据权利要求6所述的语音交互方法，其特征在于，所述获取所述第二语音指令与所述第一语音指令的关联度，包括：

获取所述第一语音指令中的所有槽位参数；

计算每个槽位参数和所述第二语音指令的关联度；

计算所有关联度的平均值，并将平均值作为所述第二语音指令与所述第一语音指令的关联度。

8.根据权利要求7所述的语音交互方法，其特征在于，所述计算每个槽位参数和所述第二语音指令的关联度，包括：

获取所述第二语音指令的多种语义以及每种语义的语义分数，并将分数最高的语义分数确定为第一分数；

将每个槽位参数分别和所述第二语音指令的多种语义进行匹配，并将匹配成功的语义对应的语义分数确定为每个槽位参数的第二分数；

将第一分数减去第二分数，得到每个槽位参数和所述第二语音指令的差别度；

根据差别度确定每个槽位参数和所述第二语音指令的关联度，其中，差别度和关联度的和为1。

9.根据权利要求6所述的语音交互方法，其特征在于，还包括：

10.一种语音交互装置，其特征在于，包括：