CN111427444B

CN111427444B - 一种智能设备的控制方法和设备

Info

Publication number: CN111427444B
Application number: CN201811583306.9A
Authority: CN
Inventors: 杨一帆; 刘峥强; 孟越涛; 罗红
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2022-05-10
Anticipated expiration: 2038-12-24
Also published as: CN111427444A

Abstract

本发明公开了一种智能设备的控制方法和设备，用以解决现有智能设备对于用户的含糊表达无法确定用户的准确意图，造成人机交互体验差的问题。本发明实施例网络侧设备在获取到用户的语音需求信息后，如果不能确定用户的语音需求信息对应的技能域，则通过智能设备向用户播放所述语音需求信息对应的技能域的询问信息；在确定用户需求的技能域后，根据确定的技能域通过智能设备执行用户的语音需求信息对应的操作。网络侧设备对于用户意图不明确的情况下通过发起询问，用户可以选取自己需求的技能域，提高了网络侧设备确定用户意图的准确性。

Description

一种智能设备的控制方法和设备

技术领域

本发明涉及互联网技术领域，特别涉及一种智能设备的控制方法和设备。

背景技术

随着近些年科技的迅猛发展，智能设备如雨后春笋，层出不穷，充斥在生活中的方方面面。其中，以创造更高品质的家庭生活为目的的智能设备已进入到爆发期。比如，智能音箱或智能手表等具有语音识别和上网功能的智能设备。

实际使用时，用户可以向具有语音识别功能的智能设备，例如智能音箱，进行对话，发出控制指令，指示智能音箱查询天气或播放音乐等，用户还可以与智能音箱聊天或者向智能音箱发出咨询指令等对话。

目前，市面上的智能音箱，对于用户意图的确定仅仅靠猜测，当用户所说的话可能有多种含义时，***并不能确定用户的真实意图，只会随机推荐一种含义对应的回复，这使得***对于用户意图的命中率较低，用户经常感到智能音箱答非所问，但用户又不知道怎样表达才能触发需要的技能。

综上所述，现有智能设备对于用户的含糊表达无法确定用户的准确意图，造成人机交互体验差。

发明内容

本发明提供一种智能设备的控制方法和设备，用以解决现有智能设备对于用户的含糊表达无法确定用户的准确意图，造成人机交互体验差的问题。

本发明方法包括：

第一方面，本发明实施例提供的一种智能设备的控制方法包括：

网络侧设备通过智能设备采集用户的语音需求信息；

所述网络侧设备通过智能设备向用户播放所述语音需求信息对应的技能域的询问信息；

所述网络侧设备根据智能设备采集的用户的语音响应信息在确定播放的询问信息对应的技能域为用户需求的技能域后根据确定的技能域通过智能设备执行所述语音需求信息对应的操作。

上述方法，网络侧设备在获取到用户的语音需求信息后，如果不能确定用户的语音需求信息对应的技能域，则通过智能设备向用户播放所述语音需求信息对应的技能域的询问信息；在确定用户需求的技能域后，根据确定的技能域通过智能设备执行用户的语音需求信息对应的操作。网络侧设备对于用户意图不明确的情况下通过发起询问，用户可以选取自己需求的技能域，提高了网络侧设备确定用户的意图的准确性。

在一种可选的实施方式中，所述网络侧设备通过智能设备采集用户的语音需求信息之后，通过智能设备向用户播放所述语音需求信息对应的技能域的询问信息之前，还包括：

所述网络侧设备根据所述语音需求信息确定备选技能域；

若所述网络侧设备确定一个备选技能域，则将所述备选技能域作为所述语音需求信息对应的技能域；或

若所述网络侧设备确定多个备选技能域，则所述网络侧设备将满足询问条件的备选技能域作为所述语音需求信息对应的技能域。

上述方法，若网络侧设备确定语音需求信息有多个备选技能域，则可以将满足询问条件的备选技能域作为所述语音需求信息对应的技能域，对于不满足询问条件的备选技能域则不再通过智能设备向用户进行询问，以减少无效询问次数，简化人机交互的复杂性，提高技能域命中率。

在一种可选的实施方式中，所述网络侧设备通过下来方式确定满足询问条件的备选技能域：

所述网络侧设备根据所述语音需求信息与备选技能域的关联度大小，在所述多个备选技能域中选取前N个技能域；

若所述前N个备选技能域与所述语音需求信息的关联度中有多个不小于第一阈值的关联度，则将多个不小于第一阈值的关联度对应的备选技能域作为满足询问条件的备选技能域；或

若所述前N个备选技能域与所述语音需求信息的关联度中没有不小于第一阈值的关联度，则将最大的关联度对应的备选技能域以及目标备选技能域作为满足询问条件的备选技能域，其中所述目标备选技能域为最大的关联度与自身的关联度之差不大于第二阈值的备选技能域；

其中，N为大于1的正整数。

上述方法，对于用户的含糊表达，可能存在语音需求信息与备选技能域的关联度相近的情况，网络侧设备确定对于这种相近的关联度对应的技能域进行多轮询问，以避免遗漏掉用户需要的技能域。

在一种可选的实施方式中，若所述前N个备选技能域与所述语音需求信息的关联度中有1个不小于第一阈值的关联度，则所述网络侧设备根据所述关联度对应的技能域通过智能设备执行所述语音需求信息对应的操作；或

若所述前N个备选技能域与所述语音需求信息的关联度中没有不小于第一阈值的关联度，且没有目标备选技能域，则所述网络侧设备根据所述最大的关联度对应的备选技能域通过智能设备执行所述语音需求信息对应的操作。

上述方法，网络侧设备可以确定出用户的语音需求信息对应的意图明确的备选技能域，网络侧设备直接根据确定出的备选技能域通过智能设备执行所述语音需求信息对应的操作，而不再通过智能音箱询问用户，可以降低人机交互次数，简化***交互，提高智能设备的智能性，从而也提高用户的使用体验。

在一种可选的实施方式中，所述网络侧设备通过下列方式确定备选技能域与所述语音需求信息的关联度：

针对任意一个备选技能域，所述网络侧设备通过第一训练模型确定所述备选技能域与所述语音需求信息的公有域的关联度，以及通过第二训练模型确定所述备选技能域与所述语音需求信息的私有域的关联度；

所述网络侧设备根据所述公有域的关联度和所述私有域的关联度的分配权重确定所述备选技能域与所述语音需求信息的关联度。

上述方法，网络侧设备可以根据用户的使用习惯进行个性化意图识别，形成用户私人的个性化配置，提高技能域的命中效率和准确性。

在一种可选的实施方式中，所述网络侧设备根据从网络爬取的信息更新所述第一训练模型的样本数据；和/或

所述网络侧设备根据历史的语音需求信息及对应的技能域更新所述第二训练模型的样本数据。

上述方法，网络侧设备可以根据用户的历史记录确定用户在含糊表达时的意图，提高技能域的命中效率和准确性，对于用户的使用更加便利。

在一种可选的实施方式中，所述网络侧设备通过智能设备向用户播放所述语音需求信息对应的技能域的询问信息之后，还包括：

所述网络侧设备根据所述语音响应信息判断是否能够确定用户需求的技能域；

若所述网络侧设备确定播放的询问信息对应的技能域不是用户需求对应的技能域，则判断所述语音需求信息对应的技能域中是否还有未使用的技能域；

如有是，则从未使用的技能域中选择一个技能域，通过所述智能设备向用户播放所述语音需求信息对应的技能域的询问信息，并返回判断是否能够确定用户需求的技能域的步骤；

否则，停止通过智能设备向用户播放所述语音需求信息对应的技能域的询问信息。

上述方法，网络侧设备对于用户意图不明确的情况下通过发起询问，用户可以选取自己需求的技能域，提高了网络侧设备确定用户的意图的准确性。

第二方面，本发明实施例还提供了一种控制智能设备的网络侧设备，包括：处理器以及存储器：

所述处理器用于：通过智能设备采集用户的语音需求信息；通过智能设备向用户播放所述语音需求信息对应的技能域的询问信息；根据智能设备采集的用户的语音响应信息在确定播放的询问信息对应的技能域为用户需求的技能域后根据确定的技能域通过智能设备执行所述语音需求信息对应的操作。

在一种可能的实现方式中，所述处理器还用于：

通过智能设备采集用户的语音需求信息之后，根据所述语音需求信息确定备选技能域；若确定一个备选技能域，则将所述备选技能域作为所述语音需求信息对应的技能域；或若确定多个备选技能域，则所述网络侧设备将满足询问条件的备选技能域作为所述语音需求信息对应的技能域。

在一种可能的实现方式中，所述处理器通过下来方式确定满足询问条件的备选技能域：

根据所述语音需求信息与备选技能域的关联度大小，在所述多个备选技能域中选取前N个技能域；若所述前N个备选技能域与所述语音需求信息的关联度中有多个不小于第一阈值的关联度，则将多个不小于第一阈值的关联度对应的备选技能域作为满足询问条件的备选技能域；或若所述前N个备选技能域与所述语音需求信息的关联度中没有不小于第一阈值的关联度，则将最大的关联度对应的备选技能域以及目标备选技能域作为满足询问条件的备选技能域，其中所述目标备选技能域为最大的关联度与自身的关联度之差不大于第二阈值的备选技能域；其中，N为大于1的正整数。

在一种可能的实现方式中，所述处理器还用于：

若所述前N个备选技能域与所述语音需求信息的关联度中有1个不小于第一阈值的关联度，则根据所述关联度对应的技能域通过智能设备执行所述语音需求信息对应的操作；或若所述前N个备选技能域与所述语音需求信息的关联度中没有不小于第一阈值的关联度，且没有目标备选技能域，则根据所述最大的关联度对应的备选技能域通过智能设备执行所述语音需求信息对应的操作。

在一种可能的实现方式中，所述处理器通过下列方式确定备选技能域与所述语音需求信息的关联度：

针对任意一个备选技能域，通过第一训练模型确定所述备选技能域与所述语音需求信息的公有域的关联度，以及通过第二训练模型确定所述备选技能域与所述语音需求信息的私有域的关联度；根据所述公有域的关联度和所述私有域的关联度的分配权重确定所述备选技能域与所述语音需求信息的关联度。

在一种可能的实现方式中，所述处理器还用于：

根据从网络爬取的信息更新所述第一训练模型的样本数据；和/或根据历史的语音需求信息及对应的技能域更新所述第二训练模型的样本数据。

在一种可能的实现方式中，所述处理器还用于：

根据所述语音响应信息判断是否能够确定用户需求的技能域；

若确定播放的询问信息对应的技能域不是用户需求对应的技能域，则判断所述语音需求信息对应的技能域中是否还有未使用的技能域；

如有是，则从未使用的技能域中选择一个技能域，通过所述智能设备向用户播放所述语音需求信息对应的技能域的询问信息，并返回判断是否能够确定用户需求的技能域的步骤；否则，停止通过智能设备向用户播放所述语音需求信息对应的技能域的询问信息。

第三方面，本发明实施例还提供一种控制智能设备的网络侧设备，该设备包括：

至少一个处理单元以及至少一个存储单元，其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行上述第一方面的各实施例的功能。

第四方面，本申请还提供一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述方法的步骤。

另外，第二方面至第四方面中任一一种实现方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果，此处不再赘述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供应用场景示意图；

图2为本发明实施例控制智能设备的***示意图；

图3为本发明实施例网络侧设备确定满足询问条件的备选技能域的方法流程示意图；

图4为本发明实施例提供智能音箱通过多轮询问确定用户需求的技能域的应用场景示意图；

图5为本发明实施例第一种控制智能设备的网络侧设备的结构示意图；

图6为本发明实施例第二种控制智能设备的网络侧设备的结构示意图；

图7为本发明实施例第三种控制智能设备的网络侧设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面对文中出现的一些词语进行解释：

(1)“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

(2)本发明实施例所指的“智能设备”是指能够进行生物识别的智能终端，如智能音箱、手机等。

(3)本发明实施例所指的“智能音箱”是普通音箱的升级产物，是家庭消费者用语音进行上网的一个工具，比如点播歌曲、上网购物，或是了解天气预报，它也可以对智能家居设备进行控制，比如打开窗帘、设置冰箱温度、提前让热水器升温等。

(4)本发明实施例所指的“网络侧设备”是指能够与智能设备通信，为智能设备提供数据处理、数据存储、决策等服务的设备，比如，云端服务器(以下简称云端)。

(5)本发明实施例所指的“技能域”是指根据数据类型汇总的一种集合，比如，歌曲技能域、相声技能域、小说技能域、医学技能域、天气技能域等。

(6)本发明实施例所指的“NLP”是计算机以一种聪明而有用的方式分析，理解和从人类语言中获取意义的一种方式，即一种能够让计算机读懂人类语言的技术。通过利用NLP，开发者可以组织和构建知识来执行自动摘要，翻译，命名实体识别，关系提取，情感分析，语音识别和话题分割等任务。在本发明实施例中，NLP用于处理文本，分类，标记化，词法分析，标记，解析等。

本发明实施例描述的应用场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。其中，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

随着近些年科技的迅猛发展，智能设备如雨后春笋，层出不穷，充斥在生活中的方方面面。其中，以创造更高品质的家庭生活和生活环境为目的的智能家居设备已进入到爆发期。比如，智能音箱或手机等具有语音识别上网功能的智能设备。

实际使用时，用户可以向具有语音识别功能的智能设备，例如智能音箱，进行对话，发出控制指令，指示智能音箱查询天气或播放音乐等，用户还可以与智能音箱聊天或者向智能音箱发出咨询指令，比如“幸福大街怎么走？”等问话。

智能音箱与云端处于联网状态，智能音箱将采集到的用户的语音信息发送到云端，云端根据用户的语音信息搜索到相应的内容后，执行相应的操作，比如，向用户展示关于幸福大街的导航地图。

如图1所示的场景，目前市面上的智能音箱，在确定用户意图时仅靠猜测，比如用户咨询“我想听三国演义”智能音箱并不能确定用户是想听相声三国演义还是听评书三国演义。当用户所说的话可能有多种含义时，***只会随机推荐一种搜索结果，这使得用户经常感到智能音箱答非所问，但用户又不知道怎样表达才能触发需要的技能。

因此本发明提供了一种智能设备的控制方法，网络侧设备通过智能设备，比如智能音箱采集的用户发出的语音需求信息后，网络侧设备根据用户的语音需求信息确定出对应的技能域，其中，技能域可能是一个也可能是多个，在网络侧设备不能确定用户的意图时，网络侧设备通过智能音箱向用户播放根据用户的语音需求信息确定的对应的技能域的询问信息，比如“您咨询的是戏曲领域吗？”。用户收到智能音箱的询问信息后，向智能音箱表达正反馈或负反馈，正反馈比如，“是的”、“可以”等肯定的语句或语气，负反馈“不想”、“不对”等否定的语句或语气。如果用户反馈的响应信息为正反馈，网络侧设备根据智能音箱采集的用户的语音响应信息在确定播放的询问信息对应的技能域就是用户需求的技能域后，根据确定的技能域通过智能音箱执行用户的语音需求信息对应的操作。

下面结合说明书附图对本发明实施例做进一步详细描述。

如图2所示，本发明实施例提供的是一种智能设备的控制***，该***包括：网络侧设备10和智能设备20：

网络侧设备10，用于通过智能设备采集用户的语音需求信息；通过智能设备向用户播放所述语音需求信息对应的技能域的询问信息；根据智能设备采集的用户的语音响应信息在确定播放的询问信息对应的技能域为用户需求的技能域后根据确定的技能域通过智能设备执行所述语音需求信息对应的操作。

智能设备20，用于将采集到的用户的语音需求和语音响应信息发送给网络侧设备；向用户播放接收到的网络侧设备发送的语音需求信息对应的技能域的询问信息。

通过上述方案，网络侧设备在获取到用户的语音需求信息后，如果不能确定用户的语音需求信息对应的技能域，则通过智能设备向用户播放所述语音需求信息对应的技能域的询问信息；在确定用户需求的技能域后，根据确定的技能域通过智能设备执行用户的语音需求信息对应的操作。网络侧设备对于用户意图不明确的情况下通过发起询问，用户可以选取自己需求的技能域，同时提高了网络侧设备确定用户的意图的准确性。

下面以智能音箱和云端为例，对本申请实施例中的网络侧设备控制智能设备的方法进行详细说明：

本发明实施例的技术方案中，通过智能音箱采集用户的语音需求信息，智能设备可以通过ASR(Automatic Speech Recognition，语音识别)技术，将采集到的语音需求信息转化为文字，还可以通过TTS技术将转化的文本信息上传到云端。

云端接收到智能音箱发送的用户的语音需求信息后，确定所述语音需求信息的备选技能域，云端从备选技能域中确定语音需求信息对应的技能域。

云端包含的技能域有多个，比如天气、地图、音乐，评书，相声，电台、戏曲、书籍、演讲等等技能域。

云端根据用户的语音需求信息确定备选技能域时，有多种可能，下面分情况进行说明：

情况一：云端确定一个备选技能域；

比如，用户向智能音箱询问“明天的气温怎么样”，云端通过智能音箱采集到用户的语音需求信息“明天的气温怎么样”后，将用户的语音需求信息通过训练模型得到一个备选技能域—“天气”，则终端将备选技能域“天气”作为用户的语音需求信息得对应的技能域，根据技能域“天气”通过智能设备执行所述语音需求信息对应的操作。比如，向用户播放明天或近一周的天气情况。

还有一种可能的方式，云端将技能域“天气”作为用户的语音需求信息得对应的技能域后，云端通过智能音箱向用户播放所述语音需求信息对应的技能域的询问信息；比如“您问的是天气吗”。云端在确定播放的询问信息对应的技能域为用户需求的技能域后根据确定的技能域通过智能设备执行所述语音需求信息对应的操作。

情况二：云端确定多个备选技能域；

比如，用户向智能音箱发起对话“我想听三国演义”，云端接收到智能音箱采集到的用户的语音需求信息“我想听三国演义”，云端确定用户的语音需求信息的备选技能域有多个，比如，云端根据“我想听三国演义”确定的备选技能域有：“戏曲”、“评书”和“相声”。

对于有多个备选技能域的情况，一种可选的方式，云端可以将所有的备选技能域依次通过智能音箱发送给用户进行询问，但耗时较长，可能需要较多轮询问才能命中。另一种可选的方式，云端也可以通过根据用户的语音需求信息与备选技能域的关联度大小，选取满足询问条件的备选技能域作为所述语音需求信息对应的技能域(即可以通过智能设备向用户播放询问信息对应的技能域)，缩小备选技能域的范围。

进一步，如图3所示的方法流程示意图，云端通过如图3所示的方法确定满足询问条件的备选技能域：

步骤300，云端确定语言需求信息的备选技能域有多个；

步骤301，云端按照所述语音需求信息与备选技能域的关联度大小，在所述多个备选技能域中选取前N个技能域；

步骤302，云端判断前N个备选技能域中是否有大于第一阈值的技能域；如果是，则执行步骤303，否则执行步骤305；

步骤303，云端判断前N个备选技能域中大于第一阈值的技能域是否为一个，如果是，则执行步骤304，否则执行步骤307；

步骤304，云端确定多个不小于第一阈值的关联度对应的备选技能域满足询问条件；

步骤305，云端判断备选技能域中是否有与最大的关联度的差值不大于第二阈值的技能域；

步骤306，云端确定最大的关联度对应的备选技能域以及目标备选技能域满足询问条件；

步骤307，云端根据备选技能域通过智能设备执行所述语音需求信息对应的操作。

比如，云端在备选技能域中选择前2个技能域。结合上例，若云端确定用户的语音需求信息“我想听三国演义”的备选技能域为“戏曲”、“评书”和“相声”，且用户的语音需求信息与各备选技能域的关联度分别为：“戏曲”的关联度为0.9；“评书”的关联度为0.8，“相声”的关联度为0.5。

根据各备选技能域的关联度大小，选择前2两技能域为戏曲和评书。

云端判断用户的语音需求信息与前N(N为大于1的正整数)个备选技能域的关联度是否有不小于第一阈值的技能域。比如，结合上例，假如第一阈值为0.9，则云端确定“戏曲”为不小于第一阈值的技能域。

第一种可能，云端在前N个备选技能域中确定不小于第一阈值的有一个，一种可选的方式，云端可以通过智能音箱向用户播放所述备选技能域的询问信息，在确定其为用户需求的技能域后，根据所述备选技能域通过智能设备执行所述语音需求信息对应的操作。比如：云端通过智能音箱向用户播放“你想听的是戏曲的三国演义吗？”的询问信息，云端在接收到用户的肯定的语音响应信息，通过智能音箱向用户播放戏曲三国演义。另一种可选的方式，云端直接根据确定的不小于第一阈值的一个备选技能域，云端确定用户的语音需求信息的意图明确，不需询问用户，直接通过智能设备执行所述语音需求信息对应的操作。

第二种可能的方式，云端在前N个备选技能域中确定不小于第一阈值的有多个，则将多个不小于第一阈值的关联度对应的备选技能域作为满足询问条件的备选技能域。云端可以发起多轮询问，通过备向用户播放所述语音需求信息对应的技能域的询问信息确定用户需求的技能域。其中，云端在通过智能音箱播放询问信息时，可以在满足询问条件的备选技能域中随机选取一个，也可以按照备选技能域的关联度大小，在满足询问条件的备选技能域中选择。

若所述云端根据用户的语音响应信息确定播放的询问信息对应的技能域不是用户需求对应的技能域，则判断所述语音需求信息对应的技能域中是否还有未使用的技能域；如果有，则从未使用的技能域中选择一个技能域，通过所述智能设备向用户播放所述语音需求信息对应的技能域的询问信息，并返回判断是否能够确定用户需求的技能域的步骤；否则，停止通过智能设备向用户播放所述语音需求信息对应的技能域的询问信息。

举个例子如图4所示的场景，假如，云端确定前2两个备选技能域分别为，“戏曲”和“相声”，“戏曲”的关联度为0.9，“相声”的关联度为0.95，则云端按照关联度的大小首先选择“相声”进行询问，云端通过智能音箱向用户播放“您想听的是相声吗？”，若用户反馈“是”，则云端通过智能音箱向用户播放相声三国演义；若用户反馈“不是”，则云端判断所述语音需求信息对应的技能域中是否还有未使用的技能域(戏曲)，则云端再次通过智能音箱向用户播放“您想听的是戏曲吗？”，若用户反馈“是”，则云端通过智能音箱向用户播放戏曲三国演义；若用户反馈“不是”，云端判断所述语音需求信息对应的技能域中是否还有未使用的技能域，云端确定没有未使用的技能域了，则停止通过智能设备向用户播放所述语音需求信息对应的技能域的询问信息，或者提示用户“我不太清楚您说的是什么”。

第三种可能，云端确定前N个备选技能域与所述语音需求信息的关联度中没有不小于第一阈值的关联度，即前N个备选技能域与所述语音需求信息的关联度都小于第一阈值。所述云端通过比较前N个备选技能域中的最大的关联度与前N个备选技能域中的其他技能域的关联度的差值，确定目标备选技能域，所述云端将最大的关联度对应的备选技能域以及目标备选技能域作为满足询问条件的备选技能域。

云端通过下列方式确定目标备选技能域：

若前N个备选技能域中最大的关联度与前N个备选技能域中的其它技能域的关联度的差值不大于第二阈值，则云端确定所述其它技能域为目标备选技能域。

比如：假设第二阈值为0.15，云端确定前2两个备选技能域分别为，“歌曲”和“话剧”，“歌曲”的关联度为0.6，“话剧”的关联度为0.7，云端确定“歌曲”的关联度0.6与最大的关联度为0.7的差值为0.1，不大于0.15，则云端确定“歌曲”为目标备选技能域，云端确定目标备选技能域(歌曲)和最大的关联度对应的备选技能域(话剧)满足询问条件的备选技能域。

在确定出满足询问条件的备选技能域包含多个技能域后，云端的执行步骤可以按照第二种可能的方式中的具体操作步骤，此处不再赘述。

第四种可能，云端确定前N个备选技能域与所述语音需求信息的关联度中没有不小于第一阈值的关联度，且云端确定没有目标备选技能域，即云端确定前N个备选技能域的关联度都小于第一阈值，且前N个备选技能域中的最大的关联度与其他备选技能域的关联度的差值大于第二阈值，则所述网络侧设备根据所述最大的关联度对应的备选技能域通过智能设备执行所述语音需求信息对应的操作。

比如，假设第二阈值为0.15，云端确定前2两个备选技能域分别为，“歌曲”和“话剧”，“歌曲”的关联度为0.1，“话剧”的关联度为0.7，云端确定最大的关联度为0.7与“歌曲”的关联度0.1的差值为0.6，大于0.15，则云端确定没有目标备选技能域，云端根据所述最大的关联度对应的备选技能域(话剧)通过智能设备执行所述语音需求信息对应的操作，或者参考第一可能中云端的具体实施方式，此处不再赘述。

本发明实施例，云端在获取智能音箱上传的用户的语音需求信息的文本信息后，通过NLP(Natural Language Processing，自然语音处理)解析，对用户的语音需求信息的文本信息进行分词，将分词结果输入到的公有域的第一训练模型和私有域的第二训练模型中，第一训练模型和第二训练模型把输入的信息解析成机器能识别的结构化数据，并确定所述语音需求信息对应的备选技能域以及所述语音需求信息与备选技能域的关联度。

对于NLP的分词处理，举个例子进行说明：

NLP就是研究如何让计算机读懂人类语言，比如，日常生活中，总会碰到一些不知道怎么读的生僻字，这时往往就会去搜索引擎搜索，比如“4个又念什么”。搜索结果则是向你展示“叕”而非“4个又组成的字”这几个词或者其表面的匹配结果，这就是通过NLP读懂人类的语言，从而理解用户的真实意图。

对于本发明实施例，比如，“我想听三国演义”，NLP对文本信息“我想听三国演义”，通过NLP分词能够确定“听”是动词，“三国演义”是名词，用户的意图是期望播放“三国演义”的相关音频，则云端将NLP分词结果“三国演义”输入到第一训练模型和第二训练模型内，通过与存储的样本数据进行比对确定“三国演义”的备选技能域。

假如第一训练模型内存储的样本数据为“经典老歌《三国演义》”对应“歌曲”技能域，两者关联度为0.8，第一训练模型通过比对确定“三国演义”与“经典老歌《三国演义》”的关联度为0.8，最终确定“三国演义”与“歌曲”的关联度为0.8*0.8＝0.64。

本发明实施例提供的技术方案所涉及的公有域和私有域进行介绍说明：

1)公有域。

公有域面向所有用户的信息集合，公有域的信息为任何能够通过第三方介质连接到云端的用户共享。

对于第三方介质，可以理解为能够与云端通信的实体或虚拟设备或介质。

比如，用户通过智能音箱连接到云端。

云端通过爬取网络信息更新公有域内的第一训练模块的样本数据。具体的，云端通过爬取各大门户网站获取信息，将获取的信息包含的词汇或语句更新到公有域内所述词汇或语句对应的技能域中，并根据信息的时效性更新技能域内所述词汇或语句的阈值。

一种可能的方式，云端通过爬虫技术爬取各大门户网站的新闻，第一训练模型会提高本次爬取的最新消息与相应技能域的关联度，那么当云端下一次通过智能音箱获取到用户询问关于该技能域的信息时，云端会首先向用户推荐该技能域关联度最高的信息。

举个例子：云端在更新公有域内第一训练模型的样本信息时，从门户网站获取到本次的信息为，A公司发布了新款手机，型号为产品A，则云端将“产品A”添加到技能域为“电子产品”中，通过第一训练模型确定“产品A”与“电子产品”的关联度为0.9。云端将此条信息作为公有域内第一训练模型的样本数据。

当智能音箱采集到用户的语音需求信息为“A公司热点新闻”时，云端根据第一训练模型，确定用户的语音需求信息的备选技能域有多个，包含“电子产品”和“时政新闻”，云端确定“产品A”与“电子产品”的关联度为0.9，云端通过第一训练模型确定“A公司热点新闻”与“产品A”的关联度为0.95，则最终确定“A公司热点新闻”与“电子产品”的关联度为0.95*0.9＝0.855，对于确定“A公司热点新闻”与“时政新闻”关联度的方式与上述确定与“电子产品”的方式类似，此处不再赘述。

云端通过智能音箱向用户播放“您想问的是A公司的时政新闻吗？”若用户反馈否定的语音响应信息，则云端继续通过智能音箱向用户播放“您想问的是A公司的电子产品吗”，若用户反馈肯定的语音响应信息，则云端通过智能音箱向用户播放产品A的产品信息等。

需要说明的是，上述关于第一训练模型和第二训练模型计算关联度的方式仅为举例，任何通过打分或确定关联度的方式均适用于本发明。

另一种可能的方式，云端在更新公有域内第一训练模型的样本信息将爬取的消息按照技能域分别存储在相应技能域的数据库中，并保存在排序最前边的位置，云端在搜索该技能域时会首先浏览到该消息，第一训练模型将提高更新了的技能域与相关的语音需求信息的关联度。

举个例子：云端的技能域有教育新闻、金融新闻、军事新闻等，云端通过爬虫获取到的一条信息为“中小学营养午餐”，云端将“中小学营养午餐”存储到“教育新闻”的技能域的数据库中，当云端通过智能音箱采集到用户发的对话为“今天的热点新闻是什么”，云端通过第一训练模型确定用户的语音需求信息对应的技能域为教育新闻、金融新闻、军事新闻，但由于本次仅更新了“教育新闻”，因此“教育新闻”与用户的语音需求信息的关联度最大，在确定用户咨询的技能域就是“教育新闻”后，云端搜索技能域“教育新闻”的最新信息，并通过智能音箱向云端播放“中小学营养午餐”的内容。

需要说明的是，上述仅为第一训练模型与第二训练模型的具体介绍，并没有否定输入信息到第一训练模型与第二训练模型之前以及之后的步骤及方法。

对于云端公有域的更新时间，云端可以是定时更新公有域信息，比如，每天凌晨更新公有域信息。

2)私有域。

私有域是为一个用户单独使用而构建的，因而提供对数据、安全性和服务质量的最有效控制。

云端更新私有域的信息是针对个人账户的记录，云端根据用户标识对应的私有域内历史的语音需求信息及对应的技能域更新所述第二训练模型的样本数据。

对于用户标识，可以是智能设备的设备标识，或者是与用户通过其他智能终端与智能设备联网的其他智能终端标识，也可以是用户通过能够与云端联网的APP创建的个人账户。

以智能音箱为例，若用户标识为智能音箱的设备标识，智能音箱可以通过TTS技术将设备标识上传到云端。

下面对云端更新私有域的第二训练模型的样本数据进行介绍说明：

比如结合上述例子，云端通过智能音箱向用户播放产品A的产品信息后，云端在更新私有域的第二训练模型的样本数据时，确定“产品A”为“电子产品”的技能域标签(即将产品A添加到电子产品技能域数据库中)，假设第二训练模型确定“产品A”与“电子产品”的关联度为0.9。云端将此条信息作为私有域内第二训练模型的样本数据。

需要说明的是，云端根据历史的语音需求信息更新私有域信息时，仅对具有用户表达了肯定的反馈信息(正反馈)的语音需求信息进行更新，若云端确定用户表达了否定的反馈信息(负反馈)后，云端不对该使用记录进行私有域信息的更新。

云端根据用户的语音响应信息确定用户的反馈是正反馈还是负反馈时，根据智能音箱的语气判断和智能音箱转化的文字信息确定。

云端在接收到通过智能音箱采集到的用户的语音需求信息后，要分别通过公有域和私有域确定所述语音需求信息的备选技能域及与备选技能域的关联度。具体的云端通过第一训练模型确定备选技能域与语音需求信息的公有域的关联度，以及通过第二训练模型确定备选技能域与语音需求信息的私有域的关联度；云端根据所述公有域的关联度和所述私有域的关联度的分配权重确定所述备选技能域与所述语音需求信息的关联度。

其中，云端根据所述公有域的关联度和所述私有域的关联度的分配权重确定备选技能域与所述语音需求信息的关联度时，有以下两种情况：

情况一：私有域内没有相关使用记录；

比如，用户首次使用智能音箱的场景，若用户向智能音箱发起对话“我想听三国演义”时，云端通过智能音箱获取用户的语音需求信息，通过公有域的第一训练模型确定用户的语音需求信息的备选技能域为“戏曲”和“相声”，且得到“戏曲”的公有域的关联度为0.8，“相声”的公有域的关联度为0.7，云端确定私有域内没有相关词汇的使用记录，则云端根据公有域得到的备选技能域确定备选技能域与所述语音需求信息的关联度，即“戏曲”的关联度为0.8，“相声”的关联度为0.7。

情况二：私有域内有相关使用记录；

结合上例，若用户经常使用智能音箱播放相声三国演义，则云端针对该用户ID(identification，身份证)的私有域内，具有“三国演义”与“相声”的关联度为0.9的样本数据，当用户再次向智能音箱发起对话“我想听三国演义”，云端通过公有域的第一训练模型确定用户的语音需求信息的备选技能域为“戏曲”和“相声”，且“戏曲”的公有域的关联度为0.8，“相声”的公有域的关联度为0.7；云端通过私有域的第二训练模块确定用户的语音需求信息的备选技能域为“相声”，且“相声”的私有域的关联度为0.9，则云端根据公有域的关联度和私有域的关联度的分配权重确定所述备选技能域与所述语音需求信息的关联度。

假设分配权重为6:4，则云端确定“我想听三国演义”与“戏曲”的关联度为0.8*60％＝0.48；“我想听三国演义”与“相声”的关联度为0.7*60％+0.9*40％＝0.78。

本申请实施例中的第一训练模型和第二训练模型应用的为隐马尔可夫模型(Hidden Markov Model，HMM)，但本申请并不限定于该训练模型。

可选的，本申请智能音箱还可以与APP(Application，应用)联网，APP可以与云端联网。

APP可以向用户推送云端一段时间内用户在人机交互时各个技能域的命中情况，用户可以查看和编辑个人的意图命中热词。

对应热词的理解，热词比ASR优先级高，智能音箱在识别语音信息时优先匹配热词。

举个例子，用户通过APP编辑的热词为“海归”，若用户说了海龟，则智能音箱采集到用户的语音信息包含“Haigui”后，会优先将语音转换文字“海归”。

智能音箱具有在线TTS(Text To Speech，从文本到语音)处理模块，用于将用户手机号标识和需要播报的文本上传到云端，并对云端返回的信息进行语音播报。

基于同一发明构思，本发明实施例中还提供了一种控制智能设备的网络侧设备，由于该设备是本发明实施例智能设备的控制***中的设备，并且该设备解决问题的原理与该方法相似，因此该设备的实施可以参见方法的实施，重复之处不再赘述。

如图5所示，本发明实施例提供一种控制智能音箱的网络侧设备，包括：处理器500以及收发机501：

所述处理器500用于：通过智能设备采集用户的语音需求信息；通过智能设备向用户播放所述语音需求信息对应的技能域的询问信息；根据智能设备采集的用户的语音响应信息在确定播放的询问信息对应的技能域为用户需求的技能域后根据确定的技能域通过智能设备执行所述语音需求信息对应的操作。

可选的，所述处理器500还用于：

可选的，所述处理器500通过下来方式确定满足询问条件的备选技能域：

可选的，所述处理器500还用于：

可选的，所述处理器500通过下列方式确定备选技能域与所述语音需求信息的关联度：

可选的，所述处理器500还用于：

在一种可能的实现方式中，所述处理器500还用于：

可选的，所述处理器500还用于：

如图6所示，本发明实施例提供一种控制智能音箱的网络侧设备，该设备包括：

至少一个处理单元600以及至少一个存储单元601，其中，所述存储单元601存储有程序代码，当所述程序代码被所述处理单元600执行时，使得所述处理单元600执行下列过程：

通过智能设备采集用户的语音需求信息；通过智能设备向用户播放所述语音需求信息对应的技能域的询问信息；根据智能设备采集的用户的语音响应信息在确定播放的询问信息对应的技能域为用户需求的技能域后根据确定的技能域通过智能设备执行所述语音需求信息对应的操作。

可选的，所述处理单元600还用于：

可选的，所述处理单元600通过下来方式确定满足询问条件的备选技能域：

可选的，所述处理单元600还用于：

可选的，所述处理单元600通过下列方式确定备选技能域与所述语音需求信息的关联度：

可选的，所述处理单元600还用于：

可选的，所述处理器500还用于：

基于同一发明构思，本发明实施例中还提供了一种智能设备的控制方法，由于该方法对应的设备是本发明实施例智能设备的控制***中的设备对应的方法，并且该方法解决问题的原理与该设备相似，因此该方法的实施可以参见智能设备的控制***的实施，重复之处不再赘述。

如图7所示，本发明实施例提供的智能设备的控制方法，该方法包括：

步骤700，网络侧设备通过智能设备采集用户的语音需求信息；

步骤701，所述网络侧设备通过智能设备向用户播放所述语音需求信息对应的技能域的询问信息；

步骤702，所述网络侧设备根据智能设备采集的用户的语音响应信息在确定播放的询问信息对应的技能域为用户需求的技能域后根据确定的技能域通过智能设备执行所述语音需求信息对应的操作。

可选的，所述网络侧设备通过智能设备采集用户的语音需求信息之后，通过智能设备向用户播放所述语音需求信息对应的技能域的询问信息之前，还包括：

所述网络侧设备根据所述语音需求信息确定备选技能域；

可选的，所述网络侧设备通过下来方式确定满足询问条件的备选技能域：

其中，N为大于1的正整数。

可选的，若所述前N个备选技能域与所述语音需求信息的关联度中有1个不小于第一阈值的关联度，则所述网络侧设备根据所述关联度对应的技能域通过智能设备执行所述语音需求信息对应的操作；或

可选的，所述网络侧设备通过下列方式确定备选技能域与所述语音需求信息的关联度：

可选的，所述网络侧设备根据从网络爬取的信息更新所述第一训练模型的样本数据；和/或所述网络侧设备根据历史的语音需求信息及对应的技能域更新所述第二训练模型的样本数据。

可选的，所述网络侧设备通过智能设备向用户播放所述语音需求信息对应的技能域的询问信息之后，还包括：

以上参照示出根据本申请实施例的方法、装置(***)和/或计算机程序产品的框图和/或流程图描述本申请。应理解，可以通过计算机程序指令来实现框图和/或流程图示图的一个块以及框图和/或流程图示图的块的组合。可以将这些计算机程序指令提供给通用计算机、专用计算机的处理器和/或其它可编程数据处理装置，以产生机器，使得经由计算机处理器和/或其它可编程数据处理装置执行的指令创建用于实现框图和/或流程图块中所指定的功能/动作的方法。

相应地，还可以用硬件和/或软件(包括固件、驻留软件、微码等)来实施本申请。更进一步地，本申请可以采取计算机可使用或计算机可读存储介质上的计算机程序产品的形式，其具有在介质中实现的计算机可使用或计算机可读程序代码，以由指令执行***来使用或结合指令执行***而使用。在本申请上下文中，计算机可使用或计算机可读介质可以是任意介质，其可以包含、存储、通信、传输、或传送程序，以由指令执行***、装置或设备使用，或结合指令执行***、装置或设备使用。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种智能设备的控制方法，其特征在于，该方法包括：

网络侧设备通过智能设备采集用户的语音需求信息；

所述网络侧设备根据智能设备采集的用户的语音响应信息在确定播放的询问信息对应的技能域为用户需求的技能域后根据确定的技能域通过智能设备执行所述语音需求信息对应的操作；

所述网络侧设备通过第一训练模型确定备选技能域与语音需求信息的公有域的关联度，以及通过第二训练模型确定所述备选技能域与语音需求信息的私有域的关联度，根据所述公有域的关联度和所述私有域的关联度的分配权重确定所述备选技能域与所述语音需求信息的关联度，其中，所述备选技能域为所述网络侧设备根据所述语音需求信息确定的；

其中，所述第一训练模型的样本数据是所述网络侧设备根据从网络爬取的信息更新的；和/或，所述第二训练模型的样本数据是所述网络侧设备根据历史的语音需求信息及对应的技能域更新的。

2.如权利要求1所述的方法，其特征在于，所述网络侧设备通过智能设备采集用户的语音需求信息之后，通过智能设备向用户播放所述语音需求信息对应的技能域的询问信息之前，还包括：

所述网络侧设备根据所述语音需求信息确定备选技能域；

3.如权利要求2所述的方法，其特征在于，所述网络侧设备通过下来方式确定满足询问条件的备选技能域：

其中，N为大于1的正整数。

4.如权利要求3所述的方法，其特征在于，该方法还包括：

若所述前N个备选技能域与所述语音需求信息的关联度中有1个不小于第一阈值的关联度，则所述网络侧设备根据所述关联度对应的技能域通过智能设备执行所述语音需求信息对应的操作；或

5.如权利要求1～4任一所述的方法，其特征在于，所述网络侧设备通过智能设备向用户播放所述语音需求信息对应的技能域的询问信息之后，还包括：

6.一种控制智能设备的网络侧设备，其特征在于，包括：处理器以及收发机：

所述处理器用于执行权利要求1～5任一所述的方法。

7.一种控制智能设备的网络侧设备，其特征在于，该设备包括：至少一个处理单元以及至少一个存储单元，其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行权利要求1～5任一所述方法的步骤。

8.一种计算机可存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～5任一所述方法的步骤。