CN113591470A

CN113591470A - 一种语义理解方法及装置

Info

Publication number: CN113591470A
Application number: CN202110742264.4A
Authority: CN
Inventors: 戴磊; 张立泽
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-11-02

Abstract

本申请实施例提供一种语义理解方法及装置，方法包括：获取第一语义理解对象。第一语义理解对象至少包括第一领域参数、第一意图参数以及第一槽位参数。再次获取根第二语义理解对象。第二语义理解对象至少包括第二领域参数、第二意图参数以及第二槽位参数。如果第二领域参数为替换，且第二意图参数为槽位替换意图，则根据该槽位替换意图，将第一语义理解对象中的第一槽位参数替换为其他槽位参数。最后根据替换槽位参数的第一语义理解对象，确定用户意图。本申请提供的语义理解方法及装置，根据上下文细化理解用户的真实意图，从而使得意图理解更准确，最终使得终端设备能够准确执行对应操作，提升用户使用体验。

Description

一种语义理解方法及装置

技术领域

本申请涉及语音交互技术领域，尤其涉及一种语义理解方法及装置。

背景技术

随着智能语音交互技术的发展，语音交互功能逐渐成为智能终端产品的标准配置。用户可利用语音交互功能，实现语音控制智能终端产品，进行看视频、听音乐、查天气、电视控制等一系列操作。

语音控制智能终端产品的过程通常是，语音识别模块将用户输入的语音识别为文本。之后语义分析模块对该文本进行词法句法和语义的分析，从而理解用户的意图。最后控制端根据理解结果控制智能终端产品进行相应的操作。

然而，目前的智能终端产品，在理解用户意图时，只能做到表面意思的理解，不能对用户真正意图进行细化。因此，对于用户意图的理解往往有所偏差，最终造成用户对智能终端产品的使用体验较差。

发明内容

本申请提供了一种语义理解方法及装置，用于解决目前的智能终端产品，在理解用户意图时，通常是根据用户当前输入的语音进行理解。因此，对于用户意图的理解往往有所偏差，最终造成用户对智能终端产品的使用体验较差的问题。

第一方面，本申请实施例提供一种语义理解方法，该方法包括：

获取第一语义理解对象，其中，所述第一语义理解对象为对用户输入的第一语音信号解析得到的，所述第一语义理解对象至少包括第一领域参数、第一意图参数以及第一槽位参数；

获取第二语义理解对象，其中，所述第二语义理解对象为对用户输入的第二语音信号解析得到的，所述第一语音信号和所述第二语音信号在时序上为前后关系，所述第二语义理解对象至少包括第二领域参数、第二意图参数以及第二槽位参数；

在所述第二领域参数为替换，且所述第二意图参数为槽位替换意图时，根据所述第二意图参数，将所述第一语义理解对象中的所述第一槽位参数替换为其他槽位参数；

根据替换槽位参数后的所述第一语义理解对象，确定用户意图。

第二方面，本申请实施例提供一种语义理解装置，该装置包括：

第一语义理解对象获取单元，用于执行：获取第一语义理解对象，其中，所述第一语义理解对象为对用户输入的第一语音信号解析得到的，所述第一语义理解对象至少包括第一领域参数、第一意图参数以及第一槽位参数；

第二语义理解对象获取单元，用于执行：获取第二语义理解对象，其中，所述第二语义理解对象为对用户输入的第二语音信号解析得到的，所述第一语音信号和所述第二语音信号在时序上为前后关系，所述第二语义理解对象至少包括第二领域参数、第二意图参数以及第二槽位参数；

槽位参数替换单元，用于执行：在所述第二领域参数为替换，且所述第二意图参数为槽位替换意图时，根据所述第二意图参数，将所述第一语义理解对象中的所述第一槽位参数替换为其他槽位参数；

用户意图确定单元，用于执行：根据替换槽位参数后的所述第一语义理解对象，确定用户意图。

本申请提供的技术方案包括以下有益效果：获取根据用户输入的第一语音信号解析得到的第一语义理解对象。第一语义理解对象至少包括第一领域参数、第一意图参数以及第一槽位参数。再次获取根据用户输入的第二语音信号解析得到第二语义理解对象。第二语义理解对象至少包括第二领域参数、第二意图参数以及第二槽位参数。第一语音信号和第二语音信号在时序上为前后关系。如果第二领域参数为替换，且第二意图参数为槽位替换意图，则根据该槽位替换意图，将第一语义理解对象中的第一槽位参数替换为其他槽位参数。最后根据替换槽位参数的第一语义理解对象，确定用户意图。本申请提供的语义理解方法及装置，根据上下文细化理解用户的真实意图，从而使得意图理解更准确，最终使得终端设备能够准确执行对应操作，提升用户使用体验。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示例性示出了根据一些实施例的语音交互原理的示意图；

图2示例性示出了根据一些实施例的语义理解方法流程示意图；

图3示例性示出了根据一些实施例的语义理解方法应用场景示意图；

图4示例性示出了根据一些实施例的语义理解方法又一种应用场景示意图；

图5示例性示出了根据一些实施例的语义理解方法又一种应用场景示意图；

图6示例性示出了根据一些实施例的语义理解装置框架示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语″第一″、″第二″、″第三″等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语″包括″和″具有″以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语″模块″是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

为清楚说明本申请的实施例，下面结合图1对本申请实施例提供的一种语音识别网络架构进行描述。

参见图1，图1为本申请实施例提供的一种语音识别网络架构示意图。图1中，智能设备用于接收输入的信息以及输出对该信息的处理结果。语音识别服务设备为部署有语音识别服务的电子设备，语义服务设备为部署有语义服务的电子设备，业务服务设备为部署有业务服务的电子设备。这里的电子设备可包括服务器、计算机等，这里的语音识别服务、语义服务(也可称为语义引擎)和业务服务为可部署在电子设备上的web服务，其中，语音识别服务用于将音频识别为文本，语义服务用于对文本进行语义解析，业务服务用于提供具体的服务如墨迹天气的天气查询服务、QQ音乐的音乐查询服务等。在一个实施例中，图1所示架构中可存在部署有不同业务服务的多个实体服务设备，也可以一个或多个实体服务设备中集合一项或多项功能服务。

一些实施例中，下面对基于图1所示架构处理输入智能设备的信息的过程进行举例描述，以输入智能设备的信息为通过语音输入的查询语句为例，上述过程可包括如下三个过程：

[语音识别]

智能设备可在接收到通过语音输入的查询语句后，将该查询语句的音频上传至语音识别服务设备，以由语音识别服务设备通过语音识别服务将该音频识别为文本后返回至智能设备。在一个实施例中，将查询语句的音频上传至语音识别服务设备前，智能设备可对查询语句的音频进行去噪处理，这里的去噪处理可包括去除回声和环境噪声等步骤。

[语义理解]

智能设备将语音识别服务识别出的查询语句的文本上传至语义服务设备，以由语义服务设备通过语义服务对该文本进行语义解析，得到文本的业务领域、意图等。

[语义响应]

语义服务设备根据对查询语句的文本的语义解析结果，向相应的业务服务设备下发查询指令以获取业务服务给出的查询结果。智能设备可从语义服务设备获取该查询结果并输出。作为一个实施例，语义服务设备还可将对查询语句的语义解析结果发送至智能设备，以由智能设备输出该语义解析结果中的反馈语句。

需要说明的是，图1所示架构只是一种示例，并非对本申请保护范围的限定。本申请实施例中，也可采用其他架构来实现类似功能，例如：三个过程全部或部分可以由智能终端来完成，在此不做赘述。

在一些实施例中，图1所示的智能设备可为显示设备，如智能电视，语音识别服务设备的功能可由显示设备上设置的声音采集器和控制器配合实现，语义服务设备和业务服务设备的功能可由显示设备的控制器实现，或者由显示设备的服务器来实现。

示例性的，用户通过语音控制音频终端设备时，首先输入语音信号″我想听单田芳的隋唐演义″，音频终端设备接收到该语音信号后，解析出用户意图，开始执行播放″单田芳的隋唐演义″的操作。进一步，用户在上述操作的基础上，继续输入语音信号″换个人的″。目前的终端设备通常是将该语音信号解析为换一个。即仅理解到需要替换，但是没有细化到需要换什么。最终终端设备执行的操作通常为，播放单田芳的隋唐演义的另一章节，或者播放其他节目。而用户真实的意图是换一个人讲的隋唐演义。因而，目前的智能终端产品不能细化理解用户的意图，导致理解有偏差。

为了解决上述问题，本申请提供一种语义理解方法，该方法能够细化理解用户的真实意图，从而使得理解更准确，最终使得终端设备能够准确执行对应操，提升用户使用体验。

如图2的语义理解方法的流程示意图，该方法包括以下步骤：

步骤S101，获取第一语义理解对象，第一语义理解对象为对用户输入的第一语音信号解析得到的。第一语义理解对象至少包括第一领域参数、第一意图参数以及第一槽位参数。

第一语义理解对象为对用户输入的第一语音信号解析得到的。具体的，用户在终端设备接收信号的距离范围内输入语音信号。终端设备可以是通过麦克风采集用户输入的语音信号，之后从语音信号中识别出语音文本。本申请实施例可由语音识别服务器识别出语音文本。

由语义服务器对语音文本进行语义分析处理。具体的，首先对语音文本进行分词处理。可以以词库为依据，使用正向最大匹配法，进行分词。例如″单田芳的隋唐演义″，分词处理后得到分词″单田芳，的，隋唐演义″。

进一步对分词进行词性标注，具体可以采用例如LAC(Lexical Analysis ofChinese)词法分析工具，对媒资标题进行中文分词和词性标注。LAC词法分析工具是一种联合的词法分析模型，能够整体性地完成中文分词和词性标注，还可添加自定义词典，对专有名称进行识别。LAC词法分析任务的输入是一个字符串，输出的则是媒资标题中的词边界和词性。需要说明的是，本申请所使用的分词和词性标注工具不限于LAC词法分析工具，还可以使用其他的词法分析工具。词性标注后的结果为{单田芳-单田芳[actor]}，{的-的[funcwordstructaux]}，隋唐演义-隋唐演义[title]}。

之后利用依存句法，根据词性标注的结果，提取语音文本中用户意图。依存句法分析采用全局搜索，生成多棵依存树，每个句子对应一棵或多棵依存树，***输出概率最高的那棵树。最后将概率最高的依存树对应的意图，作为该语音文本中的用户意图。利用依存句法输出概率最高的依存树的具体过程属于现有技术，本申请不再赘述。

自然语言语义的表示主要有三种：分布语义、框架语义以及模型论语义。本申请为智能对话相关，通常采用模型论语义。通常用领域参数、意图参数以及槽位参数来表示语义结构。即语义文本经过语义分析处理，至少包括领域参数、意图参数以及槽位参数三个参数。因此上述从第一语音信号得到的第一语义理解对象包括第一领域参数、第一意图参数以及第一槽位参数。

示例性的，语音文本″单田芳的隋唐演义″经过语义分析处理，得到三个参数：第一领域参数为音频业务，第一意图参数为播放音频，第一槽位参数为单田芳、的、隋唐演义。

步骤S102，获取第二语义理解对象，第二语义理解对象为对用户输入的第二语音信号解析得到的。第二语义理解对象至少包括第二领域参数、第二意图参数以及第二槽位参数。

需要说明的是，第一语音信号和第二语音信号的时序上为前后关系，即用户输入第一语音信号后，再输入第二语音信号。还可以设置预设间隔时间，如果第二语音信号与第一语音信号间隔时间超过预设间隔时间，则将第一语音信号和第二语音信号分开理解用户意图。

示例性的，语音文本″换个人的″经过语义分析处理，得到三个参数。由于语音文本″换个人的″槽位参数中有换个，因此该语音文本的第二领域参数为替换，第二意图参数为槽位替换意图，第二槽位参数为换个、人、的。

步骤S103，如果第二领域参数为替换，且第二意图参数为槽位替换意图时，根据该槽位替换意图将第一语义理解对象中第一槽位参数替换为其他槽位参数。

步骤S104，根据替换槽位参数后的第一语义理解对象，确定给用户意图。本申请为基于上下文的语义理解方法，即上述实施例中的第二语音信号需要基于第一语音信号进行理解。

在一些实施例中，如果第一语义理解对象包括至少两个第一槽位参数，则需要根据第二槽位参数，确定第一语义理解对象中需要替换的第一槽位参数。确定需要替换的第一槽位参数之后，将第一语义理解对象中需要替换的第一槽位参数替换为其它槽位参数。

在一些实施例中，还根据第二槽位参数确定第一语义理解对象中不需要替换的第一槽位参数，最后将第一语义理解对象中不需要替换的第一槽位参数保持为原有的槽位参数。

在一些实施例中，在根据替换槽位参数后的第一语义理解对象确定最终的用户意图后，根据该用户意图控制终端执行相应操作。此时，执行的操作与第一语义理解对象中的第一领域参数对应。例如，第一领域参数为音频业务，则执行的操作与音频业务对应。

如图3所示，在图3所示实施例，第一语义理解对象包括三个参数：第一领域参数为音频业务，第一意图参数为播放音频，第一槽位参数为单田芳、的、隋唐演义。则得到的用户意图为″播放单田芳的隋唐演义″。第二语义理解对象包括三个参数：第二领域参数为替换，第二意图参数为槽位替换意图，第二槽位参数为换个、人、的。

首先第二领域参数为替换，第二意图参数为槽位替换意图，则需要将第一语义理解对象中的第一槽位参数进行替换。而此时第二槽位参数包括″人″关键词，表示需要替换第一槽位参数中与人相关的槽位参数。在第一语义理解对象中包括三个第一槽位参数，其中，″单田芳″为″作者″与人相关。而″隋唐演义″为标题，不与人相关。则表示需要替换第一语义理解对象中的第一槽位参数″单田芳″。

在本实施例中，第二语义理解对象中没有指定替换后的第一槽位参数，则将第一语义理解对象中的第一槽位参数″单田芳″替换为任意其他的槽位参数。例如，替换为″袁阔成″。最后得到替换第一槽位参数后的第一语义理解对象：第一领域参数仍然为音频业务，第一意图参数仍然为播放音频，第一槽位参数更新为其他作者、的、隋唐演义。最后根据替换槽位参数的第一语义理解对象生成用户意图：播放其他作者的隋唐演义，这里的其他作者排除了单田芳。

图3所示的实施例中，″单田芳″为需要替换的第一槽位参数，″隋唐演义″为不需要替换的第一槽位参数。

如图4所示，在图4所示实施例，如果第二语义理解对象包括的第二槽位参数包括″标题″关键词，则表示需要替换第一槽位参数中与标题相关的槽位参数。即将第一语义理解对象中的第一槽位参数″隋唐演义″替换为替他标题。

例如，语音文本为″换个节目″，则第二槽位参数包括″节目″关键词，则将第一语义理解对象中的第一槽位参数″隋唐演义″替换为其他的槽位参数。例如，替换为″水浒传″。最后得到的替换第一槽位参数后的第一语义理解对象：第一领域参数仍然为音频业务，第一意图参数仍然为播放音频，第一槽位参数更新为单田芳、的、其他节目。最后根据替换槽位参数的第一语义理解对象生成用户意图：播放单田芳的其他节目。这里的其他节目排出了隋唐演义。

图4所示的实施例中，″隋唐演义″为需要替换的第一槽位参数，″单田芳″为不需要替换的第一槽位参数。

如图5所示，在图5所示的实施例中，如果第二语义理解对象包括的第二槽位参数既包括″作者″关键词，又包括″标题″关键词。例如，语音文本为″换个人换个节目″，表示既需要替换第一槽位参数中与人相关的槽位参数，有需要替换第一槽位参数中与节目相关的槽位参数。最后得到替换第一槽位参数后的第一语义理解对象：第一领域参数仍然为音频业务，第一意图参数仍然为播放音频，第一槽位参数更新为其他作者、的、其他节目。最后根据替换槽位参数的第一语义理解对象生成用户意图：播放其他作者的其他节目，这里的其他作者排除了单田芳，其他节目则排除了隋唐演义。

在一些实施例中，也可以对作者或者节目进行指定。例如，语音文本为″换袁阔成″，则需要将第一语义理解对象中的第一槽位参数″单田芳″直接替换为″袁阔成″。得到替换后的第一语义理解对象：第一领域参数仍然为音频业务，第一意图参数仍然为播放音频，第一槽位参数更新为袁阔成、的、隋唐演义。最后根据替换槽位参数的第一语义理解对象生成用户意图：播放袁阔成的隋唐演义。

语音文本如果为″换水浒传″，则需要将第一语义理解对象中的第一槽位参数″隋唐演义″直接替换成″水浒传″。得到替换后的第一语义理解对象：第一领域参数仍然为音频业务，第一意图参数仍然为播放音频，第一槽位参数更新为单田芳、的、水浒传。最后根据替换槽位参数的第一语义理解对象生成用户意图：播放单田芳的水浒传。

上述实施例具体的软件实现过程为：

对第一语音文本″单田芳的隋唐演义″进行分词标注后，得到分词标注结果{单田芳-单田芳[actor]}和{隋唐演义-隋唐演义[title]}，提取有效的内容{单田芳-单田芳[actor]}和{隋唐演义-隋唐演义[title]}。语义处理后，将这些内容保存到Redis(RemoteDictionary Server远程字段服务)。Redis中的内容如表1所示：

表1语义处理结果

之后对第二语音文本″换个人″进行分词标注和语义处理后，得到第二语音文本的领域为change(替换)。之后进行关键词提取，提取出第一为语音文本中的″人″关键词。而关键词″人″对应于第一语音文本中actor(作者)，则定位意图为changeactor(替换作者)。此时如果第二语音文本中包括″节目″关键词，关键词″节目″对应于第一语音文本中的title(标题)，则定位意图为changetitle(替换标题)。

进一步，定位意图为changeactor，则将″单田芳″进行″非″查询，即查询非单田芳的内容，同时需要满足节目是隋唐演义。

如果定位意图为changetitile，则将″隋唐演义″进行″非″查询，即查询非隋唐演义的内容，同时需要满足作者是单田芳。如果定位意图同时为changeactor和changetitle，则将″单田芳″和″隋唐演义″同时进行″非″查询，也就是查询非隋唐演义和非单田芳交集的内容。

本申请实施例提供一种语义理解装置，用于执行图1对应的实施例，如图6所示，本申请提供的语义理解装置包括：

第一语义理解对象获取单元201，用于执行：获取第一语义理解对象，其中，所述第一语义理解对象为对用户输入的第一语音信号解析得到的，所述第一语义理解对象至少包括第一领域参数、第一意图参数以及第一槽位参数；

第二语义理解对象获取单元202，用于执行：获取第二语义理解对象，其中，所述第二语义理解对象为对用户输入的第二语音信号解析得到的，所述第一语音信号和所述第二语音信号在时序上为前后关系，所述第二语义理解对象至少包括第二领域参数、第二意图参数以及第二槽位参数；

槽位参数替换单元203，用于执行：在所述第二领域参数为替换，且所述第二意图参数为槽位替换意图时，根据所述第二意图参数，将所述第一语义理解对象中的所述第一槽位参数替换为其他槽位参数；

用户意图确定单元204，用于执行：根据替换槽位参数后的所述第一语义理解对象，确定用户意图。

在一些实施例中，所述第一语义理解对象包括至少两个所述第一槽位参数，所述槽位参数替换单元203，具体用于执行：

将与所述第二槽位参数对应的所述第一槽位参数确定为需要替换的槽位参数；

将所述第一语义理解对象中的需要替换的所述第一槽位参数替换为其它槽位参数。

在一些实施例中，所述槽位参数替换单元203，还具体用于执行：

将不与所述第二槽位参数对应的所述第一槽位参数确定为不需要替换的槽位参数；将所述第一语义理解对象中的不需要替换的所述第一槽位参数保持为原有的槽位。

在一些实施例中，在所述第二槽位参数为指代名词时，将需要替换的所述第一槽位参数替换为任意其他槽位参数；

在所述第二槽位参数为专有名词时，将需要替换的所述第一槽位参数替换为所述专有名词。

以上已经描述的包括本发明的实现的示例。为了描述要求保护主题的目的，当然不可能描述组件或方法的每一个可设想组合，但是要意识到，本创新的许多另外组合和置换是可能的。相应地，要求保护主题打算包含全部这类改变、修改和变化，其落入所附权利要求的精神和范围之内。此外，包括″摘要″中所述的事物的本申请的所示实现的以上描述并不是要详细列举或者将所公开实现局限于所公开的精确形式。虽然本申请中为了说明目的而描述具体实现和示例，但是如相关领域的技术人员能够认识的，被认为在这类实现和示例的范围之内的各种修改是可能的。

此外，词语″示例″或″示范″在本申请中用来表示″用作示例、实例或说明″。本申请中描述为″示范″的任何方面或设计不一定被理解为相对其它方面或设计是优选或有利的。相反，词语″示例″或″示范″的使用打算以具体方式呈现概念。

Claims

1.一种语义理解方法，其特征在于，包括：

2.根据权利要求1所述的语义理解方法，其特征在于，所述第一语义理解对象包括至少两个所述第一槽位参数，将所述第一语义理解对象中的所述第一槽位参数替换为其它槽位参数，具体为：

3.根据权利要求2所述的语义理解方法，其特征在于，在所述第二槽位参数为指代名词时，将需要替换的所述第一槽位参数替换为任意其他槽位参数；

4.根据权利要求2所述的语义理解方法，其特征在于，所述方法还包括：

将不与所述第二槽位参数对应的所述第一槽位参数确定为不需要替换的槽位参数；

将所述第一语义理解对象中的不需要替换的所述第一槽位参数保持为原有的槽位参数。

5.根据权利要求2所述的语义理解方法，其特征在于，在所述第二语义理解对象中包括至少两个所述第二槽位参数，且两个所述第二槽位参数分别与两个所述第一槽位参数对应时，将所述第一语义理解对象中的所述第一槽位参数替换为其他槽位参数，具体为：

将与所述第二槽位参数对应的至少两个所述第一槽位参数均替换为其它槽位参数。

6.根据权利要求1所述的语义理解方法，其特征在于，所述方法还包括：

根据所述用户意图控制终端执行操作，其中，执行的操作对应于所述第一领域参数。

7.一种语义理解装置，其特征在于，包括：

8.根据权利要求7所述的语义理解装置，其特征在于，所述第一语义理解对象包括至少两个所述第一槽位参数，所述槽位参数替换单元，具体用于执行：

9.根据权利要求8所述的语义理解装置，其特征在于，在所述第二槽位参数为指代名词时，将需要替换的所述第一槽位参数替换为任意其他槽位参数；

10.根据权利要求8所述的语义理解装置，其特征在于，所述槽位参数替换单元，还具体用于执行：

将所述第一语义理解对象中的不需要替换的所述第一槽位参数保持为原有的槽位。