CN113468368A

CN113468368A - 一种语音记事方法、装置、设备及介质

Info

Publication number: CN113468368A
Application number: CN202010350855.2A
Authority: CN
Inventors: 蒋鹏民; 高雪松; 孟卫明; 王月岭; 唐至威; 王彦芳; 刘波; 刘帅帅; 田羽慧; 陈维强
Original assignee: Hisense Co Ltd
Current assignee: Hisense Group Co Ltd; Hisense Co Ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2021-10-01

Abstract

本申请公开了一种语音记事方法、装置、设备及介质，用以解决现有使用语音记事进行存储和查询的操作不够灵活，用户体验差的问题。由于本申请在确定存在与待识别语音信息的文本信息匹配的意图模板，且该匹配的意图模板为使用语音记事的目标操作时，根据该匹配的意图模板中每个关键词所在字符区间，就可以确定待识别语音信息的文本信息中包含的每个关键词，对每个关键词执行目标操作，从而使在使用语音记事进行目标操作更加灵活方便，并简化了用于确定待识别语音信息的文本信息中包含的每个关键词的过程，提高了语音记事过程的效率。

Description

一种语音记事方法、装置、设备及介质

技术领域

本申请涉及自然语言理解技术领域，尤其涉及一种语音记事方法、装置、设备及介质。

背景技术

随着人工智能技术的不断突破和各种智能设备的日益普及，人机交互在人们日常工作和生活中出现的频率越来越高。在日常生活中，人们也会采用智能设备上的语音记事功能，记录一些生活中的重要事件，以便后续进行重要事件的查询。

现有技术中，语音记事的实现方法是，智能设备接收到存储的触发操作后，比如接收到包含有“存储”、“开始存储”等关键词的语音信息，或，用户在智能设备上选择了语音记事的存储操作对应的图标，开始采集存储语音信息，并通过预先训练完成的关键词抽取模型，提取该存储语音信息的文本信息中包含的每个关键词，将每个关键词作为一个关键词集合储存在数据库中。当后续智能设备接收到查询的触发操作后，比如接收到包含有“查询”、“开始查询”等关键词的语音信息，或，用户在智能设备上选择了语音记事的查询操作对应的图标，开始采集查询语音信息，通过预先训练完成的关键词抽取模型，提取该查询语音信息的文本信息中的每个关键词，在数据库中查找包含有该查询语音信息的文本信息中的每个关键词的关键词集合，根据该关键词集合中的关键词生成回复信息并输出。

由于该方法中，智能设备只有接收到用户明确的要使用语音记事的某一目标操作的触发操作后，才能开始执行语音记事的目标操作，使用语音记事的目标操作的过程不够灵活，用户体验差。

发明内容

本申请提供了一种语音记事方法、装置、设备及介质，用以解决现有使用语音记事进行存储和查询的操作不够灵活，用户体验差的问题。

第一方面，本申请提供了一种语音记事方法，所述方法包括：

获取待识别语音信息的文本信息；

将所述文本信息与预先保存的任一意图模板进行匹配；

若存在匹配的意图模板，且所述匹配的意图模板所对应的意图为使用语音记事的目标操作，则根据所述匹配的意图模板中每个关键词所在字符区间，获取所述文本信息中包含的每个关键词，并对所述每个关键词执行所述目标操作。

进一步地，所述目标操作为存储操作或查询操作。

进一步地，对所述每个关键词执行所述目标操作之前，所述方法还包括：

通过预先训练完成的声纹模型，获取接收到的唤醒语音信息的声纹特征；

将所述声纹特征与预先保存的任一注册声纹特征进行匹配，若存在匹配的注册声纹特征，则执行后续的对所述每个关键词执行所述目标操作的步骤。

进一步地，若所述目标操作为存储操作，所述对所述每个关键词执行所述目标操作包括：

输出设置查询权限的提示信息，并将所述待识别语音信息的文本信息中包含的每个关键词作为一条存储信息；

接收设置的能够进行所述存储信息查询的每个目标身份标识，并对应保存所述每个目标身份标识以及所述存储信息。

进一步地，若所述目标操作为查询操作，所述对所述每个关键词执行所述目标操作包括：

根据每个所述关键词进行查询，若查询到包含所述每个关键词的目标存储信息，则获取所述目标存储信息对应的每个目标身份标识，若所述匹配的注册声纹特征对应的身份标识包含在目标身份标识中，则根据所述目标存储信息中保存的每个目标关键词，生成回复信息并输出。

进一步地，所述生成回复信息并输出包括：

获取所述匹配的注册声纹特征对应的身份标识的用户当前所在的目标位置信息；

根据预先保存的每个播放设备的位置信息，将位置信息与所述目标位置信息最近的播放设备作为目标播放设备，将生成的回复信息通过所述目标播放设备输出。

进一步地，所述方法还包括：

若所述匹配的注册声纹特征对应的身份标识不包含在目标身份标识中，则过滤所述待识别语音信息的文本信息，并将预设的拒绝响应回复信息输出。

第二方面，本申请还提供了一种语音记事装置，所述装置包括：

获取单元，用于获取待识别语音信息的文本信息；

匹配单元，用于将所述文本信息与预先保存的任一意图模板进行匹配；

处理单元，用于若存在匹配的意图模板，且所述匹配的意图模板所对应的意图为使用语音记事的目标操作，则根据所述匹配的意图模板中每个关键词所在字符区间，获取所述文本信息中包含的每个关键词，并对所述每个关键词执行所述目标操作。

第三方面，本申请还提供了一种电子设备，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任一所述语音记事方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一所述语音记事方法的步骤。

由于本申请中在确定存在与待识别语音信息的文本信息匹配的意图模板，且该匹配的意图模板为使用语音记事的目标操作时，根据该匹配的意图模板中每个关键词所在字符区间，就可以确定待识别语音信息的文本信息中包含的每个关键词，对每个关键词执行目标操作，从而使在使用语音记事进行目标操作更加灵活方便，并简化了用于确定待识别语音信息的文本信息中包含的每个关键词的过程，提高了语音记事过程的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一些实施例提供的一种语音记事过程示意图；

图2为本申请一些实施例提供的具体的声纹注册过程；

图3为本申请一些实施例提供的一种电子设备的应用场景示意图；

图4为本申请一些实施例提供的具体的使用语音记事的存储操作的流程图；

图5为本申请一些实施例提供的具体的使用语音记事的查询操作的流程图；

图6为本申请一些实施例提供的一种语音记事装置的结构示意图；

图7为本申请一些实施例提供的一种电子设备结构示意图。

具体实施方式

为了提高使用语音记事进行目标操作的灵活性，提高用户体验，本申请提供了一种语音记事方法、装置、设备及介质。

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在实际应用过程中，当用户希望通过语音信息使用语音记事的时候，比如，存储物品的位置，查询应用的密码等，可以通过智能音箱、智能电视等智能设备在该用户输入使用语音记事本的触发操作后，开始采集待识别语音信息。该采集待识别语音信息的智能设备，可以直接在本地，通过关键词抽取模型抽取待识别语音信息的文本信息中包含的每个关键词，也可以将待识别语音信息，或待识别的语音信息的文本信息发送至电子设备，电子设备通过关键词抽取模型抽取待识别语音信息的文本信息中包含的每个关键词等。当获取到每个关键词后，进行后续的一些处理，从而实现通过语音信息进行信息的存储或者查询。

图1为本申请一些实施例提供的一种语音记事过程示意图，该过程包括：

S101：获取待识别语音信息的文本信息。

本申请提供的语音记事方法应用于电子设备，该电子设备可以是智能音箱、智能电视等智能设备，也可以是智能管家服务器、云端服务器等。

在本申请中，电子设备获取的待识别语音信息的文本信息，可以是根据接收到的待识别语音信息，生成的文本信息，也可以是接收其他智能设备发送的待识别语音信息的文本信息。

其中，电子设备接收到的待识别语音信息，可以是接收其他智能设备发送的语音信息，也可以是自身采集的语音信息，是在此不做具体限定。

S102：将所述文本信息与预先保存的任一意图模板进行匹配。

由于电子设备可能执行的功能有很多，比如，控制智能家居设备执行相应的操作、播放音乐等，当获取到待识别语音信息的文本信息后，电子设备要对该待识别语音的文本信息的进行意图识别。根据识别待识别语音信息的意图，确定后续执行的操作。因此，为了准确地确定该待识别语音信息的意图，在本申请中，预先保存有意图模板。当基于上述实施例获取到待识别语音信息的文本信息后，将该文本信息与预先保存的任一意图模板进行匹配，根据匹配的结果，确定后续的操作。

S103：若存在匹配的意图模板，且所述匹配的意图模板所对应的意图为使用语音记事的目标操作，则根据所述匹配的意图模板中每个关键词所在字符区间，获取所述文本信息中包含的每个关键词，并对所述每个关键词执行所述目标操作。

具体实施中，将待识别语音信息的文本信息与预先保存的任一意图模板进行匹配，若该文本信息与预先保存的任一意图模板匹配，则根据预先保存的意图模板与意图的对应关系，确定该匹配的意图模板对应的目标意图。当存在匹配的意图模板，且该匹配的意图模板对应的意图为使用语音记事的目标操作时，说明当前用户希望使用语音记事的功能，则根据保存的该匹配的意图模板中每个关键词所在字符区间，在对应的字符区间获取该待识别语音信息的文本信息中包含的每个关键词。

例如，文本信息为“把84消毒液放在浴室橱柜”，该文本信息与预先保存的“把*放在*”这个意图模板匹配，根据预先保存的意图模板与意图的对应关系，确定该匹配的意图模板“把*放在*”对应的意图为使用语音记事的存储操作，则根据该匹配的意图模板“把*放在*”中每个关键词所在字符区间，即“把”和“放在”之间的字符区间，以及“放在”之后的字符区间，获取文本信息中包含的每个关键词分别为“84消毒液”和“浴室橱柜”。

其中，由于不同用户的说话习惯的不同，导致根据接收到的待识别语音信息，获取的该待识别语音信息的文本信息中可能存在无效或者没有实际意义的字符或者标点，比如，文本信息为“把，额，那个，84消毒液放在，浴室，橱柜”、“那啥，那个，酒精放哪了”等。因此，为了方便后续确定用户是否使用语音记事功能，可以先对该文本信息进行预处理，按照预设的处理规则，删除该文本信息中包含的一些无效或者没有实际意义的字符或者标点。比如，文本信息为“把，额，那个，84消毒液放在，浴室，橱柜”，按照预设的处理规则对该文本信息进行处理，处理后的文本信息为“把84消毒液放在浴室橱柜”。

基于上述实施例确定了目标操作，以及待识别语音信息的文本信息中包含的每个关键词之后，对每个关键词执行该目标操作。

由于本申请在确定存在与待识别语音信息的文本信息匹配的意图模板，且该匹配的意图模板为使用语音记事的目标操作时，根据该匹配的意图模板中每个关键词所在字符区间，就可以确定待识别语音信息的文本信息中包含的每个关键词，对每个关键词执行目标操作，从而使在使用语音记事进行目标操作更加灵活方便，并简化了用于确定待识别语音信息的文本信息中包含的每个关键词的过程，提高了语音记事过程的效率。

为了提高使用语音记事进行目标操作的灵活性，在上述实施例的基础上，在本申请中，所述目标操作为存储操作或查询操作。

具体的，若目标操作为存储操作，则将该待识别语音信息的文本信息中包含的每个关键词作为一条存储信息，并保存该存储信息。若目标操作为查询操作，则查找包含该待识别语音信息的文本信息中包含的每个关键词的存储信息，将包含有该待识别语音信息的文本信息中包含的每个关键词的存储信息，作为目标存储信息，然后根据该目标存储信息中保存的每个目标关键词，以及预设的回复模板，生成回复信息并输出。

例如，目标操作为存储操作，文本信息“把酒精放在客厅电视柜”，获取的文本信息中包含的每个关键词分别为“酒精”和“客厅电视柜”，则将关键词“酒精”和“客厅电视柜”保存为一条存储信息。

目标操作为查询操作，文本信息为“84消毒液放在哪里了”，获取的文本信息中包含的关键词为“84消毒液”，则确定“84消毒液浴室橱柜”这条存储信息中包含该关键词“84消毒液”，将该“84消毒液浴室橱柜”存储信息作为目标存储信息，根据该目标存储信息中包含的目标关键词“84消毒液”和“浴室橱柜”，以及预设的回复信息模板，生成回复信息“84消毒液放在浴室橱柜”并输出。

具体的根据关键词以及预设的回复信息模板，生成回复信息的过程属于现有技术，在此不再赘述。

为了保护用户隐私，在上述各实施例的基础上，在本申请中，对所述每个关键词执行所述目标操作之前，所述方法还包括：

在实际应用中，用户可能会通过电子设备的存储操作记录一些不经常使用的贵重物品的存放位置，或者，各种账户密码等隐私信息，用户一般不希望除家庭成员以外的人查询到该类隐私信息的存放位置，如果任何人通过语音信息均可以查询到该贵重物品或密码的存储信息的话，则无法保障用户的隐私。因此，为了保护用户隐私，在本申请中，预先训练有声纹模型，来识别当前使用电子设备的用户的身份。

需要说明的是，该声纹模型的训练过程属于现有技术，在此不再赘述。

具体的，在输入待识别语音信息之前，用户可以先通过唤醒语音信息，比如，“你好，哈利”，将电子设备唤醒，然后再控制电子设备执行目标操作。当接收到唤醒语音信息后，电子设备通过预先训练完成的声纹模型，获取接收到的唤醒语音信息的声纹特征。将该声纹特征与预先保存的任一注册声纹特征进行匹配，若存在匹配的声纹特征，说明该输入唤醒语音信息的用户对该电子设备具有操作权限，则可以对在该唤醒语音信息之后获取到的待识别语音信息的文本信息中包含的每个关键词进行目标操作。

其中，注册声纹特征是电子设备通过预先训练完成的声纹模型，获取的用户输入的唤醒语音信息的声纹特征。下面通过具体的实施方式说明声纹注册的过程，图2为本申请一些实施例提供的具体的声纹注册过程，该过程包括：

S201：电子设备接收到用户输入的声纹注册的触发操作。

其中，该触发操作可以为用户在电子设备上点击声纹注册对应的按钮，或者，用户唤醒电子设备后输入类似于“我要注册声纹”的内容的语音信息或文本信息。

S202：电子设备确定用户进行声纹注册时，输出提示用户输入唤醒语音信息的提示信息，并判断设定时间段内是否输入唤醒语音信息，若是，则执行S203，否则，执行S204。

S203：电子设备通过预先训练完成的声纹模型，获取该唤醒语音信息的声纹特征，并将该声纹特征作为注册声纹特征进行保存，电子设备输出注册成功的提示信息。

比如，将提示信息发送到用户的智能终端上，在智能终端的显示界面显示文本格式的“声纹注册成功”的提示信息，和/或，播报音频格式的“声纹注册成功”的提示信息。

S204：确定该用户的声纹特征注册失败，电子设备可以输出注册失败是否重新注册的提示信息，判断是否接收到重新注册的确认信息，若是，执行S202，否则，执行S201。

比如，将提示信息发送到用户的智能终端上，在智能终端的显示界面显示文本格式的“声纹注册失败，是否重新注册”的提示信息，和/或，播报音频格式的“声纹注册失败，是否重新注册”的提示信息。

在另一种可能的实施方式中，一些用户会将如84消毒液、杀虫剂等危险物品存放位置也记录在电子设备中，用户一般不希望家庭中除成人以外的儿童知道这些危险品的存放位置，如果家庭中的儿童也可以通过该电子设备查询到这些危险物品的存放位置的话，会使家庭中的儿童因为接触危险物品而发生危险的可能性增加，无法保障儿童的生命健康安全。

因此，为了避免儿童查询到危险物品的存放位置后发生危险的情况，在本申请中，用户在使用语音记事的存储操作时，可以设置查询权限，从而避免家庭中的儿童查询到一些危险物品的存放位置。具体的，若所述目标操作为存储操作，所述对所述每个关键词执行所述目标操作包括：

在本申请中，输出设置查询权限的提示信息可以语音播报音频格式的提示信息，比如，语音播报补充通行方式的关键词的提示信息“请设置查询权限”，也可以在显示界面上显示文本形式对应的提示信息，比如，在显示界面上显示设置查询权限的提示信息“请设置查询权限：爸爸、妈妈、奶奶、爷爷、儿童”。两种输出提示信息的方式也可以同时结合，即同时播报音频格式的提示信息以及在显示界面上显示文本格式的提示信息。

具体选择哪种方式输出提示信息，可以根据用户的喜好，预先进行设置，或者可以根据电子设备的能力进行选择，例如，一些电子设备并没有可以显示提示信息的显示界面，则对于这些电子设备，在输出提示信息时，可以播报音频格式的提示信息。

在某些可能的实施例中，在输出设置查询权限的提示信息的同时，电子设备还可以将基于上述实施例获取的、待识别语音信息的文本信息中包含的每个关键词作为一条存储信息。当输出设置查询权限的提示信息之后，电子设备可以接收到用户设置的能够对该存储信息进行查询的每个目标身份标识，并对应保存每个目标身份标识以及该存储信息。

为了方便进行目标身份标识的确定，在进行声纹注册时，当注册成功后，可以输出提示输入身份标识的提示信息，保存该注册成功的声纹特征及接收到的身份标识的对应关系。比如，用户注册声纹成功后，输出提示输入身份标识的提示信息，在显示界面上显示文本格式的“请输入身份标签”的提示信息，和/或，播报音频格式的“请输入身份标签”的提示信息，用户可以通过语音的方式或在显示界面上输入文本的方式，输入身份标识“妈妈”，电子设备对应保存该注册成功的声纹特征与该身份标识“妈妈”的对应关系。

下面以具体的实施方式说明目标操作为存储操作时，进行存储操作的过程。

首先，接收到用户说的“你好，哈利”的唤醒语音信息，通过预先训练完成的声纹模型，获取该用户的声纹特征，并将该用户的声纹特征与预先保存的任一注册声纹特征进行匹配，确定存在匹配的注册声纹特征。

接收用户输入的“把84消毒液放在厨房柜”的待识别语音信息，将“把84消毒液放在厨房柜”的待识别语音信息进行语音识别，获取该待识别语音信息的文本信息，并将该文本信息与预先保存的意图模板进行匹配，确定匹配的意图模板为“把*放在*”，目标操作为存储操作，则根据该匹配的模板中每个关键词所在字符区间，获取该文本信息中包含的每个关键词“84消毒液”和“厨房柜”；输出设置查询权限的提示信息，并将关键词“84消毒液”和“厨房柜”作为一条存储信息；接收到设置的能够均进行存储信息查询的每个目标身份标识为“爸爸”、“奶奶”、“妈妈”，对应保存每个目标身份标识“爸爸”、“奶奶”、“妈妈”以及上述的存储信息。

当对应保存好每个目标身份标识以及存储信息后，后续若出现任一用户希望查询该存储信息时，该查询的用户的身份标识必须是该目标身份标识中的，才可以对该存储信息进行查询。具体的，若所述目标操作为查询操作，所述对所述每个关键词执行所述目标操作包括：

在本申请中，当目标操作为查询操作时，对上述实施例获取的待识别语音信息的文本信息中包含的每个关键词进行查询。当查询到包含该待识别语音信息的文本信息中包含的每个关键词的目标存储信息时，说明存在要查询的存储信息，则获取该目标存储信息对应的每个目标身份标识。判断上述实施例通过预先训练完成的声纹模型，获取的与唤醒语音信息的声纹特征匹配的注册声纹特征对应的身份标识，是否包含在目标身份标识中，从而确定输入该待识别语音信息的用户是否为能够查询该目标存储信息的用户。

具体的，若匹配的注册声纹特征对应的身份标识包含在目标身份标识中，说明输入该待识别语音信息的用户能够查询该目标存储信息，则根据该目标存储信息保存的每个目标关键词，生成回复信息并输出。

比如，接收到用户说的“你好，哈利”的唤醒语音信息，通过预先训练完成的声纹模型，获取该用户的声纹特征，并将该用户的声纹特征与预先保存的任一注册声纹特征进行匹配，确定存在匹配的注册声纹特征，并获取预先保存的该注册声纹特征对应的身份标识“爸爸”。

接收到用户输入的“84消毒液放在哪里”的待识别语音信息，将“84消毒液放在哪里”的待识别语音信息进行语音识别，获取该待识别语音信息的文本信息，并将该文本信息与预先保存的意图模板进行匹配，确定匹配的意图模板为“*放在哪里”，目标操作为查询操作，则根据该匹配的模板中每个关键词所在字符区间，获取该文本信息中包含的每个关键词“84消毒液”；根据该关键词“84消毒液”进行查询，查询到包含该关键词“84消毒液”的目标存储信息，则获取该目标存储信息对应的每个目标身份标识分别为“爸爸”、“奶奶”、“妈妈”；确定该身份标识“爸爸”包含在目标身份标识“爸爸”、“奶奶”、“妈妈”中，则根据该目标存储信息中的每个目标关键词，生成回复信息并输出。

在某些可能的实施例中，为了提高用户体验，所述方法还包括：

在具体实施过程中，若匹配的注册声纹特征对应的身份标识不包含在目标身份标识中，说明输入该待识别语音信息的用户不能够查询该目标存储信息，则可以过滤该待识别语音信息并拒绝响应，但为了提高用户体验，则可以将预设的拒绝响应回复信息输出。

仍以上述为例，若匹配的注册声纹特征所对应的身份标识为“孩子”，确定该身份标识“孩子”不包含在目标身份标识中，则过滤该待识别语音信息，并将预设的拒绝响应回复信息“对不起，我不能告诉您”输出。

其中，还可以对应保存每个目标身份标识、存储信息以及文本信息，以便后续查询该存储信息，直接根据该文本信息生成对应的回复信息并输出即可，即根据该文本信息生成音频格式的回复信息并输出，和/或，直接将文本信息作为回复信息并输出。比如，文本信息为“酒精放在客厅橱柜”，确定的该文本信息中包含的关键词为“酒精”和“客厅橱柜”，则将文本信息“酒精放在客厅橱柜”、关键词“酒精”和“客厅橱柜”作为一条存储信息。后续接收到查询酒精存放位置的待识别语音信息时，直接根据文本信息“酒精放在客厅橱柜”生成音频格式的回复信息并输出，和/或，直接将文本信息“酒精放在客厅橱柜”作为回复信息并输出。

由于本申请中在执行目标操作的时候，还要通过预先训练完成的声纹模型，获取唤醒语音信息的声纹特征，根据该声纹特征，再对待识别语音信息的文本信息包含的每个关键词进行目标操作，从而保护了用户的隐私，并有效避免儿童查询到危险物品的存放位置后发生危险的情况。

为了进一步提高用户的体验感，在上述各实施例的基础上，在本申请中，所述生成回复信息并输出包括：

在实际应用场景中，可能出现在输出回复信息的时候，用户不在当前的房间内，导致无法及时接收到输出的回复信息，从而导致与用户的交互感不强。比如，用户当前在客厅输入待识别语音信息，恰好想起厨房还焖着饭需要查看一下或书房的孩子叫她等事件的发生，用户不在客厅中了，则如果输出的回复信息还在客厅输出的话，用户不一定听得见或者看得见。因此，在本申请中，电子设备还可以接收射频基站发送的每个用户当前的位置信息。电子设备在确定当前匹配的注册声纹特征对应的身份标识后，获取该身份标识的用户当前所在的目标位置信息，从而确定负责输出回复信息的播放设备。

为了准确地确定负责输出回复信息的播放设备，在本申请中，电子设备保存有每个播放设备的位置信息以及IP地址，比如，192.168.4.41、192.168.4.42、192.168.4.43、192.168.4.44、192.168.4.45、192.168.4.46。当基于上述实施例确定目标位置信息后，分别获取每个播放设备的位置信息与该目标位置信息的距离，将距离最小所对应的播放设备，即位置信息与目标位置信息最近的播放设备，作为目标播放设备，并获取该目标播放设备的IP地址，将生成的回复信息发送给IP地址的目标播放设备进行输出。仍以上述为例，当前用户的目标位置信息在厨房，则通过位置信息离目标位置信息最近的厨房的播放设备输出回复信息。

其中，在每个房间内安装有射频定位基站，每个用户身上穿戴有对应其身份标识的设备，每当穿戴有该穿戴设备的用户进入安装有射频定位基站的房间内时，该房间内的射频定位基站会检测到穿戴式设备对应的身份标识，并确定该身份标识的位置信息，并将该身份标识以及位置信息对应发送给电子设备。同时，为了可以准确地更新每个身份标识的用户的位置信息，射频定位基站还可以将时间信息、身份标识以及位置信息对应发送给电子设备。

图3为本申请一些实施例提供的一种电子设备的应用场景示意图，如图3所示，该家庭由客厅、厨房、卧室、书房和玄关等房间组成，每个房间都放有智能音箱和射频定位基站；客厅、厨房、卧室1、卧室2、书房和玄关内智能音箱的IP分别为192.168.4.41、192.168.4.42、192.168.4.43、192.168.4.44、192.168.4.45、192.168.4.46，每个智能音箱均为播放设备；每个家庭成员都佩戴有穿戴式设备。

当家庭成员进入任一房间中，该房间中的射频定位基站会将该家庭成员对应的身份标识、位置信息以及当前时间发送给电子设备。电子设备通过对唤醒语音信息进行声纹识别，确定存在与该唤醒语音信息的声纹特征匹配的注册声纹特征，该匹配的注册声纹特征对应的身份标识为“妈妈”，当电子设备确定与待识别语音信息的文本信息匹配的意图模板，对应的意图为使用语音记事的查询操作时，根据该匹配的意图模板中每个关键词所在的字符区间，获取文本信息中包含的每个关键词，并根据该每个关键词进行查询。

当查询到包含该每个关键词的目标存储信息，且该身份标识“妈妈”包含在该目标存储信息对应的目标身份标识中，则获取身份标识“妈妈”当前所在的目标位置信息。根据预先保存的每个智能音箱的位置信息，将位置信息与该目标位置信息最近的智能音箱作为目标智能音箱，如图中安装在客厅的智能音箱，其IP地址为192.168.4.41。将根据待识别语音信息的文本信息中包含的每个关键词，生成的回复信息发送给IP地址192.168.4.41的目标智能音箱进行输出。

需要说明的是，该时间信息为射频定位基站确定对应身份标识的用户的位置信息时的时间。

由于本申请可以根据匹配的注册声纹特征所对应的身份标识的用户的目标位置信息，以及预先保存的每个播放设备的位置信息，确定位置信息与目标位置信息最近的播放设备作为目标播放设备，并将生成的回复信息通过目标播放设备输出，从而提高了用户的体验感。

表1为本申请一些实施例提供的文本信息匹配的意图模板为使用语音记事的目标操作时提取参数的情况。参见表1：

参见表1所示，以文本信息“把酒精放在厨房”为例，匹配的意图模板为ID为1的“把*放在*”，ID是用于区分每个意图模板的标识值。该匹配的意图模板对应的意图为使用语音记事的存储操作，该匹配的意图模板不为分词处理模板，则对应的标识为“0”(若该匹配的意图模板为分词处理模板，则对应的标识为“1”)，其中，分词处理模板是指该匹配的模板中关键词所在的字符区间，可能包含连续至少两个关键词在同一字符区间内，若包含，则需要对每个字符区间内的关键词进行分词处理，该意图模板也为分词处理模板，若不包含，则不为分词处理模板。根据该匹配的意图模板中每个关键词所在字符区间，文本信息中在每个字符区间内均存在字符，则说明文本信息的内容完备，则对应的标识为“1”，(若文本信息中存在字符区间内没有字符，说明该文本信息的内容不完备，则对应的标识为“0”)，该目标意图对应的使用语音记事的目标操作所归属的服务模块为Audio_note，<star index＝'1'/>表示获取的该文本信息中的目标关键词“酒精”，<star index＝'2'/>表示获取的该文本信息中的目标关键词“厨房”。将上述表中Audio_note服务模块根据使用语音记事的存储操作以及“*去哪里”的意图模板的相关内容转化成aiml文件，该Audio_note.aiml文件为：

以文本信息“酒精放哪了”为例，匹配的意图模板为ID为6的“*放哪了”，该匹配的意图模板对应的意图为使用语音记事的查询操作，该匹配的意图模板不为分词处理模板，则对应的标识为“0”。根据该匹配的意图模板中每个关键词所在字符区间，文本信息中在每个字符区间内均存在字符，则说明文本信息的内容完备，则对应的标识为“1”，该目标意图对应的使用语音记事的目标操作所归属的服务模块为Audio_note，<star index＝'1'/>表示获取的该文本信息中的目标关键词“酒精”。

将上述表中Audio_note服务模块根据使用语音记事的存储操作以及“*去哪里”的意图模板的相关内容转化成aiml文件，该Audio_note.aiml文件为：

下列为基于第三方Python依赖包aiml进行模板匹配的代码：

Audio_note＝aiml.Kernel()#创建一个kernel对象

Audio_note.learn('semantic_cloud/Audio_note.aiml')#配置学习的语音记事的目标操作的意图模板的语料库

Audio_note.respond(”.join(re_str))#Find_person.respond()可以得到相应的匹配结果的函数，re_str是文本(“把84消毒液放在厨房柜”、“把84消毒液放在厨房柜”等)经过处理后的字符串。

上述代码可以实现aiml模板匹配算法自学习，文本信息成功匹配到意图版本以后做相应的处理，提取参数，比如物品、位置、目标操作等，根据参数调用相应的功能函数并返回处理结果。

图4为本申请一些实施例提供的具体的使用语音记事的存储操作的流程图，该流程包括：

S401：接收唤醒语音信息。

S402：通过预先训练完成的声纹模型，获取接收到的唤醒语音信息的声纹特征。

其中，S402只要在S401之后，S406之前执行即可。

S403：获取待识别语音信息的文本信息。

S404：将待识别语音信息的文本信息与预先保存的任一意图模板进行匹配，判断是否存在匹配的意图模板，且匹配的意图模板所对应的意图为使用语音记事的存储操作，若是，执行S405，否则，执行S401。

S405：根据匹配的意图模板中每个关键词所在字符区间，获取文本信息中包含的每个关键词。

S406：将S402获取的声纹特征与预先保存的任一注册声纹特征进行匹配，判断是否存在匹配的注册声纹特征，若是，执行S407，否则，执行S401。

S407：输出设置查询权限的提示信息，并将每个关键词保存为一条存储信息。

S408：接收设置的能够进行存储信息查询的每个目标身份标识，并对应保存每个目标身份标识以及存储信息。

图5为本申请一些实施例提供的具体的使用语音记事的查询操作的流程图，该流程包括：

S501：接收唤醒语音信息。

S502：通过预先训练完成的声纹模型，获取接收到的唤醒语音信息的声纹特征。

其中，S502只要在S501之后，S506之前执行即可。

S503：获取待识别语音信息的文本信息。

S504：将待识别语音信息的文本信息与预先保存的任一意图模板进行匹配，判断是否存在匹配的意图模板，且匹配的意图模板所对应的意图为使用语音记事的查询操作，若是，执行S505，否则，执行S501。

S505：根据匹配的意图模板中每个关键词所在字符区间，获取文本信息中包含的每个关键词。

S506：将声纹特征与预先保存的任一注册声纹特征进行匹配，判断是否存在匹配的注册声纹特征，若是，执行S507，否则，执行S501。

S507：根据每个关键词进行查询，判断是否查询到包含每个关键词的目标存储信息，若是，则执行S508，否则，执行S501。

S508：获取目标存储信息对应的每个目标身份标识，判断匹配的注册声纹特征对应的身份标识是否包含在目标身份标识中，若是，则执行S510，否则，执行S509。

S509：过滤所述待识别语音信息的文本信息，并将预设的拒绝响应回复信息输出，然后执行S501。

S510：获取匹配的注册声纹特征对应的身份标识的用户当前所在的目标位置信息。

S511：根据预先保存的每个播放设备的位置信息，将位置信息与目标位置信息最近的播放设备作为目标播放设备。

S512：根据目标存储信息中保存的每个目标关键词，将生成的回复信息通过目标播放设备输出，然后执行S501。

本申请还提供了一种语音记事装置，图6为本申请一些实施例提供的一种语音记事装置的结构示意图，该装置包括：

获取单元601，用于获取待识别语音信息的文本信息；

匹配单元602，用于将所述文本信息与预先保存的任一意图模板进行匹配；

处理单元603，用于若存在匹配的意图模板，且所述匹配的意图模板所对应的意图为使用语音记事的目标操作，则根据所述匹配的意图模板中每个关键词所在字符区间，获取所述文本信息中包含的每个关键词，并对所述每个关键词执行所述目标操作。

在某些实施例中，所述处理单元603，还用于对所述每个关键词执行所述目标操作之前，通过预先训练完成的声纹模型，获取接收到的唤醒语音信息的声纹特征；将所述声纹特征与预先保存的任一注册声纹特征进行匹配，若存在匹配的注册声纹特征，则执行后续的对所述每个关键词执行所述目标操作的步骤。

在某些实施例中，所述处理单元603，具体用于若所述目标操作为存储操作，输出设置查询权限的提示信息，并将所述待识别语音信息的文本信息中包含的每个关键词作为一条存储信息；接收设置的能够进行所述存储信息查询的每个目标身份标识，并对应保存所述每个目标身份标识以及所述存储信息。

在某些实施例中，所述处理单元603，具体用于若所述目标操作为查询操作，根据每个所述关键词进行查询，若查询到包含所述每个关键词的目标存储信息，则获取所述目标存储信息对应的每个目标身份标识，若所述匹配的注册声纹特征对应的身份标识包含在目标身份标识中，则根据所述目标存储信息中保存的每个目标关键词，生成回复信息并输出。

在某些实施例中，所述处理单元603，具体用于获取所述匹配的注册声纹特征对应的身份标识的用户当前所在的目标位置信息；根据预先保存的每个播放设备的位置信息，将位置信息与所述目标位置信息最近的播放设备作为目标播放设备，将生成的回复信息通过所述目标播放设备输出。

在某些实施例中，所述处理单元603，还用于若所述匹配的注册声纹特征对应的身份标识不包含在目标身份标识中，则过滤所述待识别语音信息的文本信息，并将预设的拒绝响应回复信息输出。

在本发明中该语音记事装置所涉及的与本发明实施例提供的技术方案相关的概念，解释和详细说明及其它步骤请参见前述方法或其它实施例中关于这些内容的描述，此处不做赘述。

如图7为本申请一些实施例提供的一种电子设备结构示意图，在上述各实施例的基础上，本申请还提供了一种电子设备，如图7所示，包括：处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信；

所述存储器703中存储有计算机程序，当所述程序被所述处理器701执行时，使得所述处理器701执行如下步骤：

获取待识别语音信息的文本信息；

将所述文本信息与预先保存的任一意图模板进行匹配；

在某些实施例中，所述处理器701，还用于对所述每个关键词执行所述目标操作之前，通过预先训练完成的声纹模型，获取接收到的唤醒语音信息的声纹特征；将所述声纹特征与预先保存的任一注册声纹特征进行匹配，若存在匹配的注册声纹特征，则执行后续的对所述每个关键词执行所述目标操作的步骤。

在某些实施例中，所述处理器701，具体用于若所述目标操作为存储操作，输出设置查询权限的提示信息，并将所述待识别语音信息的文本信息中包含的每个关键词作为一条存储信息；接收设置的能够进行所述存储信息查询的每个目标身份标识，并对应保存所述每个目标身份标识以及所述存储信息。

在某些实施例中，所述处理器701，具体用于若所述目标操作为查询操作，根据每个所述关键词进行查询，若查询到包含所述每个关键词的目标存储信息，则获取所述目标存储信息对应的每个目标身份标识，若所述匹配的注册声纹特征对应的身份标识包含在目标身份标识中，则根据所述目标存储信息中保存的每个目标关键词，生成回复信息并输出。

在某些实施例中，所述处理器701，具体用于获取所述匹配的注册声纹特征对应的身份标识的用户当前所在的目标位置信息；根据预先保存的每个播放设备的位置信息，将位置信息与所述目标位置信息最近的播放设备作为目标播放设备，将生成的回复信息通过所述目标播放设备输出。

在某些实施例中，所述处理器701，还用于若所述匹配的注册声纹特征对应的身份标识不包含在目标身份标识中，则过滤所述待识别语音信息的文本信息，并将预设的拒绝响应回复信息输出。

由于上述电子设备解决问题的原理与语音记事方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口702用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

在上述各实施例的基础上，本申请一些实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有可由处理器执行的计算机程序，当所述程序在所述处理器上运行时，使得所述处理器执行时实现如下步骤：

获取待识别语音信息的文本信息；

将所述文本信息与预先保存的任一意图模板进行匹配；

在某些实施例中，所述目标操作为存储操作或查询操作。

在某些实施例中，对所述每个关键词执行所述目标操作之前，所述方法还包括：

在某些实施例中，若所述目标操作为存储操作，所述对所述每个关键词执行所述目标操作包括：

在某些实施例中，若所述目标操作为查询操作，所述对所述每个关键词执行所述目标操作包括：

在某些实施例中，所述生成回复信息并输出包括：

在某些实施例中，所述方法还包括：

由于上述提供的计算机可读取介质解决问题的原理与语音记事方法相似，因此处理器执行上述计算机可读取介质中的计算机程序后，实现的步骤可以参见方法的实施，重复之处不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音记事方法，其特征在于，所述方法包括：

获取待识别语音信息的文本信息；

将所述文本信息与预先保存的任一意图模板进行匹配；

2.根据权利要求1所述的方法，其特征在于，所述目标操作为存储操作或查询操作。

3.根据权利要求1所述的方法，其特征在于，对所述每个关键词执行所述目标操作之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，若所述目标操作为存储操作，所述对所述每个关键词执行所述目标操作包括：

5.根据权利要求4所述的方法，其特征在于，若所述目标操作为查询操作，所述对所述每个关键词执行所述目标操作包括：

6.根据权利要求5所述的方法，其特征在于，所述生成回复信息并输出包括：

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

8.一种语音记事装置，其特征在于，所述装置包括：

获取单元，用于获取待识别语音信息的文本信息；

9.一种电子设备，其特征在于，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7任一所述语音记事方法的步骤。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7任一所述语音记事方法的步骤。