CN113488035A

CN113488035A - 一种语音信息的处理方法、装置、设备及介质

Info

Publication number: CN113488035A
Application number: CN202010351367.3A
Authority: CN
Inventors: 蒋鹏民; 高雪松; 孟卫明; 王月岭; 王彦芳; 唐至威; 刘波; 刘帅帅; 田羽慧; 陈维强
Original assignee: Hisense Co Ltd
Current assignee: Hisense Group Co Ltd; Hisense Co Ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2021-10-08

Abstract

本申请公开了一种语音信息的处理方法、装置、设备及介质，用以解决现有语音信息处理方法处理过程繁琐，效率低的问题。由于本申请可以在待识别语音信息的文本信息，与预先保存的任一意图模板匹配的情况下，根据该匹配的意图模板中关键词所在字符区间及对应的意图，确定该待识别语音信息中包含的每个目标关键词及目标意图，从而方便后续直接根据每个目标关键词以及目标意图，对待识别语音信息进行相应的处理，简化了语音信息的处理过程，提高了效率。

Description

一种语音信息的处理方法、装置、设备及介质

技术领域

本申请涉及自然语言理解技术领域，尤其涉及一种语音信息的处理方法、装置、设备及介质。

背景技术

随着人工智能技术的不断突破和各种智能设备的日益普及，人机交互在人们日常工作和生活中出现的频率越来越高。由于人们可以直接通过语音，便可与智能设备进行交互，促使语音交互成为人机交互的重要手段，也使人机交互技术被应用在越来越多的智能设备中，如：电视、智能管家服务器、智能家居等设备。对于人机交互技术，如何识别采集的待识别语音信息的意图是近几年来人们比较关注的问题。

现有技术中，可以采用人工智能标记语言(Artificial Intelligence MarkupLanguage，aiml)模板匹配的方法识别采集的待识别语音信息的意图，并基于该识别的意图进行相应的处理。其中，该aiml模板匹配方法主要包括：通过将待识别语音信息进行语音识别，将语音识别结果转化为对应的文本信息，然后将该文本信息分别与预设的意图模板进行匹配；若文本信息与预设的意图模板匹配成功，则获取该匹配的意图模板对应的意图，将该意图作为待识别语音信息的目标意图后，再通过预先训练完成的关键词抽取模型，获取该待识别语音信息的每个目标关键词，根据待识别语音信息的目标意图和每个目标关键词，对语音信息进行相应的处理。

由于该方法需要在确定目标意图之后，还要通过预先训练完成的关键词抽取模型，获取待识别语音信息的每个目标关键词后，才能确定后续的操作，处理过程繁琐，效率不够高。

发明内容

本申请提供了一种语音信息的处理方法、装置、设备及介质，用以解决现有语音信息处理方法处理过程繁琐，效率低的问题。

第一方面，本申请提供了一种语音信息的处理方法，所述方法包括：

获取待识别语音信息的文本信息；

若所述文本信息与预先保存的任一意图模板匹配，则根据预先保存的意图模板与意图的对应关系，确定所述匹配的意图模板对应的目标意图；

根据所述匹配的意图模板中每个关键词所在字符区间，获取所述文本信息中包含的每个目标关键词；

根据意图与操作的对应关系，确定所述目标意图对应的目标操作，根据操作与设备的对应关系，确定所述目标操作对应的目标设备，根据所述每个目标关键词，确定所述目标设备执行所述目标操作的具体内容。

第二方面，本申请还提供了一种语音信息的处理装置，所述装置包括：

获取单元，用于获取待识别语音信息的文本信息；

匹配单元，用于若所述文本信息与预先保存的任一意图模板匹配，则根据预先保存的意图模板与意图的对应关系，确定所述匹配的意图模板对应的目标意图；

确定单元，用于根据所述匹配的意图模板中每个关键词所在字符区间，获取所述文本信息中包含的每个目标关键词；

处理单元，用于根据意图与操作的对应关系，确定所述目标意图对应的目标操作，根据操作与设备的对应关系，确定所述目标操作对应的目标设备，根据所述每个目标关键词，确定所述目标设备执行所述目标操作的具体内容。

第三方面，本申请还提供了一种电子设备，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任一所述语音信息的处理方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一所述语音信息的处理方法的步骤。

由于本申请可以在该待识别语音信息的文本信息，与预先保存的任一意图模板匹配的情况下，根据该匹配的意图模板中关键词所在字符区间及对应的意图，确定该待识别语音信息中包含的每个目标关键词及目标意图，从而方便后续直接根据每个目标关键词以及目标意图，对待识别语音信息进行相应的处理，简化了语音信息的处理过程，提高了效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一些实施例提供的一种语音信息的处理过程示意图；

图2为本申请一些实施例提供的具体的语音信息的处理过程示意图；

图3为本申请一些实施例提供的具体的确定目标意图的过程示意图；

图4为本申请一些实施例提供的具体的意图识别模型的训练过程示意图；

图5为BERT预训练模型的基本框架结构示意图；

图6为本申请一些实施例提供的具体的对预先训练完成的意图识别模型的测试过程示意图；

图7为本申请一些实施例提供的具体的语音信息的处理过程示意图；

图8为本申请一些实施例提供的一种语音信息的处理装置的结构示意图；

图9为本申请一些实施例提供的一种电子设备结构示意图。

具体实施方式

为了提高语音信息处理的效率，本申请提供了一种语音信息的处理方法、装置、设备及介质。

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在实际应用过程中，当用户希望通过语音信息控制家庭中的智能家居设备的时候，比如，打开卧室的空调，查询信息等，可以通过智能音箱、智能电视等智能设备采集该用户输入的待识别语音信息。该采集待识别语音信息的智能设备，可以直接在本地，对该待识别语音信息进行意图识别，比如，进行aiml意图模板匹配方法，也可以将待识别语音信息，或待识别的语音信息的文本信息发送至电子设备，电子设备对该待识别语音信息的文本信息进行意图识别。当确定该待识别语音信息对应的目标意图后，进行后续的一些处理，从而实现按照用户的期望控制智能家居设备。

图1为本申请一些实施例提供的一种语音信息的处理过程示意图，该过程包括：

S101：获取待识别语音信息的文本信息。

本申请提供的语音信息的处理方法应用于电子设备，该电子设备可以为智能音箱、智能电视等智能设备，也可以为智能管家服务器。

在本申请中，电子设备获取的待识别语音信息的文本信息，可以是根据接收到的待识别语音信息，生成的文本信息，也可以是接收其他智能设备发送的待识别语音信息的文本信息。

其中，电子设备可以接收其他智能设备发送的待识别语音信息，也可以自身采集待识别语音信息，此不做具体限定。

S102：若所述文本信息与预先保存的任一意图模板匹配，则根据预先保存的意图模板与意图的对应关系，确定所述匹配的意图模板对应的目标意图。

电子设备获取到待识别语音信息的文本信息之后，基于该文本信息，进行意图识别，确定待识别语音信息的目标意图，根据该目标意图以及待识别语音信息对应的文本信息，进行后续的语音信息的处理。

具体的，电子设备将获取到的待识别语音信息的文本信息与预先保存的任一意图模板进行匹配，若该文本信息与预先保存的任一意图模板匹配，则根据预先保存的意图模板与意图的对应关系，确定该匹配的意图模板对应的目标意图。

例如，文本信息为“打开两只老虎的音乐”，该文本信息与预先保存的“打开*的音乐”这个意图模板匹配，根据预先保存的意图模板与意图的对应关系，确定该匹配的意图模板“打开*的音乐”对应的目标意图为“播放音乐”。

其中，由于不同用户的说话习惯的不同，导致电子设备获取的该待识别语音信息的文本信息中可能存在无效或者没有实际意义的字符或者标点，比如，文本信息为“播放，额，两只老虎的音乐”，“明天从北京，嗯到南京，的机票多少钱”等。因此，为了方便后续意图的识别，可以先对该文本信息进行预处理，按照预设的处理规则，删除该文本信息中包含的一些无效或者没有实际意义的字符或者标点。比如，文本信息为“播放，额，两只老虎的音乐”，按照预设的处理规则对该文本信息进行处理，处理后的文本信息为“播放两只老虎的音乐”。

S103：根据所述匹配的意图模板中每个关键词所在字符区间，获取所述文本信息中包含的每个目标关键词。

基于上述实施例确定了匹配的意图模板和目标意图之后，根据匹配的意图模板中每个关键词所在字符区间，获取该待识别语音信息的文本信息中包含的每个目标关键词。

比如，文本信息为“播放忘情水的音乐”，匹配的意图模板为“播放*的音乐”，在该匹配的意图模板中关键词所在的字符区间为“播放”和“的音乐”之间的区间，获取该文本信息中“播放”和“的音乐”之间的字符区间包含的字符，获取的字符为“忘情水”，则确定“忘情水”为文本信息包含的目标关键词。

文本信息为“明天从北京到南京的机票多少钱”，匹配的意图模板为“*从*到*的*多少钱”，在该匹配的意图模板中每个关键词所在的字符区间分别为“从”之前的字符区间、“从”和“到”之间的字符区间、“到”和“的”之间的字符区间，“的”和“多少钱”之间的字符区间，分别获取该文本信息中上述四个字符区间内包含的字符，获取的字符分别为“明天”、“北京”、“南京”、“机票”，则确定“明天”、“北京”、“南京”、“机票”为文本信息包含的目标关键词。

S104：根据意图与操作的对应关系，确定所述目标意图对应的目标操作，根据操作与设备的对应关系，确定所述目标操作对应的目标设备，根据所述每个目标关键词，确定所述目标设备执行所述目标操作的具体内容。

获取了待识别语音信息中包含的每个关键词后，需要对该待识别语音信息进行后续的处理。为了准确地对待识别语音信息进行处理，在本申请中，预先保存了意图与操作的对应关系，比如“播放音乐”对应的操作是打开音乐APP，“查询机票价格”对应的操作是查询并输出机票价格等。因此，当确定了待识别语音信息的目标意图之后，根据该预先保存的意图与操作的对应关系，确定该目标意图对应的目标操作。

在某些实施例中，由于不同的设备所能执行的操作不同，比如，空调可以执行调节温度、调整风向等，音箱可以执行播放音乐、调整音量的功能，因此，为了可以进一步准确地对待识别语音信息进行处理，在本申请中，预先保存了操作与设备的对应关系，当基于上述实施例确定目标操作之后，根据预先保存的操作与设备的对应关系，确定该目标操作对应的目标设备，比如，播放音乐的目标操作对应的目标设备为音箱，打开空调的目标操作对应的目标设备为空调。

在确定了目标设备以及目标操作后，可能出现目标设备根据该目标操作，仍然不知道该如何进一步操作，比如，目标设备为音箱、目标操作为播放音乐，音箱在执行播放音乐的操作时，由于不知道播放哪一首歌曲，而无法进一步地操作。因此，为了进一步准确地对目标设备进行控制，在本申请中，可以根据上述实施例获取的每个目标关键词，对目标设备所要执行的目标操作的具体内容进行丰富。比如，根据目标关键词“忘情水”，确定音箱在执行播放音乐这个操作的具体内容是播放《两只老虎》这首音乐，从而实现准确地对音箱进行控制；根据每个目标关键词“明天”、“北京”、“南京”、“机票”，确定移动终端在执行查询并输出价格的这个操作的具体内容是：查询并输出明天从北京到南京的机票的价格。

为了准确地对智能设备进行控制，在上述实施例的基础上，在本申请中，所述获取所述文本信息中包含的每个目标关键词之后，所述根据所述每个目标关键词，确定所述目标设备执行所述目标操作的具体内容之前，所述方法还包括：

当所述匹配的意图模板为分词处理的意图模板时，针对每个目标关键词，若按照预设的分词规则，确定该目标关键词中包含有至少两个分词时，则将每个分词更新为目标关键词。

由于语言的多样性以及复杂性，可能存在连续的至少两个目标关键词在同一字符区间内，比如文本信息为“从北大坐公交到清华多长时间”，匹配的意图模板为“从*到*多长时间”，“北大”和“坐公交”是连续的两个目标关键词，但均在“从”和“到”之间的字符区间内；文本信息为“从北京到南京明天的机票价格是多少”，匹配的意图模板为“从*到*的*价格是多少”，“南京”和“明天”是连续的两个目标关键词，但均在“到”和“的”之间的字符区间内。

因此，为了进一步准确地对目标设备进行控制，在本申请中，预先将可能出现连续的目标关键词的意图模板，作为分词处理的意图模板，并通过设定的标识对该意图模板进行标识。当匹配的意图模板为分词处理的意图模板时，先确认该文本信息中的内容不完备，缺少关键词，然后针对每个目标关键词，按照预设的分词规则，对该目标关键词进行分词处理，若该目标关键词中包含有至少两个分词时，说明该文本信息中包含有连续的至少两个目标关键词，则将每个分词更新为目标关键词。

仍以上述为例，文本信息为“从北大坐公交到清华多长时间”，匹配的意图模板“从*到*多长时间”为分词处理的意图模板，针对当前获取的每个目标关键词“北大坐公交”以及“清华”，确定按照预设的分词规则，确定目标关键词“北大坐公交”中包含有两个分词“北大”、“坐公交”，则将分词“北大”、“坐公交”更新为目标关键词。

由于本申请在确定每个目标关键词时，根据该字符区间内是否包含有字符，即可确定该文本信息中是否缺少关键词，从而在缺少目标关键词的时候，及时输出补充该缺少的目标关键词的补充信息，有利于后续对目标设备的控制。此外，当确定匹配的意图模板为分词处理的意图模板时，对该文本信息中包含的每个目标关键词进行分词处理，将获取的每个分词更新为目标关键词，从而有利于后续根据每个目标关键词，确定目标设备执行目标操作的具体内容，进一步准确地控制目标设备。

为了准确地控制目标设备，所述根据所述每个目标关键词，确定所述目标设备执行所述目标操作的具体内容，包括：

若所述文本信息中包含的目标关键词中包含所述匹配的意图模板对应的每个必要类型的关键词，则根据每个目标关键词，确定所述目标设备执行所述目标操作的具体内容。

由于在确定目标设备执行目标操作的具体内容时，只有文本信息中不缺少关键词的时候，才能准确地确定目标设备执行目标操作的具体内容，从而准确地控制目标设备。因此，在本申请中，预先针对每个意图模板保存有对应的每个必要类型的关键词。比如，目标操作是查询并输出时长，该目标操作对应的每个必要类型的关键词为起点类型的关键词、终点类型的关键词以及通行方式的关键词。后续当文本信息中包含的目标关键词包含了匹配的意图模板对应的每个必要类型的关键词时，说明该文本信息中的内容完备，则直接根据每个目标关键词，确定该目标设备执行目标操作的具体内容。

例如，文本信息“播放忘情水的音乐”中包含的目标关键词为“忘情水”，匹配的意图模板“播放*的音乐”对应的必要类型的关键词为歌曲名称的关键词，确定该文本信息中包含的目标关键词包含该匹配的意图模板对应的必要类型的关键词，根据该目标关键词，确定目标设备执行目标操作的具体内容是播放《忘情水》这首歌曲。

在另一种可能的实施方式中，若所述文本信息中包含的目标关键词中未包含所述匹配的意图模板对应的每个必要类型的关键词，所述根据所述每个目标关键词，确定所述目标设备执行所述目标操作的具体内容，包括：

根据所述文本信息中包含的目标关键词及对应的类型，及所述匹配的意图模板对应的每个必要类型，确定缺少的目标必要类型；

输出补充所述目标必要类型的关键词的提示信息，将接收到的输入的所述目标必要类型的关键词更新为所述文本信息中包含的目标关键词，根据更新后的每个目标关键词，确定所述目标设备执行所述目标操作的具体内容。

当文本信息中包含的目标关键词中未包含匹配的意图模板对应的每个必要类型的关键词时，说明该文本信息中的内容不完备，根据该文本信息中包含的目标关键词无法准确地确定目标设备执行目标操作的具体内容，需要用户补充缺少的必要类型的关键词。因此，在本申请中，当确定文本信息中包含的目标关键词中未包含匹配的意图模板对应的每个必要类型的关键词时，根据该文本信息中包含的目标关键词对应的类型，以及匹配的意图模板对应的每个必要类型，确定缺少的目标必要类型。

比如，匹配的意图模板对应的必要类型包括两个地点和一个通行方式，而该文本信息中包含的目标关键词对应的类型只包括两个地点，则确定该文本信息中缺少目标必要类型为通行方式。

当确定缺少的目标必要类型之后，输出补充目标必要类型的关键词的提示信息，比如，“请输入通行方式”，以让用户对输入的待识别语音信息的文本信息的内容进一步地完善。

其中，输出补充目标必要类型的关键词的提示信息可以语音播报音频格式的提示信息，比如，语音播报补充通行方式的关键词的提示信息“请补充通行方式”，也可以在显示界面上显示文本形式对应的提示信息，比如，在显示界面上显示补充通行方式的关键词的提示信息“请补充通行方式”。两种输出提示信息的方式也可以同时结合，即同时播报音频格式的提示信息以及在显示界面上显示文本格式的提示信息。

具体选择哪种方式输出提示信息，可以根据用户的喜好，预先进行设置，或者可以根据电子设备的能力进行选择，例如，一些电子设备并没有可以显示提示信息的显示界面，则对于这些电子设备，在输出提示信息时，可以播报音频格式的提示信息。

当输出补充目标必要关键词的提示信息之后，可以接收到用户补充的关键词，将该补充的关键词更新为文本信息中包含的目标关键词。然后根据更新后的每个目标关键词，确定目标设备执行目标操作的具体内容。

图2为本申请一些实施例提供的具体的语音信息的处理过程示意图，该过程包括：

S201：获取待识别语音信息的文本信息。

S202：若待识别语音信息的文本信息与预先保存的任一意图模板匹配，则根据预先保存的意图模板与意图的对应关系，确定匹配的意图模板对应的目标意图。

S203：根据匹配的意图模板中每个关键词所在字符区间，获取文本信息中包含的每个目标关键词。

S204：当匹配的意图模板为分词处理的意图模板时，针对每个目标关键词，若按照预设的分词规则，确定该目标关键词中包含有至少两个分词时，则将每个分词更新为目标关键词。

其中，S204只要在S203之后，S207之前执行即可。

S205：根据意图与操作的对应关系，确定目标意图对应的目标操作。

S206：根据操作与设备的对应关系，确定目标操作对应的目标设备。

S207：判断文本信息中包含的目标关键词中是否包含匹配的意图模板对应的每个必要类型的关键词，若是，执行S208，否则，执行S209。

S208：根据每个目标关键词，确定目标设备执行目标操作的具体内容。

S209：根据文本信息中包含的目标关键词及对应的类型，及匹配的意图模板对应的每个必要类型，确定缺少的目标必要类型。

S210：输出补充目标必要类型的关键词的提示信息，将接收到的输入的目标必要类型的关键词更新为文本信息中包含的目标关键词，根据更新后的每个目标关键词，确定目标设备执行目标操作的具体内容。

为了准确地获取待识别语音信息的目标意图，在上述各实施例的基础上，在本申请中，所述方法还包括：

若所述文本信息与预先保存的任一意图模板均不匹配，则通过预先训练完成的意图识别模型，获取所述文本信息对应的目标意图。

由于语音的复杂性以及多样性，且无法根据所有的语音信息，均确定一个意图模板。为了准确地获取待识别语音信息的目标意图，在本申请中，预先训练有意图识别模型，比如BERT模型。当基于上述实施例确定文本信息与预先保存的任一意图模板不匹配时，通过预先训练完成的意图识别模型，获取该文本信息对应的目标意图。

例如，文本信息为“哥哥跑哪去了”，对该文本信息进行aiml意图模板匹配，没有匹配成功，文本信息输入到预先训练完成的意图识别模型中，获取该文本信息对应的目标意图为找人。

文本信息为“妈妈饭做的咋样了”，对该文本信息进行aiml意图模板匹配，没有匹配成功，文本信息输入到预先训练完成的意图识别模型中，获取该文本信息对应的目标意图为语义转发。

图3为本申请一些实施例提供的具体的确定目标意图的过程示意图，该过程包括：

S301：接收待识别语音信息。

S302：将待识别语音信息进行语音识别，获取待识别语音信息的文本信息。

S303：判断该文本信息是否与预先保存的任一意图模板匹配，若是，执行S304，若否，执行S305。

S304：根据预先保存的意图模板与意图的对应关系，确定匹配的意图模板对应的目标意图。

S305：通过预先训练完成的意图识别模型，获取文本信息对应的目标意图。

在某些实施例中，所述获取所述文本信息对应的目标意图之后，所述方法还包括：

通过预先训练完成的关键词抽取模型，获取所述文本信息中的每个目标关键词；

为了根据目标意图确定执行下一步操作，在本申请中，预先训练有关键词抽取模型。当基于上述的实施例确定文本信息对应的目标意图之后，通过预先训练完成的关键词抽取模型，可以抽取出该文本信息中包含的每个目标关键词。比如，文本信息为“从北京到上海坐高铁的时长”，确定该文本信息对应的查询时长，通过预先训练完成的关键词抽取模型，可以识别该文本信息中的每个字符是否为关键词中的字符，以及是否为关键词中的首个字符的信息。

比如，通过预先训练完成的关键词抽取模型，获取待识别语音信息的文本信息“请帮我打开音乐”中每个字对应的标签为，[0 0 0 B I B I]，其中，对应的标签不为0的字均为关键词中的字符，对应标签为B的字符为该关键词的首个字符。

基于此，当识别出待识别语音信息的文本信息中的每个字符是否为关键词中的字符，及是否为关键词中的首个字符的信息之后，针对文本信息中每个为关键词中的首个字符的字符，比如，上述的“打”和“音”，根据该为关键词中的首个字符的字符，及该字符之后连续的、且识别为关键词中的非首个字符的每个字符，比如上述的“打”及其之后的“开”，“音”及其之后的“乐”，确定每个目标关键词，比如上述的“打开”和“音乐”。

其中，关键词抽取模型的训练过程属于现有技术，在此不再赘述。

当获取到每个目标关键词之后，根据预先保存的意图与操作的对应关系，确定待识别语音信息的目标意图对应的目标操作，比如上述的目标意图为打开音乐，则对应的目标操作为打开音乐APP。并根据预先保存的操作与设备的对应关系，确定目标操作对应的目标设备，比如，打开音乐APP的操作对应的设备是智能音箱。然后根据上述实施例确定的每个目标关键词，确定目标设备执行目标操作的具体内容。比如，目标关键词为“忘情水”，则确定智能音箱打开音乐APP后播放的音乐为《忘情水》。

为了准确地确定待识别语音信息的目标意图，所述意图识别模型通过如下方式训练：

获取样本集中任一文本数据样本，以及对应的意图；

根据所述文本数据样本以及所述意图，对原始意图识别模型进行训练。

为了准确地确定待识别语音信息的目标意图，可以根据预先获取的样本集中的每个文本数据样本及其对应的意图，对原始意图识别模型进行训练。比如，文本数据样本为“爸爸去哪里了”，对应的意图为找人；文本数据样本为“弟弟在哪里”，对应的意图为找人；文本数据样本为“饭做好了吗”，对应的意图为语义转发；文本数据样本为“睡醒了吗”，对应的意图为语义转发。

此外，为了增加文本数据样本的多样性，该文本数据样本中包括不同表达方式的文本数据样本，比如“打开空调”、“开空调”，“关闭空调”、“关空调”等。

需要说明的是，该训练意图识别模型的设备可以与后续语义识别的电子设备相同，也可以不同。

通过原始意图识别模型，可以识别上述文本数据样本对应的识别意图，根据该识别意图以及该文本数据样本对应的意图，对原始意图识别模型进行训练，以调整原始意图识别模型的各参数的参数值。

比如，文本数据样本为“查询飞往北京的机票的价格”，对应的意图为查询价格，通过原始意图识别模型，识别该文本数据样本对应的识别意图为查询航班信息，该识别意图与对应的意图不一致，确定该文本数据样本的意图被误识别。

对原始意图识别模型训练的样本集中包含大量的文本数据样本，对每个文本数据样本都进行上述操作，当满足预设的收敛条件时，该原始意图识别模型训练完成。

其中，满足预设的收敛条件可以为样本集中的文本数据样本通过该原始意图识别模型，被正确识别的文本数据样本个数大于设定数量，或对原始意图识别模型进行训练的迭代次数达到设置的最大迭代次数等。具体实施中可以灵活进行设置，在此不做具体限定。

在一种可能的实施方式中，在进行原始意图识别模型训练时，可以把样本集中的文本数据样本分训练文本数据样本、训练-测试文本数据样本和测试文本数据样本，先基于训练文本数据样本对原始意图识别模型进行训练，并在训练过程中基于训练-测试文本数据样本对该原始意图识别模型进行测试，最后再基于测试文本数据样本对上述已训练的意图识别模型的可靠程度进行。

下面以意图识别模型为BERT模型的训练过程，进行详细的说明：

图4为本申请一些实施例提供的具体的意图识别模型的训练过程示意图，该过程包括：

首先，对训练样本集中的每个文本数据样本对应的意图进行标注。

然后，将上述的文本数据样本输入到谷歌开源的BERT预训练模型中，获取每个字符的512维空间向量。

图5为BERT预训练模型的基本框架结构示意图。

由于该BERT预训练模型是基于BooksCropus与英文***数据一共有33亿个词进行训练的，该BERT预训练模型的标准版本有1亿的参数量，与GPT持平。此外，谷歌用了16个TPU集群(一共64块TPU)花了4天时间来训练大号版本的BERT预训练模型，训练完成的BERT预训练模型的大号版本则有3亿多参数量，是目前自然语言处理中最大的预训练模型。基于该BERT预训练模型可以使用任意掩码来增加模型的泛化能力；使用Transformer可以充分的联系上下文的相关信息；学习句子级相关特征；精准的识别每个字符，并生成每个字符对应的向量。

最后，把得到的每个字符对应的向量输入到原始BERT模型中，从而识别该文本信息的识别意图。根据该文本信息的识别意图与其对应的意图，对该原始BERT模型中的参数进行调整。

分别对训练样本集中的每个训练文本数据样本进行上述的操作，得到训练完成的BERT模型，即得到预先训练完成的意图识别模型。

当获取到预先训练完成的意图识别模型后，基于测试文本数据样本对该意图识别模型进行测试。图6为本申请一些实施例提供的具体的对预先训练完成的意图识别模型的测试过程示意图，该过程包括：

S601：获取任一测试文本数据样本，如“妈妈去哪了”，以及该测试文本数据样本对应的意图找人。

S602：将该测试文本数据样本输入到预先训练完成的BERT模型。

S603：获取该测试文本数据样本对应的意图为找人。

分别对测试样本集中的每个测试文本数据样本进行上述的操作，对预先训练完成的意图识别模型的可靠性进行验证。

由于本申请可以在文本信息与任一意图模板不匹配的情况下，通过该预先训练完成的意图识别模型进行意图识别，从而提高了待识别语音信息的意图被识别的成功率，且无需大量的存储空间来存储各种表达方式，各种语言习惯的意图模板，节省了存储空间。

为了进一步准确地对目标设备进行控制，在上述实施例的基础上，在本申请中，所述根据操作与设备的对应关系，确定所述目标操作对应的目标设备包括：

当所述目标设备的数量大于1，则将每个所述目标设备确定为候选设备，并输出选择每个所述候选设备的提示信息，将被选择的候选设备作为所述目标设备。

由于每种智能设备的功能越来越全面，有些智能设备之间的功能可能有所重叠，比如智能电视也可以播放音乐，智能手机也可以播放视频，以及播放音乐等，从而导致当确定了目标操作后，并不知道该控制哪一个设备来执行该目标操作。因此，为了进一步准确地对目标设备进行控制，在本申请中，基于上述实施例，确定了目标设备之后，判断该目标设备的数量是否大于1，从而确定是否输出选择设备的提示信息。

具体的，当确定目标设备的数量大于1，说明可以执行目标操作的每个目标设备有多个，则将每个目标设备均作为候选设备，并输出选择每个候选设备的提示信息，将被选择的候选设备作为目标设备。

其中，输出选择每个候选设备的提示信息，以及接收用户选择候选设备的选择结果的方式，与上述实施例中的描述相同，在此不再赘述。

此外，由于可能出现误唤醒的问题，当输出提示信息后，在一定的设定时长内没有接收到针对该提示信息输入的选择结果，可以确定可能存在误唤醒的问题，则将该待识别语音信息过滤，采集下一待识别语音信息。

图7为本申请一些实施例提供的具体的语音信息的处理过程示意图，该过程包括：

S701：接收待识别语音信息。

S702：将待识别语音信息进行语音识别，获取待识别语音信息的文本信息。

S703：判断该文本信息是否与预先保存的任一意图模板匹配，若是，执行S704，若否，执行S705。

S704：根据预先保存的意图模板与意图的对应关系，确定匹配的意图模板对应的目标意图，然后，执行S706。

S705：通过预先训练完成的意图识别模型，获取文本信息对应的目标意图，然后执行S708。

S706：根据匹配的意图模板中每个关键词所在字符区间，获取文本信息中包含的每个目标关键词。

S707：当匹配的意图模板为分词处理的意图模板时，针对每个目标关键词，若按照预设的分词规则，确定该目标关键词中包含有至少两个分词时，则将每个分词更新为目标关键词，然后执行S709。

其中，S707只要在S706之后，S711之前执行即可。

S708：通过预先训练完成的关键词抽取模型，获取文本信息中的每个目标关键词。

S709：根据意图与操作的对应关系，确定目标意图对应的目标操作。

S710：根据操作与设备的对应关系，确定目标操作对应的目标设备。

其中，在确定目标设备时，若目标设备的数量大于1，则将每个目标设备确定为候选设备，并输出选择每个候选设备的提示信息，将被选择的候选设备作为目标设备。

S711：根据每个目标关键词，确定目标设备执行目标操作的具体内容。

表1为本申请一些实施例提供的文本信息存在匹配的意图模板时提取参数的情况。参见表1：

表1

参见表1所示，以文本信息“爸爸去哪了”为例，匹配的意图模板为“*去哪了”，该匹配的意图模板对应的意图为找人，该匹配的意图模板不为分词处理模板，则对应的标识为“0”(若该匹配的意图模板为分词处理模板，则对应的标识为“1”)，根据该匹配的意图模板中每个关键词所在字符区间，文本信息中在每个字符区间内均存在字符，则说明文本信息的内容完备，则对应的标识为“1”，(若文本信息中存在字符区间内没有字符，说明该文本信息的内容不完备，则对应的标识为“0”)，该目标意图对应的目标操作为Find_person，<starindex＝'1'/>表示获取的该文本信息中的目标关键词“爸爸”。

将上述表中Find_person操作根据“*去哪里”的意图模板的相关内容转化成aiml文件，该Find_person.aiml文件为：

以文本信息“饭菜做的怎样”为例，匹配的意图模板为“饭菜做的怎样”，该匹配的意图模板对应的意图为语义转发，该匹配的意图模板不为分词处理模板，则对应的标识为“0”，该匹配的意图模板中没有关键词所在的字符区间，说明该文本信息的内容完备，对应的标识为“1”，该目标意图对应的目标操作为Sem_forward，而结合语境，询问饭菜，应该是询问厨房中的人或者智能设备，则可以将kitchen作为目标关键词，表示目标操作执行的具体内容为向厨房的设备进行语义转发。

将上述表中Sem_forward根据“饭菜做的怎样”的意图模板的相关内容转化成aiml文件，该Sem_forward.aiml文件为：

下列为基于第三方Python依赖包aiml进行模板匹配的代码：

import aiml#输入模板

Find_person＝aiml.Kernel() #创建一个kernel对象

Sem_forward＝aiml.Kernel() #创建一个kernel对象

Find_person.learn('semantic_cloud/Find_person.aiml')#配置学习的找人意图模板的语料库

Sem_forward.learn('semantic_cloud/Sem_forward.aiml')#配置学习的语义转发意图模板的语料库

Find_person.respond(”.join(re_str))#Find_person.respond()可以得到相应的匹配结果的函数，re_str是文本(“爸爸在哪里”、“妈妈呢”等)经过处理后的字符串。

上述代码可以实现aiml模板匹配算法自学习，文本信息成功匹配到意图版本以后做相应的处理，提取参数，根据参数调用相应的功能函数并返回处理结果。

本申请提供了一种语音信息的处理装置，图8为本申请一些实施例提供的一种语音信息的处理装置的结构示意图，所述装置包括：

获取单元81，用于获取待识别语音信息的文本信息；

匹配单元82，用于若所述文本信息与预先保存的任一意图模板匹配，则根据预先保存的意图模板与意图的对应关系，确定所述匹配的意图模板对应的目标意图；

确定单元83，用于根据所述匹配的意图模板中每个关键词所在字符区间，获取所述文本信息中包含的每个目标关键词；

处理单元84，用于根据意图与操作的对应关系，确定所述目标意图对应的目标操作，根据操作与设备的对应关系，确定所述目标操作对应的目标设备，根据所述每个目标关键词，确定所述目标设备执行所述目标操作的具体内容。

在本发明中该语音信息的处理装置所涉及的与本发明实施例提供的技术方案相关的概念，解释和详细说明及其它步骤请参见前述方法或其它实施例中关于这些内容的描述，此处不做赘述。

如图9为本申请一些实施例提供的一种电子设备结构示意图，在上述各实施例的基础上，本申请还提供了一种电子设备，如图9所示，包括：处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信；

所述存储器903中存储有计算机程序，当所述程序被所述处理器901执行时，使得所述处理器901执行如下步骤：

获取待识别语音信息的文本信息；

由于上述电子设备解决问题的原理与语音信息的处理方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口902用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

在上述各实施例的基础上，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有可由处理器执行的计算机程序，当所述程序在所述处理器上运行时，使得所述处理器执行时实现如下步骤：

获取待识别语音信息的文本信息；

由于上述提供的计算机可读取介质解决问题的原理与语音信息的处理方法相似，因此处理器执行上述计算机可读取介质中的计算机程序后，实现的步骤可以参见方法的实施，重复之处不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音信息的处理方法，其特征在于，所述方法包括：

获取待识别语音信息的文本信息；

2.根据权利要求1所述的方法，其特征在于，所述获取所述文本信息中包含的每个目标关键词之后，所述根据所述每个目标关键词，确定所述目标设备执行所述目标操作的具体内容之前，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述每个目标关键词，确定所述目标设备执行所述目标操作的具体内容，包括：

4.根据权利要求3所述的方法，其特征在于，若所述文本信息中包含的目标关键词中未包含所述匹配的意图模板对应的每个必要类型的关键词，所述根据所述每个目标关键词，确定所述目标设备执行所述目标操作的具体内容，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述获取所述文本信息对应的目标意图之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述意图识别模型通过如下方式训练：

获取样本集中任一文本数据样本，以及对应的意图；

8.根据权利要求1或6所述的方法，其特征在于，所述根据操作与设备的对应关系，确定所述目标操作对应的目标设备包括：

9.一种语音信息的处理装置，其特征在于，所述装置包括：

获取单元，用于获取待识别语音信息的文本信息；

10.一种电子设备，其特征在于，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-8任一所述语音信息的处理方法的步骤。