CN112669833A

CN112669833A - 一种语音交互的纠错方法及装置

Info

Publication number: CN112669833A
Application number: CN201910940847.0A
Authority: CN
Inventors: 杜国威
Original assignee: Beijing Anyun Century Technology Co Ltd
Current assignee: Beijing Anyun Century Technology Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2021-04-16

Abstract

本发明公开了一种语音交互的纠错方法及装置，涉及自然语言处理技术领域，提高对语音指令识别的准确性。本发明的主要技术方案为：当接收到用户发出的第一语音指令时，解析所述第一语音指令包含的语义信息和语调信息；接收第二语音指令，解析所述第二语音指令包含的语义信息和语调信息，所述第二语音指令是与所述第一语音指令互为相邻的语音指令；通过比较所述第二语音指令包含的语调信息和所述第一语音指令包含的语调信息，判断是否对所述第一语音指令执行纠正操作；若是，则根据所述第二语音指令包含的语义信息纠正所述第一语音指令包含的语义信息。本发明主要应用于在处理输入的语音指令过程中自动地对接收到的相邻语音指令进行纠错。

Description

一种语音交互的纠错方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种语音交互的纠错方法及装置。

背景技术

随着科技的创新和发展，人与机器用自然语言进行对话的梦想已然成为现实，依赖于自然语言处理技术衍生的智能产品日益普及，比如：智能音箱，它不仅可以执行用户下达的控制指令，还也可以与用户对话聊天，如此智能化服务越来越得到用户的青睐。

然而，现在市场上销售的智能音箱，被语音唤醒之后，在处理输入的语音指令过程中，是没有办法自动地对接收到的相邻语音指令进行纠错的，比如，例举为苹果手机和天猫精灵家庭版CC接收到的语音指令，“帮我调明天12:00的闹钟，不对不对不是调这个闹钟错了”，机器会自动控制设置闹钟为12点，但是这样操作并不符合用户发出语音指令的真正意图的，所以用户只好再次核对机器的操作是否正确，如果发现不正确，就需要再重新下达语音指令，如此反复操作，降低用户体验。

发明内容

有鉴于此，本发明提供一种语音交互的纠错方法及装置，主要目的在在处理输入的语音指令过程中自动地对接收到的相邻语音指令进行纠错，确保输出的控制操作是符合用户真实意图的，提高对语音指令识别的准确性，也提高了用户操作体验。

为了达到上述目的，本发明主要提供如下技术方案：

第一方面，本发明提供了一种语音交互的纠错方法，该方法包括：

当接收到用户发出的第一语音指令时，解析所述第一语音指令包含的语义信息和语调信息；

接收第二语音指令，解析所述第二语音指令包含的语义信息和语调信息，所述第二语音指令是与所述第一语音指令互为相邻的语音指令；

通过比较所述第二语音指令包含的语调信息和所述第一语音指令包含的语调信息，判断是否对所述第一语音指令执行纠正操作；

若是，则根据所述第二语音指令包含的语义信息纠正所述第一语音指令包含的语义信息。

可选的，在所述接收到用户发出的第一语音指令之前，所述方法还包括：

获取所述用户对应的多条历史语音指令；

解析每条所述历史语音指令包含的语义信息和语调信息；

从多条所述历史语音指令中任意抽取相邻两条语音指令；

根据所述相邻两条语音指令分别对应的语义信息，判断所述相邻两条语音指令是否存在逻辑关联；

若存在，根据所述逻辑关联，创建标签，得到所述标签与所述逻辑关联之间的映射关系；

计算所述相邻两条语音指令分别对应的语调信息之间的差异信息，所述差异信息是在语音高低、语音快慢、语音长短和语音轻重四个维度上衡量语调变化信息；

利用所述标签标注所述差异信息，得到所述标签对应的语调变化信息。

可选的，在所述得到所述标签对应的语调变化信息之后，所述方法还包括：

获取每个标签对应的语调变化信息；

通过任意抽取两个所述标签，比对两个所述标签对应的语调变化信息之间的相似度；

若所述相似度达到第一预设阈值时，整合两个所述标签得到一个上位标签，所述上位标签对应两组语调变化信息。

解析每个标签的词语含义；

通过比较词语的相似性，将所述标签与预设标签模板上记载的标签进行匹配，所述预设标签模板用于规范所述标签；

若匹配成功，则利用所述预设标签模板上记载的标签替代所述标签；

若经匹配操作之后存在多个相同的标签，则将所述多个相同的标签进行去重处理并保留一个标签，所述标签对应多组语调变化信息。

可选的，所述通过比较所述第二语音指令包含的语调信息和所述第一语音指令包含的语调信息，判断是否对所述第一语音指令执行纠正操作，包括：

在语音高低、语音快慢、语音长短和语音轻重四个维度上，分别计算所述第一语音指令和所述第二语音指令之间的差异信息；

通过将所述差异信息与标签对应的语调变化信息相比较，计算所述差异信息与所述标签对应的语调变化信息之间的相似度是否达到第二预设阈值；

若是，则通过查找标签与逻辑关联之间的映射关系，根据所述标签，确定所述第一语音指令和所述第二语音指令之间存在的逻辑关联；

当确定所述第一语音指令和所述第二语音指令之间的逻辑关联是纠正关系时，判定对所述第一语音指令执行纠正操作。

可选的，在所述接收第二语音指令之后，所述方法还包括：

识别所述第二语音指令是否是包含否定词的词语组合；

若是，则根据所述第二语音指令包含的语义信息纠正所述第一语音指令包含的语义信息；

若否，则通过比较所述第二语音指令包含的语调信息和所述第一语音指令包含的语调信息，判断是否对所述第一语音指令执行纠正操作。

可选的，所述方法还包括：

记录接收第二语音指令的***时间；

检测所述***时间是否在所述第一语音指令对应的预设纠正时效内；

若在所述第一语音指令对应的预设纠正时效内，则通过比较所述第二语音指令包含的语调信息和所述第一语音指令包含的语调信息，判断是否对所述第一语音指令执行纠正操作；

若不在所述第一语音指令对应的预设纠正时效内，则按照接收到语音指令的先后顺序，根据所述第一语音指令和所述第二语音指令分别执行控制操作。

可选的，所述在通过比较所述第二语音指令包含的语调信息和所述第一语音指令包含的语调信息之前，所述方法还包括：

验证所述第二语音指令和所述第一语音指令分别包含的语义信息是否存在相关性；

若存在相关性，则比较所述第二语音指令包含的语调信息和所述第一语音指令包含的语调信息。

可选的，当确定对所述第一语音指令执行纠正操作时，所述方法还包括：

向用户输出提示信息，所述提示信息用于向用户征询确认是否执行所述第一语音指令对应的操作；

若在预设时间内未接收到用户反馈的指示信息，则控制对所述第一语音指令执行纠正操作。

可选的，所述根据所述第二语音指令包含的语义信息纠正所述第一语音指令包含的语义信息，包括：

忽略所述第一语音指令；

控制执行所述第二语音指令对应的操作。

第二方面，本发明还提供了一种语音交互的纠错装置，该装置包括：

解析单元，用于当接收到用户发出的第一语音指令时，解析所述第一语音指令包含的语义信息和语调信息；

接收单元，用于接收第二语音指令；

所述解析单元，还用于解析所述第二语音指令包含的语义信息和语调信息，所述第二语音指令是与所述第一语音指令互为相邻的语音指令；

判断单元，用于通过比较所述解析单元解析得到的第二语音指令包含的语调信息和所述解析单元解析得到的第一语音指令包含的语调信息，判断是否对所述第一语音指令执行纠正操作；

纠正单元，用于当所述判断单元判断对所述第一语音指令执行纠正操作时，则根据所述第二语音指令包含的语义信息纠正所述第一语音指令包含的语义信息。

可选的，所述装置还包括：

获取单元，用于在所述接收到用户发出的第一语音指令之前，获取所述用户对应的多条历史语音指令；

所述解析单元，还用于解析每条所述历史语音指令包含的语义信息和语调信息；

抽取单元，用于从所述获取单元获取到的多条所述历史语音指令中任意抽取相邻两条语音指令；

所述判断单元，用于根据所述抽取单元抽取的相邻两条语音指令分别对应的语义信息，判断所述相邻两条语音指令是否存在逻辑关联；

创建单元，用于当所述判断单元判断所述相邻两条语音指令是存在逻辑关联时，根据所述逻辑关联，创建标签，得到所述标签与所述逻辑关联之间的映射关系；

计算单元，用于计算所述抽取单元抽取的所述相邻两条语音指令分别对应的语调信息之间的差异信息，所述差异信息是在语音高低、语音快慢、语音长短和语音轻重四个维度上衡量语调变化信息；

标注单元，用于利用所述创建单元创建的标签标注所述差异信息，得到所述标签对应的语调变化信息。

可选的，所述装置还包括：

所述获取单元，还用于在所述得到所述标签对应的语调变化信息之后获取每个标签对应的语调变化信息；

比对单元，用于通过任意抽取两个所述标签，比对两个所述标签对应的语调变化信息之间的相似度；

整合单元，用于若所述比对单元比对的相似度达到第一预设阈值时，整合两个所述标签得到一个上位标签，所述上位标签对应两组语调变化信息。

可选的，所述装置还包括：

所述解析单元，还用于在所述得到所述标签对应的语调变化信息之后，解析每个标签的词语含义；

匹配单元，用于通过比较词语的相似性，将所述标签与预设标签模板上记载的标签进行匹配，所述预设标签模板用于规范所述标签；

替代单元，用于若所述匹配单元匹配成功，则利用所述预设标签模板上记载的标签替代所述标签；

处理单元，用于若经匹配操作之后存在多个相同的标签，则将所述多个相同的标签进行去重处理并保留一个标签，所述标签对应多组语调变化信息。

可选的，所述判断单元包括：

计算模块，用于在语音高低、语音快慢、语音长短和语音轻重四个维度上，分别计算所述第一语音指令和所述第二语音指令之间的差异信息；

所述计算模块，还用于通过将所述差异信息与标签对应的语调变化信息相比较，计算所述差异信息与所述标签对应的语调变化信息之间的相似度是否达到第二预设阈值；

确定模块，用于当所述计算模块计算所述差异信息与所述标签对应的语调变化信息之间的相似度达到第二预设阈值时，则通过查找标签与逻辑关联之间的映射关系，根据所述标签，确定所述第一语音指令和所述第二语音指令之间存在的逻辑关联；

判定模块，用于当所述确定模块确定所述第一语音指令和所述第二语音指令之间的逻辑关联是纠正关系时，判定对所述第一语音指令执行纠正操作。

可选的，所述装置还包括：

识别单元，用于在所述接收第二语音指令之后，识别所述第二语音指令是否是包含否定词的词语组合；

纠正单元，还用于当所述识别单元识别所述第二语音指令是包含否定词的词语组合时，则根据所述第二语音指令包含的语义信息纠正所述第一语音指令包含的语义信息；

所述判断单元，还用于当所述识别单元识别所述第二语音指令是包含否定词的词语组合时，则通过比较所述第二语音指令包含的语调信息和所述第一语音指令包含的语调信息，判断是否对所述第一语音指令执行纠正操作。

可选的，所述装置还包括：

记录单元，用于记录接收第二语音指令的***时间；

检测单元，用于检测所述***时间是否在所述第一语音指令对应的预设纠正时效内；

所述判断单元，还用于当所述检测单元检测所述***时间是在所述第一语音指令对应的预设纠正时效内，则通过比较所述第二语音指令包含的语调信息和所述第一语音指令包含的语调信息，判断是否对所述第一语音指令执行纠正操作；

执行单元，用当所述检测单元检测所述***时间不在所述第一语音指令对应的预设纠正时效内，则按照接收到语音指令的先后顺序，根据所述第一语音指令和所述第二语音指令分别执行控制操作。

可选的，所述装置还包括：

验证单元，用于在所述通过比较所述第二语音指令包含的语调信息和所述第一语音指令包含的语调信息之前，验证所述第二语音指令和所述第一语音指令分别包含的语义信息是否存在相关性；

比较单元，用于当所述验证单元验证所述第二语音指令和所述第一语音指令分别包含的语义信息是存在相关性时，则比较所述第二语音指令包含的语调信息和所述第一语音指令包含的语调信息。

可选的，所述装置还包括：

提示单元，用于当确定对所述第一语音指令执行纠正操作时，向用户输出提示信息，所述提示信息用于向用户征询确认是否执行所述第一语音指令对应的操作；

控制单元，用于若在预设时间内未接收到用户反馈的指示信息，则控制对所述第一语音指令执行纠正操作。

可选的，所述纠正单元包括：

忽略模块，用于忽略所述第一语音指令；

控制模块，用于控制执行所述第二语音指令对应的操作。

第三方面，本发明提供了一种存储介质，所述存储介质存储有多条指令，所述指令适用于由处理器加载并执行如第一方面所述的语音交互的纠错方法。

第四方面，本发明提供了一种电子设备，所述电子设备包括存储介质和处理器；

所述处理器，适于实现各指令；

所述存储介质，适于存储多条指令；

所述指令适于由所述处理器加载并执行如第一方面所述的语音交互的纠错方法。

借由上述技术方案，本发明提供的技术方案至少具有下列优点：

本发明提供的一种语音交互的纠错方法及装置，在本发明中，对于陆续接收到的相邻两条语音指令，通过比较这两条语音指令分别包含的语调信息得到语调变化信息，从而根据语调变化信息预判是否执行语音指令的自动纠错，从而确保输出的控制操作是符合用户真实意图的。相较于现有技术，解决了输出控制操作与用户真实意图不符合、需要反复核对纠正导致准确率低、用户体验差的问题，本发明提高了对语音指令识别的准确性，也提高了用户操作体验。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例提供的一种语音交互的纠错方法流程图；

图2为本发明实施例提供的另一种语音交互的纠错方法流程图；

图3为本发明实施例提供的一种语音交互的纠错装置的组成框图；

图4为本发明实施例提供的另一种语音交互的纠错装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种语音交互的纠错方法，如图1所示，该方法是对于陆续接收到的相邻两条语音指令，通过比较这两条语音指令分别包含的语调信息得到语调变化信息，从而根据语调变化信息预判是否执行语音指令的自动纠错，对此本发明实施例提供以下具体步骤：

101、当接收到用户发出的第一语音指令时，解析第一语音指令包含的语义信息和语调信息。

其中，“第一”是相对“第二”而言的，在本发明实施例中，是对陆续接收到的相邻两条语音指令进行处理，判断是否有需要执行语音指令的自动纠正，所以在相邻的两条语音指令中前者指令为“第一语音指令”，后者指令就为“第二语音指令”。对于本发明实施例，相邻的两条语音指令可以是连续接收到的语音指令，也可以是两条断开接收到的语音指令。

其中，语义信息是，在结合自动语音识别技术(Automatic Speech Recognition，ASR)将语音指令转换为文本数据之后，通过解析这个文本数据包含的词汇意义，就得到语音指令包含的语义信息，换言之，也就相当于是识别出用户操作意图。

其中，语调信息也就是说话的腔调，就是一句话里声调高低抑扬轻重的配制和变化，英语有五种基本语调：升调(↗)、降调(↙)、升降调(∧)、降升调(∨)以及平调(→)。构成语调的因素很复杂，在本发明实施例中，限定为主要四种因素(语音的高低、快慢、长短、轻重)。语调也是语气表达的决定性因素。对于本发明实施例，对于如何衡量语调高低、快慢、长短、轻重的具体实施方法，不做限定。

在本发明实施例中，语音指令包含语义信息和语调信息，语调信息就相当于是说话人用语调表达的态度和口气，综合考虑语义信息和语调信息，有助于准确地识别说话人的真实意图。

在本发明实施例中，用户与智能音箱可以进行语音对话，在语音对话的过程中，用户可以发起多条语音指令，智能音箱陆续接收到语音指令并控制实现多种操作，比如：播放音乐、播放切换、调节音效、连接wifi、下载操作、播报天气等等功能操作。

102、接收第二语音指令，解析第二语音指令包含的语义信息和语调信息，第二语音指令是与第一语音指令互为相邻的语音指令。

其中，“第二”是相对“第一”而言的，在本发明实施例中，是对陆续接收到的相邻两条语音指令进行处理，判断是否有需要执行语音指令的自动纠正，所以在相邻的两条语音指令中前者指令为“第一语音指令”，后者指令就为“第二语音指令”。

103、通过比较第二语音指令包含的语调信息和第一语音指令包含的语调信息，判断是否对第一语音指令执行纠正操作。

在本发明实施例中，智能音箱被成功唤醒之后，可以拾取说话人的声音，也就是接收语音指令，并结合ASR技术将其转化为文本数据并显示在屏幕上。

例如，陆续接收到相邻的两条语音指令，分别转换成文本数据为“小宝、小宝、播放周杰伦的歌”和“播放王菲的歌”。

对于以上两条语音指令，是两个不同的意图，比较这两条指令分别包含的语调信息，也就是从语音的高低、快慢、长短、轻重角度识别语调的波动变化。从大多数的用户对话看来，当一个用户意识到自己的语音指令有误时，就会在一条错误的语音指令后快速的补上一条新的语音指令，而在说出这条新的语音指令时，命令虽是经过思考的，用户会在说出这段新的语音命令时有意识地提高音调、加快或者加重所说的话，如此该错误的语音指令和新的语音指令分别包含的语调信息是存在差异的。

因此，在本发明实施例中，通过比较第二语音指令包含的语调信息和第一语音指令包含的语调信息，得到语调变化信息，目的是检测是否存在很大的语调波动变化，从而对于以上两个语音指令分别对应的操作意图，根据这个语调波动变化，就可以及时地预判是否存在对以上两个操作意图进行择一选择的必要性，也就相当于是纠正第一语音指令对应的操作意图。

例如，对于上述例举的两条语音指令，都是播放歌曲操作，但是对于智能音箱而言，在一个时刻，只能择一选择执行播放一个歌曲，而如果检测到两条语音指令之间是存在很大的语调波动变化的，从而预判用户的真实意图是“播放王菲的歌”(即：第二语音指令对应的操作)，而不是“播放周杰伦的歌”(即：第一语音指令对应的操作)。

在本发明实施例中，对于语调的识别操作要求是比较高的，可以利用历史语音指令来训练语调模型，从而达到在接收到一条语音指令时可以实时地从四个维度(语音的高低、快慢、长短、轻重)识别语音指令包含的语调信息，以便于进一步地比较相邻两条语音指令之间是否存在很大的语调波动变化。

104、若判断对第一语音指令执行纠正操作，则根据第二语音指令包含的语义信息纠正第一语音指令包含的语义信息。

在本发明实施例中，通过比较相邻的两条语音指令分别包含的语调信息，确定在这两条语音指令之间存在的语调波动是满足一定程度的，就可以预判需要对第一语音指令执行纠正操作，从而就根据第二语音操作指令的操作意图来纠正第一语音指令的操作意图。

在本发明实施例中，通过这个纠正操作，就可以预判用户的真实意图到底是第一语音指令还是第二语音指令，也就避免出现以下类似情形，比如：只是执行第一语音指令操作，忽略第二语音指令操作；或者，先执行第一语音指令操作，再执行第二语音指令操作。以上第一种情形，不符合用户真实意图；第二种情形，相当于是执行多次操作才能符合用户真实意图，对于以上两种情形，识别语音指令准确度都比较低，这将会降低用户体验。

本发明实施例提供的一种语音交互的纠错方法，在本发明实施例中，对于陆续接收到的相邻两条语音指令，通过比较这两条语音指令分别包含的语调信息得到语调变化信息，从而根据语调变化信息预判是否执行语音指令的自动纠错，从而确保输出的控制操作是符合用户真实意图的。相较于现有技术，解决了输出控制操作与用户真实意图不符合、需要反复核对纠正导致准确率低、用户体验差的问题，本发明实施例提高了对语音指令识别的准确率，也提高了用户操作体验。

为了对上述实施例做出更加详细的说明，本发明实施例还提供了另一种语音交互的纠错方法，如图2所示，该方法是对上述实施例提供的语音交互的纠错方法进行具体的进一步的细化和方法的补充，对此本发明实施例提供以下具体步骤：

201、获取用户对应的多条历史语音指令，解析每条历史语音指令包含的语义信息和语调信息。

在本发明实施例中，获取到的历史语音指令相当于是大量样本数据，对每条历史语音指令进行解析，得到每条历史语音指令包含的语义信息和语调信息，以便于利用这些大量样本数据，纵向分析用户在表达不同语义时结合使用的语调信息，也就是语调习惯、语调变化等等。

202、从多条历史语音指令中任意抽取相邻两条语音指令，根据相邻两条语音指令分别对应的语义信息，判断相邻两条语音指令是否存在逻辑关联，若存在，根据逻辑关联，创建标签，得到标签与逻辑关联之间的映射关系。

对于本发明实施例，在对大量的历史语音指令进行分析时，首先是从语义方面查找到存在逻辑关联的相邻两条语音指令，其次再从语调方面分析当存在这种逻辑关联时用户习惯使用的语调是如何波动变化的。

需要说明的是，在本发明实施例中，是从四个维度(语音的高低、快慢、长短、轻重)衡量语调变化信息的，具体的，在每个维度计算语调变化信息的实施方法，本发明实施例不做限定。

例如：当抽取的相邻两条语音指令为“帮我调明天12:00的闹钟”和“播放周杰伦的歌”，分析语音指令包含的语义信息可知，两条语音指令分别代表的用户意图是不存在逻辑关联的，也就没有必要进一步的分析两条语音指令之间存在的语调变化信息，所以就直接按照接收到语音指令的时间先后顺序执行这两条语音指令对应的操作即可。

但是，再例如：当抽取的相邻两条语音指令为“帮我调明天12:00的闹钟”和“不，还是调整为明天11:30的闹钟”，分析语音指令包含的语义信息可知，两条语音指令分别代表的用户意图虽然是不同的，但是是存在逻辑关联的。结合历史语音指令对应的历史实际操作可知，后者语音指令才是用户真实意图，所以这两条语音指令之间存在的逻辑关联就是纠正关系，即：用户的目的是利用后者语音指令纠正前者语音指令。对于本发明实施例，当判断相邻两条语音指令是存在逻辑关联的，就有必要进一步地分析两条语音指令之间存在的语调变化信息。

需要说明的是，在本发明实施例中，通过分析相邻两条历史语音指令，得到两条历史语音指令存在的逻辑关联包括但不仅限于是纠正关系，这需要结合具体的语义信息应用场景来判断，比如：存在的逻辑关联还可以是：或者关系，这表明用户在两条语音指令分别对应的操作意图之间犹豫。

例如，当抽取的相邻两条语音指令为“帮我调明天12:00的闹钟”和“调12:00的闹钟赶得及吗？”，用户发起的后者语音指令相当于是对前者语音指令发出了质疑，但是又不确定，所以此时用户真实意图是不清楚的。

在本发明实施例中，是根据逻辑关联来创建标签，得到标签与逻辑关联之间的映射关系，比如：对于存在“纠正关系”的逻辑关联，创建“祈使否定”的标签，为存在“或者关系”的逻辑关联，创建“疑问犹豫”的标签。具体的，创建标签的内容，可以根据使用习惯而自定义完成。

203、计算相邻两条语音指令分别对应的语调信息之间的差异信息，差异信息是在语音高低、语音快慢、语音长短和语音轻重四个维度上衡量语调变化信息，利用标签标注差异信息，得到标签对应的语调变化信息。

在本发明实施例中，当判断相邻两条语音指令是存在逻辑关联之后，就进一步地分析在这种逻辑关联下存在的语调波动变化，也就是相邻两条语音指令分别对应的语调信息之间的差异信息。具体的，是在语音高低、语音快慢、语音长短和语音轻重四个维度上衡量语调变化信息。例如，可以结合自然语言处理(natural language processing，NLP)预先训练语调模型，从而对历史语音指令从四个维度(语音的高低、快慢、长短、轻重)识别语音指令包含的语调信息，以便于进一步地比较相邻两条语音指令之间是否存在很大的语调波动变化。

在计算得到逻辑关联下对应的语调变化信息之后，也就可以根据标签与逻辑关联之间的映射关系，进一步的，得到标签与语调变化信息之间的对应关系，作用是：在对实时接收到的语音指令进行处理过程中，当计算分析实时接收到的相邻两条语音指令存在的语调变化信息，通过参考预先建立的标签与语调变化信息之间的对应关系，获知实时得到语调变化信息对应的标签是什么，从而有助于对用户真实意图的预判。

进一步的，在本发明实施例中，在得到标签对应的语调变化信息之后，还可以对标签进行规范，具体的方法可以如下：

一种方法是：获取每个标签对应的语调变化信息，通过任意抽取两个标签，比对两个标签对应的语调变化信息之间的相似度，若相似度达到第一预设阈值时，整合两个标签得到一个上位标签，上位标签对应两组语调变化信息。从而从语调波动变化层面，将相似波动变化对应的标签进行整合，以缩减标签的数量，避免存在过多冗余、杂乱的标签，实现利用一个上位标签就可以标注多种相似的语调波动变化。

另一种方法是：解析每个标签的词语含义，通过比较词语的相似性，将标签与预设标签模板上记载的标签进行匹配，预设标签模板用于规范标签，若匹配成功，则利用预设标签模板上记载的标签替代所述标签，若经匹配操作之后存在多个相同的标签，则将多个相同的标签进行去重处理并保留一个标签，标签对应多组语调变化信息。从而从标签的词语含义层面，获取相似词语含义的标签，利用预设标签模板对相似词语含义的标签进行规范统一，然后再去重处理，最终得到同一个标签对应多组语调变化信息，相应的，这多组语调变化信息也就是相似度比较高的。对于该种方法，是以从词语含义层面替代从语调波动变化层面实现对标签的规范操作，简化计算过程，节省计算成本。

204、当接收到用户发出的第一语音指令时，解析第一语音指令包含的语义信息和语调信息。

205、接收第二语音指令，解析第二语音指令包含的语义信息和语调信息，第二语音指令是与第一语音指令互为相邻的语音指令。

以上步骤204-205，对于接收到的第一语音指令和第二语音指令，可以是连续的两条语音指令，也可以是断开的两条语音指令，但是应该确保接收到这两条语音指令的相隔时间是在预设纠正时效内，比如，如果相邻的两条语音指令相隔时间很长，很大概率表明两条语音指令对应的操作意图是完全不相关的，也就不存在执行纠正的必要了。具体的，优先判断是否在预设纠正时效内的具体步骤，可以为：

首先，记录接收第二语音指令的***时间，

其次，检测***时间是否在第一语音指令对应的预设纠正时效内，若在第一语音指令对应的预设纠正时效内，则通过比较第二语音指令包含的语调信息和第一语音指令包含的语调信息，判断是否对第一语音指令执行纠正操作。

但是，若不在第一语音指令对应的预设纠正时效内，则按照接收到语音指令的先后顺序，根据第一语音指令和第二语音指令分别执行控制操作。

206、识别第二语音指令是否是包含否定词的词语组合。

在本发明实施例中，在接收到相邻两条语音指令之后，可以预先识别识别第二语音指令是否是包含否定词的词语组合，如果是，那么就可以简化纠正语音指令的操作步骤，从而提高纠正效率。

例如：相邻两条语音指令为“播放周杰伦的歌”和“不对不对”，当识别第二语音指令是类似这样包含否定词的词语组合时，就可以直接判定：相邻两条语音指令分别对应的操作意图是不同的，且后者是用户真实意图，用于纠正前者语音指令。因此，对于这样相邻两条语音指令，智能音箱不执行任何控制操作，也就相当于是不执行第一语音指令对应的操作。

207a、若识别第二语音指令是包含否定词的词语组合，则根据第二语音指令包含的语义信息纠正第一语音指令包含的语义信息。

在本发明实施例中，若识别第二语音指令是包含否定词的词语组合，就可以简化纠正操作的步骤，也就是不执行第一语音指令，而之后如果接收到第三语音指令，就直接执行第三语音指令对应的操作，提高纠正效率，也不必再执行步骤207b-208b了，节省处理成本。

207b、若识别第二语音指令不是包含否定词的词语组合，则通过比较第二语音指令包含的语调信息和第一语音指令包含的语调信息，判断是否对第一语音指令执行纠正操作。

需要说明的是，在比较第二语音指令包含的语调信息和第一语音指令包含的语调信息是否存在语调波动变化之前，还可以预先验证下第二语音指令和第一语音指令分别包含的语义信息是否存在相关性，如果不存在相关性，就没有必要执行后续判断是否需要纠正语音指令的操作了。

例如：相邻两条语音指令为“帮我调明天12:00的闹钟”和“播放周杰伦的歌”，分析语音指令包含的语义信息可知，两条语音指令分别代表的用户意图是完全不相关的，如果都被执行也是符合用户真实意图的。

但是，若存在相关性，通过比较第二语音指令包含的语调信息和第一语音指令包含的语调信息以判断是否对第一语音指令执行纠正操作，具体步骤可以如下：

第一步，在语音高低、语音快慢、语音长短和语音轻重四个维度上，分别计算第一语音指令和第二语音指令之间的差异信息。

其中，差异信息就是在语音高低、语音快慢、语音长短和语音轻重四个维度上衡量语调变化信息。具体的计算方法，本发明实施例不做限定。

第二步，通过将差异信息与标签对应的语调变化信息相比较，计算差异信息与标签对应的语调变化信息之间的相似度是否达到第二预设阈值。

其中，标签对应的语调变化信息，是语调波动变化的样本信息，标签与这个语调波动变化的样本信息之间的对应关系，是根据预先对历史语音指令进行的纵向分析而得到的，参见步骤203，此处不再赘述。

在本发明实施例中，相当于是：将实时计算接收到相邻两条语音指令之间的语调变化信息与语调波动变化的样本信息进行比较，若存在相似度达到阈值，则就可以利用这个标签也标注这个实时计算得到的语音变化信息。

第三步，若是，则通过查找标签与逻辑关联之间的映射关系，根据标签，确定第一语音指令和第二语音指令之间存在的逻辑关联。

其中，标签是根据语音指令之间存在的逻辑关联而创建的，见步骤203，在对历史语音指令样本进行分析的过程中，预先建立标签与逻辑关联之间的映射关系。

在本发明实施例中，就是运用这个映射关系，在确定实时计算得到的语音变化信息对应的标签之后，通过查找预先建立的标签与逻辑关联之间的映射关系，就可以获知标签对应的逻辑关联是什么。

第四步，当确定第一语音指令和第二语音指令之间的逻辑关联是纠正关系时，判定对第一语音指令执行纠正操作。

例如，对于实时接收到相邻两条语音指令，“小宝、小宝、播放周杰伦的歌”和“播放王菲的歌”，当确定后者与前者是存在纠正关系的，就判定对第一语音指令执行纠正操作，得到用户真实意图是执行“播放王菲的歌”操作。

208b、若判断对第一语音指令执行纠正操作，则根据第二语音指令包含的语义信息纠正第一语音指令包含的语义信息。

在本发明实施例中，执行纠正操作的具体步骤可以是：忽略第一语音指令，控制执行第二语音指令对应的操作。

进一步的，当确定对第一语音指令执行纠正操作时，还可以向用户输出提示信息，该提示信息用于向用户征询确认是否执行第一语音指令对应的操作，增加这个确认步骤，是增加与用户之间的互动。若在预设时间内未接收到用户反馈的指示信息，避免对用户操作造成干扰，可以直接控制对第一语音指令执行纠正操作。

进一步的，作为对上述图1、图2所示方法的实现，本发明实施例提供了一种语音交互的纠错装置。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置应用于在处理输入的语音指令过程中自动地对接收到的语音指令进行纠错，具体如图3所示，该装置包括：

解析单元301，用于当接收到用户发出的第一语音指令时，解析所述第一语音指令包含的语义信息和语调信息；

接收单元302，用于接收第二语音指令；

所述解析单301，还用于解析所述第二语音指令包含的语义信息和语调信息，所述第二语音指令是与所述第一语音指令互为相邻的语音指令；

判断单元303，用于通过比较所述解析单元301解析得到的第二语音指令包含的语调信息和所述解析单元301解析得到的第一语音指令包含的语调信息，判断是否对所述第一语音指令执行纠正操作；

纠正单元304，用于当所述判断单元303判断对所述第一语音指令执行纠正操作时，则根据所述第二语音指令包含的语义信息纠正所述第一语音指令包含的语义信息。

进一步的，如图4所示，所述装置还包括：

获取单元305，用于在所述接收到用户发出的第一语音指令之前，获取所述用户对应的多条历史语音指令；

所述解析单元301，还用于解析每条所述历史语音指令包含的语义信息和语调信息；

抽取单元306，用于从所述获取单元305获取到的多条所述历史语音指令中任意抽取相邻两条语音指令；

所述判断单元303，用于根据所述抽取单元306抽取的相邻两条语音指令分别对应的语义信息，判断所述相邻两条语音指令是否存在逻辑关联；

创建单元307，用于当所述判断单元303判断所述相邻两条语音指令是存在逻辑关联时，根据所述逻辑关联，创建标签，得到所述标签与所述逻辑关联之间的映射关系；

计算单元308，用于计算所述抽取单元306抽取的所述相邻两条语音指令分别对应的语调信息之间的差异信息，所述差异信息是在语音高低、语音快慢、语音长短和语音轻重四个维度上衡量语调变化信息；

标注单元309，用于利用所述创建单元307创建的标签标注所述差异信息，得到所述标签对应的语调变化信息。

进一步的，如图4所示，所述装置还包括：

所述获取单元305，还用于在所述得到所述标签对应的语调变化信息之后获取每个标签对应的语调变化信息；

比对单元310，用于通过任意抽取两个所述标签，比对两个所述标签对应的语调变化信息之间的相似度；

整合单元311，用于若所述比对单元310比对的相似度达到第一预设阈值时，整合两个所述标签得到一个上位标签，所述上位标签对应两组语调变化信息。

进一步的，如图4所示，所述装置还包括：

所述解析单元301，还用于在所述得到所述标签对应的语调变化信息之后，解析每个标签的词语含义；

匹配单元312，用于通过比较词语的相似性，将所述标签与预设标签模板上记载的标签进行匹配，所述预设标签模板用于规范所述标签；

替代单元313，用于若所述匹配单元312匹配成功，则利用所述预设标签模板上记载的标签替代所述标签；

处理单元314，用于若经匹配操作之后存在多个相同的标签，则将所述多个相同的标签进行去重处理并保留一个标签，所述标签对应多组语调变化信息。

进一步的，如图4所示，所述判断单元303包括：

计算模块3031，用于在语音高低、语音快慢、语音长短和语音轻重四个维度上，分别计算所述第一语音指令和所述第二语音指令之间的差异信息；

所述计算模块3031，还用于通过将所述差异信息与标签对应的语调变化信息相比较，计算所述差异信息与所述标签对应的语调变化信息之间的相似度是否达到第二预设阈值；

确定模块3032，用于当所述计算模块3031计算所述差异信息与所述标签对应的语调变化信息之间的相似度达到第二预设阈值时，则通过查找标签与逻辑关联之间的映射关系，根据所述标签，确定所述第一语音指令和所述第二语音指令之间存在的逻辑关联；

判定模块3033，用于当所述确定模块确定所述第一语音指令和所述第二语音指令之间的逻辑关联是纠正关系时，判定对所述第一语音指令执行纠正操作。

进一步的，如图4所示，所述装置还包括：

识别单元315，用于在所述接收第二语音指令之后，识别所述第二语音指令是否是包含否定词的词语组合；

所述纠正单元304，还用于当所述识别单元315识别所述第二语音指令是包含否定词的词语组合时，则根据所述第二语音指令包含的语义信息纠正所述第一语音指令包含的语义信息；

所述判断单元303，用于当所述识别单元315识别所述第二语音指令是包含否定词的词语组合时，则通过比较所述第二语音指令包含的语调信息和所述第一语音指令包含的语调信息，判断是否对所述第一语音指令执行纠正操作。

进一步的，如图4所示，所述装置还包括：

记录单元316，用于记录接收第二语音指令的***时间；

检测单元317，用于检测所述***时间是否在所述第一语音指令对应的预设纠正时效内；

所述判断单元303，还用于当所述检测单元317检测所述***时间是在所述第一语音指令对应的预设纠正时效内，则通过比较所述第二语音指令包含的语调信息和所述第一语音指令包含的语调信息，判断是否对所述第一语音指令执行纠正操作；

执行单元318，用当所述检测单元317检测所述***时间不在所述第一语音指令对应的预设纠正时效内，则按照接收到语音指令的先后顺序，根据所述第一语音指令和所述第二语音指令分别执行控制操作。

进一步的，如图4所示，所述装置还包括：

验证单元319，用于在所述通过比较所述第二语音指令包含的语调信息和所述第一语音指令包含的语调信息之前，验证所述第二语音指令和所述第一语音指令分别包含的语义信息是否存在相关性；

比较单元320，用于当所述验证单元319验证所述第二语音指令和所述第一语音指令分别包含的语义信息是存在相关性时，则比较所述第二语音指令包含的语调信息和所述第一语音指令包含的语调信息。

进一步的，如图4所示，所述装置还包括：

提示单元321，用于当确定对所述第一语音指令执行纠正操作时，向用户输出提示信息，所述提示信息用于向用户征询确认是否执行所述第一语音指令对应的操作；

控制单元322，用于若在预设时间内未接收到用户反馈的指示信息，则控制对所述第一语音指令执行纠正操作。

进一步的，如图4所示，所述纠正单元304包括：

忽略模块3041，用于忽略所述第一语音指令；

控制模块3042，用于控制执行所述第二语音指令对应的操作。

进一步的，依据上述方法实施例，本发明的另一个实施例还提供了一种存储介质，所述存储介质存储有多条指令，所述指令适用于由处理器加载并执行如上所述的语音交互的纠错方法。

本发明实施例提供的语音交互的纠错的存储介质中的指令，对于陆续接收到的相邻两条语音指令，通过比较这两条语音指令分别包含的语调信息得到语调变化信息，从而根据语调变化信息预判是否执行语音指令的自动纠错，从而确保输出的控制操作是符合用户真实意图的，本发明实施例提高了对语音指令识别的准确性，也提高了用户操作体验。

进一步的，依据上述方法实施例，本发明的另一个实施例还提供了一种电子设备，所述电子设备包括存储介质和处理器；

所述处理器，适于实现各指令；

所述存储介质，适于存储多条指令；

所述指令适于由所述处理器加载并执行如上所述的语音交互的纠错方法。

本发明实施例提供的语音交互的纠错的电子设备，对于陆续接收到的相邻两条语音指令，通过比较这两条语音指令分别包含的语调信息得到语调变化信息，从而根据语调变化信息预判是否执行语音指令的自动纠错，从而确保输出的控制操作是符合用户真实意图的，本发明实施例提高了对语音指令识别的准确性，也提高了用户操作体验。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求防护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求防护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的工作量证明方法及装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种语音交互的纠错方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述接收到用户发出的第一语音指令之前，所述方法还包括：

获取所述用户对应的多条历史语音指令；

解析每条所述历史语音指令包含的语义信息和语调信息；

从多条所述历史语音指令中任意抽取相邻两条语音指令；

3.根据权利要求2所述的方法，其特征在于，在所述得到所述标签对应的语调变化信息之后，所述方法还包括：

获取每个标签对应的语调变化信息；

4.根据权利要求2所述的方法，其特征在于，在所述得到所述标签对应的语调变化信息之后，所述方法还包括：

解析每个标签的词语含义；

5.根据权利要求2-4中任一项所述的方法，其特征在于，所述通过比较所述第二语音指令包含的语调信息和所述第一语音指令包含的语调信息，判断是否对所述第一语音指令执行纠正操作，包括：

6.根据权利要求1所述的方法，其特征在于，在所述接收第二语音指令之后，所述方法还包括：

识别所述第二语音指令是否是包含否定词的词语组合；

7.一种语音交互的纠错装置，其特征在于，所述装置包括：

接收单元，用于接收第二语音指令；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适用于由处理器加载并执行如权利要求1-6中任一项所述的语音交互的纠错方法。

10.一种电子设备，其特征在于，所述电子设备包括存储介质和处理器；

所述处理器，适于实现各指令；所述存储介质，适于存储多条指令；

所述指令适于由所述处理器加载并执行如权利要求1-6中任一项所述的语音交互的纠错方法。