CN107665708B

CN107665708B - 智能语音交互方法及***

Info

Publication number: CN107665708B
Application number: CN201610615976.9A
Authority: CN
Inventors: 陈凌辉; 吴奎; 黄鑫; 陈志刚; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2016-07-29
Filing date: 2016-07-29
Publication date: 2021-06-08
Anticipated expiration: 2036-07-29
Also published as: CN107665708A

Abstract

本发明公开了一种智能语音交互方法及***，该方法包括：接收语音数据；对所述语音数据进行语音识别，得到语音识别结果；根据预先构建的基于语义层面的拒识判断模型对所述语音识别结果进行拒识判断，得到模型输出结果；根据所述模型输出结果确定所述语音数据是否为人机交互语音数据；如果是，则对所述语音识别结果进行语义理解，根据语义理解结果生成交互结果，所述交互结果包括响应文本。利用本发明，可减少噪声语音数据对人机交互的影响，降低人机交互***的误响应。

Description

智能语音交互方法及***

技术领域

本发明涉及语音信号处理、人机交互领域，具体涉及一种智能语音交互方法及***。

背景技术

近年来，随着人工智能技术的迅猛发展，语音识别、语义理解、语音合成等技术也随之进入了实用水平。人们越来越来渴望可以自然便捷地与机器进行交流，从传统的一问一答的语音交互***到目前较流行的多轮问答的语音交互***，人机交互越来越接近人人交互，在用户体验上有了很大的提升。然而由于实际的交互环境复杂多变，经常会有各种噪声语音的输入，引起交互***的误响应。为了防止这种情况的出现，现有交互***一般采用唤醒词机制，即在接收语音数据后，先进行唤醒词识别，识别到唤醒词后，机器被唤醒，然后再进行后续交互。

然而，由于在实际语音交互时，交互环境经常是复杂多变的，现有***并不能防止交互过程中噪声的输入；在语音交互过程中，机器接收的语音数据经常会存在噪声，如背景噪声、机器自身的播报声、非交互语音(如人人交谈的语音)等，都会对交互过程产生影响，干扰交互***，导致机器的误响应，尤其是人人交谈的语音，现有***无法判断当前人人交谈的语音数据是否是人机交互语音数据，从而在很大程度上引起机器的误响应，增加了***负载，降低了用户体验。

发明内容

本发明提供一种智能语音交互方法及***，以减少噪声语音数据对人机交互的影响，降低人机交互***的误响应。

为此，本发明提供如下技术方案：

一种智能语音交互方法，包括：

接收语音数据；

对所述语音数据进行语音识别，得到语音识别结果；

根据预先构建的基于语义层面的拒识判断模型对所述语音识别结果进行拒识判断，得到模型输出结果；

根据所述模型输出结果确定所述语音数据是否为人机交互语音数据；

如果是，则对所述语音识别结果进行语义理解，根据语义理解结果生成交互结果，所述交互结果包括响应文本。

优选地，所述方法还包括：按以下方式构建拒识判断模型：

确定拒识判断模型拓扑结构；

收集大量人机交互语音数据及其对应的语音识别文本；

对所述语音识别文本中用户提问或回答语句文本进行分词，并以单轮回答或提问为单位，获取分词词串；

提取所述分词词串中各词的语义特征，并标注拒识判断结果；

基于所述人机交互语音数据及其标注信息和分词词串中各词的语义特征，训练得到拒识判断模型。

优选地，所述模型拓扑结构采用RNN模型，包括输入层、中间隐层和输出层；

所述输入层的输入包括：语音识别文本包含每个词的语义特征；

所述输出层的输出包括：拒识判断结果。

优选地，所述输入层的输入还包括：语音识别文本的对话历史状态特征，所述对话历史状态特征包括：上一轮交互的响应文本信息，及上一轮交互语音识别文本对信息槽的填充情况。

优选地，所述语义特征包括以下任意一项或多项：词向量、词置信度、词时长、词TF-IDF得分、词有效语音得分均值。

优选地，所述根据预先构建的基于语义层面的拒识判断模型对当前语音识别结果进行拒识判断，得到模型输出结果包括：

获取所述语音识别结果包含每个词的语义特征及所述语音识别结果的对话历史状态特征；

将所述语音识别结果包含每个词的语义特征及所述语音识别结果的对话历史状态特征输入所述拒识判断模型，得到模型输出的拒识判断结果。

优选地，所述方法还包括：

在对所述语音数据进行语音识别之前，对所述语音数据进行唤醒词检测；

如果检测到唤醒词，则执行对所述语音数据进行语音识别的步骤；

如果未检测到唤醒词，则判断接收的语音数据与上次用户交互的时间间隔是否超过预设时间；

如果否，则执行对所述语音数据进行语音识别的步骤。

优选地，所述方法还包括：

在对所述语音数据进行唤醒词检测之前，获取用户当前状态；

如果用户当前状态满足第一预设条件，则执行对所述语音数据进行唤醒词检测的步骤。

优选地，所述方法还包括：

在对所述语音数据进行语音识别之前，获取用户当前状态；

如果用户当前状态满足第二预设条件，则执行对所述语音数据进行语音识别的步骤。

一种智能语音交互***，包括：

接收模块，用于接收语音数据；

语音识别模块，用于对所述语音数据进行语音识别，得到语音识别结果；

语义层拒识判断模块，用于根据预先构建的基于语义层面的拒识判断模型对所述语音识别结果进行拒识判断，得到模型输出结果；

确定模块，用于根据所述模型输出结果确定所述语音数据是否为人机交互语音数据；如果是，则触发语义理解模块对当前语音识别结果进行语义理解；

所述语义理解模块，用于对当前语音识别结果进行语义理解；

响应模块，用于根据所述语义理解模块得到的语义理解结果生成交互结果，所述交互结果包括响应文本。

优选地，所述***还包括：模型构建模块，用于构建拒识判断模型：所述模型构建模块包括：

拓扑结构确定单元，用于确定拒识判断模型拓扑结构；

训练数据收集单元，用于收集大量人机交互语音数据及其对应的语音识别文本；

分词单元，用于对所述语音识别文本中用户提问或回答语句文本进行分词，并以单轮回答或提问为单位，获取分词词串；

语义特征提取单元，用于提取所述分词词串中各词的语义特征；

标注单元，用于标注拒识判断结果；

训练单元，用于基于所述人机交互语音数据及其标注信息和各词的语义特征，训练得到拒识判断模型。

所述输入层的输入包括：当前语音识别结果包含每个词的语义特征；

所述输出层的输出包括：拒识判断结果。

优选地，所述输入层的输入还包括：所述语音识别结果的对话历史状态特征，所述对话历史状态特征包括：上一轮交互的响应文本信息，及上一轮交互语音识别文本对信息槽的填充情况。

优选地，所述语义层拒识判断模块包括：

信息获取单元，用于获取所述语音识别结果包含每个词的语义特征及所述语音识别结果的对话历史状态特征；

判断单元，用于将所述语音识别结果包含每个词的语义特征及所述语音识别结果的对话历史状态特征输入所述拒识判断模型，得到模型输出的拒识判断结果。

优选地，所述***还包括：

交互逻辑检测模块，用于从交互逻辑层面对所述语音数据进行拒识检测；所述交互逻辑检测模块包括：

唤醒词检测单元，用于对所述语音数据进行唤醒词检测；如果检测到唤醒词，则触发所述语音识别模块对所述语音数据进行语音识别；如果未检测到唤醒词，则触发超时检测单元；

所述超时检测单元，用于检测所述接收模块接收的语音数据与上次用户交互的时间间隔是否超过预设时间；如果否，则触发所述语音识别模块对所述语音数据进行语音识别。

优选地，所述***还包括：

用户状态检测模块，用于在所述交互逻辑模块对所述语音数据进行拒识检测之前，获取用户当前状态；并在用户当前状态满足第一预设条件时，触发所述交互逻辑检测模块工作。

优选地，所述用户状态检测模块，还用于在所述语音识别模块对所述语音数据进行语音识别之前，获取用户当前状态；并在用户当前状态满足第二预设条件时，触发所述语音识别模块工作。

本发明实施例提供的智能语音交互方法及***，从语义层面对接收的语音数据进行拒识判断，具体地，对接收的语音数据进行语音识别，然后根据预先构建的基于语义层面的拒识判断模型对当前语音识别结果进行拒识判断，从而有效地确定所述语音数据是否为人机交互语音数据。如果是人机交互语音数据，才会进一步对其进行语义理解，进而生成交互结果。本发明实施例提供的方案有效地减少了噪声语音数据对人机交互的影响，降低了人机交互***的误响应。

另外，本发明实施例的方案还可结合其它不同层面对接收的语音数据进行拒识判断，比如，从交互逻辑上、以及用户当前状态，不仅进一步提高了判断结果的准确性，而且，提高了人机交互效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例中基于语义层面的拒识判断模型的构建流程图；

图2是本发明实施例中拒识判断模型的一种结构示意图；

图3是本发明实施例智能语音交互方法的一种流程图；

图4是本发明实施例智能语音交互方法的另一种流程图；

图5是本发明实施例智能语音交互***的一种结构示意图；

图6是本发明实施例中模型构建模块的结构示意图；

图7是本发明实施例智能语音交互***的另一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

本发明实施例提供的智能语音交互方法及***，从语义层面对接收的语音数据进行拒识判断，具体地，对接收的语音数据进行语音识别，然后根据预先构建的基于语义层面的拒识判断模型对当前语音识别结果进行拒识判断，从而有效地确定所述语音数据是否为人机交互语音数据。

下面首先对所述拒识判断模型及其构建过程进行详细说明。

如图1所示，是本发明实施例中基于语义层面的拒识判断模型的构建流程图，包括以下步骤：

步骤101，确定拒识判断模型拓扑结构。

在本发明实施例中，所述拒识判断模型拓扑结构采用神经网络，比如RNN(Recurrent Neural Networks，循环神经网络)，如图2所示，包括输入层、中间隐层和输出层。其中：输入层的输入包括：语音识别文本包含每个词的语义特征，还可进一步包括：语音识别文本的对话历史状态特征，所述对话历史状态特征包括：上一轮交互的响应文本信息，及所述识别文本对信息槽的填充情况。

下面对本发明实施例中的拒识判断模型各层进行详细说明。

1.输入层包括：

(1)语音识别文本包含每个词的语义特征，所述语义特征包括以下任意一项或多项：词向量、词置信度、词时长、词TF-IDF(Term Frequency–Inverse Document Frequency)得分、词有效语音得分均值，各特征的详细说明如下：

词向量，具体可以使用word2vect方法提取，具体提取过程与现有技术相同，在此不再详述；

词置信度，可以直接根据语音识别时的解码结果得到；

词时长，是指每个词对应语音数据的时长，可以根据每个词对应语音数据的时间长度得到，一般使用帧数表示；

词TF-IDF得分，其中，TF为当前词在句子中出现的频率，IDF为逆向文档频率，具体计算方法为出现当前词的文档数与语料库中总文档数比值的对数，即：

其中，N_w为出现当前词的文档数，N为语料库总文档数；

词有效语音得分均值，是指当前词对应的每帧语音数据是有效语音的得分的平均值，每帧语音数据是有效语音数据的得分可以通过语音识别时的有效语音检测VAD(VoiceActivity Detection)模型得到。

(2)对话历史状态特征，具体包括：上一轮交互的响应文本信息，及上一轮交互语音识别文本对信息槽的填充情况。其中：

所述上一轮交互的响应信息是指针对上一轮人机交互语音，进行语义理解后，***产生的响应文本信息。

所述信息槽表示业务当前所包含的信息单元，如当前业务为订火车票业务，当前业务所包含的信息单元为出发地、目的地、出发时间、座次。

信息槽填充情况，可以用一个二值向量s(t-1)表示，其维数为所有信息槽的个数，作为对话历史的表示。比如对于订火车票业务，涉及的信息单元包括出发地、目的地、出发时间、座次，因此信息槽的填充情况可以用一个大小为4的一维二值向量进行表示，1表示对应的信息单元的值已经确定，0表示没有确定。语音交互刚开启时，所有的信息槽中向量的值均为0。比如，对于用户语音输入的“我想订一张票”，此时不涉及到相关业务下的任何信息槽，所有信息槽都为0；对于后续的交互，如果用户需要订火车票业务，用户语音输入“从北京到合肥”，则在语义理解后，订火车票业务下的“出发城市”和“目的城市”的信息槽为1，其余依旧为0。

需要说明的是，信息槽向量由两部分构成：业务共享的信息槽和业务独有的信息槽。如火车和航班查询业务，出发城市、目的城市、出发时间这些信息槽是可以共享的，但火车查询业务和航班查询业务都还有各自独立的信息槽，如火车查询业务有车次信息槽，航班查询业务有航空公司信息槽。

另外，需要说明的是，在一次交互中(包括一次单轮交互和一次多轮交互)，只要业务类型未发生改变，信息槽的内容就不需要重置，而如果业务类型发生了改变：一种是一级业务类型未变，只是二级业务类型发生了改变，此时，公共信息槽信息保留，而二级业务独有的信息槽信息进行清空；另一种是一级业务类型发生了改变，那么依据前面语音内容填充的信息槽信息都清空。

在实际应用中，上述对话历史状态特征为可选项，也就是说，在拒识判断模型训练时，可以综合该特征来训练，也可以不考虑该特征。

2.中间隐层h(t)：该向量一般为512-2048维，比如可以取为1024维。

在图2所示RNN网络中，隐层节点之间存在连接，一个词对应隐层节点的输入信息包含当前词的语义特征及前一个词隐层的输出特征(第一个词除外)。

3.输出层包括：拒识判断结果p(t)。

所述拒识判断结果p(t)可以是一个大小为1的一维二值向量，其中一个值(比如1)表示所述语音识别文本对应的语音数据为人机交互语音，而另一个值(比如0)则表示所述语音识别文本对应的语音数据为非人机交互语音；拒识判断结果p(t)还可以是所述语音数据是人机交互语音的得分，如果该得分大于设定阈值，则表明所述语音数据是人机交互语音，否则不是人机交互语音。

需要说明的是，在实际应用中，所述对话历史状态特征中的上一轮交互语音识别文本对信息槽的填充情况可以由文法匹配的方法得到，如“帮我订一张火车票，从合肥到北京”，通过文法“帮我订张train_ticket，从from-city到to-city”，对语音数据的识别结果进行匹配后，可以得到业务类型为订火车票业务，出发城市和目的城市分别为合肥和北京，相应的出发地和目的地信息槽被填充；所述上一轮交互语音识别文本对信息槽的填充情况也可以由拒识判断模型的输出得到，即在拒识判断模型的输出层的输出中增加以下信息：信息槽填充情况s(t)。

步骤102，收集大量人机交互语音数据及其对应的语音识别文本。

步骤103，对所述语音识别文本中用户提问或回答语句文本进行分词，并以单轮回答或提问为单位，获取分词词串。

步骤104，提取所述分词词串中各词的语义特征，并标注拒识判断结果。

步骤105，基于所述人机交互语音数据及其标注信息和各词的语义特征，训练得到拒识判断模型。

前面提到，拒识判断模型的输入还可进一步包括：对话历史状态特征。相应地，在上述步骤104中，还需要获取对话历史状态特征，而且，所述对话历史状态特征中的上一轮交互识别文本对信息槽的填充情况可以通过文法匹配方法得到，也可以根据拒识判断模型的输出得到，对此本发明实施例不做限定。

本发明实施例中，如图2所示，图中w₁,w₂,w₃,w₄,...w_eos表示当前语音识别文本中的各词。拒识判断模型训练时，直接输入当前语音识别文本包含的每个词的语义特征，及当前语音识别文本的对话历史状态特征，先根据当前语音识别文本包含的每个词的语义特征得到当前语音识别文本的语义特征，然后再将所述语音识别文本的语义特征与当前语音识别文本的对话历史状态特征一起作为输出层的输入，从输出层得到拒识结果。当前语音识别文本的语义特征为当前语音识别文本包含的最后一个词的隐层的输出。

基于上述拒识判断模型，本发明实施例提供的智能语音交互方法的一种流程如图3所示，包括以下步骤：

步骤301，接收语音数据。

步骤302，对所述语音数据进行语音识别，得到语音识别结果。

步骤303，根据预先构建的基于语义层面的拒识判断模型对所述语音识别结果进行拒识判断，得到模型输出结果。

具体地，获取所述语音识别结果中包含每个词的语义特征，将其输入所述拒识判断模型，得到模型输出的拒识判断结果p(t)。

需要说明的是，如果拒识判断模型的输入还包括：对话历史状态特征，则在上述步骤303中，还需要获取上一轮交互的响应文本信息、以及上一轮交互语音识别文本对信息槽的填充情况。

步骤304，根据所述模型输出结果确定所述语音数据是否为人机交互语音数据；如果是，则执行步骤305；否则，拒识所述语音数据。

步骤305，对所述语音识别结果进行语义理解。

步骤306，根据语义理解结果生成交互结果，所述交互结果包括响应文本。

针对不同的业务，所述交互结果可以仅包括响应文本，也可以同时包括响应文本及相应操作，对此本发明实施例不做限定。如果是响应文本，可以通过语音播报的方式将所述响应文本反馈给用户；如果是一个具体操作，可以将该操作的结果呈现给用户。如用户想听刘德华的忘情水，***搜索到后提示“正在为您播放刘德华的忘情水”，然后开始播放，如果没有搜索到，则提示“没有找到刘德华的忘情水这首歌”。另外，需要说明的是，与不同操作对应的响应文本可以不同，也可以相同，比如通过一个特定向量表示***执行了交互语音指示的操作。

在生成响应文本时，可以首先根据业务分类信息，获得得分最高的业务，作为用户的真实意图，然后查找该业务对应的信息槽填充情况；如果该业务对应的信息槽均已填充，则生成应答文本，比如对于查询操作，执行相应的操作获得查询结果，根据该查询结果生成应答文本；否则，根据该业务对应的未填充的信息槽，生成提问文本，通过语音播报的方式反馈给用户，要求用户补充信息，直到这些信息槽被填满，完成完整的交互。

另外，如果接收到的是***应该拒识的语音，也就是说，根据模型输出结果确定所述语音数据不是人机交互语音数据的情况下，***不会给予任何反馈。

本发明实施例提供的智能语音交互方法，从语义层面对接收的语音数据进行拒识判断，从而有效地确定所述语音数据是否为人机交互语音数据。如果是人机交互语音数据，才会进一步对其进行语义理解，进而生成交互结果。本发明实施例提供的方案有效地减少了噪声语音数据对人机交互的影响，降低了人机交互***的误响应。

进一步地，本发明实施例的方法还可结合其它不同层面对接收的语音数据进行拒识判断，比如，从交互逻辑上、以及用户当前状态，不仅可以进一步提高判断结果的准确性，而且，可以提高人机交互效率。

如图4所示，是本发明实施例智能语音交互方法的另一种流程图。

步骤401，接收语音数据。

步骤402，对所述语音数据进行唤醒词检测，以确定接收的语音数据中是否包含设定的唤醒词。如果检测到，则执行步骤404；否则，执行步骤403。

步骤403，判断接收的语音数据与上次用户交互的时间间隔是否超过预设时间。如果未超过，则执行步骤404；否则拒识所述语音数据。

步骤404，从语义层面对所述语音数据进行拒识判断，以确定所述语音数据是否为人机交互语音数据。如果是，则执行步骤405；否则，拒识所述语音数据。

从语义层面对所述语音数据进行拒识判断可以参照图3中的步骤302至步骤304。

步骤405，对语音识别结果进行语义理解。

步骤406，根据语义理解结果生成交互结果，所述交互结果包括响应文本。

与图3所示实施例相比，在该实施例中，不仅从语义层面对接收的语音数据进行拒识判断，而且，从交互逻辑上对接收的语音数据进行拒识判断，具体地，为了防止误唤醒，交互逻辑设置了唤醒词机制，即用户首次交互时的语音数据必须包含相应的唤醒词，否则用户将无法进行交互，如使用“叮咚叮咚”作为唤醒词；为了防止交互结束后，***仍长时间处于交互模式中，设置了超时机制，即当接收的语音数据与上次交互的时间未超过预设时间，则认为是用户的连续交互，所述语音数据不需要包含唤醒词；否则，则认为接收的语音数据是新的交互输入，需要包含唤醒词。结合交互逻辑上的判断，可以进一步提高人机交互响应的可靠性。

另外，在本发明方法其它实施例中，还可进一步根据用户当前状态进行拒识判断，所述用户当前状态是指用户与机器交互时所处的状态，如用户的面部朝向、用户的眼睛注视方向、用户是否处于移动的状态、用户旁边是否有其他人及用户离机器的距离等。用户的面部朝向、用户的眼睛注视方向、用户是否处于移动的状态及用户旁边是否有其他人可以通过在机器上安装摄像头进行检测；用户离机器的距离可以通过声源空间定位技术或红外技术检测得到。

利用用户当前状态辅助语音数据的拒识判断，可以有效拒识掉人人交谈的噪声语音，有效降低***的误响应情况。具体辅助时，可以预先确定相应规则，判断用户所处的状态是否满足所述规则来辅助拒识判断，举例如下：

如机器在未唤醒状态时，检测到用户面部朝向机器或者眼睛注视方向是机器所处方向，则认为用户是在与机器进行交互，否则，认为用户并不是与机器交互，拒识用户的语音数据。具体地，在对所述语音数据进行唤醒词检测之前，获取用户当前状态；如果用户当前状态满足第一预设条件(比如用户面部朝向机器或者眼睛注视方向是机器所处方向)，则执行对所述语音数据进行唤醒词检测的步骤；否则拒识所述语音数据。

如当用户旁边有其他人时，检测用户说话时的面部朝向或眼睛注视的方向是不是机器所处的方向，如果是，则认为用户是在与机器进行交互，接收用户的语音数据；否则，拒识用户的语音数据。具体地，在对所述语音数据进行语音识别之前，获取用户当前状态；如果用户当前状态满足第二预设条件(比如用户面部朝向或眼睛注视的方向是否为机器所处的方向)，则执行对所述语音数据进行语音识别的步骤；否则拒识所述语音数据。

再比如，当用户与机器交互时，一直处于来回走动的状态时，需要检测用户与机器的距离，当用户与机器的距离较远时，可以通过询问用户“是否需要继续交互”来确定是否结束本次的交互，如果结束本次交互，拒识后续用户说话的语音数据。

当然，在实际应用中，利用用户当前状态进行拒识的检测可以在整个交互过程中的任何一个阶段，而且，在不同的阶段的用户当前状态需满足的条件也会有所不同。具体在哪个阶段进行检测以及检测的具体条件可以根据实际应用环境及需要来设定，对此本发明实施例不做限定。

相应地，本发明实施例还提供一种智能语音交互***，如图5所示，是本发明实施例智能语音交互***的一种结构示意图。

在该实施例中，所述***包括：

接收模块51，用于接收语音数据；

语音识别模块52，用于对所述语音数据进行语音识别，得到语音识别结果；

语义层拒识判断模块53，用于根据预先构建的基于语义层面的拒识判断模型对所述语音识别结果进行拒识判断，得到模型输出结果；

确定模块54，用于根据所述模型输出结果确定所述语音数据是否为人机交互语音数据；如果是，则触发语义理解模块55对所述语音识别结果进行语义理解；

所述语义理解模块55，用于对所述语音识别结果进行语义理解；

响应模块56，用于根据所述语义理解模块55得到的语义理解结果生成交互结果，所述交互结果包括响应文本。

所述拒识判断模块可以由相应的模型构建模块预先根据收集的大量人机交互语音数据及其对应的语音识别文本训练得到。如图6所示，是本发明实施例中模型构建模块的结构示意图，包括：

拓扑结构确定单元61，用于确定拒识判断模型拓扑结构；拒识判断模型拓扑结构在前面已有详细说明，在此不再赘述；

训练数据收集单元62，用于收集大量人机交互语音数据及其对应的语音识别文本；

分词单元63，用于对所述语音识别文本中用户提问或回答语句文本进行分词，并以单轮回答或提问为单位，获取分词词串；

语义特征提取单元64，用于提取所述分词词串中各词的语义特征；

标注单元65，用于标注拒识判断结果；

训练单元66，用于基于所述人机交互语音数据及其标注信息和各词的语义特征，训练得到拒识判断模型。

本发明实施例提供的智能语音交互***，从语义层面对接收的语音数据进行拒识判断，从而有效地确定所述语音数据是否为人机交互语音数据。如果是人机交互语音数据，才会进一步对其进行语义理解，进而生成交互结果。本发明实施例提供的方案有效地减少了噪声语音数据对人机交互的影响，降低了人机交互***的误响应。

另外，本发明实施例的***还可结合其它不同层面对接收的语音数据进行拒识判断，比如，从交互逻辑上、以及用户当前状态，不仅可以进一步提高判断结果的准确性，而且，可以提高人机交互效率。

如图7所示，是本发明实施例智能语音交互***的另一种结构示意图。

与图5所示实施例的区别在于，在该实施例中，所述***还包括：交互逻辑检测模块71，用于从交互逻辑层面对所述语音数据进行拒识检测。该交互逻辑检测模块71具体包括：

唤醒词检测单元，用于对所述语音数据进行唤醒词检测；如果检测到唤醒词，则触发语音识别模块62对接收模块61接收的语音数据进行语音识别；如果未检测到唤醒词，则触发超时检测单元；

所述超时检测单元，用于检测所述接收模块61接收的语音数据与上次用户交互的时间间隔是否超过预设时间；如果否，则触发语音识别模块62对接收模块61接收的语音数据进行语音识别。

该实施例中，本发明***不仅从语义层面对接收的语音数据进行拒识判断，而且，从交互逻辑上对接收的语音数据进行拒识判断，具体地，为了防止误唤醒，交互逻辑设置了唤醒词机制，即用户首次交互时的语音数据必须包含相应的唤醒词，否则用户将无法进行交互，如使用“叮咚叮咚”作为唤醒词；为了防止交互结束后，***仍长时间处于交互模式中，设置了超时机制，即当接收的语音数据与上次交互的时间未超过预设时间，则认为是用户的连续交互，所述语音数据不需要包含唤醒词；否则，则认为接收的语音数据是新的交互输入，需要包含唤醒词。结合交互逻辑上的判断，可以进一步提高人机交互响应的可靠性。

另外，在本发明***其它实施例中，还可进一步包括用户状态检测模块(未图示)，用于获取用户当前状态，并根据用户当前状态进行拒识检测。

比如，用户状态检测模块可以在所述交互逻辑模块对所述语音数据进行拒识检测之前，获取用户当前状态；并在用户当前状态满足第一预设条件时，触发所述交互逻辑检测模块工作。再比如，用户状态检测模块还可以在所述语音识别模块对所述语音数据进行语音识别之前，获取用户当前状态；并在用户当前状态满足第二预设条件时，触发所述语音识别模块工作。当然，所述用户状态检测模块根据用户当前状态进行拒识检测的具体方式及条件可以根据实际应用环境及应用需求来设定，对此本发明实施例不做限定。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及***；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种智能语音交互方法，其特征在于，包括：

接收语音数据；

对所述语音数据进行语音识别，得到语音识别结果；

利用语音识别结果的语义特征以及对话历史状态特征，并根据预先构建的基于语义层面的拒识判断模型对所述语音识别结果进行拒识判断，得到模型输出结果；所述对话历史状态特征包括：上一轮交互的响应文本信息，及上一轮交互语音识别文本对信息槽的填充情况；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：按以下方式构建拒识判断模型：

确定拒识判断模型拓扑结构；

收集大量人机交互语音数据及其对应的语音识别文本；

3.根据权利要求2所述的方法，其特征在于，所述模型拓扑结构采用RNN模型，包括输入层、中间隐层和输出层；

所述输出层的输出包括：拒识判断结果。

4.根据权利要求3所述的方法，其特征在于，所述语义特征包括以下任意一项或多项：词向量、词置信度、词时长、词TF-IDF得分、词有效语音得分均值。

5.根据权利要求1所述的方法，其特征在于，所述根据预先构建的基于语义层面的拒识判断模型对当前语音识别结果进行拒识判断，得到模型输出结果包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

如果否，则执行对所述语音数据进行语音识别的步骤。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

在对所述语音数据进行语音识别之前，获取用户当前状态；

9.一种智能语音交互***，其特征在于，包括：

接收模块，用于接收语音数据；

语义层拒识判断模块，用于利用语音识别结果的语义特征以及对话历史状态特征，并根据预先构建的基于语义层面的拒识判断模型对所述语音识别结果进行拒识判断，得到模型输出结果；所述对话历史状态特征包括：上一轮交互的响应文本信息，及上一轮交互语音识别文本对信息槽的填充情况；

10.根据权利要求9所述的***，其特征在于，所述***还包括：模型构建模块，用于构建拒识判断模型：所述模型构建模块包括：

拓扑结构确定单元，用于确定拒识判断模型拓扑结构；

标注单元，用于标注拒识判断结果；

11.根据权利要求10所述的***，其特征在于，所述模型拓扑结构采用RNN模型，包括输入层、中间隐层和输出层；

所述输出层的输出包括：拒识判断结果。

12.根据权利要求11所述的***，其特征在于，所述语义特征包括以下任意一项或多项：词向量、词置信度、词时长、词TF-IDF得分、词有效语音得分均值。

13.根据权利要求9所述的***，其特征在于，所述语义层拒识判断模块包括：

14.根据权利要求9至13任一项所述的***，其特征在于，所述***还包括：

15.根据权利要求14所述的***，其特征在于，所述***还包括：

用户状态检测模块，用于在所述交互逻辑检测模块对所述语音数据进行拒识检测之前，获取用户当前状态；并在用户当前状态满足第一预设条件时，触发所述交互逻辑检测模块工作。

16.根据权利要求15所述的***，其特征在于，

所述用户状态检测模块，还用于在所述语音识别模块对所述语音数据进行语音识别之前，获取用户当前状态；并在用户当前状态满足第二预设条件时，触发所述语音识别模块工作。