CN107977183A

CN107977183A - 语音交互方法、装置及设备

Info

Publication number: CN107977183A
Application number: CN201711140428.6A
Authority: CN
Inventors: 李新征; 王磊; 安家雨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-11-16
Filing date: 2017-11-16
Publication date: 2018-05-01

Abstract

本发明公开了一种语音交互方法、装置及设备，其中，方法包括：获取用户对目标设备输入的语音信息，对语音信息进行识别处理；对识别结果进行语义分析获取用户的操作意图；检测操作意图的有效性，若检测获知操作意图有效，则根据操作意图进行信息处理服务获取相应的内容数据；将内容数据通过目标设备反馈给用户。由此，通过主动监听并识别用户的语音信息中的操作意图的方式，主动满足用户的语音交互需求，解决了现有技术中，需要用户主动触发语音交互开启事件后，才能执行用户的语音请求导致的效率较低，操作繁琐的技术问题。

Description

语音交互方法、装置及设备

技术领域

本发明涉及智能搜索技术领域，尤其涉及一种语音交互方法、装置及设备。

背景技术

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家***等。其中，人工智能最重要的方面就是语音识别技术。

语音作为一种对自然的交互技术在产品中的应用逐渐广泛，但目前语音交互***都需要先主动触发和语音***交互的事件，比如，主动输入唤醒词，才能开始通过语音命令来实现和***的交互，影响了用户使用的便利性和使用体验，操作繁琐。

发明内容

本发明提供一种语音交互方法、装置及设备，解决现有技术中，需要用户主动触发语音交互开启事件后，才能执行用户的语音请求导致的效率较低，操作繁琐的技术问题。

本发明实施例提供一种语音交互方法，包括以下步骤：获取用户对目标设备输入的语音信息，对所述语音信息进行识别处理；对识别结果进行语义分析获取所述用户的操作意图；检测所述操作意图的有效性，若检测获知所述操作意图有效，则根据所述操作意图进行信息处理服务获取相应的内容数据；将所述内容数据通过所述目标设备反馈给所述用户。

本发明另一实施例提供一种语音交互装置，包括：识别处理模块，用于获取用户对目标设备输入的语音信息，对所述语音信息进行识别处理；第一获取模块，用于对识别结果进行语义分析获取所述用户的操作意图；检测模块，用于检测所述操作意图的有效性；第二获取模块，用于在检测获知所述操作意图有效时，根据所述操作意图进行信息处理服务获取相应的内容数据；反馈模块，用于将所述内容数据通过所述目标设备反馈给所述用户。

本发明又一实施例提供一种计算机设备，包括处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如上述实施例所述的语音交互方法。

本发明还一实施例提供一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，实现如上述实施例所述的语音交互方法。

本发明再一实施例提供一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例所述的语音交互方法。

本发明实施例提供的技术方案可以包括以下有益效果：

获取用户对目标设备输入的语音信息，对语音信息进行识别处理，对识别结果进行语义分析获取用户的操作意图，检测操作意图的有效性，若检测获知操作意图有效，则根据操作意图进行信息处理服务获取相应的内容数据，最终将内容数据通过目标设备反馈给用户。由此，通过主动监听并识别用户的语音信息中的操作意图的方式，主动满足用户的语音交互需求，解决了现有技术中，需要用户主动触发语音交互开启事件后，才能执行用户的语音请求导致的效率较低，操作繁琐的技术问题。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的语音交互方法的流程图；

图2是根据本发明一个实施例的提示用户失效操作的界面示意图；

图3是根据本发明另一个实施例的语音交互方法的流程图；

图4是根据本发明又一个实施例的语音交互方法的流程图；

图5是根据本发明又一个实施例的语音交互方法的流程图；

图6是根据本发明一个实施例的语音交互装置的结构示意图；

图7是根据本发明另一个实施例的语音交互装置的结构示意图；

图8是根据本发明又一个实施例的语音交互装置的结构示意图；

图9是根据本发明再一个实施例的语音交互装置的结构示意图；

图10是根据本发明还一个实施例的语音交互装置的结构示意图；以及

图11是根据本发明一个实施例的计算机设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的语音交互方法、装置及设备。

针对现有技术中在和语音***进行交互时，需要用户主动触发和语音***交互的事件，导致影响用户使用的便利性和使用体验的技术问题，本发明提出了一种新型的无需触发和语音***交互的事件，即可主动为用户提供相关服务的语音交互方法。

下面参考附图详细描述本发明实施例的语音交互方法，其中，需要说明的是，本发明实施例的语音交互方法的执行主体可以是智能手机、智能机器人、可穿戴式设备等可以通过语音操作且能够以界面显示等方式提供给用户信息的硬件设备。

图1是根据本发明一个实施例的语音交互方法的流程图，如图1所示，该方法包括：

步骤101，获取用户对目标设备输入的语音信息，对语音信息进行识别处理。

其中，目标设备即为执行语音交互方法的硬件设备，可以是平板电脑、个人数字助理、穿戴式设备等具有语音识别功能且能够向用户反馈信息的硬件设备，该穿戴式设备可以是智能手环、智能手表、智能眼镜等。

需要强调的是，为了避免错过用户与目标设备进行语音交互的语音信息等，获取用户对目标设备输入的语音信息的操作，可以是在目标设备联网上电后始终运行的，也就是说，目标设备始终监听用户输入的语音信息，其中，获取用户对目标设备输入的语音信息的方式与目标设备的硬件结构有关，比如，可以是通过麦克风语音接口主动捕捉获取等。

在实际操作过程中，如果用户所处的环境较为嘈杂，或者是接收的语音信息包括目标设备本身运行应用程序发出声音的回声(比如音视频应用程序正在播放音视频的声音等)，则为了准确识别出用户的语音信息，在对语音信息进行识别处理之前，需要通过相关语音去噪技术，减少其他不相关的声音对用户输入的语音信息的影响，比如，针对用户输入的语音信息，利用回声抵消技术去除目标设备本身输出的声音，利用噪声抑制技术减少环境噪声的影响。

具体而言，在对语音信息进行识别的过程中，作为一种可能的实现方式，可以通过VAD(Voice Activity Detection，语音端点检测)技术识别出用户从开始说话到结束说话的有效的语音信息，该技术可将一段语音信息分为静音段、过渡段、语音段和技术，比较常用的VAD技术是基于短时能量和过零率的双门限端点检测，其中，端点检测是语音识别和语音处理的一个基本环节，也是语音识别研究的一个热点领域，主要目的是从输入的语音中对语音和非语音进行区分，主要功能包括自动打断、去掉语音中的静音成分、获取输入语音中有效语音、去除噪声并对语音进行增强，进而获取语音识别结果，该语音识别结果根据应用场景的不同，可以是语音波形的形式，也可以是文本的形式，在此不作限制。

其中，在本发明的实施例中，可以目标设备中对语音信息进行识别处理，也可以为了减轻目标设备的处理器的运算压力，将语音信息发送至云服务器等第三方设备进行语音识别的处理。

步骤102，对识别结果进行语义分析获取用户的操作意图。

具体地，在获取语音识别结果后，对语音结果进行语义分析，进而，根据语义分析的结果获取用户的操作意图，该操作意图用以指示用户希望通过与目标设备进行语音交互以满足的相关需求，其中，根据应用场景的不同，可采用不同的方式对识别结果进行语义分析获取用户的操作意图，示例说明如下：

第一种示例：

预先根据大量实验数据获取对应用户操作意图的语音信息，比如，对应用户打开应用程序的操作意图的语音信息“打开应用程序A”，又比如，对应应用程序某些功能的启用的操作意图的语言信息“翻到下一页”、“字体放大点”等，又比如，对应应用程序的信息提供功能的操作意图的语音信息“帮我查下苹果有多少种类”等，进而，将本发明实施例中的识别结果与预存的对应用户操作意图的语音信息进行关键词的匹配，当匹配度较高时，则认为获取到用户的操作意图。

第二种示例：

可以预先根据大量实验数据训练深度模型，该深度模型的输入为识别后的语音信息，输出为用户的操作意图，则将本发明中获取的识别结果输入该预先训练的深度模型，以获取该模型输出的用户的操作意图。

在实际应用中，用户在进行语音信息的输入时，可能会包含一些叹词等没有意义的词汇，因此，为了提高获取用户操作意图的效率，在对识别结果进行语义分析时，还可以进行一些无关词的过滤处理，同义词的转换操作等，或者，在一些应用场景下，用户输入的语音信息可能发音并不标准，比如方言口音严重等，导致对用户输入的语音信息识别处理后获取的识别结果具有歧义，此时，在对识别结果进行语义分析的过程中，还可以对识别结果进行方言的校正处理等。

步骤103，检测操作意图的有效性，若检测获知操作意图有效，则根据操作意图进行信息处理服务获取相应的内容数据。

步骤104，将内容数据通过目标设备反馈给用户。

具体而言，在一些应用场景下，用户可能仅仅是在目标设备附近说话，并没有具有与目标设备进行语音交互的需求，此时，根据用户的语音信息识别处理获取的识别结果进行语义分析，是获取不到用户的操作意图的，或者说，检测到用户的操作意图是无效的，在一些应用场景下，即使获取到用户的操作意图，但是当前目标设备中安装的应用程序不同，或者，应用程序的版本不同，可能并不具备执行当前用户的操作意图的能力，比如，用户的操作意图为打开天气预报应用程序，但是当前目标设备中是没有安装天气预报应用程序的，在这种应用场景下，对超过目标设备的执行能力的用户的操作意图，也确定为无效的操作意图。

具体而言，检测操作意图的有效性，若检测获知操作意图有效，则根据操作意图进行信息处理服务获取对应的内容数据，比如获知的有效的操作意图是“搜索苹果的种类”，则目标设备根据该操作意图进行信息处理服务，通过相关浏览器获取包括“搜索苹果的种类”的结果的内容数据。

在本发明的一个实施例中，如果检测获知操作意图无效，则向目标设备反馈失效操作提示信息，比如以文字提示，或者，以语音提示的方式向用户反馈失效操作提示信息，为了进一步便于用户了解失效操作的原因，该失效操作提示信息中还可包括失效操作的原因，比如，如图2所示，在目标设备中以弹窗的形式提示用户失效操作，并显示给用户失效操作的原因为“与天气预报相关的应用程序没有安装哦”。

进一步地，将内容数据通过目标设备反馈给用户，其中，目标设备反馈给用户内容数据的方式与内容数据的包含内容有关，当前，正如以上分析的，内容数据是与用户的操作意图有关的，比如，内容数据为浏览器的搜索结果，则目标设备通过界面显示给用户内容数据，比如，内容数据为音频播放，则目标设备通过麦克风等设备为用户播放内容数据，又比如，内容数据是与用户的聊天内容，在可以通过麦克风等为用户播放语音聊天信息等。

由此，本发明实施例的语音交互方法，可同步识别并监控到用户的操作意图，相对于现有技术中，用户在具有与目标设备进行语音交互的意图时，需要首先输入“叮咚、叮咚”或者“hi”唤醒词后触发语音交互开启功能，再输入语音信息“今天天气怎样”的实现方式，在本发明的实施例中，在识别到用户输入的语音信息“今天天气怎样”后，即可获取到与天气相关的内容数据，操作方便快捷，用户体验较高。

比如，在使用亚马逊的echo时，每次都需要先说”alex”,然后才能和目标设备发起语音对话，这在多轮对话中严重影响用户体验，而采用本发明的语音交互的技术方案，可以不需要使用类似”alex”这类唤醒词就可以直接和目标设备发起语音对话，方便快捷。

又比如，在与人工机器人siri聊天时，用户不需要触发目标设备中的相关按键触发该聊天功能，只需要语音输入：“siri，你吃饭了吗今天”，就可以获得siri反馈的语音信息“没呢，你吃了没”，从而，为用户提供了一种真实聊天的用户体验，进一步减弱了机器人的不自然感和不真实感。

综上所述，本发明实施例的语音交互方法，获取用户对目标设备输入的语音信息，对语音信息进行识别处理，对识别结果进行语义分析获取用户的操作意图，检测操作意图的有效性，若检测获知操作意图有效，则根据操作意图进行信息处理服务获取相应的内容数据，最终将内容数据通过目标设备反馈给用户。由此，通过主动监听并识别用户的语音信息中的操作意图的方式，主动满足用户的语音交互需求，解决了现有技术中，需要用户主动触发语音交互开启事件后，才能执行用户的语音请求导致的效率较低，操作繁琐的技术问题。

应当理解的是，上述实施方式中，只要检测到用户的操作意图有效，即根据用户的操作意图进行信息处理服务获取对应的内容数据，包含的实施方式为，即使当前目标设备中运行的为应用程序为A，则用户的操作意图对应的为应用程序B提供的功能，也会调用应用程序B为满足用户的相关需求。

但是，在实际应用中，可能导致一些用户操作意图的误识别或误响应，比如，当前运行的应用程序为购物应用程序，则根据用户输入的语音信息“天好冷啊，今天到底几度了，买件大衣吧”，则可能目标设备对该语音识别结果进行语音分析后，可能会打开天气应用程序为用户提供天气相关信息，以及购物应用程序为用户推荐大衣等，而此时，显然用户的操作意图是在当前运行的购物应用程序中购物，或者，当前运行的应用程序为天气预报程序1时，根据用户输入的语音信息“天好冷啊，今天几度”，则可能目标设备对该语音识别结果进行语音分析后，可能还会打开天气应用程序2为用户提供天气相关信息，从而同时运行两个功能类似的应用程序，增加了目标设备的运行压力，又或者，当前运行的应用程序为音乐播放应用程序，根据用户输入的语音信息“天好冷啊，今天几度”获知的操作意图是与当前运行的应用程序完全无关的，可能仅仅是用户的聊天内容，不需要对其进行响应。

因此，为了减轻目标设备的运行压力，以及提高反馈的内容数据与用户的操作意图的一致性，在本发明的实施例中，还可参考目标设备的当前运行状态等检测操作意图的有效性。

具体而言，图3是根据本发明另一个实施例的语音交互方法的流程图，如图3所示，步骤102还包括：

步骤201，获取目标设备发送的当前运行应用程序的特征信息。

其中，应用程序的特征信息包括应用程序的图标信息、应用程序的ID等标识应用程序唯一性的信息。

步骤202，根据特征信息检测操作意图的有效性。

具体而言，可以通过识别当前前台运行的应用程序的特征信息，识别目标设备当前运行的应用程序，进而根据当前运行的应用程序，匹配出该应用程序对应的功能服务，从而，根据该功能服务检测操作意图对应的用户需求，是否超过应用程序提供的功能服务的范围或者与应用程序提供的功能服务相关，如果超过或不相关，则确定操作意图无效，如果没有超过或相关，则确定操作意图有效。

由此，在本发明的实施例中，考虑到通常用户的操作意图与当前运行的应用程序有关，比如，当前运行的为购物应用程序，则用户的操作意图很大可能是针对购物应用程序的，由此，进一步提高了提供语音交互服务的响应效率，提升了用户体验。

在本发明的一个实施例中，为了进一步提高语音交互方法的有效性，还可基于应用程序当前运行的界面功能检测操作意图的有效性，即考虑到通常用户的操作意图与当前运行的应用程序的当前运行界面有关，在该场景下，应用程序的特征信息可以为应用程序的界面ID等唯一表示界面的标识信息。

进一步地，图4是根据本发明又一个实施例的语音交互方法的流程图，如图4所示，上述步骤202包括以下步骤：

步骤301，根据特征信息获取目标设备当前提供的应用内容，根据应用内容挖掘上下文信息。

其中，目标设备当前提供的应用内容包括应用程序当前提供的服务类型、包含的内容信息等，根据应用内容可挖掘上下文信息，该上下文信息包括当前应用程序的当前运行界面上的控件位置和功能，菜单内容、包含的信息内容等，举例而言，在当前运行的应用程序的应用内容对应的为购物车界面时，则根据购物车界面的应用内容挖掘的上下文信息包括购物车中的订单信息、订单选中和删除控件、付款控件以及各个控件的位置等。

步骤302，将上下文信息与操作意图进行关联检测，确定操作意图的有效性。

具体地，将上下文信息与操作意图进行关联检测，确定用户的操作意图是否可被当前应用程序的当前界面实施，或者，与当前运行的应用程序的应用内容是否有关，如果能实施或者有关，则确定操作意图有效，否则，则无效。

比如，当前运行的应用程序的应用内容对应的为购物车界面时，则将根据用户输入的语音信息“买了这个大衣”，与当前购物车中的订单信息关联，则识别到购物车中的大衣进行付款等。

又比如，继续以使用亚马逊的echo的场景为例，当前目标设备在播放音乐，那么控制音乐播放的输入以及跟音乐相关的查询被认为是有效的查询，目标设备可以直接响应，否则，与音乐无关的查询则认为是无效的操作意图。

综上所述，本发明实施例的语音交互方法，获取目标设备发送的当前运行应用程序的特征信息，根据特征信息检测操作意图的有效性。由此，结合产品可提供的内容，判断当前的语音输入是否需要处理，提高了语音交互响应的准确率。

基于以上实施例，应当理解的是，在实际应用中，可能目标设备会获取到多个用户输入的语音信息，或者，可能获取到的语音信息并不是合法用户的，比如不是机主用户的，此时，为了保护信息安全等，需要对获取到的用户输入的语音信息进行合法性的验证。

图5是根据本发明又一个实施例的语音交互方法的流程图，如图5所示，在上述步骤101中获取用户对目标设备输入的语音信息之后，该方法还包括：

步骤401，对语音信息进行声纹处理获取用户的声纹特征。

声纹是用电声学仪器显示的携带言语信息的声波频谱，声纹不仅具有特定性，而且有相对稳定性的特点，尤其是成年以后，人的声音可保持长期相对稳定不变，实验证明，无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终不相同，因此在本发明的实施例中，可以对语音信息进行声纹处理。比如进行频谱波形的提取，以获取用户的声纹特征，其中，该声纹特征可包括语音信息的强度、波长、频率、节奏变化等。

步骤402，获取目标设备的设备标识，查询预存的注册信息获取与设备标识对应的注册声纹特征。

可以理解，预先在注册信息中存储合法用户的注册声纹特征，并存储目标设备的设备标识和对应的注册声纹特征的对应关系，比如，在服务器中存储设备标识和对应的注册声纹特征的对应关系，又比如，在目标设备中存储与该设备对应的注册声纹特征，进而，获取目标设备的设备标识，查询预存的注册信息获取与设备标识对应的注册声纹特征。

步骤403，将用户的声纹特征与注册声纹特征进行匹配，判断用户是否为合法用户以确定是否进行语义分析处理。

具体地，将用户的声纹特征与注册声纹特征进行匹配，判断用户是否为合法用户以确定是否进行语义分析处理，如果用户的声纹特征与注册声纹特征匹配，则表明当前用户为合法用户，从而对该用户输入的语音信息进行语义分析处理，否则，当前用户不是合法用户，从而不对该用户输入的语音信息进行语义分析处理。

综上所述，本发明实施例的语音交互方法，当声纹符合已经注册的用户及设备信息时才开始对用户的意图分析,保证了信息安全，提高了语音交互的实用性和灵活性。

为了实现上述实施例，本发明还提出了一种语音交互装置，图6是根据本发明一个实施例的语音交互装置的结构示意图，如图6所示，该语音交互装置包括：识别处理模块100、第一获取模块200、检测模块300、第二获取模块400和反馈模块500。

其中，识别处理模块100，用于获取用户对目标设备输入的语音信息，对语音信息进行识别处理。

第一获取模块200，用于对识别结果进行语义分析获取用户的操作意图。

检测模块300，用于检测操作意图的有效性。

第二获取模块400，用于在检测获知操作意图有效时，根据操作意图进行信息处理服务获取相应的内容数据。

反馈模块500，用于将内容数据通过目标设备反馈给用户。

在本发明的一个实施例中，如图7所示，在如图6所示的基础上，该语音交互装置还包括提示模块600，其中，提示模块600，用于在检测获知操作意图无效时，向目标设备反馈失效操作提示信息。

需要说明的是，前述对语音交互方法实施例的解释说明也适用于该实施例的语音交互装置，本发明语音交互装置实施例中未公布的细节，此处不再赘述。

综上所述，本发明实施例的语音交互装置，获取用户对目标设备输入的语音信息，对语音信息进行识别处理，对识别结果进行语义分析获取用户的操作意图，检测操作意图的有效性，若检测获知操作意图有效，则根据操作意图进行信息处理服务获取相应的内容数据，最终将内容数据通过目标设备反馈给用户。由此，通过主动监听并识别用户的语音信息中的操作意图的方式，主动满足用户的语音交互需求，解决了现有技术中，需要用户主动触发语音交互开启事件后，才能执行用户的语音请求导致的效率较低，操作繁琐的技术问题。

图8是根据本发明又一个实施例的语音交互装置的结构示意图，如图8所示，在如图6所示的基础上，该语音交互装置还包括第三获取模块700，其中，第三获取模块700，用于获取所述目标设备发送的当前运行应用程序的特征信息，在本实施例中，检测模块300，用于检测操作意图的有效性。

在本发明的一个实施例中，如图9所示，该检测模块300包括获取单元310、挖掘单元320和确定单元330。

其中，获取单元310，用于根据所述特征信息获取所述目标设备当前提供的应用内容。

挖掘单元320，用于根据所述应用内容挖掘上下文信息。

确定单元330，用于将所述上下文信息与所述操作意图进行关联检测，确定所述操作意图的有效性。

综上所述，本发明实施例的语音交互装置，获取目标设备发送的当前运行应用程序的特征信息，根据特征信息检测操作意图的有效性。由此，结合产品可提供的内容，判断当前的语音输入是否需要处理，提高了语音交互响应的准确率。

图10是根据本发明还一个实施例的语音交互装置的结构示意图，如图10所示，该装置还包括第四获取模块800、查询模块900、判断模块1000。

其中，第四获取模块800，用于对语音信息进行声纹处理获取用户的声纹特征。

查询模块900，用于获取目标设备的设备标识，查询预存的注册信息获取与设备标识对应的注册声纹特征。

判断模块1000，用于将用户的声纹特征与注册声纹特征进行匹配，判断用户是否为合法用户以确定是否进行语义分析处理。

综上所述，本发明实施例的语音交互装置，当声纹符合已经注册的用户及设备信息时才开始对用户的意图分析,保证了信息安全，提高了语音交互的实用性和灵活性。

为了实现上述实施例，本发明还提出了一种计算机设备，图11是根据本发明一个实施例的计算机设备的结构示意图。如图11所示，存储器21、处理器22及存储在存储器21上并可在处理器22上运行的计算机程序。

处理器22执行所述程序时实现上述实施例中提供的语音交互方法。

进一步地，计算机设备还包括：

通信接口23，用于存储器21和处理器22之间的通信。

存储器21，用于存放可在处理器22上运行的计算机程序。

存储器21可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

处理器22，用于执行所述程序时实现上述实施例所述的语音交互方法。

如果存储器21、处理器22和通信接口23独立实现，则通信接口21、存储器21和处理器22可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器21、处理器22及通信接口23，集成在一块芯片上实现，则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。

处理器22可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器被执行时，使得能够执行如上述实施例所述的语音交互方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行如上述实施例所述的语音交互方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音交互方法，其特征在于，包括以下步骤：

获取用户对目标设备输入的语音信息，对所述语音信息进行识别处理；

对识别结果进行语义分析获取所述用户的操作意图；

检测所述操作意图的有效性，若检测获知所述操作意图有效，则根据所述操作意图进行信息处理服务获取相应的内容数据；

将所述内容数据通过所述目标设备反馈给所述用户。

2.如权利要求1所述的方法，其特征在于，还包括：

获取所述目标设备发送的当前运行应用程序的特征信息；

所述检测所述操作意图的有效性，包括：

根据所述特征信息检测所述操作意图的有效性。

3.如权利要求2所述的方法，其特征在于，所述根据所述特征信息检测所述操作意图的有效性，包括：

根据所述特征信息获取所述目标设备当前提供的应用内容，根据所述应用内容挖掘上下文信息；

将所述上下文信息与所述操作意图进行关联检测，确定所述操作意图的有效性。

4.如权利要求1所述的方法，其特征在于，在所述检测所述操作意图的有效性之后，还包括：

若检测获知所述操作意图无效，则向所述目标设备反馈失效操作提示信息。

5.如权利要求1-4任一所述的方法，其特征在于，在所述获取用户对目标设备输入的语音信息之后，还包括：

对所述语音信息进行声纹处理获取所述用户的声纹特征；

获取所述目标设备的设备标识，查询预存的注册信息获取与所述设备标识对应的注册声纹特征；

将所述用户的声纹特征与所述注册声纹特征进行匹配，判断所述用户是否为合法用户以确定是否进行语义分析处理。

6.一种语音交互装置，其特征在于，包括：

识别处理模块，用于获取用户对目标设备输入的语音信息，对所述语音信息进行识别处理；

第一获取模块，用于对识别结果进行语义分析获取所述用户的操作意图；

检测模块，用于检测所述操作意图的有效性；

第二获取模块，用于在检测获知所述操作意图有效时，根据所述操作意图进行信息处理服务获取相应的内容数据；

反馈模块，用于将所述内容数据通过所述目标设备反馈给所述用户。

7.如权利要求6所述的装置，其特征在于，还包括：

第三获取模块，用于获取所述目标设备发送的当前运行应用程序的特征信息；

所述检测模块，具体用于根据所述特征信息检测所述操作意图的有效性。

8.如权利要求7所述的装置，其特征在于，所述检测模块包括：

获取单元，用于根据所述特征信息获取所述目标设备当前提供的应用内容；

挖掘单元，用于根据所述应用内容挖掘上下文信息；

确定单元，用于将所述上下文信息与所述操作意图进行关联检测，确定所述操作意图的有效性。

9.如权利要求6所述的装置，其特征在于，还包括：

提示模块，用于在检测获知所述操作意图无效时，向所述目标设备反馈失效操作提示信息。

10.如权利要求6-9任一所述的装置，其特征在于，还包括：

第四获取模块，用于对所述语音信息进行声纹处理获取所述用户的声纹特征；

查询模块，用于获取所述目标设备的设备标识，查询预存的注册信息获取与所述设备标识对应的注册声纹特征；

判断模块，用于将所述用户的声纹特征与所述注册声纹特征进行匹配，判断所述用户是否为合法用户以确定是否进行语义分析处理。

11.一种计算机设备，其特征在于，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-5中任一项所述的语音交互方法。

12.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令由处理器执行时，实现如权利要求1-5中任一项所述的语音交互方法。

13.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的语音交互方法。