CN113126765A

CN113126765A - 一种多模态输入交互方法、装置、机器人和存储介质

Info

Publication number: CN113126765A
Application number: CN202110439619.2A
Authority: CN
Inventors: 张献涛; 暴筱; 林小俊; 支涛
Original assignee: Beijing Yunji Technology Co Ltd
Current assignee: Beijing Yunji Technology Co Ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-07-16

Abstract

本申请实施例提供一种多模态输入交互方法、装置、机器人和存储介质，该多模态输入交互方法包括：获取至少一条输入信息；对所述至少一条输入信息进行意图识别，得到目标意图；根据所述目标意图和与所述目标意图对应的页面信息，获取交互信息，其中，所述页面信息是根据用于识别所述目标意图的所有所述输入信息得到的；输出所述交互信息。本申请的一些实施例提供的多模态输入交互方法将目标意图与对应的页面信息相结合，针对用户同样内容的输入信息，可以识别出用户差异化需求，提升用户体验。

Description

一种多模态输入交互方法、装置、机器人和存储介质

技术领域

本申请涉及计算机应用技术领域，具体而言，涉及一种多模态输入交互方法、装置、机器人和存储介质。

背景技术

随着数字化和智能化技术在各个领域的深入发展，更多的智能化设备在生活中发挥作用。当前，很多智能终端设备，可同时支持触屏输入和语音输入。

因此如何提升利用触屏或语音等多模态方式与智能设备交互成为亟待解决的技术问题。

发明内容

本申请实施例的目的在于提供一种多模态输入交互方法、装置、机器人和存储介质，本申请的一些实施例通过将意图识别后得到的目标意图与对应页面信息相结合，生成交互信息的方法，针对用户的输入的同样内容的信息，可以识别出差异化需求，改善了人机交互效果并提升了用户体验。

第一方面，本申请的一些实施例提供一种多模态输入交互方法，包括：获取至少一条输入信息；根据所述至少一条输入信息进行意图识别，得到目标意图；根据所述目标意图和与所述目标意图对应的页面信息，获取交互信息，其中，所述页面信息是根据用于识别所述目标意图的所有所述输入信息得到的；输出所述交互信息。

本申请实施例将意图识别后得到的目标意图与对应页面信息相结合，生成交互信息，针对用户同样内容的输入信息，可以识别出差异化需求，提升用户体验。

在一些实施例中，所述根据所述至少一条输入信息进行意图识别，得到目标意图，包括：识别所述至少一条输入信息中的干扰输入信息；从所述至少一条输入信息中，滤除所述干扰输入信息，得到有效输入信息；根据所述有效输入信息进行意图识别，得到所述目标意图。

本申请实施例从输入信息中识别出干扰信息并滤除，排除不相关信息的干扰，提高了目标意图的准确性。

在一些实施例中，所述识别所述至少一条输入信息中的干扰输入信息，包括：根据所述至少一条输入信息中各条输入信息的输入时间识别所述干扰输入信息。

本申请实施例通过至少一条输入信息中各条输入信息的输入时间来判断是否是干扰信息，为判断干扰信息提供了一种有效的方法。

在一些实施例中，所述根据所述至少一条输入信息进行意图识别，得到目标意图，包括：获取第一输入信息的输入时间和第二输入信息的输入时间的差值；确认所述差值大于设定阈值；至少根据所述第二输入信息进行意图识别，得到所述目标意图。

本申请实施例提供了一种根据相邻两个输入信息的输入时间的差值来判断干扰信息的方法，即确认相邻的两个输入信息之间的时间间隔大于设定阈值，从而能有效滤除干扰信息，提高意图识别的准确性。

在一些实施例中，所述根据所述至少一条输入信息进行意图识别，包括：根据所述至少一条输入信息获取所述输入信息对应的目标格式文件，对所述目标格式文件进行意图识别。

本申请实施例根据输入信息生成所述信息对应的目标格式文件，再对所述目标格式文件进行意图识别，可以方便各种模态的输入信息均可以被同一意图识别模型所识别，即可以将各种模态的输入信息转化成目标格式文件后，输入训练好的意图识别模型进行意图识别，提高了意图识别的效率。

在一些实施例中，所述输入信息包括语音信息；所述根据所述至少一条输入信息进行意图识别，包括：根据所述语音信息进行语音识别，得到语音识别结果；根据所述语音识别结果得到文本格式文件；根据所述文本格式文件进行意图识别。

本申请实施例通过对语音输入信息进行语音识别，再根据语音识别结果得到的文本格式文件进行意图识别，可以采用现有的语义识别模型对语音进行识别并转化为文本文件，提升目标意图识别的处理速度。

在一些实施例中，所述输入信息包括触屏信息；所述根据所述至少一条输入信息进行意图识别，包括：根据所述触屏信息对应按钮在所属页面中的信息得到所述触屏信息对应的第一目标格式文件；根据所述第一目标格式文件进行意图识别。

本申请实施例根据触屏信息对应按钮在所属页面中的信息，得到所述触屏信息对应的第一目标格式文件，然后再根据第一目标格式文件进行意图识别，可以采用现有的深度学习模型对所述第一目标格式文件进行意图识别，降低了意图识别的难度。

第二方面，本申请一些实施例提供一种多模态输入交互装置，包括：输入模块，所述输入模块被配置为获取至少一条输入信息；识别模块，所述识别模块被配置为根据所述至少一条输入信息进行意图识别，得到目标意图；获取模块，所述获取模块被配置为根据所述目标意图和与所述目标意图对应的页面信息，获取交互信息，其中，所述页面信息是根据用于识别所述目标意图的所有所述输入信息得到的；输出模块，所述输出模块被配置为输出所述交互信息。

第三方面，本申请一些实施例提供一种机器人，包括：输入设备，被配置为获取至少一条输入信息；输出设备，被配置为用于输出交互信息或与目标意图对应的页面；存储器，被配置为存储计算机可读取指令程序；处理器，被配置为根据所述至少一条输入信息实现上述第一方面或第一方面的任意可能的实现方式中所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时可实现上述第一方面或第一方面的任意可能的实现方式中所述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种多模态输入交互方法的使用场景示意图；

图2为本申请实施例提供的一种多模态输入交互方法的流程图之一；

图3为本申请实施例提供的一种多模态输入交互方法的流程图之二；

图4为本申请实施例提供的一种多模态输入交互方法的流程图之三；

图5为本申请实施例提供的一种多模态输入交互方法的流程图之四；

图6为本申请实施例提供的一种多模态输入交互装置的组成框图之一；

图7为本申请实施例提供的一种多模态输入交互装置的组成框图之二；

图8为本申请实施例提供的机器人的组成框图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

下面结合图1简要介绍本申请一些实施例的使用场景。

图1提供了一种多模态输入交互方法的使用场景示意图，在图1的应用场景中涉及智能终端设备130和用户140，作为一个示例，图1的智能终端设备130包括语音交互装置110、触摸显示屏120或者其它类型的交互装置，可以理解的是，图1的智能终端设备130还包括存储器(图中未示出)或者处理器(图中未示出)等。图1的用户140可以通过语音、触屏、视频或图片输入等方式与智能终端设备130进行交互。例如，用户140可以通过语音交互装置110以语音输入的方式与智能终端设备130进行交互，也可以通过触摸显示屏120以点击、滑动按钮，或输入法输入文字等的方式与智能终端设备130进行交互，也可以通过摄像设备(图中未示出)以视频或图片输入等的方式与智能终端设备130进行交互。

下面结合图2示例性阐述本申请一些实施例提供的多模态输入交互方法，该方法可以由图1的智能终端设备130执行。

如图2所示，本申请一些实施例的多模态输入交互方法，包括：S210获取至少一条输入信息；S220根据所述至少一条输入信息进行意图识别，得到目标意图；S230根据所述目标意图和与所述目标意图对应的页面信息，获取交互信息，其中，所述页面信息是根据用于识别所述目标意图的所有所述输入信息得到的；S240输出所述交互信息。

下面示例性阐述上述各步骤。

在本申请的一些实施例中，S210获取输入信息仅包括获取一条输入信息。例如，图1所示的应用场景中，用户140对智能终端设备130说出“带我去洗手间”这条输入信息，智能终端设备130就能够根据用户140这一条语音输入信息进行分析并识别出目标意图，根据目标意图生成交互信息(交互信息可以包括：ok)，最终由智能终端指引用户140去洗手间。可以理解的是，在本例中S210仅包括一条输入信息：“带我去洗手间”。

在本申请的一些实施例中，S210输入信息包括多条，例如，用户要去买安踏的商品，则用户需要先点击智能终端设备操作首页的“商场购物”按钮(即获取了第一条输入信息)进入了第一页面，该页面有“安踏”的按钮，用户接着通过点击或者语音等方式输入“安踏”(即获取了第二条输入信息)的时候，智能终端设备会对安踏店的商品进行介绍(即根据第一条输入信息和第二条输入信息识别了目标意图并根据第一页面的内容获取了交互信息为安踏店的商品介绍)。也就是说，本例中用于识别目标意图的输入信息包括了如下两条输入信息：①点击“商场购物”按钮，②点击或者语音说“安踏”。

在本申请的一些实施例中，为了对多模态输入信息进行更好的管理，便于后续处理，S210获取输入信息包括：获取该信息的请求发出的时间Time_i；所在的页面信息PageId_i，该值表示当前用户与智能终端设备的交互页面的标识；请求的输入类型RequestType_i(包括“语音”、“触屏”、“输入法”、“视频”或“图片”输入等)；请求的输入内容Content_i，该内容与输入类型相关(如果是语音输入，内容为语音；如果是触屏点击，内容为点击的页面模块id，如某个按钮id等；如果是输入法输入，则是文本)；用户的唯一标识GuestID_i，该值可以通过用户的认证登录、人脸识别、指纹识别等获得唯一值；i表示任一输入信息的编号。此外，为做安全以及权限的管理，可选地，输入信息也可以附带智能终端设备的唯一设备Id和当前的网络信息地址等信息。

对于不同模态的输入信息，为了方便后续的解析和开发，本申请的一些实施例的多模态输入交互方法包括：S220根据所述至少一条输入信息获取该信息对应的目标格式文件，然后对该目标格式文件进行意图识别。其中，该目标格式文件包括文本、图片等。

下面结合多个示例示意性阐述根据各种模态的输入信息识别目标意图的过程。

在本申请的一些实施例中，S210的输入信息为语音信息；相应的S220包括：根据所述语音信息进行语音识别，得到语音识别结果；根据所述语音识别结果得到文本格式文件；根据所述文本格式文件进行意图识别。需要说明的是，在本申请的一些实施例中，也可以根据所述语音识别结果得到图片格式文件，再根据所述图片格式文件进行意图识别。

在本申请的一些实施例中，S210的输入信息为触屏信息；相应的S220包括：根据所述触屏信息对应按钮在所属页面中的信息得到该信息对应的第一目标格式文件；根据所述第一目标格式文件进行意图识别。其中，该第一目标格式文件可以是文本、图片等。

在本申请的一些实施例中，S210输入信息为输入法输入信息；相应的S220包括：根据所述输入法输入的信息得到该信息对应的第二目标格式文件；根据所述第二目标格式文件进行意图识别。其中，该第二目标格式文件可以是文本、图片等。

在本申请的一些实施例中，S210的输入信息为视频或图片输入信息；相应的S220包括：根据所述视频或图片输入信息得到该信息对应的第三目标格式文件；根据所述第三目标格式文件进行意图识别。其中，该第三目标格式文件可以是文本、图片等。

需要说明的是，S220根据输入信息进行意图识别的方法包括多种，例如：最大熵、支持向量机以及机器学习等。其中，机器学习的方法包括：整理已有的意图，对已有意图进行分类训练，最后得到意图识别模型。例如：对于多模态输入信息“退出”、“确认”和“带去洗手间”，可以使用一种已经训练完成的基于语义信息的深度学习模型实现意图识别。作为一个示例，训练意图识别模型的方法包括：

第一步，预先采集用户输入信息文本(例如：采集1万组输入信息文本)。

第二步，标注每条输入信息文本的意图类别(“退出”、“确认”或“带去洗手间”等)。

第三步，人工清洗、确认后，根据输入信息文本与意图类别构建训练集。

第四步，将文本语料训练集分词后，利用词向量模型(例如word2vec)对文本进行编码处理，得到d_text。

第五步，由意图类别与d_text，训练基于长短期记忆神经网络的意图识别模型。

最终意图识别模型利用基于输入的信息文本，经过语义特征信息抽取后，可以利用长短期神经网络，得到该输入信息对应的目标意图。

需要说明的是，在本申请的一些实施例中，智能终端设备采集的至少一条输入信息还包括其他用户或者本人输入的干扰信息，这些干扰信息会干扰意图识别的结果，降低目标意图的准确率。为了减少干扰信息对意图识别的影响，在本申请的一些实施例中S220包括：识别所述至少一条输入信息中的干扰输入信息；从所述至少一条输入信息中，滤除所述干扰输入信息，得到有效输入信息；根据所述有效输入信息进行意图识别，得到所述目标意图。

下面结合图3示例性阐述本申请一些实施例提供的包含干扰信息识别的多模态输入交互方法的实现过程，如图3所示，在本申请的一些实施例中多模态输入交互方法包括：

S310获取至少一条输入信息；S320识别所述至少一条输入信息中的干扰输入信息；S330从所述至少一条输入信息中，滤除所述干扰输入信息，得到有效输入信息；S340根据所述有效输入信息进行意图识别，得到所述目标意图；S350根据所述目标意图和与所述目标意图对应的页面信息，获取交互信息，其中，所述页面信息是根据用于识别所述目标意图的所有所述输入信息得到的；S360输出所述交互信息。

在本申请一些实施例中，S320涉及的干扰信息包括用户连续性误输入信息。为了识别输入信息是否为干扰信息，在本申请的一些实施例中，S320包括：根据所述至少一条输入信息中各条输入信息的输入时间识别所述干扰输入信息。例如：当用户对智能终端设备说出“去洗手间”的指令时，不小心触碰了“去商店”的按钮，则可以通过“去洗手间”和“去商店”两个输入信息的输入时间特征(例如，两条输入信息为同时触发或者间隔时间很短)来判断是否存在干扰信息。通过执行S320就可以识别出“去商店”的输入信息为干扰信息，需要被滤除。

在本申请的一些实施例中，为了识别干扰信息，S220包括：获取第一输入信息的输入时间和第二输入信息的输入时间的差值；确认所述差值大于设定阈值；至少根据所述第二输入信息进行意图识别，得到所述目标意图。例如：用户通过点击触屏或语音输入一条信息“去洗手间”后，不小心点击了“去商店”。在本申请的一些实施例中设置阈值为200ms，如果“去洗手间”和“去商店”两个输入信息的输入时间差值小于200ms，就认为“去商店”这个输入是误输入干扰信息，需要被滤除。其中，阈值可以根据使用经验和场景需要进行设置。

在用户与智能终端设备进行多模态输入交互时，当用户输入同一输入信息时，其实际需求可能存在差异性。例如：在与商城中的智能终端设备的交互过程中，对于用户同一语音输入“安踏”，用户可能存在两种不同的需求:①给用户介绍安踏商品、②带领用户到安踏店。为了准确识别用户的实际意图，消除歧义，本申请的一些实施例的多模态输入交互方法包括：S230根据目标意图和与目标意图对应的页面信息，获取交互信息，其中，页面信息是通过获取目标意图的所有输入信息得到的。

下面结合图4和图5对本申请一些实施例中，对于同一输入信息“安踏”获取两种不同交互信息的实现过程进行示例性阐述。

先结合图4示例性阐述本申请一些实施例针对输入信息“安踏”获取“给用户介绍安踏商品”的交互信息的实现过程，包括：

S410用户点击操作首页的“商场购物”按钮(即第一条输入信息),进入第一页面，第一页面有“安踏”的按钮；S420用户点击“安踏”的按钮或者语音说“安踏”(即第二条输入信息)；S430根据输入信息“安踏”进行意图识别，获得“安踏”对应的目标意图；S440根据目标意图和所述目标意图对应的第一页面信息，获得介绍安踏商品信息的交互页面；S450展示交互页面。也就是说，根据“安踏”对应的目标意图和第一页面信息得到向用户介绍安踏商品的交互信息。

再结合图5示例性阐述本申请一些实施例针对输入信息“安踏”获取“带领用户到安踏店”的交互信息的实现过程，包括：

S510用户点击操作首页的“带路引领”按钮(即第一条输入信息),进入第二页面，第二页面有“安踏”的按钮；S520用户点击“安踏”的按钮或者语音说“安踏”(即第二条输入信息)；S530根据输入信息“安踏”进行意图识别，获得“安踏”对应的目标意图；S540根据目标意图和所述目标意图对应的第二页面信息，获得“带领用户到安踏店”的交互信息；S550执行交互信息，即带领用户到安踏店。也就是说，根据“安踏”对应的目标意图和第二页面信息得到带领用户到安踏店的交互信息。

需要说明的是，在本申请的一些实施例中，根据所述目标意图和与所述目标意图对应的页面信息，获取交互信息的方法包括：查找预先存储的交互映射关系表或者生成交互信息等，其中，生成交互信息的方法包括深度学习中的端到端end-to-end的方式。

在本申请的一些实施例中，输出交互信息的方式包括：文本、语音和动作指引，例如语音回答、文本回复、屏幕点亮、按钮跳动、音乐播放和道路引领等。

下面结合图6示例性阐述本申请一些实施例提供的一种多模态输入交互装置600。应理解，该装置与上述图2方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置的具体功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件的形式存储于存储器中或固化在该装置的操作***中的软件功能模块，该装置包括：输入模块610，被配置为获取至少一条输入信息；识别模块620，被配置为根据所述至少一条输入信息进行意图识别，得到目标意图；获取模块630，被配置为根据所述目标意图和与所述目标意图对应的页面信息，获取交互信息，其中，所述页面信息是根据用于识别所述目标意图的所有所述输入信息得到的；输出模块640，被配置为输出所述交互信息。

在本申请一些实施例中，在图6所示的装置基础上，还增加了过滤模块720，下面结合图7示例性阐述本申请一些实施例提供的一种多模态输入交互装置700。其中，过滤模块720被配置为识别所述至少一条输入信息中的干扰输入信息；从所述至少一条输入信息中，滤除所述干扰输入信息，得到有效输入信息；识别模块730被配置为根据所述有效输入信息进行意图识别，得到所述目标意图。应理解，该装置700与上述图3方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置的具体功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。

下面结合图8示例性阐述本申请一些实施例提供的一种机器人，应理解，该机器人与上述在智能终端设备上执行的用于多模态输入交互的方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该机器人的具体功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。机器人包括至少一个能以软件或固件的形式存储于存储器中或固化在机器人的操作***中的软件功能模块。图8的机器人800，包括：输入设备810，被配置为获取至少一条输入信息；输出设备820，被配置为用于输出交互信息或与目标意图对应的页面；存储器830，被配置为存储计算机可读取指令程序；处理器840，被配置为从所述存储器830读取所述程序，以实现图2和图3记载的多模态输入交互方法。

需要说明的是，输入设备810包括语音交互设备、触摸显示屏设备或摄像设备等，其中，触屏输入的信息输入方式包括滑动、点击、输入法输入等方式。

处理器840可以处理数字信号，可以包括各种计算结构。例如复杂指令集计算机结构、结构精简指令集计算机结构或者一种实行多种指令集组合的结构。在一些示例中，处理器840可以是微处理器。

存储器830可以用于存储由处理器840执行的指令或指令执行过程中相关的数据。这些指令和/或数据可以包括代码，用于实现本申请实施例描述的一个或多个模块的一些功能或者全部功能。本公开实施例的处理器840可以用于执行存储器830中的指令以实现图2-图3中所示的方法。存储器830包括动态随机存取存储器、静态随机存取存储器、闪存、光存储器或其它本领域技术人员所熟知的存储器。

本申请一些实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时可实现上述在机器人上执行的多模态输入交互方法。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种多模态输入交互方法，其特征在于，所述方法包括：

获取至少一条输入信息；

根据所述至少一条输入信息进行意图识别，得到目标意图；

根据所述目标意图和与所述目标意图对应的页面信息，获取交互信息，其中，所述页面信息是根据用于识别所述目标意图的所有所述输入信息得到的；

输出所述交互信息。

2.根据权利要求1所述的方法，其特征在于，所述根据所述至少一条输入信息进行意图识别，得到目标意图，包括：

识别所述至少一条输入信息中的干扰输入信息；

从所述至少一条输入信息中，滤除所述干扰输入信息，得到有效输入信息；

根据所述有效输入信息进行意图识别，得到所述目标意图。

3.根据权利要求2所述的方法，其特征在于，

所述识别所述至少一条输入信息中的干扰输入信息，包括：根据所述至少一条输入信息中各条输入信息的输入时间识别所述干扰输入信息。

4.根据权利要求1所述的方法，其特征在于，所述根据所述至少一条输入信息进行意图识别，得到目标意图，包括：

获取第一输入信息的输入时间和第二输入信息的输入时间的差值；

确认所述差值大于设定阈值；

至少根据所述第二输入信息进行意图识别，得到所述目标意图。

5.根据权利要求1所述的方法，其特征在于，所述根据所述至少一条输入信息进行意图识别，包括：

根据所述至少一条输入信息获取所述输入信息对应的目标格式文件，对所述目标格式文件进行意图识别。

6.根据权利要求1所述的方法，其特征在于，

所述输入信息包括语音信息；

所述根据所述至少一条输入信息进行意图识别，包括：

根据所述语音信息进行语音识别，得到语音识别结果；

根据所述语音识别结果得到文本格式文件；

根据所述文本格式文件进行意图识别。

7.根据权利要求1所述的方法，其特征在于，

所述输入信息包括触屏信息；

所述根据所述至少一条输入信息进行意图识别，包括：

根据所述触屏信息对应按钮在所属页面中的信息得到所述触屏信息对应的第一目标格式文件；

根据所述第一目标格式文件进行意图识别。

8.一种多模态输入交互装置，其特征在于，该装置包括：

输入模块，所述输入模块被配置为获取至少一条输入信息；

识别模块，所述识别模块被配置为根据所述至少一条输入信息进行意图识别，得到目标意图；

获取模块，所述获取模块被配置为根据所述目标意图和与所述目标意图对应的页面信息，获取交互信息，其中，所述页面信息是根据用于识别所述目标意图的所有所述输入信息得到的；

输出模块，所述输出模块被配置为输出所述交互信息。

9.一种机器人，其特征在于，包括：

输入设备，被配置为获取至少一条输入信息；

输出设备，被配置为用于输出交互信息或与目标意图对应的页面；

存储器，被配置为存储计算机可读取指令程序；

处理器，被配置为根据所述目标筛选信息实现上述权利要求1－7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时可实现权利要求1－7中任意一项权利要求所述的方法。