CN110825164A

CN110825164A - 基于儿童专用穿戴智能设备的交互方法及***

Info

Publication number: CN110825164A
Application number: CN201910884788.XA
Authority: CN
Inventors: 贾志强; 俞晓君
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2020-02-21

Abstract

本发明提供的基于儿童专用穿戴智能设备的交互方法，其包含：启动儿童专用穿戴智能设备上的视觉识别模块，接收用户输入的多模态输入数据，依据多模态输入数据选择场景类型；在场景类型对应交互模式下，调用视觉识别模块中的视觉识别能力，采集当前视野下的图像信息；将图像信息上传至云端进行解析，得到与图像信息对应的多模态回应数据；接收并输出云端传送的所述多模态回应数据。本发明能够接收用户输入的多模态输入数据确定场景类型及交互模式，在确定的交互模式下采集图像信息传送至云端进行解析，生成多模态回应数据。本发明能够完成用户搜题、翻译、批改、百科等交互需求，给儿童用户提供更加便捷的交互服务，提升了用户的使用体验。

Description

基于儿童专用穿戴智能设备的交互方法及***

技术领域

本发明涉及人工智能领域，具体地说，涉及一种基于儿童专用穿戴智能设备的交互方法及***。

背景技术

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，对于智能设备的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于智能设备的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他智能设备进行交互的设备，人机交互也就成为决定智能设备发展的重要因素。因此，提升智能设备的交互能力，改善智能设备的类人性和智能性，是现在亟需解决的重要问题。

因此，本发明提供了一种基于儿童专用穿戴智能设备的交互方法及***。

发明内容

为解决上述问题，本发明提供了一种基于儿童专用穿戴智能设备的交互方法，所述方法包含以下步骤：

启动儿童专用穿戴智能设备上的视觉识别模块，接收用户输入的多模态输入数据，依据所述多模态输入数据选择场景类型；

在场景类型对应交互模式下，调用所述视觉识别模块中的视觉识别能力，采集当前视野下的图像信息；

将所述图像信息上传至云端进行解析，得到与所述图像信息对应的多模态回应数据；

接收并输出所述云端传送的所述多模态回应数据。

根据本发明的一个实施例，所述场景类型包含搜题场景、翻译场景、批改场景、百科场景、绘本场景、字迹场景以及造句场景。

根据本发明的一个实施例，依据所述多模态输入数据选择场景类型，具体包含以下步骤：

对所述多模态输入数据进行分析，提取所述多模态输入数据中包含的文字信息及用户的多模态指示信息；

对所述文字信息以及所述多模态指示信息进行识别，获取所述文字信息对应的场景特征及用户需求；

获取与所述场景特征匹配的场景类型。

根据本发明的一个实施例，得到与所述图像信息对应的多模态回应数据的步骤中，还包含以下步骤：

对所述图像信息进行光学字符识别以及图像识别以生成匹配结果数据，对所述匹配结果数据进行语音转化处理，将所述匹配结果数据中的文字数据转化成语音数据；

依据所述匹配结果数据，确定与所述语音数据匹配的图片数据以及视频数据；

得到包含所述文字数据、所述语音数据、所述图片数据以及所述视频数据的所述多模态回应数据。

根据本发明的一个实施例，场景类型对应交互模式通过如下方式实现：

当接收到用户输入的确认或打断指令时，接收用户输入的多模态交互数据；

对所述多模态交互数据进行解析，获取用户的交互意图，依据所述交互意图与用户展开交互。

根据本发明的一个实施例，所述方法还包括：

获取当前用户的身份特征信息，对当前用户的用户属性进行判断，确定当前用户的类别，其中，用户的类别包含：儿童用户。

根据本发明的另一个方面，还提供了一种程序产品，其包含用于执行如上任一项所述的方法步骤的一系列指令。

根据本发明的另一个方面，还提供了一种基于儿童专用穿戴智能设备的交互装置，所述装置包含：

第一模块，其用于启动儿童专用穿戴智能设备上的视觉识别模块，接收用户输入的多模态输入数据，依据所述多模态输入数据选择场景类型；

第二模块，其用于在场景类型对应交互模式下，调用所述视觉识别模块中的视觉识别能力，采集当前视野下的图像信息；

第三模块，其用于将所述图像信息上传至云端进行解析，得到与所述图像信息对应的多模态回应数据；

第四模块，其用于接收并输出所述云端传送的所述多模态回应数据。

根据本发明的另一个方面，还提供了一种儿童专用穿戴智能设备，用于执行如上任一项所述的方法步骤的一系列指令。

根据本发明的另一个方面，还提供了一种基于儿童专用穿戴智能设备的交互***，所述***包含：

如上所述的儿童专用穿戴智能设备；

云端，其具备语义理解、视觉识别、认知计算以及情感计算，以决策所述儿童专用穿戴智能设备输出多模态数据。

本发明提供的基于儿童专用穿戴智能设备的交互方法及***提供了一种儿童专用穿戴智能设备，能够接收用户输入的多模态输入数据确定场景类型及交互模式，在确定的交互模式下采集图像信息传送至云端进行解析，生成多模态回应数据。本发明能够完成用户搜题、翻译、批改、百科等交互需求，给儿童用户提供更加便捷的交互服务，提升了用户的使用体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1显示了根据本发明的一个实施例的基于儿童专用穿戴智能设备的交互方法流程图；

图2显示了根据本发明的一个实施例的基于儿童专用穿戴智能设备的交互方法中确定场景类型的流程图；

图3显示了根据本发明的一个实施例的基于儿童专用穿戴智能设备的交互方法中生成多模态回应数据的流程图；

图4显示了根据本发明的一个实施例的基于儿童专用穿戴智能设备的交互方法中接收到用户输入的确认或打断指令时的流程图；

图5显示了根据本发明的一个实施例的基于儿童专用穿戴智能设备的交互方法中通过客户端进行交互的流程图；

图6显示了根据本发明的一个实施例的基于儿童专用穿戴智能设备的交互装置的模块框图；

图7显示了根据本发明的一个实施例的基于儿童专用穿戴智能设备的交互***的结构框图；

图8显示了根据本发明的另一个实施例的基于儿童专用穿戴智能设备的交互***的结构框图；

图9显示了根据本发明的另一个实施例的基于儿童专用穿戴智能设备的交互方法流程图；以及

图10显示了根据本发明的一个实施例的用户、儿童专用穿戴智能设备以及云端的三方数据流图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明实施例作进一步地详细说明。

为表述清晰，需要在实施例前进行如下说明：

本发明提到的儿童专用穿戴智能设备支持多模态人机交互，具备自然语言理解、视觉感知、语言语音输出、情感表情动作输出等AI能力；可配置社会属性、人格属性、人物技能等，使用户享受智能化及个性化流畅体验。在具体的实施例中，儿童专用穿戴智能设备可以是儿童手表、便携故事机、眼镜等具备图像采集能力的设备。

儿童专用穿戴智能设备获取用户的多模态数据，在云端的能力支持下，对多模态数据进行语义理解、视觉识别、认知计算、情感计算，以完成决策输出的过程。

所提到的云端为提供所述儿童专用穿戴智能设备对用户的交互需求进行语义理解(语言语义理解、动作语义理解、视觉识别、情感计算、认知计算)的处理能力的终端，实现与用户的交互，以决策所述儿童专用穿戴智能设备输出多模态数据。

下面结合附图对本发明的各个实施例进行详细描述。

图1显示了根据本发明的一个实施例的基于儿童专用穿戴智能设备的交互方法流程图。

如图1，在步骤S101中，启动儿童专用穿戴智能设备上的视觉识别模块，接收用户输入的多模态输入数据。依据多模态输入数据选择场景类型。

在一个实施例中，场景类型包含搜题场景、翻译场景、批改场景、百科场景、绘本场景、字迹场景以及造句场景。在实际的应用中，儿童专用穿戴智能设备的视觉能力开启，用户可以通过语音输入“我要搜题”，进入搜题场景。

具体来说，通过如图2所示的方法选择场景类型，在步骤S201中，对多模态输入数据进行分析，提取多模态输入数据中包含的文字信息及用户的多模态指示信息。具体来说，可以对用户输入的多模态输入数据进行语义识别，提取“我要搜题”语音中的文字信息“搜题”。

接着，在步骤S202中，对文字信息以及多模态指示信息进行识别，获取文字信息对应的场景特征及用户需求。具体来说，识别文字信息“搜题”，确定“搜题”是对应于搜题场景，以及明确用户的需求是想要选择搜题场景。

最后，在步骤S203中，获取与场景特征匹配的场景类型。具体来说，在确定用户想要进入搜题场景后，开启搜题场景。

如图1，在步骤S102中，在场景类型对应交互模式下，调用视觉识别模块中的视觉识别能力，采集当前视野下的图像信息。

在本发明中，儿童专用穿戴智能设备上设置有图像采集设备，能够采集当前视野下的图像信息。具体来说，儿童专用穿戴智能设备上可以设置有有摄像头，在用户的指示下进入搜题模式后，通过摄像头采集当前的图像信息，当前的图像信息可能是用户正在看的试题集，用户将摄像头对准想要搜索答案的试题(例如：莎士比亚的四大悲剧和四大喜剧分别是什么？)，摄像头对试题集进行拍照，获取图像信息。

如图1，在步骤S103中，将图像信息上传至云端进行解析，得到与图像信息对应的多模态回应数据。一般来说，云端具备多种能力，云端可能具备光学字符识别能力、图像识别能力、搜索能力、自然语言理解能力等。云端可以对传送来的图像信息进行多种能力的分析，得到多模态回应数据。

具体来说，通过如图3所示的方法得到与图像信息对应的多模态回应数据。如图3，在步骤S301中，对图像信息进行光学字符识别以及图像识别以生成匹配结果数据，对匹配结果数据进行语音转化处理，将匹配结果数据中的文字数据转化成语音数据。云端上具备光学字符识别能力，可以识别图像信息中的文字，通过语义分析能力对识别的文字进行语义分析，然后通过搜索能力搜索对应的匹配结果数据。具体来说，通过光学字符识别能力，识别出当前图像信息中的文字“莎士比亚的四大悲剧和四大喜剧分别是什么？”，然后通过语义分析能力与搜索能力，得到匹配结果数据“四大悲剧分别是哈姆雷特、麦克白、奥赛罗以及李尔王，四大喜剧分别是威尼斯商人、仲夏夜之梦、皆大欢喜以及第十二夜”。

接着，在步骤S302中，依据匹配结果数据，确定与语音数据匹配的图片数据以及视频数据。具体来说，依据生成的匹配结果数据，搜索与匹配结果数据相对应的图片数据以及视频数据，例如搜索莎士比亚相关的图片数据以及视频数据。

最后，在步骤S303中，得到包含文字数据、语音数据、图片数据以及视频数据的多模态回应数据。

如图1，在步骤S104中，接收并输出云端传送的多模态回应数据。具体来说，儿童专用穿戴智能设备接收云端传送的多模态回应数据，通过喇叭、显示屏等展示多模态回应数据。

根据本发明的一个实施例，获取当前用户的身份特征信息，对当前用户的用户属性进行判断，确定当前用户的类别，其中，用户的类别包含：儿童用户。本发明面向的用户群主要是儿童用户，因此需要确定用户的身份属性。判断用户身份的方式是有很多种，一般来说，可以通过面部识别功能或者指纹识别方式来辨别用户的身份。其他能够判断用户身份的方式也可以运用到本发明中来，本发明不对此做出限制。

图4显示了根据本发明的一个实施例的基于儿童专用穿戴智能设备的交互方法中接收到用户输入的确认或打断指令时的流程图。在步骤S401中，当接收到用户输入的确认或打断指令时，接收用户输入的多模态交互数据。然后在步骤S402中，对多模态交互数据进行解析，获取用户的交互意图，依据交互意图与用户展开交互。

具体来说，当云端把多模态回应数据发送至儿童专用穿戴智能设备上的客户端时，如果接收到用户发送的确认或打断指令，则停止向用户输出多模态回应数据，接收用户输入的多模态交互数据，分析用户的交互意图。可以通过语音交互、触摸屏交互、物理按钮点击交互以及视觉交互方式与用户展开交互。

图5显示了根据本发明的一个实施例的基于儿童专用穿戴智能设备的交互方法中通过客户端进行交互的流程图。

在步骤S501中，儿童专用穿戴智能设备视觉开启后，可以与用户通过视觉、语音、触摸、物理按钮交互方式展开交互。具体来说，用户可以通过手势等肢体动作、语音、触摸智能设备某一特定区域以及按压物理按钮等方式开启与儿童专用穿戴智能设备的交互。

在步骤S502中，语音交互或拍照唤醒答题功能。具体来说，提供了多种场景类型，供用户与智能设备展开交互，场景类型包含：搜题场景、翻译场景、批改场景、百科场景、绘本场景、字迹场景以及造句场景。在步骤S502中，用户可以通过语音输出“我要搜题”唤醒智能设备的答题场景，开启答题交互。

在步骤S503中，视觉采集题目。具体来说，智能设备上设置有图像采集装置，能够采集当前视野下的图像信息，即题目。

在步骤S504中，通过场景ID判断处理何种问题。具体来说，通过“搜题”来确定当前处于搜题场景，需要向用户反馈题目的答案。

在步骤S505中，在不同的场景里面针对发送到云端的数据做处理。具体来说，在搜题场景下，智能设备需要将采集到的图像信息传送至云端，云端结合OCR(OpticalCharacter Recognition，光学字符识别)技术、图像识别技术、搜索技术、NLU(NaturalLanguage Understanding，自然语言理解)技术，完成对图像信息中题目答案的检索。

一般来说，自然语言理解(NLU)包括中文自动分词(Chinese wordsegmentation)，词性标注(Part-of-speechtagging)，句法分析(Parsing)，自然语言生成(Naturallanguage generation)，文本分类(Textcategorization)，信息检索(Information retrieval)，信息抽取(Informationextraction)，文字校对(Text-proofing)，问答***(Questionanswering)，机器翻译(Machine translation)，自动摘要(Automaticsummarization)，文字蕴涵(Textual entailment)等等。

在步骤S506中，根据处理后的结果组织回答内容。具体来说，得到匹配结果数据，再匹配与匹配结果数据相对应的图片、视频或语音数据，合成得到多模态回应数据。

在步骤S507中，将内容发送给客户端。具体来说，云端将生成的多模态回应数据传送至儿童专用穿戴智能设备上的客户端。

在步骤S508中，客户端收到内容并输出文字，图片、视频、语音类型的答案给用户。

图6显示了根据本发明的一个实施例的基于儿童专用穿戴智能设备的交互装置的模块框图。

如图6所示，交互装置包含第一模块601、第二模块602、第三模块603以及第四模块604。其中，第一模块601包含获取单元6011。第三模块603包含传输单元6031、解析单元6032以及结果单元6033。第四模块604包含通信单元6041以及输出单元6042。

第一模块601用于启动儿童专用穿戴智能设备上的视觉识别模块，接收用户输入的多模态输入数据，依据多模态输入数据选择场景类型。其中，获取单元6011用于在儿童专用穿戴智能设备启动后获取用户输入的多模态数据。

第二模块602用于在场景类型对应交互模式下，调用视觉识别模块中的视觉识别能力，采集当前视野下的图像信息。

第三模块603用于将图像信息上传至云端进行解析，得到与图像信息对应的多模态回应数据。解析单元6032用于解析图像数据。结果单元6033用于生成多模态回应数据。

第四模块604用于接收并输出云端传送的多模态回应数据。其中，通信单元6041用于根据接收云端传送的多模态回应数据。输出单元6042用于输出多模态回应数据。

图7显示了根据本发明的一个实施例的基于儿童专用穿戴智能设备的交互***的结构框图。如图7所示，完成多模态交互需要用户701、儿童专用穿戴智能设备702以及云端703的共同参与。其中，儿童专用穿戴智能设备702包含输入输出装置7021、数据处理单元7022以及接口单元7023。云端703所具备的接口包含语义理解接口7031、视觉识别接口7032、认知计算接口7033以及情感计算接口7034。

本发明提供的基于儿童专用穿戴智能设备的交互***包含儿童专用穿戴智能设备702以及云端703。儿童专用穿戴智能设备702包括支持视觉、感知、控制等输入输出模块的智能设备，可接入互联网，例如儿童手表等，具备多模态交互功能，能够接收用户输入的多模态数据，将多模态数据传输至云端进行解析，得到多模态回应数据，在儿童专用穿戴智能设备上输出。

儿童专用穿戴智能设备702中的客户端可以装载在安卓***环境下，儿童专用穿戴智能设备可以是具备4G通信能力的安卓***儿童手表等。

云端703具备语义理解、视觉识别、认知计算以及情感计算，以决策儿童专用穿戴智能设备输出多模态数据。

输入输出装置7021用于获取输入的多模态数据以及输出需要输出的多模态数据。输入的多模态数据可以是用户701输入的，也可以是周边环境输入的。输入输出装置7021的例子包括用于语音操作的麦克风、喇叭、扫描仪、摄像头、感控设备，如采用可见或不可见波长射线、信号、环境数据等等。可以通过以上提到的输入设备来获取多模态数据。多模态数据可以包含文本、音频、视觉以及感知数据中的一种，也可以包含多种，本发明不对此作出限制。

数据处理单元7022用于处理进行多模态交互中产生的数据。所用的处理器可以为数据处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是终端的控制中心，利用各种接口和线路连接整个终端的各个部分。

儿童专用穿戴智能设备702中包含存储器，存储器主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据儿童专用穿戴智能设备702的使用所创建的数据(比如音频数据、浏览记录等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

云端703包含语义理解接口7031、视觉识别接口7032、认知计算接口7033以及情感计算接口7034。以上这些接口与儿童专用穿戴智能设备702中的接口单元7023展开通信。并且，云端703还包含与语义理解接口7031对应的语义理解逻辑、与视觉识别接口7032对应的视觉识别逻辑、与认知计算接口7033对应的认知计算逻辑以及与情感计算接口7034对应的情感计算逻辑。

如图7所示，各个能力接口分别调用对应的逻辑处理。以下为各个接口的说明：

语义理解接口，其接收从接口单元7023转发的特定语音指令，对其进行语音识别以及基于大量语料的自然语言处理。

视觉识别接口，可以针对人体、人脸、场景依据计算机视觉算法、深度学习算法等进行内容检测、识别、跟踪等。即根据预定的算法对图像进行识别，给出定量的检测结果。具备图像预处理功能、特征提取功能、决策功能和具体应用功能；

其中，图像预处理功能可以是对获取的视觉采集数据进行基本处理，包括颜色空间转换、边缘提取、图像变换和图像阈值化；

特征提取功能可以提取出图像中目标的肤色、颜色、纹理、运动和坐标等特征信息；

决策功能可以是对特征信息，按照一定的决策策略分发给需要该特征信息的具体多模态输出设备或多模态输出应用，如实现人脸检测、人物肢体识别、运动检测等功能。

认知计算接口，其接收从接口单元7023转发的多模态数据，认知计算接口7033用以处理多模态数据进行数据采集、识别和学习，以获取用户画像、知识图谱等，以对多模态输出数据进行合理决策。

情感计算接口，其接收从接口单元7023转发的多模态数据，利用情感计算逻辑(可以是情绪识别技术)来计算用户当前的情绪状态。情绪识别技术是情感计算的一个重要组成部分，情绪识别研究的内容包括面部表情、语音、行为、文本和生理信号识别等方面，通过以上内容可以判断用户的情绪状态。情绪识别技术可以仅通过视觉情绪识别技术来监控用户的情绪状态，也可以采用视觉情绪识别技术和声音情绪识别技术结合的方式来监控用户的情绪状态，且并不局限于此。

此外，本发明提供的基于儿童专用穿戴智能设备的交互***还可以配合一种程序产品，其包含用于执行完成基于儿童专用穿戴智能设备的交互方法步骤的一系列指令。程序产品能够运行计算机指令，计算机指令包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

程序产品可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，程序产品包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，程序产品不包括电载波信号和电信信号。

图8显示了根据本发明的另一个实施例的基于儿童专用穿戴智能设备的交互***的结构框图。完成多模态交互需要用户701、儿童专用穿戴智能设备702以及云端703。其中，儿童专用穿戴智能设备702包含信号采集器件801、显示屏802、信号输出器件803以及中央处理器804。

信号采集器件801用于采集用户或外界环境输出的信号。信号采集器件801可以是麦克风等能够采集声音信号的设备，也可以是触摸屏等。显示屏802可以展示用户输入的多模态数据以及输出的多模态回应数据。信号输出器件803用于输出音频数据。信号输出器件803可以是功放和喇叭等能够输出音频数据的设备。中央处理器804可以对多模态交互过程中产生的数据进行处理。

根据本发明的一个实施例，儿童专用穿戴智能设备702支持视觉、感知、控制等输入输出模块的智能设备，例如儿童手表等，具备多模态交互功能，能够接收用户输入的多模态数据，将多模态数据传输至云端进行解析，得到多模态回应数据，在儿童专用穿戴智能设备上输出。

图9显示了根据本发明的另一个实施例的基于儿童专用穿戴智能设备的交互方法流程图。

如图9所示，在步骤S901中，儿童专用穿戴智能设备702向云端703发出请求。之后，在步骤S902中，儿童专用穿戴智能设备702一直处于等待云端703回复的状态。在等待的过程中，儿童专用穿戴智能设备702会对返回数据所花费的时间进行计时操作。

在步骤S903中，如果长时间未得到返回的应答数据，比如，超过了预定的时间长度5S，则儿童专用穿戴智能设备702会选择进行本地回复，生成本地常用应答数据。然后，在步骤S904中，输出本地常用应答，并调用语音播放设备进行语音播放。

为了实现儿童专用穿戴智能设备702与用户701之间的多模态交互，需要用户701、儿童专用穿戴智能设备702以及云端703之间建立起通信连接。这种通信连接应该是实时的、通畅的，能够保证交互不受影响的。

为了完成交互，需要具备一些条件或是前提。这些条件或是前提包含，儿童专用穿戴智能设备702中具备客户端，并且儿童专用穿戴智能设备702具备视觉、感知以及控制功能的硬件设施。

完成前期准备后，儿童专用穿戴智能设备702开始与用户701展开交互，首先，儿童专用穿戴智能设备702接收用户输入的多模态输入数据。多模态输入数据可以是语音数据、视觉数据、触觉数据，还可以是用户按下物理按钮。儿童专用穿戴智能设备702中配置有接收多模态输入数据的相应设备，用来接收用户701发送的多模态输入数据。此时，展开通信的两方是儿童专用穿戴智能设备702与用户701，数据传递的方向是从用户701传向儿童专用穿戴智能设备702。

然后，儿童专用穿戴智能设备702向云端703传输多模态输入数据。通过多模态输入数据确定场景类型及交互模式。多模态输入数据中可以包含多种形式的数据，例如，多模态输入数据中可以包含文本数据、语音数据、感知数据以及动作数据等。此时，展开数据传递的两方是儿童专用穿戴智能设备702以及云端703，数据传递的方向是从儿童专用穿戴智能设备702传向云端703。

接着，在确定场景类型及交互模式后，儿童专用穿戴智能设备702通过视觉采集图像信息。然后儿童专用穿戴智能设备702将采集到的图像信息传输至云端703。

接着，云端703向儿童专用穿戴智能设备702传输多模态回应数据。云端703对图像信息进行解析，可以进行语义理解、视觉识别、认知计算以及情感计算，以得到图像信息对应的多模态回应数据。此时，展开通信的两方是云端703以及儿童专用穿戴智能设备702，数据传递的方向是从云端703传向儿童专用穿戴智能设备702。

最后，当儿童专用穿戴智能设备702接收到云端703传输的多模态回应数据后，儿童专用穿戴智能设备702会输出多模态回应数据数据。此时，展开通信的两方为儿童专用穿戴智能设备702以及用户701，数据传递的方向是从儿童专用穿戴智能设备702传向用户701。

综上，本发明提供的基于儿童专用穿戴智能设备的交互方法及***提供了一种儿童专用穿戴智能设备，能够接收用户输入的多模态输入数据确定场景类型及交互模式，在确定的交互模式下采集图像信息传送至云端进行解析，生成多模态回应数据。本发明能够完成用户搜题、翻译、批改、百科等交互需求，给儿童用户提供更加便捷的交互服务，提升了用户的使用体验。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于儿童专用穿戴智能设备的交互方法，其特征在于，所述方法包含以下步骤：

接收并输出所述云端传送的所述多模态回应数据。

2.如权利要求1所述的方法，其特征在于，所述场景类型包含搜题场景、翻译场景、批改场景、百科场景、绘本场景、字迹场景以及造句场景。

3.如权利要求1-2中任一项所述的方法，其特征在于，依据所述多模态输入数据选择场景类型，具体包含以下步骤：

获取与所述场景特征匹配的场景类型。

4.如权利要求1所述的方法，其特征在于，得到与所述图像信息对应的多模态回应数据的步骤中，还包含以下步骤：

5.如权利要求1-4中任一项所述的方法，其特征在于，场景类型对应交互模式通过如下方式实现：

6.如权利要求1-5中任一项所述的方法，其特征在于，所述方法还包括：

7.一种程序产品，其包含用于执行如权利要求1-6中任一项所述的方法步骤的一系列指令。

8.一种基于儿童专用穿戴智能设备的交互装置，其特征在于，所述装置包含：

9.一种儿童专用穿戴智能设备，其特征在于，用于执行如权利要求1-6中任一项所述的方法步骤的一系列指令。

10.一种基于儿童专用穿戴智能设备的交互***，其特征在于，所述***包含：

如权利要求9所述的儿童专用穿戴智能设备；