CN113053186A

CN113053186A - 交互方法、交互设备及存储介质

Info

Publication number: CN113053186A
Application number: CN201911363072.1A
Authority: CN
Inventors: 资礼波; 杨唯唯; 吕军; 王舒; 缪梦跻; 盖胜平; 李萧萧; 何泽森; 付立
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: JD Digital Technology Holdings Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2021-06-29

Abstract

本申请实施例公开了一种交互方法、交互设备及计算机存储介质，其中应用于第一设备的方法包括：获得交互对象的第一行为数据；根据交互对象的第一行为数据，获得交互对象的第一状态，其中所述状态为工作状态或学习状态；根据交互对象的第一状态，发送所述第一目标数据，其中所述第一目标数据用于被第二设备输出以使所述交互对象与所述第一目标数据进行第一互动。

Description

交互方法、交互设备及存储介质

技术领域

本申请涉及交互技术，具体涉及一种交互方法、交互设备及计算机存储介质。

背景技术

以人机交互技术应用于教学行业为例，目前还存在一定的不足。通常，用户用于购买的在线教学课程为预先录制好的课程，用户登录教学***之后，教学***通常会按照课程顺序进行教学课程的播放，用户进行播放内容的观看与收听。这种播放仅是在线教学***的单向输出，并没有与用户产生互动。如此，存在有用户未集中注意力听取课程而***仍然进行课程播放的可能，无法达到期望的教学效果。同时，由于与用户之间未存在互动，也无法很好的调动用户的学习积极性，对于用户来说，无法达到理想的学习效果。

发明内容

为解决现有存在的技术问题，本申请实施例提供一种交互方法、交互设备及计算机存储介质，

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种交互方法，应用于第一设备，所述方法包括：

获得交互对象的第一行为数据；

根据交互对象的第一行为数据，获得交互对象的第一状态，其中所述状态为工作状态或学习状态；

根据交互对象的第一状态，确定第一目标数据，所述第一目标数据表征为待输出的第一多媒体数据；

发送所述第一目标数据，其中所述第一目标数据用于被第二设备输出以使所述交互对象与所述第一目标数据进行第一互动。

上述方案中，在获得交互对象的第一行为数据之后，所述方法还包括：

判断交互对象的第一行为数据是否发生变化，生成判断结果；

在所述判断结果表征为第一行为数据发生变化的情况下，确定发生变化的第一行为数据为第二行为数据；

根据第二行为数据，获得交互对象的第二状态，其中所述状态为工作状态或学习状态；

根据交互对象的第二状态，确定第二目标数据；所述第二目标数据表征为待输出的第二多媒体数据；

发送所述第二目标数据，其中所述第二目标数据用于被第二设备输出以使所述交互对象与所述第二目标数据进行第二互动。

上述方案中，所述根据交互对象的第一行为数据，确定所述第一设备的第一目标数据，包括：

对所述第一行为数据进行分析，得到第一状态；

从所述第一设备的至少两个待输出多媒体数据中，确定与第一状态匹配的多媒体数据；

将所确定出的多媒体数据作为所述第一目标数据。

上述方案中，在发送所述第一目标数据之后，所述方法还包括：

接收所述交互对象针对所述第一目标数据而产生的音频信息；

对所述音频信息进行分析，得到分析结果；

根据所述分析结果，确定是否进行第一互动。

上述方案中，

在所述分析结果不为预定结果的情况下，

切换所述第一目标数据为第三目标数据；所述第三目标数据表征为待输出的第三多媒体数据；

发送所述第三目标数据，其中所述第三目标数据用于被第二设备输出以使所述交互对象与所述第三目标数据进行第三互动。

上述方案中，所述获得交互对象的第一行为数据，包括：

接收针对交互对象的图像数据和/或所述交互对象产生的音频信息；

对所述图像数据和所述音频信息进行分析，得到所述交互对象的第一行为数据。

上述方案中，所述方法包括：

对所述待输出的多媒体数据进行切分，得到至少两个子多媒体数据；

相应的，所述从所述第一设备的至少两个待输出多媒体数据中，确定与第一状态匹配的多媒体数据，包括：

从至少两个子多媒体数据中确定与第一状态匹配的子多媒体数据；

将确定出的所述子多媒体数据作为所述第一目标数据。

上述方案中，所述从至少两个子多媒体数据中确定与第一状态匹配的子多媒体数据，包括：

从至少两个子多媒体数据中确定与接收到的交互对象产生的音频信息关联的数据作为与所述第一状态匹配的子多媒体数据。

本申请实施例提供一种交互方法，应用于第二设备，所述方法包括：

采集针对交互对象的图像数据和/或所述交互对象产生的音频信息；

对采集到的信息进行分析，得到所述交互对象的第一行为数据，发送所述第一行为数据；

输出针对所述第一行为数据而得到的第一目标数据以使所述交互对象与所述第一目标数据进行第一互动，其中所述第一目标数据表征为第一多媒体数据。

采集并发送针对交互对象的图像数据和/或所述交互对象产生的音频信息至第一设备以使所述第一设备获得第一行为数据；

本申请实施例提供一种交互设备，所述设备包括：

第一获得单元，用于获得交互对象的第一行为数据；

第二获得单元，用于根据交互对象的第一行为数据，获得交互对象的第一状态，其中所述状态为工作状态或学习状态；

确定单元，用于根据交互对象的第一状态，确定第一目标数据，所述第一目标数据表征为待输出的第一多媒体数据；

发送单元，用于发送所述第一目标数据，其中所述第一目标数据用于被第二设备输出以使所述交互对象与所述第一目标数据进行第一互动。

本申请实施例提供一种交互设备，所述设备包括：

采集单元，用于采集针对交互对象的图像数据和/或所述交互对象产生的音频信息；

分析与发送单元，用于对采集到的信息进行分析，得到所述交互对象的第一行为数据，发送所述第一行为数据；

输出单元，用于输出针对所述第一行为数据而得到的第一目标数据以使所述交互对象与所述第一目标数据进行第一互动。

本申请实施例提供一种交互设备，所述设备包括：

采集与发送单元，用于采集针对交互对象的图像数据和/或所述交互对象产生的音频信息发送采集到的信息至第一设备以使所述第一设备获得第一行为数据；

输出单元，用于输出针对所述第一行为数据而得到的第一目标数据以使所述交互对象与所述第一目标数据进行第一互动，其中所述第一目标数据表征为第一多媒体数据。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现前述方法的步骤。

本申请实施例提供一种交互设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前述方法的步骤。

本申请实施例提供的交互方法、交互设备及计算机存储介质，其中应用于第一设备的方法包括：获得交互对象的第一行为数据；根据交互对象的第一行为数据，获得交互对象的第一状态，其中所述状态为工作状态或学习状态；根据交互对象的第一状态，确定第一目标数据，所述第一目标数据表征为待输出的第一多媒体数据；发送所述第一目标数据，其中所述第一目标数据用于被第二设备输出以使所述交互对象与所述第一目标数据进行第一互动。

本申请实施例中，能够实现交互对象和播放的多媒体数据之间的互动。且根据用户的行为数据确定用户的工作或学习状态，根据状态确定要输出的数据，也即可根据用户的工作或学习状态有针对性确定要输出的数据，进而实现了针对性的互动，可大大提升互动效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请的交互方法的第一实施例的实现流程示意图；

图2为本申请的交互方法的第二实施例的实现流程示意图；

图3为本申请的交互方法的第三实施例的实现流程示意图；

图4为本申请的交互方法的第四实施例的实现流程示意图；

图5为本申请的交互方法的整体实现流程示意图；

图6(a)～图6(d)为本申请提供的实现交互方法的几个界面示意图；

图7为本申请提供的交互设备的第一实施例的组成结构示意图；

图8为本申请提供的交互设备的第二实施例的组成结构示意图；

图9为本申请提供的交互设备的第三实施例的组成结构示意图；

图10为本申请提供的交互设备的硬件构成示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例中的交互方法可应用于两个设备中如第一设备和第二设备，进而用户可通过其中一个设备实现与另一设备的(人机)交互。以下方案均以用户使用第二设备实现与第一设备的人机交互。本领域技术人员可以理解，本申请实施例中的第二设备可以是任何可供用户使用的设备如手机、台式电脑、PAD、Kindle、智能手环、智能手表等。第一设备可以是任何合理的能够与第二设备进行通信的设备如后台、服务器、云端等。

本申请提供的交互方法的第一实施例，应用于第二设备中，如图1所示，所述方法包括：

S(步骤)101：采集针对交互对象的图像数据和/或所述交互对象产生的音频信息；

本步骤中，第二设备具有图像采集装置和音频采集装置。可通过图像采集装置采集针对交互对象的图像数据；通过音频采集装置采集针对交互对象的音频信息。其中，图像采集装置可以具体为摄像头；音频采集装置可以具体为麦克风。交互对象通常为用户。

S102：对采集到的信息进行分析，得到所述交互对象的第一行为数据，发送所述第一行为数据；

本步骤中，对采集到的针对用户的图像数据和/或音频数据，得到该用户的行为数据。该行为数据可以是任何表示该用户行为的数据，如用户的表情、用户的神态、用户的语速、语调、用户的动作等。

S103：输出针对所述第一行为数据而得到的第一目标数据以使所述交互对象与所述第一目标数据进行第一互动，其中所述第一目标数据表征为第一多媒体数据。

本步骤中，第二设备输出针对S102得到的行为数据而得到的多媒体数据，用户利用第二设备根据输出的该多媒体数据与第一设备进行互动。可见前述方案中，能够实现交互对象和播放的多媒体数据之间的互动。且本申请实施例中，根据用户的行为数据而确定要输出的数据，也即可根据用户的行为数据有针对性的输出数据，进而实现了针对性的互动、和趣味性的互动，可大大提升互动效果。以多媒体数据为课程为例，通过前述的技术方案，一方面，用户可使用手机或电脑等设备进行课程的学习且能够通过互动实现预期的学习效果和教学效果。另一方面，要播放的课程根据用户的行为数据而定，实现了针对性和趣味性的互动。

本申请提供的交互方法的第二实施例，应用于第二设备中，如图2所示，所述方法包括：

S201：采集针对交互对象的图像数据和/或所述交互对象产生的音频信息发送采集到的信息至第一设备以使所述第一设备获得第一行为数据；

S202：输出针对所述第一行为数据而得到的第一目标数据以使所述交互对象与所述第一目标数据进行第一互动，其中所述第一目标数据表征为第一多媒体数据。

相对于S101～S103的方案，S201和S202所示的方案中，第二设备仅需要采集针对交互对象的图像数据和/或交互对象产生的音频信息并发送，由接收图像数据和/或音频信息的接收方如第一设备进行交互对象的行为数据的计算，第二设备对接收方得到的多媒体数据进行输出。可实现交互对象和播放的多媒体数据之间的互动。且根据用户的行为数据而确定要输出的数据，也即可根据用户的行为数据有针对性的输出数据，进而实现了针对性的互动、和趣味性的互动，可大大提升互动效果。

针对前述的应用于第二设备的交互方法的第一实施例和第二实施例，无论根据第二设备采集到的图像数据和/或音频信息得到交互对象的行为数据这一过程是由第二设备来实现还是由接收方如第一设备来实现，均可根据用户的行为数据而确定要输出的数据，不仅实现了交互对象与输出数据之间的互动，还实现了针对性的互动，可大大提高互动效果。

本申请提供一种交互方法的第三实施例，该实施例应用于第一设备中，如图3所示，所述方法包括：

S301：获得交互对象的第一行为数据；

在具体实现上，S301可以直接接收交互对象的行为数据；还可以接收针对交互对象而采集到的图像数据和/或音频信息，并根据该接收到的信息得到交互对象的行为数据。

S302：根据交互对象的第一行为数据，获得交互对象的第一状态，其中所述状态为工作状态或学习状态；

本步骤中，根据交互对象的行为数据，确定交互对象的工作状态或学习状态。如工作状态或学习状态为特别好、好、一般、不好、较差、很差中的至少一种。还可以为工作或学习注意力集中或不集中。

S303：根据交互对象的第一状态，确定第一目标数据，所述第一目标数据表征为待输出的第一多媒体数据；

本步骤中，根据交互对象的状态，确定要待输出的数据。其中，多媒体数据可以是任何能够输出的数据如音频数据、图像数据、视频数据等。

S304：发送所述第一目标数据，其中所述第一目标数据用于被第二设备输出以使所述交互对象与所述第一目标数据进行第一互动。

前述方案中，根据用户的行为数据确定用户的工作或学习状态，根据状态确定要输出的数据，也即可根据用户的工作或学习状态有针对性确定要输出的数据。通俗地讲，用户的工作或学习状态由用户的行为数据而定，用户的工作或学习状态能够决定着要输出的数据，则可以简单的认为可根据用户的行为数据确定要输出的数据，如此便可实现有针对性地对用户进行输出，实现有针对性的互动，至少可提升互动效果。

本申请提供一种交互方法的第四实施例，该实施例应用于第一设备中，如图4所示，所述方法包括：

S401：获得交互对象的第一行为数据；

S402：判断交互对象的第一行为数据是否发生变化，生成判断结果；

S403：在所述判断结果表征为第一行为数据发生变化的情况下，确定发生变化的第一行为数据为第二行为数据；

S404：根据第二行为数据，获得交互对象的第二状态，其中所述状态为工作状态或学习状态；

S405：根据交互对象的第二状态，确定第二目标数据；所述第二目标数据表征为待输出的第二多媒体数据；

406：发送所述第二目标数据，其中所述第二目标数据用于被第二设备输出以使所述交互对象与所述第一目标数据进行第一互动。

前述方案中，在获得交互对象的行为数据的情况下，还需要判断行为数据是否发生变化，在行为数据发生变化的情况下，重新确定交互对象的状态，并根据变化后的状态确定待输出的多媒体数据，并发送以供输出并互动。相当于本方案在行为数据发生变化的情况下，输出的多媒体数据即做调整。相当于一种输出数据根据行为数据的变化而随之产生调整的方案，为一种输出数据的智能调整方案。这种输出数据能够在行为数据的变化情况下做出调整且输出数据根据变化后的行为数据进行调整的方案，可能够起到智能交互的目的，达到良好的交互效果。

在一个可选的实施例中，所述根据交互对象的第一行为数据，确定所述第一设备的第一目标数据，包括：对所述第一行为数据进行分析，得到第一状态从所述第一设备的至少两个待输出多媒体数据中，确定与第一状态匹配的多媒体数据；将所确定出的多媒体数据作为所述第一目标数据。

可以理解，行为数据可以是任何表示该用户行为的数据，如用户的表情、用户的神态、用户说的话、用户的语速、语调、用户的动作等。前述方案中，根据对第一行为数据的分析结果确定该用户的工作状态或学习状态，并确定与工作状态或学习状态相匹配的多媒体数据作为目标数据。也即待输出的多媒体数据根据对用户的神态、语速、语调、动作等而确定，由此可实现根据用户的实际行为数据进行输出的多媒体数据的智能调整，可使得输出的内容更符合用户的期望。

在一个可选的实施例中，在发送所述第一目标数据之后，所述方法还包括：

对所述音频信息进行分析，得到分析结果；

根据所述分析结果，确定是否进行第一互动。

其中，所述根据所述分析结果，确定是否进行第一互动，可以通过如下方式来实现：

实现方式一：判断所述分析结果是否为预定结果；在所述分析结果为预定结果的情况下，确定进行第一互动；

实现方式二：在所述分析结果不为预定结果的情况下，切换所述第一目标数据为第三目标数据；所述第三目标数据表征为待输出的第三多媒体数据；

发送所述第三目标数据，其中所述第三目标数据用于被第二设备输出以使所述交互对象利用所述第二设备根据所述第三目标数据与所述第一设备进行第三互动。

前述方式一和二中，根据分析结果为预定结果或不为预定结果而执行原本的互动或切换到其它待输出的多媒体数据上并输出以改变互动方式使用不同于原本的互动方式进行互动，由此实现了智能互动，且该智能互动能够根据对音频信息的分析结果而实现，体现了互动的智能性。

下面结合附图及具体实施例对本申请作进一步详细的说明。

以第二设备为用户使用的手机、第一设备为后台、应用场景为学生利用后台的教学***进行学习为应用场景进行说明。

结合图5所示，手机被学生使用，通过手机侧的摄像头进行学生的图像数据和/或麦克风进行学生的音频信息的采集。其中，手机侧的摄像头采集到的图像数据作为图5中的视频输入、采集到的音频信息作为图5中的音频输入，这些输入数据交由后台进行处理，后台的处理主要包括如下几个方面：

第一方面，针对采集到的学生的音频信息例如学生的说话内容，后台可以对该音频信息进行语音识别和/或语音测评。其中，通过语音识别可识别出学生说话的意图由此可根据意图智能地进行课程管理如调整要播放的课程或者是继续原课程的播放。通过语音测评可评估出学生根据伴随着播放课程的朗读内容是否标准、如对某个英文发音的学习是否标准进行评估，根据评估结果智能地调用要播放的课程。进一步的，将采集到的学生的音频数据转换成文本数据，并对文本数据进行分析，得到评估结果。具体的，可将转换后的文本数据与标准的文本数据进行比对，根据比对结果智能地调用要播放的课程。例如如果经过评估认为学生对该英文的发音较为标准，则继续播放需要学生跟读的课程。否则，后台需要调用能够纠正该学生发音的课程并通过手机进行输出以纠正学生的发音。

第二方面，针对采集到的学生的视频信息例如针对学生的神情、动作等图像数据，后台可以对该图像数据进行行为识别和/或学习状态的监督。其中，行为识别是后台在于实现对学生的神情、动作等进行识别如学生的注意力不集中或集中、学生正在玩手机等。这种情况下，后台可获知学生的学习状态，根据学生的学习状态智能地进行课程管理如调整要播放的课程或者是继续原课程的播放。例如，如果学生的注意力集中则可继续播放原有的课程；如果注意力不集中，则播放提示学生集中注意力的视频片段。图5中的视频输出和音频输出即可视为后台要播放的内容的输出，可通过视频方式输出、也可通过音频方式输出，还可以通过视频和音频混合的方式输出。

在本方案中，以交互对象为学生，学生的学习状态为注意力集中状态和不集中状态为例。

在功能上，本申请实施例可提供以下几个功能：

(一)多模态交互功能：

具体的实现流程如下：

第一步：学生打开电脑客户端或者手机APP(应用)，客户端或者APP打开摄像头和麦克风，利用摄像头采集学生的人脸图像和利用麦克风采集学生的音频数据。电脑或手机将采集到的这些数据发送至后台。

第二步，后台利用人脸识别技术，进行用户的识别，如果后台识别为合法则允许进行学习***的登录；否则后台不允许进行学习***的登录。

具体的，后台将采集到的人脸图像与预先录入至学习***中的各个用户的人脸进行比对，如果在预先录入的人脸图像中存在有该学生的人脸图像，则确认为合理登录，允许该学生登录至学习***。否则确认为非合理登录，不允许该学生登录至学习***。如则提示该学生尚未购买课程或注册，需要在注册并购买之后才能听取课程。

如上的登录过程不需要学生的手动操作，后台通过手机或电脑采集到的图像数据即可实现学生的自动登录，大大提升了学生的使用体验度。

第二步，播放欢迎视频，调取默认教学视频进行播放，引导学生进行对话；

例如Teacher：“hello，Nice to meet you,I am teacher Mira”

Student：“hello,nice to meet you,I am Lily”

第三步，手机或电脑通过麦克风采集如上学生的对话并发送至后台；

第四步，后台获知此时手机或电脑能够采集到学生的对话，说明学生此时已经准备进入学习状态，则读取该学生登录成功的情况下所使用的身份标识如用户名、密码或二者的组合，根据该学生的身份标识获知上一次登录所学习的课程，并继续后续课程的播放。其中，为更好的实现接续播放，在每次学生结束学习的情况下，学习***将该次学生学习到的课程节点与该学生的身份标识进行对应记录，以备在下一次登录时后台根据学习***记录的内容为该学生进行课程的接续播放。如此，便无需学生刻意记录自己学习到哪节课程，后台会自动记录并自动播放，体现了后台的人性化教学。

第五步，手机或电脑通过摄像头采集用户的图像数据、和/或通过麦克风采集学生说的话并发送至后台；

第六步，后台对学生的图像数据进行分析和/或对学生说的话进行分析，根据分析结果确定是继续播放原有课程还是改变播放课程；

具体的，后台利用人脸识别技术进行图像分析和/或语音识别技术，如果分析出学生此时为注意力集中状态如眼睛正视前方、表情自然、语速正常、语调正常等，说明学生此时的学习状态较好为注意力集中状态，则继续进行原有课程的播放。如果分析出学生此时为注意力不集中的状态如眼睛移动较为频繁、产生小动作的次数较多、语速较快、语调不耐烦，表情凝重等，说明学生此时的学习状态不好为注意力不集中状态，则后台停止播放原本播放的课程内容，从学习***中调用/读取比较有趣味性的视频，并发送至手机或电脑侧，以供手机或电脑进行播放，以帮助学生调整其学习状态。其中，对学生说的话进行分析如对学生的语速进行分析，可将学生说的话转换为文本数据，从文本数据中的学生说的相邻两个字或词之间的间隔来实现对学生的语速的分析。

可见，前述方案中，利用视觉和听觉来实现对学生的学习状态的检测如注意力集中或不集中的状态的检测，此外也利用人脸检测技术实现了学生的登录识别。能够帮助学生更好的实现在线学习。另外，可将前述的学生在注意力集中或不集中的情况下产生的表情、语速、语调、或小动作视为用户的行为数据，前述方案中可根据用户的行为数据而确定用户的实际学习状态，根据实际学习状态确定输出的数据，也即可根据用户的行为数据有针对性的输出数据，进而实现了针对性的互动、和趣味性的互动，可大大提升互动效果。如此，学生使用手机或电脑等设备进行课程的学习且能够通过互动实现预期的学习效果和教学效果。

前述方案中，如果视学生注意力的集中或不集中状态时产生的神情、语速、动作为采集到的针对该学生的第N次(N为正整数)行为数据，那么本应用场景中可实时或定时通过摄像头或麦克风进行学生的图像数据和学生说的话的内容的采集如第N+1次采集，后台对手机或电脑采集的这些数据进行分析以判断该行为数据是否发生变化。如利用语音识别技术和人脸识别技术来判断当前行为数据是否发生变化，进一步的根据当前次采集的这些信息判断当前学生注意力为集中还是不集中的状态。如果与第N次采集到的学习状态相对而言，第N+1次获得的行为数据表示着该学生的学习状态发生变化(第N+1次获得的行为数据为第二行为数据)。如从集中状态变化到不集中状态，则后台从学习***中读取出用于提示学生集中注意力的视频片段并发送至手机或电脑，手机或电脑停止播放原有的教学内容并播放提示学生集中注意力的视频。如从不集中状态变化到集中状态，则后台从学习***中读取出用于教学的课程并发送至手机或电脑，手机或电脑停止播放提示学生集中注意力的视频并播放教学内容。如果与第N次采集到的学习状态相对而言，第N+1次采集到的行为数据表示着该学生的学习状态未发生变化，则手机或电脑继续播放原有的内容。其中，不同的注意力集中状态的视频均为预先存储到学习***中的多媒体数据，在有需要的情况下，根据注意力的集中或不集中状态，从学习***中调用与注意力的集中状态对应(匹配)或与注意力的不集中状态对应(匹配)的视频作为需要手机或电脑侧需要播放的数据(第一目标数据)。

如图6(a)所示，需要从课件A、B和C中，调用出与注意力的集中状态对应(匹配)或与注意力的不集中状态对应视频作为需要手机或电脑侧需要播放的数据。

可见，本应用场景中可根据用户的行为数据实现播放内容的灵活切换，使得播放内容更符合用户的行为数据，实现了用户行为数据与播放内容的匹配，进而达到了预期的教学效果和学习效果。

(二)智能调整教学内容：

以英语教学为例，结合图6(b)所示，学生跟随课程内容学习”apple”这个单词为例，

第一步，在学生登录成功的情况下，后台调用学习”apple”这个单词的教学课程，并发送至手机或电脑侧进行播放。

第二步，学生进行跟读，手机或电脑通过麦克风采集学生说的话，并将采集结果发送至后台；

本步骤中可以为在假定学生的学习状态为注意力集中状态下进行的。

第三步，后台根据手机或电脑采集的结果进行学生的行为分析；

在实际应用中，存在有以下三种情形：

第一种情形，学生并没有跟随教学课程进行跟读，后台从采集的结果中分析出学生未发声的分析结果，则手机或电脑侧继续播放跟读教程；

第二种情形，学生跟随教学课程进行了跟读，但是后台对麦克风采集的音频数据进行文本转换并分析后，发现转换后的信息与该单词的标准发音相比，发音不够准确(第二分析结果不为预定结果)，则手机或电脑停止播放跟读教程，后台从学习***中读取用于教学标准发音的课程并发送至手机或电脑侧，手机或电脑侧播放用于教学标准发音的课程并提示学生进行跟读，以纠正学生的发音。

第三种情形，学生跟随教学课程进行了跟读，后台对麦克风采集的音频数据进行文本转换并分析后，发现转换后的信息与该单词的标准发音相比，发音较为准确或很准确(分析结果为预定结果)，则将该跟读教学课程播放完毕，并进入下一教学课程的跟读，如图6(c)所示，学生进入学习”orange”的课程。

可以理解，前述的第二种和第三种情形可对应于前述的接收交互对象针对第一目标数据而产生的音频信息；对音频信息进行分析，得到分析结果；在分析结果不为预定结果和为预定结果的情况下各方案需要执行的流程。根据分析结果为预定结果或不为预定结果而执行原本的互动或切换到其它待输出的多媒体数据上并输出以改变互动方式使用不同于原本的互动方式进行互动，由此实现了智能互动，且该智能互动能够根据对音频信息的分析结果而实现，体现了互动的智能性。

可以理解，在一个可选的方案中，在第三种情形下，如果后台经分析得出发音较为准确或很准确(分析结果为预定结果)，则可以调用预先录制好的鼓励视频进行播放，例如“WELL DONE”，“GOOD JOB”的视频，同时可以在视频里播放类似烟花的动画，从视觉和听觉给学生鼓励。由此可实现互动教学的趣味性。

可以理解，为实现前述方案，后台预先制作了大量的视频片段如鼓励视频和教学视频，每个片段都对应到了一个对话节点。在交互过程中，根据学生的行为数据，实时地调整要播放给学生的内容。这种能够根据学生的行为数据实现智能调整展示给学生的教学内容的方案，与相关技术比较起来，使得显示内容更为丰富、不单调。从学生的角度来看，这种根据学生的行为数据实时调整教学内容的方案，可让学生在一定程度上感受到真实老师的互动教学，可显著提高学生的学生积极性，提高使用感受。

(三)智能语音评测

针对手机或电脑侧通过麦克风采集到的学生的口语发音如“orange”，后台可对学生的发音进行评分，来反馈发音是否标准、是否需要纠正、重读等，从而可以让学生不断的练习，达到学习外语的目的。

在具体实现上，后台在接收到手机或电脑侧通过麦克风采集到的学生的口语发音后，将其转换为文本数据，使用画面组(GOP)算法将该口语发音进行打分。进一步的，将转换后的文本数据与标准的语音对应的文本数据进行数据对齐操作，计算在已知标准语音对应的文本数据的情况下和不知道标准语音对应的文本数据的情况下的似然概率，根据该似然概率，得到对学生的口语发音进行打分的分值(GOP分值)。

学生的发音是否标准，可以通过将得出的GOP分值与设定的阈值进行比较，根据比较结果，智能地调整手机或电脑侧播放的内容。

在本应用场景中，假定采用百分制、阈值为60分(及格分)，在GOP分值低于60分的情况下，可认为学生的发音完全不正确，需要继续播放用于帮助该学生进行发音纠正的教学课程，以帮助学生继续学习。在GOP分值等于或高于60分但是低于80分的情况下，还需要播放用于帮助该学生进行发音纠正的教学课程，以帮助学生继续学习。在GOP分值高于80分低于90分，提示学生进行该单词的跟读课程的继续跟读，以加强巩固。在GOP分值等于或高于90分的情况下待，则说明已经完全掌握，后台可调用下一个教学课程，进入下一个单词的学习。可以理解，以上仅为一个具体举例而已不限定于本发明实施例。

前述方案中，根据对学生发音进行评分的结果，实现对播放内容的智能播放。通过将得出的GOP分值与设定的阈值之间的比较，将智能播放内容的确定得更为细腻。可针对各个学生的实际学习情况(如学习得好、一般或不好)智能的实现内容的播放，帮助学生有针对性的学习，以达到预期的学习效果。

(四)学习状态的监督

本应用场景中，后台可以仅通过摄像头采集到的图像进行学生的注意力是否集中的识别，也可以通过采集的图像数据和学生的音频数据来结合对学生的注意力进行识别。以通过摄像头采集到的图像进行学生的注意力是否集中的识别为例，通过人脸检测技术可以对学生是否离开屏幕进行判断，通过对采集到的图像中的物品的识别例如手机的出现，可以对学生是否集中注意力进行判断。在后台识别到学生注意力不够集中，从学习***中调用提醒学生回到座位、集中注意力的视频，并发送至手机或电脑侧令手机或电脑侧进行播放，从而达到学习监督的作用。同时后台也可以对同一个学生的整个过程进行记录，通过记录的内容来追踪学生在一段时期内的学习状况。

在学生进行学习的过程中，摄像头不断的采集学生的图像数据，尤其是人脸数据和学生所处的环境中的物体图像如出现的手机图像。在实际应用中，采集的图像数据存在有以下几种情况：

第一种，如果后台通过对一次采集的图像进行分析，发现该次图像中未出现学生的人脸，则认为学生离开座位，调用提醒学生回到座位视频，以让学生进行学习。

第二种，如果后台通过对一次采集的图像进行分析，发现该次图像中出现的学生的(正面)人脸相对于整个图像来说未达到最低阈值如20％，或者检测到学生低着头(如图6(d)所示)或抬着头，则说明学生注意力不集中，没有看屏幕，则播放提示学生集中注意力的视频；还可以播放一机器人(如图6(d)所示)，通过机器人的语音来提醒该学生。

第三种，如果后台通过对一次采集的图像进行分析，发现该次图像中出现有手机，则说明学生有可能在玩手机或者被手机分散注意力，则播放提示视频，提示学生将手机拿到远离自己的地方，集中精力上课。

由此可见，本申请实施例中的交互方案不仅能够实现对学生的教学，还能够起到对学生的学习状态的监督作用。教学课程的这种作用可达到一个较好的教学效果和学生的学习效果，进而提升体验度。学生对这种多功能教学课程的购买，购买一个教学课程可得到多个功能，可大大节省了教育开支。

可见本申请实施例中的交互方案通过前述的多模态交互功能、智能调整教学内容功能、智能语音评测功能和学习状态的监督功能，能够实现交互对象和播放的多媒体数据之间的互动，大大提升交互效果。根据用户的行为数据有针对性的输出数据，可实现了针对性的互动、和趣味性的互动。

可以理解，在图6(b)～图6(d)中，右下角为对学生的音频数据进行分析产生的音频波形，通过音频波形到文本数据的转换与分析，得到学生说话的内容如学生跟读“apple”和“orange”。后台通过对手机或电脑侧采集的图像数据的分析得到学生注意力是否集中的结果如注意力集中或注意力不集中，进而根据学生注意力的分析结果智能地调整播放内容。

前述方案中，是以后台对图像数据进行分析得到行为数据为例，此外还可以手机或电脑对图像数据进行分析得到用户的注意力集中或不集中的状态并发送至后台。

可以理解，在前述的应用场景中，第一互动、第二互动和第三互动为不同的互动。如第一互动是学生跟着课程学习“orange”的过程；第三互动可以是学生的发音完全不正确的情况下播放的用于帮助该学生进行发音纠正的教学课程与该学生进行跟读的互动过程。第二互动可以是在学生从集中状态切换到不集中状态的情况下播放的用于提示学生集中注意力的视频与该学生之间的互动过程(如该学生在提醒下回到座位集中注意力学习)。前述的第一互动至第三互动仅为一种具体举例而已，任何合理的情形均属于本申请实施例的覆盖范围。

本领域技术人员应该而知，在待输出的多媒体数据是教学视频的情况下，同一教学视频可以教学多个内容，本申请实施例中的前述第一至第三多媒体数据可以是该同一教学视频中的不同教学内容，还可以是不同的教学视频。针对前述的第一至第三多媒体数据为同一教学视频的不同教学内容的方案：后台对所述待输出的多媒体数据如同一教学视频进行切分得到至少两个子多媒体数据如该同一教学视频的不同教学内容的视频。这种情况下，从至少两个子多媒体数据中确定与第一状态匹配的子多媒体数据；将确定出的所述子多媒体数据作为第一目标数据。可以理解，本申请实施例中的第一至第三多媒体数据可以是不同的教学视频如数学课程的教学视频和英语课程的教学视频，还可以是同一教学视频的不同部分如英语课程教学视频中的教苹果的英语课程和教橘子的英语课程。例如，在播放教学苹果的英语课程之后，通过对学生的图像数据采集得知其注意力集中，则后台播放位于教学苹果的英语课程之后的教学橘子的英语课程。本申请实施例中将多媒体数据进行细化切分得到各个子多媒体数据，一方面可方便学生看到其期望看到的视频内容。另一方面，子多媒体数据通常较短，对短数据进行调用，可大大节省调用资源。

在实际应用中，交互对象的第一状态可以是学习或工作的注意力集中、或不集中状态。此外，还可以是交互对象已经学习过或未学习的状态。在一个可选的方案中，可将从至少两个子多媒体数据中确定与接收到的交互对象产生的音频信息关联的数据作为与第一状态匹配的子多媒体数据。在一个应用场景中，在播放教学苹果的英语课程的情况下，如果手机或电脑侧采集到学生输入的音频信息如采集如下语音信息“这个视频已经学过了，请播放教学橘子英文的视频”，后台对该音频信息进行语义分析，得到其已经学习过的状态并且希望学习橘子的英文则调用教学橘子的英语课程进行播放。也即通过对学生输入的音频信息进行语义分析得到其学习状态并依据语义分析得到其期望学习的内容调用该内容进行播放。实现了智能互动，满足了学生的实际学习需求。

本申请实施例提供一种交互设备的实施例一，如图7所示，所述设备包括：第一获得单元11、第二获得单元12、确定单元13以及发送单元14；其中，

获得单元11，用于获得交互对象的第一行为数据；

第二获得单元12，用于根据交互对象的第一行为数据，获得交互对象的第一状态，其中所述状态为工作状态或学习状态；

确定单元13，用于根据交互对象的第一状态，确定第一目标数据，所述第一目标数据表征为待输出的第一多媒体数据；

发送单元13，用于发送所述第一目标数据，其中所述第一目标数据用于被第二设备输出以使所述交互对象利用所述第二设备根据所述第一目标数据与所述第一设备进行第一互动。

在一个可选的方案中，

获得单元11，用于判断交互对象的第一行为数据是否发生变化，生成判断结果；

相应的，第二获得单元12，用于根据交互对象的第二行为数据，获得交互对象的第二状态，其中所述状态为工作状态或学习状态；

确定单元12，用于根据交互对象的第二状态，确定第二目标数据；所述第二目标数据表征为待输出的第二多媒体数据；

发送单元13，用于发送所述第二目标数据，其中所述第二目标数据用于被第二设备输出以使所述交互对象与所述第二目标数据进行第二互动。

在一个可选的方案中，

确定单元12，用于对所述第一行为数据进行分析，得到第一状态；从所述第一设备的至少两个待输出多媒体数据中，确定与第一状态匹配的多媒体数据；

将所确定出的多媒体数据作为所述第一目标数据。

在一个可选的方案中，所述设备还包括：切分单元，用于对所述待输出的多媒体数据进行切分，得到至少两个子多媒体数据；相应的，所述确定单元12，用于从至少两个子多媒体数据中确定与第一状态匹配的子多媒体数据；将确定出的所述子多媒体数据作为所述第一目标数据。进一步的，所述确定单元12，用于从至少两个子多媒体数据中确定与接收到的交互对象产生的音频信息关联的数据作为与所述第一状态匹配的子多媒体数据。

在一个可选的方案中，所述设备还包括分析单元，用于接收所述交互对象针对所述第一目标数据而产生的音频信息；对所述音频信息进行分析，得到分析结果；根据所述分析结果，确定是否进行第一互动。

所述分析单元，用于判断所述分析结果是否为预定结果；在所述分析结果为预定结果的情况下，确定进行第一互动。在所述分析结果不为预定结果的情况下，切换所述第一目标数据为第三目标数据；所述第三目标数据表征为待输出的第三多媒体数据；发送单元13，用于发送所述第三目标数据，其中所述第三目标数据用于被第二设备输出以使所述交互对象与所述第三目标数据进行第三互动。

在一个可选的方案中，获得单元11，用于接收针对交互对象的图像数据和/或所述交互对象产生的音频信息；对所述图像数据和所述音频信息进行分析，得到所述交互对象的第一行为数据。

前述的交互设备的实施例一中的交互设备具体为前述方法方案的第二设备。可以理解，所述设备中的第一获得单元11、第二获得单元12、确定单元13以及发送单元14在实际应用中均可由第二设备的中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital Signal Processor)、微控制单元(MCU，Microcontroller Unit)或可编程门阵列(FPGA，Field－Programmable Gate Array)实现。

本申请实施例提供一种交互设备的实施例二，如图8所示，所述设备包括：采集单元21、分析与发送单元22和输出单元23；其中，

采集单元21，用于采集针对交互对象的图像数据和/或所述交互对象产生的音频信息；

分析与发送单元22，用于对采集到的信息进行分析，得到所述交互对象的第一行为数据，发送所述第一行为数据；

输出单元23，用于输出针对所述第一行为数据而得到的第一目标数据以使所述交互对象利用所述第二设备根据所述第一目标数据与所述第一设备进行第一互动，其中所述第一目标数据表征为第一多媒体数据。

本申请实施例提供一种交互设备的实施例三，如图9所示，所述设备包括：采集与发送单元31和输出单元32；其中，

输出单元，用于输出针对所述第一行为数据而得到的第一目标数据以使所述交互对象利用所述第二设备根据所述第一目标数据与所述第一设备进行第一互动，其中所述第一目标数据表征为第一多媒体数据。

前述的交互设备的实施例二和三中的交互设备具体为前述方案的第一设备。可以理解，所述设备中的采集单元21、分析与发送单元22和输出单元23、以及采集与发送单元31和输出单元32在实际应用中均可由第一设备的CPU、DSP、MCU或FPGA实现。

需要说明的是，本申请实施例的交互设备，由于该交互设备解决问题的原理与前述的交互方法相似，因此，交互设备的实施过程及实施原理均可以参见前述方法的实施过程及实施原理描述，重复之处不再赘述。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时至少用于执行图1至图6(a)-图6(d)任一所示方法的步骤。所述计算机可读存储介质具体可以为存储器。所述存储器可以为如图10所示的存储器62。

本申请实施例还提供了一种第二设备。图10为本申请实施例的交互设备(第一设备和/或第二设备)的硬件结构示意图，如图10所示，交互设备包括：用于进行数据传输的通信组件63、至少一个处理器61和用于存储能够在处理器61上运行的计算机程序的存储器62。第二设备中的各个组件通过总线***64耦合在一起。可理解，总线***64用于实现这些组件之间的连接通信。总线***64除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图10中将各种总线都标为总线***64。

其中，所述处理器61执行所述计算机程序时至少执行图1至图6(a)-图6(d)任一所示方法的步骤。

可以理解，存储器62可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本申请实施例描述的存储器62旨在包括但不限于这些和任意其它适合类型的存储器。

上述本申请实施例揭示的方法可以应用于处理器61中，或者由处理器61实现。处理器61可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器61中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器61可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器61可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器62，处理器61读取存储器62中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，交互设备可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、FPGA、通用处理器、控制器、MCU、微处理器(Microprocessor)、或其他电子元件实现，用于执行前述的交互方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种交互方法，其特征在于，应用于第一设备，所述方法包括：

获得交互对象的第一行为数据；

2.根据权利要求1所述的方法，其特征在于，在获得交互对象的第一行为数据之后，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述根据交互对象的第一行为数据，确定所述第一设备的第一目标数据，包括：

对所述第一行为数据进行分析，得到第一状态；

将所确定出的多媒体数据作为所述第一目标数据。

4.根据权利要求1或3所述的方法，其特征在于，在发送所述第一目标数据之后，所述方法还包括：

对所述音频信息进行分析，得到分析结果；

根据所述分析结果，确定是否进行第一互动。

5.根据权利要求4所述的方法，其特征在于，

在所述分析结果不为预定结果的情况下，

6.根据权利要求1所述的方法，所述获得交互对象的第一行为数据，包括：

7.根据权利要求3所述的方法，其特征在于，所述方法包括：

将确定出的所述子多媒体数据作为所述第一目标数据。

8.根据权利要求7所述的方法，其特征在于，所述从至少两个子多媒体数据中确定与第一状态匹配的子多媒体数据，包括：

9.一种交互方法，其特征在于，应用于第二设备，所述方法包括：

10.一种交互方法，其特征在于，应用于第二设备，所述方法包括：

11.一种交互设备，其特征在于，所述设备包括：

第一获得单元，用于获得交互对象的第一行为数据；

12.一种交互设备，其特征在于，所述设备包括：

13.一种交互设备，其特征在于，所述设备包括：

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至8、权利要求9和权利要求10中任一所述方法的步骤。

15.一种交互设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至8、权利要求9和权利要求10任一所述方法的步骤。