CN112133300B

CN112133300B - 多设备的交互方法、相关设备和***

Info

Publication number: CN112133300B
Application number: CN201910555097.5A
Authority: CN
Inventors: 孙铭银; 吕远方; 饶凌河; 李智; 张锦建
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2024-05-07
Anticipated expiration: 2039-06-25
Also published as: CN112133300A

Abstract

本发明提供一种多设备的交互方法、相关设备和***，包括主控设备，与主控设备连接的受控设备，以及服务器。主控设备从服务器获取多媒体数据流和对应的控制信息，并控制播放设备播放多媒体数据流中处于播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据。其中，控制信息用于将所述多媒体数据流的多个时间点指定为切换时间点，并为每一个所述切换时间点指定至少一个对应的播放设备。播放设备包括多个受控设备，或者包括至少一个受控设备和主控设备。本方案中，播放设备需要播放的多媒体数据直接从主控设备获取，不必通过互联网从服务器下载，因此可以有效避免了互联网传输速率对交互过程的影响。

Description

多设备的交互方法、相关设备和***

技术领域

本发明涉及自动控制技术领域，特别涉及一种多设备的交互方法、相关设备和***。

背景技术

智能音箱是一种新型的音频播放设备，它一方面可以从互联网或其他电子设备获取音频并播放，另一方面可以对用户或其他设备发出的声音信号做出响应。目前的一种智能音箱的应用方式是，多个智能音箱按照预设的时间顺序，分别通过网络从服务器获取特定的语音数据并播放获取的语音数据，从而实现多个智能音箱之间的语音交互的效果。

例如，智能音箱A从服务器获取语音“你好”并播放完毕后，作为响应，智能音箱B从服务器获取语音“你好”并播放，以此类推，智能音箱A和智能音箱B交替地获取服务器的语音数据并播放，从而实现两个智能音箱之间的语音交互。

现有的这种交互方法中，每一个智能音箱都需要通过网络从服务器下载语音数据然后才能进行播放。而网络传输的速率并不稳定，因此这种交互方法中，智能音箱的应答可能因为无法及时下载数据而延迟，使得交互过程出现停顿，从而降低语音交互的效果。

发明内容

基于上述现有技术的不足，本发明提出一种多设备的交互方法、相关设备和***，用于解决现有技术中多个智能音箱之间交互不顺畅的问题。

本发明第一方面公开一种多设备的交互方法，应用于主控设备，所述主控设备与受控设备连接；其中，所述多设备的交互方法，包括：

接收服务器发送的多媒体数据流和与所述多媒体数据流对应的控制信息；其中，所述控制信息用于将所述多媒体数据流的多个时间点指定为切换时间点，并为每一个所述切换时间点指定至少一个对应的播放设备；所述播放设备包括多个所述受控设备，或者包括至少一个所述受控设备和所述主控设备；

控制所述播放设备播放所述多媒体数据流中处于所述播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据；其中，所述下一个切换时间点为所述播放设备对应的切换时间点的下一个切换时间点，若所述播放设备对应的切换时间点是所述多媒体数据流的最后一个切换时间点，则所述下一个切换时间点是所述多媒体数据流的结束时间点。

可选的，所述控制所述播放设备播放所述多媒体数据流中处于所述播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据，包括：

针对每一个播放设备，确定所述多媒体数据流中，所述播放设备的待播放多媒体数据；其中，所述待播放多媒体数据，是所述播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据；

针对每一个播放设备，将所述待播放多媒体数据发送至所述播放设备，使所述播放设备播放所述待播放多媒体数据。

将所述多媒体数据流和所述控制信息发送至每一个所述受控设备，使所述受控设备，在所述多媒体数据流播放至自身对应的切换时间点时，播放所述自身对应的切换时间点至下一个切换时间点之间的多媒体数据。

可选的，所述控制所述播放设备播放所述多媒体数据流中处于所述播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据之前，还包括：

修改所述控制信息中的至少一个切换时间点所指定的播放设备，得到修改后的控制信息；

其中，所述控制所述播放设备播放所述多媒体数据流中处于所述播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据，包括：

利用所述修改后的控制信息，控制所述播放设备播放所述多媒体数据流中处于所述播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据。

向所述服务器发送请求；其中，所述请求用于请求所述服务器修改所述多媒体数据流中的切换时间点所指定的播放设备；

接收所述服务器发送的修改后的控制信息，其中，所述修改后的控制信息中，至少一个切换时间点所指定的播放设备被修改；

根据所述播放设备的角色设定，对所述多媒体数据流处于所述播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据进行调整，得到调整后的多媒体数据；

控制所述播放设备播放所述多媒体数据流中处于所述播放设备对应的切换时间点和下一个切换时间点之间的调整后的多媒体数据。

本发明第二方面公开一种多设备的交互方法，应用于服务器，包括：

向主控设备发送多媒体数据流以及与所述多媒体数据流对应的控制信息；其中，所述控制信息用于将所述多媒体数据流的多个时间点指定为切换时间点，并为每一个所述切换时间点指定至少一个对应的播放设备；所述播放设备包括受控设备，或者包括所述受控设备和所述主控设备；所述受控设备与所述主控设备连接。

可选的，所述向主控设备发送多媒体数据流以及与所述多媒体数据流对应的控制信息之前，还包括：

接收所述主控设备或所述受控设备发送的播放请求；

其中，所述向主控设备发送多媒体数据流以及与所述多媒体数据流对应的控制信息，包括：

向所述主控设备发送与所述播放请求对应的多媒体数据流，以及与所述多媒体数据流对应的控制信息。

可选的，所述多媒体数据流是语音对话；

所述播放请求携带有对话主题，所述播放设备的数量和标识；

其中，所述与所述播放请求对应的多媒体数据流，由服务器根据所述播放请求携带的所述对话主题，所述播放设备的数量和标识生成。

可选的，所述交互方法还包括：

接收所述主控设备发送的请求；其中，所述请求用于请求所述服务器修改所述多媒体数据流中的切换时间点所指定的播放设备；

向所述主控设备发送所述修改后的控制信息。

本发明第三方面公开一种多设备的交互方法，其特征在于，应用于播放设备，所述播放设备包括受控设备，或者包括所述受控设备和主控设备；所述主控设备与所述受控设备连接；其中，所述多设备的交互方法，包括：

所述播放设备响应所述主控设备的控制，播放多媒体数据流中处于所述播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据；

其中，所述下一个切换时间点为所述播放设备对应的切换时间点的下一个切换时间点，若所述播放设备对应的切换时间点是所述多媒体数据流的最后一个切换时间点，则所述下一个切换时间点为所述多媒体数据流的结束时间点；所述多媒体数据流由所述主控设备接收，并对应有控制信息，所述控制信息用于将所述多媒体数据流的多个时间点指定为切换时间点，并为每一个所述切换时间点指定至少一个对应的播放设备。

本发明第四方面公开一种主控设备，所述主控设备与多个受控设备连接，所述主控设备包括：

接收单元，用于接收服务器发送的多媒体数据流和与所述多媒体数据流对应的控制信息；其中，所述控制信息用于将所述多媒体数据流的多个时间点指定为切换时间点，并为每一个所述切换时间点指定至少一个对应的播放设备；所述播放设备包括每一个所述受控设备，或者包括每一个所述受控设备和所述主控设备；

控制单元，用于控制所述播放设备播放所述多媒体数据流中处于所述播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据；其中，所述下一个切换时间点为所述播放设备对应的切换时间点的下一个切换时间点，若所述播放设备对应的切换时间点是所述多媒体数据流的最后一个切换时间点，则所述下一个切换时间点是所述多媒体数据流的结束时间点。

可选的，所述控制单元具体用于：

可选的，所述控制单元还用于：修改所述控制信息中的至少一个切换时间点所指定的播放设备，得到修改后的控制信息；

其中，所述控制单元执行控制所述播放设备播放所述多媒体数据流中处于所述播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据时，具体用于：利用所述修改后的控制信息，控制所述播放设备播放所述多媒体数据流中处于所述播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据。

可选的，所述主控设备还包括：发送单元，用于向所述服务器发送请求；其中，所述请求用于请求所述服务器修改所述多媒体数据流中的切换时间点所指定的播放设备；

所述接收单元还用于：接收所述服务器发送的修改后的控制信息，其中，所述修改后的控制信息中，至少一个切换时间点所指定的播放设备被修改；

可选的，所述控制单元还用于：根据所述播放设备的角色设定，对所述多媒体数据流处于所述播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据进行调整，得到调整后的多媒体数据；

其中，所述控制单元执行控制所述播放设备播放所述多媒体数据流中处于所述播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据时，具体用于：控制所述播放设备播放所述多媒体数据流中处于所述播放设备对应的切换时间点和下一个切换时间点之间的调整后的多媒体数据。

本发明第五方面公开一种服务器，包括：

发送单元，用于向主控设备发送多媒体数据流以及与所述多媒体数据流对应的控制信息；其中，所述控制信息用于将所述多媒体数据流的多个时间点指定为切换时间点，并为每一个所述切换时间点指定至少一个对应的播放设备；所述播放设备包括受控设备，或者包括所述受控设备和所述主控设备；所述受控设备与所述主控设备连接。

可选的，所述服务器还包括：

接收单元，用于接收所述主控设备或所述受控设备发送的播放请求；

其中，所述发送单元具体用于：

可选的，所述多媒体数据流是语音对话；

其中，所述服务器还包括：

生成单元，用于根据所述播放请求携带的所述对话主题，所述播放设备的数量和标识生成，与所述播放请求对应的多媒体数据流，以及与所述多媒体数据流对应的控制信息。

可选的，所述接收单元还用于，接收所述主控设备发送的请求，其中，所述请求用于请求所述服务器修改所述多媒体数据流中的切换时间点所指定的播放设备；

所述生成单元还用于，根据所述请求修改所述控制信息，得到修改后的控制信息，其中，所述修改后的控制信息中，至少一个切换时间点所指定的播放设备被修改；

所述发送单元还用于，向所述主控设备发送所述修改后的控制信息。

本发明第六方面公开一种播放设备，所述播放设备包括受控设备，或者包括所述受控设备和主控设备；所述主控设备与所述受控设备连接，所述受控设备包括：

播放单元，用于响应所述主控设备的控制，播放多媒体数据流中处于所述播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据；

本发明第七方面公开一种电子设备，包括：处理器和存储器；其中：

所述存储器用于存储计算机指令；

所述处理器用于执行所述存储器存储的计算机指令，用于执行本发明第一方面任意一项公开的多设备的交互方法，或者用于执行本发明第二方面任意一项公开的多设备的交互方法；或者用于执行本发明第三方面公开的多设备的交互方法。

本发明第八方面公开一种存储介质，用于存储程序，所述程序被执行时，用于执行本发明第一方面任意一项公开的多设备的交互方法，或者用于执行本发明第二方面任意一项公开的多设备的交互方法；或者用于执行本发明第三方面公开的多设备的交互方法。

本发明第九方面公开一种多设备的交互***，包括：

服务器，用于向主控设备发送多媒体数据流以及与所述多媒体数据流对应的控制信息；其中，所述控制信息用于将所述多媒体数据流的多个时间点指定为切换时间点，并为每一个所述切换时间点指定至少一个对应的播放设备；所述播放设备包括受控设备，或者包括所述受控设备和所述主控设备；所述受控设备与所述主控设备连接；

主控设备，用于控制所述播放设备播放所述多媒体数据流中处于所述播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据；其中，所述下一个切换时间点为所述播放设备对应的切换时间点的下一个切换时间点，若所述播放设备对应的切换时间点是所述多媒体数据流的最后一个切换时间点，则所述下一个切换时间点是所述多媒体数据流的结束时间点；

播放设备，用于响应所述主控设备的控制，播放多媒体数据流中处于所述播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据。

本发明提供一种多设备的交互方法、相关设备和***，包括主控设备，与主控设备连接的受控设备，以及服务器。主控设备从服务器获取多媒体数据流和对应的控制信息，并控制播放设备播放多媒体数据流中处于播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据。其中，控制信息用于将所述多媒体数据流的多个时间点指定为切换时间点，并为每一个所述切换时间点指定至少一个对应的播放设备。播放设备包括多个受控设备，或者包括至少一个受控设备和主控设备。本方案中，播放设备需要播放的多媒体数据直接从主控设备获取，不必通过互联网从服务器下载，因此可以有效避免互联网传输速率对交互过程的影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为多个智能音箱之间的语音交互场景示意图；

图2为现有的一种交互***的结构及工作原理示意图；

图3为本发明实施例提供的一种多设备的交互方法的信令流程图；

图4为本发明实施例提供的多媒体数据流以及切换时间点的示意图；

图5为本发明另一实施例提供的一种多设备的交互方法的信令流程图；

图6为本发明实施例提供的一种主控设备的控制播放设备的方法的流程图；

图7为本发明又一实施例提供的一种多设备的交互方法的信令流程图；

图8为本发明实施例提供的一种服务器生成多媒体数据流和控制信息的方法的流程图；

图9为本发明实施例提供的用于获取用户对于对话文本的修改意见的客户端界面的示意图；

图10为本发明实施例提供的一种主控设备的结构示意图；

图11为本发明实施例提供的一种播放设备的结构示意图；

图12为本发明实施例提供的一种服务器的结构示意图；

图13为本发明实施例提供的一种多设备的交互***的结构示意图；

图14为本发明另一实施例提供的一种多设备的交互***的结构示意图；

图15为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着互联网技术和人工智能技术的发展，智能音箱目前正在被越来越多的用户使用。智能音箱一方面可以通过无线传输和有线传输的方式从互联网和其他电子设备获取音频并播放；另一方面，可以接收声音信号，并对其做出响应，播放与收到的声音信号对应的音频。其中，上述声音信号可以是用户语音，也可以是其他电子设备播放的音频。

基于上述功能，目前智能音箱一方面可以用于实现人机交互。例如，用户对智能音箱说：“现在天气怎么样？”，智能音箱接收到用户语音后，将用户语音通过网络发送至服务器，并获取服务器针对用户语音生成的音频，然后将获取到的音频作为用户语音的响应信息播放。对于前述用户语音，智能音箱播放的音频可以是包括当前天气信息的音频，例如，智能音箱播放：“目前天气晴朗，室外气温为32℃，外出请注意防晒”。通过接收用户语音并播放对应的音频，智能音箱相当于实现了与用户之间的人机交互。

另一方面，智能音箱也可以用于实现多个智能音箱之间的语音交互，即多机语音交互。参考图1所示的应用场景，一个多机语音交互的实例可以是：

智能音箱A先播放第一音频“早上好！”，智能音箱B收到第一音频后，播放第二音频“你好，吃早餐没？”作为对第一音频的响应，第二音频播放结束后，作为对第二音频的响应，智能音箱A播放第三音频“吃了，你呢？”。在上述过程中，智能音箱A和智能音箱B通过交替的播放特定的音频，展示出两个智能音箱之间进行语音交互的过程，相当于实现了多机语音交互。其中，两个智能音箱播放的音频，都是通过互联网从服务器获取的。

然而，现有的交互***实现的多机语音交互的效果对实时的互联网下载速率有很高的要求，若当前的互联网下载速率较低，现有的交互***的多机语音交互的效果就会显著降低，影响用户体验。

参考图2，并结合图1，现有的交互***中，智能音箱A需要通过互联网从服务器下载第一音频，完成下载后才能播放第一音频，智能音箱B接收到智能音箱A播放的第一音频后，再通过互联网向服务器发送音频获取请求，然后从服务器下载第二音频，然后播放下载好的第二音频。也就是说，在智能音箱A播放完第一音频后，智能音箱B开始播放第二音频之前，需要花一定的时间下载第二音频。若智能音箱B下载第二音频时，互联网下载速率较低，则第一音频播放结束后，智能音箱B需要等待较长的时间，例如要等待2s才能播放第二音频。

这就导致现有的交互***实现的多机语音交互可能出现多次较长时间的停顿，使整个交互过程不流畅，严重降低了用户体验。

基于上述现有技术的缺点，本申请实施例提供一种多设备的交互方法，以避免出现互联网下载速率较低导致的交互过程不流畅。

首先需要说明的是，本申请任一实施例提供的多设备的交互方法能够用于控制多个设备之间的交互，并且本申请任一实施例所述的交互，并不仅限于多个智能音箱之间的多机语音交互，还可以包括，通过控制多个播放设备在特定的时间点播放预先获取的视频实现的多个播放设备之间的多机视频交互，以及多机视频交互和多机语音交互的组合。

上述播放设备可以是智能音箱，也可以是其他的具有音频播放功能和/或视频播放功能的电子设备，例如，可以是具有音频播放和视频播放功能的智能机器人。

本申请任一实施例提供的多设备的交互方法，可以适用于两类***，其中一类***由服务器和多个播放设备构成，所述多个播放设备中的任意一个播放设备作为主控设备，除主控设备以外的其他播放设备作为受控设备，主控设备用于控制多个播放设备进行交互，其中，根据交互过程的需要，主控设备可以控制包括自身在内的所有播放设备。具体由哪一个播放设备作为主控设备，可以由上述***的提供商预先设定，也可以在***使用过程中由用户设定。

另一类***，包括服务器，多个受控设备和一个主控设备。其中，每个受控设备都是播放设备，而主控设备是与播放设备不同的其他电子设备，例如，若将具有播放功能的智能机器人作为受控设备，那么主控设备可以是用于放置这些智能机器人的智能底座。

在第二类***中，主控设备用于控制所述多个播放设备进行交互。当然，当***中包括三个及以上播放设备时，根据交互过程的需要，可以只控制***中的部分播放设备，也可以控制***中的所有播放设备。

在上述两类***中，每一个受控设备都至少与主控设备连接，在此基础上，任意一个受控设备也可以与其他的受控设备连接，具体是哪几个受控设备之间相互连接，可以根据实际使用情况配置，此处不做限定。

本申请任一实施例中所述的两个设备之间的连接(包括主控设备和受控设备连接，以及两个受控设备连接)，可以是有线的连接，即一个设备的数据传输接口与另一个设备的数据传输接口通过数据线连接，或直接将一个设备的数据传输接口***另一个设备的数据传输接口；也可以是无线的连接，例如，两个设备通过蓝牙连接。

另一方面，上述两类***中，服务器至少可以与主控设备进行数据传输，数据传输的方式包括但不限于通过互联网进行，即主控设备可以通过互联网向服务器发送数据，也可以通过互联网从服务器下载数据。当然，服务器也可以与受控设备进行传输。

为了便于理解，本实施例主要基于一个包括服务器，两个受控设备和一个主控设备的简单***介绍本申请提供的多设备的交互方法，其中两个受控设备分别记为第一受控设备和第二受控设备。当然，本实施例介绍的多设备的交互方法可以直接推广至包括三个及以上的受控设备的复杂***。

参考图3，本实施例提供的多设备的交互方法包括以下步骤：

S301、服务器向主控设备发送多媒体数据流和控制信息。

上述控制信息是与多媒体数据流对应的控制信息。

步骤S301所述的发送行为，可以是服务器主动发起的，也可以是服务器响应主控设备或受控设备的播放请求后发起的。也就是说，服务器可以对主控设备进行实时监测，当监测到满足特定条件时向主控设备发送多媒体数据流和控制信息，特定条件可以是，主控设备通过互联网接入服务器，或者，当前时间为某个预设的时刻。

服务器也可以在接收播放请求后，向主控设备发送多媒体数据流和控制信息以响应所述播放请求，播放请求可以由主控设备发送，也可以由与服务器建立数据传输关系的受控设备发送，还可以由受控设备发送至主控设备，再通过主控设备转发至服务器。

多媒体数据流，可以是音频数据流，也就是一段音频；也可以是视频数据流，也就是一段视频。具体的，多媒体数据流可以是一首歌，一段语音对话，一集电视剧，或者是一段录像，其中前两者属于音频数据流，后两者属于视频数据流。一个视频数据流可以包括一个对应的音频数据流和多帧连续的图像，也可以只包括多帧连续的图像而不包括音频数据流。

控制信息包括多媒体数据流中的多个切换时间点，以及这些切换时间点与播放设备的对应关系。在本实施例中，只有两个受控设备参与播放，主控设备不参与播放，因此本实施例中，上述对应关系是切换时间点和受控设备的对应关系。

多媒体数据流的播放过程中的任意一个时刻，都是这个多媒体数据流的一个时间点。例如，一首歌开始播放的瞬间，即这首歌的第一秒的开始时刻，是一个时间点，这首歌的第10秒的结束时刻，也是一个时间点。本申请任一实施例中，对于一个多媒体数据流，若这个多媒体数据流的一个时间点被包括在对应的控制信息内，那么这个时间点就是这个多媒体数据流的一个切换时间点。

每一个切换时间点均对应至少一个播放设备，切换时间点与播放设备之间的对应关系记录在控制信息中。当多媒体数据流播放至任意一个切换时间点时，这个切换时间点对应的播放设备从这个切换时间点开始播放多媒体数据流，同时，除了这个切换时间点对应的播放设备以外的播放设备停止播放多媒体数据流。这一过程，相当于是多媒体数据流播放至任意一个切换时间点时，切换至这个切换时间点对应的播放设备继续播放。

关于多媒体数据流和切换时间点之间的关系，可以进一步参考图4理解。图4中的水平直线表示一段多媒体数据流，对应的，直线上的点，就表示多媒体数据流的一个时间点。服务器在这段多媒体数据流对应的控制信息中记录了其中的多个时间点后，这些被记录的时间点就称为这段多媒体数据流的切换时间点(也可以认为是服务器以控制信息的形式将这段多媒体数据流的多个时间点指定为切换时间点)，在图4中以短竖线的表现。服务器指定切换时间点的同时，还在控制信息中记录了每个切换时间点对应的播放设备(相当于是为每个切换时间点指定对应的播放设备)。多媒体数据流播放时，从第一个切换时间点开始播放，并且，播放过程中，一个切换时间点与它的下一个切换时间点之间的多媒体数据，只被这个切换时间点对应的播放设备播放。

以图4为例，第一个切换时间点和第二个切换时间点之间的多媒体数据，由第一个切换时间点对应的播放设备播放，播放结束后，第二个切换时间点和第三个切换时间点之间的多媒体数据，由第二个切换时间点对应的播放设备播放，以此类推。

在实际应用过程中，切换时间点一般记为一个多媒体数据流的第几秒。例如，若一个切换时间点记为多媒体数据流的第12秒，那么这个切换时间点表示的是多媒体数据流的前11秒刚结束的时刻。若一个切换时间点记为第1秒，则表示多媒体数据流开始的瞬间，即第一秒的开始时刻。

为了便于理解，本实施例基于以下假设介绍后续步骤：

多媒体数据流是一段总时长为45秒的音频数据流，这段音频数据流对应的控制信息可以按表1所示的形式记录。

切换时间点	对应的受控设备
		第1秒	第一受控设备
第15秒	第二受控设备
		第30秒	第一受控设备

表1

进一步的，作为一个例子，可以假设上述音频数据流是一段语音对话，这段语音对话由包括三句话，其中第一句话对应的是这个音频数据流的第1秒至第15秒的音频数据，第二句话对应这个音频数据流的第15秒至第30秒的音频数据，第三句话对应第30秒至第45秒的音频数据。

需要说明的是，在本申请任一实施例中，对于任意一个切换时间点(第t秒)，若这个切换时间点不是多媒体数据流的最后一个切换时间点，那么这个切换时间点至下一个切换时间点(例如，第t秒至第t+n秒)的多媒体数据，就是指从第t秒的开始时刻，至第t+n-1秒的结束时刻(或者说，第t+n秒的开始时刻)这段时间内的多媒体数据；若这个切换时间点是多媒体数据流的最后一个切换时间点，那么这个切换时间点至下一个切换时间点的多媒体数据，就是指这个切换时间点的开始时刻(第t秒的开始时刻)至多媒体数据流的结束时间点的结束时刻(第t+n秒的结束时刻)这段时间内的多媒体数据。

因此，在上述例子中，第一句话对应第1秒的开始时刻至第15秒的开始时刻之间的音频数据，第二句话对应第15秒的开始时刻至第30秒的开始时刻之间的音频数据，而第三句话对应第30秒的开始时刻至第45秒的结束时刻之间的音频数据。

一句话对应一段时间内的音频数据，相当于这句话记录在这段这段时间内的音频数据中，播放设备播放这段时间内的音频数据，相当于播放设备说了这句话。

上述结束时间点，可以由控制信息指定，例如将总时长为70秒的音频数据流的第60秒指定为结束时间点，则在本实施例中，从第61秒开始的后续的音频数据不再播放；也可以不由控制信息指定，直接将音频数据流自身的结束时刻作为结束时间点，本实施例就采取后一种方案，从第30秒的开始时刻播放至音频数据流结束。

表1的第一列记录多媒体数据流的切换时间点，第二列记录每个切换时间点对应的受控设备。在本申请其他实施例中，一个切换时间点也可以对应两个及以上的播放设备。

可选的，本申请任一实施例涉及的控制信息，可以由服务器根据要播放的多媒体数据流，以及播放设备的数量进行配置。针对同一个多媒体数据流，播放设备的数量不同，服务器配置的控制信息可以不同，也就是说切换时间点以及切换时间点与播放设备之间的对应关系可能不同。

例如，针对一个总时长为100秒的音频数据流，如果只有两个播放设备，服务器可以设置第1秒为一个切换时间点，对应一个播放设备，第50秒为第二个切换时间点，对应另一个播放设备，从而使两个播放设备分别播放这个音频数据流的一半。

若上述音频数据流需要通过4个播放设备进行播放，服务器可以分别将第1秒，第25秒，第50秒和第75秒设置为切换时间点，并且每个切换时间点分别对应一个播放设备；当然，服务器也可以设置5个或者更多的切换时间点，各个切换时间之间的时间间隔可以根据实际情况调节，可以只间隔1秒，也可以间隔40秒，同时各个切换时间点对应的播放设备的数量也不限定，可以使一个，也可以是多个。

S302、主控设备控制第一受控设备播放第一音频。

上述第一音频，指代音频数据流的第1秒至第14秒之间的音频数据构成的音频，因此，步骤S302相当于是，主控设备控制第一受控设备播放自身对应的一个切换时间点(即第1秒)至下一个切换时间点(如表1所示，第1秒的下一个切换时间点是第15秒)之间的音频数据。

如前面的假设所述，本实施例中的多媒体数据流是一段语音对话，因此，步骤S302表现出来的效果是，第一受控设备用14秒的时间，播放了这段语音对话的第一句话。

需要说明的是，在本申请任一实施例中，一个切换时间点(记为切换时间点a)至下一个切换时间点之间的多媒体数据只能被切换时间点a对应的播放设备，并且，在切换时间点a至下一个切换时间点这段时间内，除切换时间点a对应的播放设备以外的其他播放设备不播放任何多媒体数据。

可选的，在上述切换时间点a至下一个切换时间点的时间内，除切换时间点a对应的播放设备以外的其他播放设备，可以继续读取多媒体数据流，但是将自身的音量设置为零，也可以直接停止读取多媒体数据流。

因此，上述步骤S302中，第一受控设备播放第一音频时，第二受控设备保持静音。

S303、主控设备控制第二受控设备播放第二音频。

与步骤S302类似的，步骤S303相当于主控设备控制第二受控设备播放音频数据流中，第15秒至第30秒的音频数据(也就是第二音频)，相当于是第二受控设备在第15秒的开始时刻至第30秒的开始时刻这段时间内，播放了上述语音对话的第二句话。

需要说明的是，步骤S302中第一受控设备播放的是第1秒的开始时刻至第15秒的开始时刻之间，总时长为14秒的音频数据，可以认为步骤S301是一个持续时间为14秒的动作。而步骤S303中第二受控设备从第15秒的开始时刻开始播放，即在第一受控设备暂停播放后，第二受控设备立即开始播放，也就是步骤S303是在步骤S302的持续时间结束后立即进行的，并且，步骤S303也可以认为是一个持续的动作，从第15秒的开始时刻至第30秒的开始时刻，持续时间为15秒。

步骤S303持续时间内，只有表1中的第二个切换时间点，即第15秒对应的播放设备，也就是第二受控设备进行播放，而第一受控设备保持静音。

S304、主控设备控制第一受控设备播放第三音频。

与前述步骤类似，步骤S304相当于是一个从第30秒的开始时刻持续至第45秒的结束时刻，也就是持续至音频数据流结束时刻的动作，总时长为16秒的动作。

在步骤S304的持续时间内，第二受控设备保持静音，第一受控设备播放第三音频，也就是音频数据流从第30秒至第45秒之间的音频数据，相当于是第一受控设备播放上述语音对话中的第三句话。

与步骤S303类似，步骤S304是在步骤S303结束后立即开始执行的。

通过四个步骤，本实施例相当于实现这样的效果：

首先，第一受控设备说(即播放)了主控设备获取的语音对话中的第一句话，用时为14秒，第一受控设备说完第一句话后(即14秒的持续时间结束后)，第二受控设备立即说上述语音对话的第二句话，用时为15秒，相当于是对第一受控设备之前说的第一句话的响应，第二受控设备说完第二句话后，第一受控设备立即开始说上述语音对话中的第三句话，作为第二受控设备说的第二句话的响应，然后整个交互过程结束。

也就是说，本实施例提供的方法中，主控设备根据从服务器获取的音频数据流和对应的控制信息，控制受控设备在受控设备自身对应的切换时间点至下一个切换时间点内播放对应的音频数据，从而在多个受控设备之间实现了多机语音交互的效果。

同时，参考前面介绍的主控设备和受控设备的连接方式，以及本实施例的实现过程，可以发现：每一个受控设备需要播放的音频数据，都可以通过有线传输或无线传输的方式从主控设备获取，而包括需要播放的所有音频数据在内的音频数据流，在受控设备从音频数据流的第一个切换时间点开始播放之前，已经由主控设备全部下载完毕。因此，本实施例提供的多设备的交互方法的实现过程中，每个受控设备都不需要通过互联网从服务器下载自身要播放的多媒体数据，而是通过有线传输，以及包括蓝牙技术在内的无线传输从主控设备获取，从而有效避免了互联网传输速率对交互过程的影响，即使在互联网传输速率较低的情况下，本实施例提供的方法也能确保多设备之间的交互过程流畅的进行。

可选的，本申请中提及的主控设备控制播放设备播放对应的切换时间点和下一个切换时间点内的多媒体数据，其具体控制方式可以有以下两种。

第一种控制方式是，主控设备先将多媒体数据流的第一个切换时间点及其下一个切换时间点之间的多媒体数据发送至第一个切换时间点对应的播放设备进行播放，之后，主控设备监测多媒体数据流的播放进度，第一个切换时间点及其下一个切换时间点之间的多媒体数据播放结束后，主控设备又将第二个切换时间点(也就是第一个切换时间点的下一个切换时间点)及其下一个切换时间点之间的多媒体数据发送至第二个切换时间点的对应的播放设备进行播放，以此类推，直至多媒体数据流播放至结束时间点。

简而言之，第一种控制方式相当于，主控设备按时间顺序，分别发送多媒体数据流中每一个切换时间点及其下一个切换时间点之间的多媒体数据给对应的播放设备，播放设备收到自身对应的多媒体数据后就将这些多媒体数据播放一次，每一个不是主控设备的播放设备，只收到自身对应的多媒体数据，而不会收到整个多媒体数据流。

而第二种控制方式中，整个多媒体数据流，以及多媒体数据流对应的控制信息被传输至每一个参与交互过程的播放设备中，播放设备根据控制信息确定多媒体数据流中自身对应的切换时间点，然后在多媒体数据流播放至自身对应的切换时间点时，从自身对应的切换时间点播放至下一个切换时间点。

第二种方式中，每一个播放设备都会收到整个多媒体数据流和对应的控制信息。与第一种控制方式比较，第一种控制方式中，除主控设备以外的播放设备，只需要接收多媒体数据并播放即可，具体哪些多媒体数据由哪些播放设备播放，由主控设备根据控制信息决定，除主控设备以外的播放设备不需要考虑。第二种控制方式中，每一个播放设备均需要根据控制信息，决定多媒体数据流中哪些多媒体数据需要自身播放，以及决定播放的开始时刻和结束时刻。

下面结合前述第一种控制方式，介绍本申请的另一个实施例。请参考图5阅读下述实施例：

首先需要说明的是，本实施例主要关注主控设备如何控制播放设备进行播放，因此在图5中略去服务器的部分，但本实施例中的多媒体数据流和控制信息仍由服务器发送，服务器和主控设备之间的连接关系与前述实施例一致。本申请的下一个实施例的情况类似，不再赘述。

本实施例主要涉及三个播放设备之间的交互，并且，其中的一个播放设备作为主控设备，另外的两个播放设备作为受控设备。不妨将三个播放设备记为播放设备A，播放设备B和播放设备C，其中，播放设备A作为主控设备。

本实施例仍然以音频数据流为例介绍其具体实现过程，需要播放的音频数据流总时长为80秒，对应的控制信息如表2所示。

切换时间点	对应的播放设备
		第10秒	播放设备B
第28秒	播放设备A，播放设备C
		第48秒	播放设备A
第65秒	播放设备C

表2

一方面，如表2所示，本实施例中，音频数据流的第一个切换时间点并不是音频数据流的开始时刻，即第1秒。一般情况下，本实施例提供的交互方法中，需要播放的多媒体数据流可以由服务器根据实际尝场景生成，使多媒体数据流恰好匹配本次交互的场景，如前一实施例所述，也以多媒体数据流的开始时刻作为第一个切换时间点，以多媒体数据流的结束时刻作为结束时间点。

然而，某些场景下，服务器可能只需要从历史数据库中选择一个预先生成的多媒体数据流并通过控制信息指定播放其中的一部分就可以满足需求。这种情况下，就可能出现如表2所示的控制信息，即服务器不再对历史数据库中原有的多媒体数据流进行加工，而只是通过控制信息指定多媒体数据流的开始时刻之后的某一个时间点作为第一个切换时间点即可。基于表2的控制信息，播放设备B将从多媒体数据流的第10秒开始播放，多媒体数据流的前9秒的多媒体数据则被忽略。

另一方面，本实施例的控制信息除表2所示的切换时间点外，还包括一个结束时间点，设置为第75秒。参考前一实施例对结束时间点的介绍，播放设备C将播放多媒体数据流的第65秒的开始时刻至第75秒的结束时刻之间的多媒体数据，从76秒开始的多媒体数据在本实施例中将不会被播放。由控制信息指定多媒体数据流的结束时刻之前的某一个时间点作为结束时间点，也是用于在特定场景下指定历史数据库中某一个多媒体数据流的一部分作为本次交互所需的多媒体数据流，此处不再赘述。

S501、播放设备A将音频数据流的第一音频发送至播放设备B。

第一音频指代音频数据流的第10秒至第28秒之间的音频数据。

本实施例中，播放设备A既参与交互过程，同时还承担主控设备的任务，用于将两个相邻的切换时间点之间的音频数据，或最后一个切换时间点和结束时间点之间的音频数据传输至对应的播放设备。

步骤S501的具体实现过程可以是，播放设备A提取音频数据流的第10秒至第28秒之间的音频数据作为待播放音频，然后将待播放音频发送至播放设备B。后续的发送步骤类似。

S502、播放设备B播放自身收到的第一音频。

本申请任一实施例中，如步骤S501所述的主控设备(即播放设备A)和受控设备(即播放设备B)之间的数据传输，由于其传输速率较高，可以认为这类步骤是瞬间完成的。而如步骤S502所述的播放设备播放多媒体数据的过程，则是一个持续的步骤，持续时间就是被播放的多媒体数据的时长。

S503、播放设备A将音频数据流的第二音频发送至播放设备C。

第二音频指代音频数据流的第28秒至第48秒之间的音频数据。

如表2所示，第28秒对应两个播放设备，但播放设备A自身保存有整个音频数据流，因此只需要将从音频数据流中确定出来的第二音频发送至播放设备C即可，后续播放步骤中，播放设备A直接播放所述第二音频。

需要说明的是，步骤S503应当是在步骤S502的播放结束后立即进行的。其具体实现方法可以是，播放设备B播放完第一音频后，向播放设备A发送一个结束信号，播放设备A收到结束信号后执行步骤S503。也可以是，播放设备B播放完后直接暂停播放而不向播放设备A发送信号，播放设备A执行完步骤S501后，进行计时，计时至第18秒结束时，就可以认为播放设备以及播放完第一音频，于是执行步骤S503。后续的发送步骤的执行过程类似。

还需要说明的是，基于上述第一种控制方式实现的实施例中，主控设备向自身以外的播放设备发送多媒体数据，实际还包括一个判断多媒体数据流是否播放结束的动作，若判断出多媒体数据流已播放结束，则不再执行后续步骤，若判断出多媒体数据流未播放结束，则确定出要播放的多媒体数据并控制对应的播放设备播放。

其中，判断多媒体数据流是否已播放结束的过程，可以是，判断前一步骤中已经播放完的多媒体数据，是否为多媒体数据流的最后一个切换时间点和多媒体数据流的结束时间点之间的多媒体数据，或者说判断前一个播放步骤播放的多媒体数据是否以多媒体数据流的结束时间点作为结尾，若是，说明多媒体数据流已播放结束，若否，说明多媒体数据流未播放结束。

S504、播放设备A和播放设备C同时播放第二音频。

其中，播放设备A完成步骤S503的发送后直接播放从音频数据流中确定出的第二音频，播放设备C则播放接收到的第二音频。由于播放设备之间的数据传输速率较高，可以认为播放设备A发送完成后，播放设备C也已经成功接收，两个播放设备相当于同时播放第二音频。

S505、播放设备A播放第三音频。

第三音频指代音频数据流的第48秒至第65秒之间的音频数据。

如表2所示，第48秒这一切换时间点只对应播放设备A，因此播放设备A从音频数据流中确定出第三音频后即可直接播放。当然，步骤S505是在步骤S504的播放过程结束后执行的，判断步骤S504结束的方法与前面介绍过的判断方法一致，不再赘述。

S506、播放设备A将音频数据流的第四音频发送至播放设备C。

第四音频指代音频数据流的第65秒至第75秒之间的音频数据，其中，由于第75秒是音频数据流的结束时间点，因此第四音频是第65秒的开始时刻至第75秒的结束时刻之间的音频数据。

S507、播放设备C播放第四音频。

S508、播放设备A确定音频数据流播放结束。

可选的，确定出音频数据流播放结束后，主控设备可以向除自身以外的播放设备发送结束指令。

本实施例提供的多设备的交互方法，多媒体数据流中具体哪些多媒体数据由哪些播放设备播放，由主控设备根据控制信息确定，除主控设备以外的播放设备，只需要接收多媒体数据并播放即可。

为了更好的理解前述第一种控制方式，下面站在主控设备的角度，结合图6介绍本申请提供的多设备交互方法基于第一种控制方式的实现过程。

S601、接收多媒体数据流和对应的控制信息。

S602、控制当前切换时间点对应的播放设备播放待播放多媒体数据。

待播放多媒体数据指，多媒体数据流的当前切换时间点和下一个切换时间点之间的多媒体数据。其中，下一个切换时间点，指当前切换时间点的下一个切换时间点；若当前切换时间点是多媒体数据流的最后一个切换时间点，则下一个切换时间点是多媒体数据流的结束时间点。

其中，若主控设备自身是一个控制设备，且主控设备对应当前切换时间点，则步骤S602所述的控制，包括主控设备直接播放上述多媒体数据。

若当前切换时间点对应的是除主控设备以外的其他播放设备，则步骤S602包括，发送上述多媒体数据至对应的播放设备，使对应的播放设备播放上述多媒体数据。

其中，在任意一次本实施例提供的多设备的交互方法的实现过程中，步骤S602第一次执行时，当前切换时间点是多媒体数据流的第一个切换时间点。

S603、判断待播放多媒体数据是否播放结束。

若播放结束则执行步骤S604，若未播放结束则继续执行本步骤。

判断方法参考前一实施例的内容，此处不再赘述。

S604、判断多媒体数据流是否播放结束。

若多媒体数据流播放结束，则本方法结束，若多媒体数据流未播放结束，执行步骤S605。

本步骤的判断方法仍然参考前一实施例的对应介绍，此处不再赘述。

S605、将下一个切换时间点确定为当前切换时间点，返回执行步骤S602。

这里的下一个切换时间点，就是步骤S602中提及的下一个切换时间点。例如，对于本方法的第一次循环，步骤S601的当前切换时间点，是多媒体数据流的第一个切换时间点，下一个切换时间点，是多媒体数据流的第二个切换时间点。对应的，步骤S605，就是将多媒体数据流的第二切换时间点，确定为当前切换时间点，然后返回步骤S602，进入第二次循环。

下面结合前述第二种控制方式，介绍本申请的又一个实施例，请参考图7。

本实施例涉及的仍然涉及三个播放设备，此外还包括一个与播放设备不同的设备作为主控设备。本实施例涉及的多媒体数据流和控制信息与图4所示的实施例的多媒体数据流和控制信息一致。

S701、主控设备将音频数据流和控制信息发送至播放设备A，播放设备B和播放设备C。

需要说明的是，由于本实施例中涉及的三个播放设备都参与交互过程，因此步骤S701中主控设备可以直接将多媒体数据流和控制信息发送给播放设备A，播放设备B和播放设备C。

一般的，对于主控设备与多个播放设备连接，而且其中存在至少一个播放设备不参与本次交互过程的情况，主控设备执行步骤S701时，可以先确定出所有参与交互过程的播放设备，也就是确定出控制信息中记录的所有播放设备，然后在将多媒体数据流和控制信息发送给这些参与交互的播放设备。

例如，表2所示的控制信息中记录了上述A，B，C三个播放设备，假设主控设备在这三个播放设备之外还连接由播放设备D，那么主控设备可以通过表2所示的控制信息，确定出自身连接的四个播放设备中，播放设备A，B和C是参与本次交互过程的播放设备，而播放设备D不参与本次交互过程。

S702、播放设备B播放音频数据流的第一音频。

第一音频是音频数据流的第10秒至第28秒之间的音频数据。

S703、播放设备A和播放设备C播放音频数据流的第二音频。

第一音频是音频数据流的第28秒至第48秒之间的音频数据。

S704、播放设备A播放音频数据流的第三音频。

第一音频是音频数据流的第48秒至第65秒之间的音频数据。

S705、播放设备C播放音频数据流的第四音频。

第一音频是音频数据流的第65秒至第75秒之间的音频数据。

播放设备C播放完第四音频后，整个音频数据流播放结束，相当于本次交互过程。

其中，为了实现前述第二种控制方式，各个播放设备的工作原理可以是：

每个播放设备收到多媒体数据流和控制信息后，均立即判断自身是否对应于多媒体数据流的第一个切换时间点，若是则立即从第一个切换时间点开始播放，上述判断过程耗时很短，可以认为主控设备发送完多媒体数据流和控制信息后，第一个切换时间点对应的播放播放设备就开始播放对应的多媒体数据。

随后，每个播放设备均判断自身对应多媒体数据流中的哪几个切换时间点，并以收到多媒体数据流和控制信息的时刻为开始时刻进行计时，在计时至任意一个自身对应的切换时间点后，播放这个切换时间点至这个切换时间点的下一个切换时间点之间的多媒体数据，或者，若这个切换时间点是最后一个切换时间点，则播放这个切换时间点至结束时间点之间的音频数据。当然，如果下一个切换时间点仍然是自身对应的切换时间点，则继续上述播放步骤。

图7所示的实施例中，多媒体数据流和控制信息发送完毕后，控制设备B立即判断出第一个切换时间点是自身对应的切换时间点，所以执行步骤S702。随后，播放设备A判断出自身对应有第28秒和第48秒两个切换时间点，播放设备C判断出自身对应有第28秒和第65秒两个切换时间点，于是播放设备A和播放设备C开始计时，计时至第28秒时，播放设备A和播放设备C执行步骤S703，播放至第48秒时，播放设备C暂停播放并计时，播放设备A执行步骤S704，继续播放至第65秒，然后暂停播放，同时播放设备C计时至第65秒，执行步骤S705，播放第65秒至第75秒的音频数据。

需要说明的是，在本申请任一实施例提供的交互方法的播放步骤的执行过程中，除了该步骤指明的播放设备以外，其他播放设备保持静音。

可选的，本申请实施例公开的多设备的交互方法中，主控设备在控制播放设备播放多媒体数据流中处于自身对应的切换时间点和下一切换时间点之间的多媒体数据之前，还可以修改服务器发送的控制信息，得到修改后的控制信息，然后再利用修改后的控制信息控制播放设备对多媒体数据流中的多媒体数据进行播放。

其中，主控设备可以根据自身当前控制的播放设备的数量，对服务器发送的控制信息进行修改。具体的，主控设备在收到服务器发送的控制信息后，判断控制信息指定的播放设备与自身控制的能够正常工作的播放设备是否匹配，若控制信息指定的播放设备多于自身控制的能够正常工作的播放设备，或者控制信息指定的播放设备少于自身控制的能够正常工作的播放设备，则主控设备进行前述修改。

另外，在控制信息指定的播放设备与自身控制的能够正常工作的播放设备相匹配的情况下，主控设备也可以对控制信息进行修改。

例如，控制信息指定给某个播放设备播放的多媒体数据，与这个播放设备的角色不匹配，这种情况下主控设备也可以对控制信息进行修改。

还需要说明的是，主控设备对控制信息的修改，可以通过下述两种方式进行。

一种方式是，主控设备向服务器发送请求，该请求用于请求服务器修改控制信息中为多媒体数据流中的至少一个切换时间点所指定的播放设备。服务器接收到请求后，根据请求修改所述控制信息，得到修改后的控制信息，并将修改后的控制信息发送给主控设备。

可选地，本方式中，主控设备可以在请求中携带：多媒体数据流中的切换时间点和播放设备的修改后的对应关系。如此，服务器接收到请求后，可以依据请求中携带的修改后的对应关系，对控制信息进行修改。当然，主控设备还可以在请求中携带修改需求，由服务器解析该需求后，明确多媒体数据流中需要修改的切换时间点和其指定的修改后的播放设备，并以此修改控制信息，以满足请求中携带的修改需求。

另一种方式是，主控设备修改控制信息中的至少一个切换时间点所指定的播放设备，得到修改后的控制信息。

具体的，主控设备明确多媒体数据流程中需要调整播放设备的切换时间点，以及明确需要调整播放设备的切换时间点的修改后所指定的播放设备；主控设备在以此修改控制信息，使得控制信息中的切换时间点所指定的播放设备被修改为新的播放设备。

例如，控制信息在多媒体数据流中指定了三个切换时间点，第一个切换时间点对应播放设备A和播放设备B，第二个切换时间点对应播放设备C，第三个切换时间点对应播放设备D；针对这一控制信息，主控设备对其的修改可以是，将第一个切换时间点对应的播放设备变成播放设备B，第二个切换时间点对应的播放设备改为播放设备A，第三个切换时间点对应的播放设备改为播放设备C和播放设备D。

还需要说明的是，主控设备修改控制信息的方式，除了修改所述控制信息中的至少一个切换时间点所指定的播放设备，还可以对控制信息所指定的为切换时间点的多媒体数据流中的时间点进行增加或者删除，还可以对切换时间点的位置进行调整。

例如，修改前的控制信息在多媒体数据流中指定了四个切换时间点，分别对应四个播放设备，依次记为播放设备A，播放设备B，播放设备C和播放设备D，四个切换时间点将多媒体数据流分成四段多媒体数据，主控设备可以在第一段多媒体数据中间，即第一个切换时间点和第二个切换时间点之间新增一个切换时间点，因此，修改后的控制信息包括五个切换时间点。当然，主控设备新增切换时间点后还需要为新增的切换时间点指定播放设备，指定哪些播放设备可以由主控设备决定，一方面可以在原有的对应关系不变的基础上，将原有的四个播放设备中的一个或多个指定给这个新增的时间点，比如指定新增的时间点与播放设备C对应，使修改后的控制信息中，播放设备C对应于第二个切换时间点(即新增的切换时间点)和第四个切换时间点(即修改前的控制信息的第三个切换时间点)，另一方面还可以为这个新增的切换时间点指定新增的播放设备，例如，将播放设备E指定给新增的切换时间点。

当然，主控设备也可以删除原有的四个切换时间点中的一个，并将这个切换时间点对应的播放设备重新指定给其他切换时间点，例如，主控设备可以删除第二个切换时间点，然后将播放设备B指定给第一个切换时间点，相当于修改后的控制信息包括三个切换时间点，第一个切换时间点对应播放设备A和播放设备B，第二个切换时间点和第三个切换时间点分别对应播放设备C和播放设备D。

调整切换时间点的位置，例如，修改前的控制信息包括三个切换时间点，其中第二个切换时间点是多媒体数据流的第20秒，主控设备可以将第二个切换时间点改为多媒体数据流的第30秒，得到修改后的控制信息。

本领域技术人员应当理解，尽管前述几个实施例均以音频数据流为例，且只涉及两个或三个播放设备，但是根据前述实施例的介绍，可以不付出创造性劳动而将上述方法扩展至基于视频数据流的，涉及四个及以上播放设备的交互方法，因此这些方法也都在本申请保护范围内。

下面需要说明的是，在本申请任一实施例提供的多设备的交互方法中，服务器发送的多媒体数据流和控制信息，可以是在播放请求后发出的，播放请求可以由主控设备或受控设备发出，同时，用户可以通过客户端、主控设备对播放请求进行设置，使得服务器可以根据播放请求中携带的相关信息，生成与播放请求对应的多媒体数据流和对应的控制信息。

请参考图8，服务器根据播放请求生成多媒体数据流和控制信息的方法包括：

S801、服务器接收播放请求。

所述播放请求中携带有播放设备的数量和标识，以及用户设定的对话主题。例如，用户可以将对话主题设置为“音乐”。

S802、服务器根据对话主题从预设的对话数据库中确定多个与该主题相关的语句。

例如，对于前述对话主题“音乐”，与该主题相关的语句可以是：“你喜欢听流行歌曲吗”，“我喜欢歌星xxx”，“我觉得《yyy》这首歌很好听”等。

S803、服务器根据播放设备的数量和标识确定每个语句对应的播放设备，得到对话文本。

例如，有两个播放设备的场合，可以设置两个播放设备交替地播放步骤S802确定出的语句。

S804、服务器将对话文本发送至客户端，以获取客户端反馈的修改请求。

其中，对话文本发送至客户端后，用户在客户端查阅对话文本，并提出修改意见。然后客户端向服务器反馈携带有用户的修改意见的修改请求。用户没有修改意见时，修改请求可以携带确认信息。

客户端向用户显示对话文本并获取修改意见的界面，可以参考图9。

S805、服务器针对确认后的对话文本的每一个语句，确定该语句的播放时长。

客户端反馈的修改请求中携带有修改意见时，确认后的对话文本是根据修改意见修改后的对话文本。修改请求携带有确认信息时，直接将步骤S803得到的对话文本作为确认后的对话文本。

对于步骤S805，一方面可以设定每一个字均以特定的播放时长进行播放，例如，每个字播放0.5s，那么每个语句的播放时长就是该语句的字数乘以每个字的播放时长。

另一方面，可以在语句中某两个字之间***一定时长的间隔符，使该语句播放至间隔符时，停顿对应的时长，然后继续播放。那么，语句的播放时长就在前一方面的字数乘以单个字的播放时长的基础上加上间隔符的总时长。

S806、服务器根据确认后的对话文本，每个语句的播放时长生成语音对话和控制信息。

上述语音对话就是服务器生成的一个多媒体数据流。

可选的，上述语句与播放设备之间的对应关系可以根据各个播放设备所扮演的角色确定。另一方面，步骤S802中确定出的语句也可以根据对应的播放设备所扮演的角色进行调整，以符合对应的播放设备的角色特点。例如，可以在步骤S802中确定出的语句的基础上，根据对应的播放设备的角色特点，增加一些语气词，以及对原有语句的部分词汇进行替换等。

进一步的，还可以根据设定的角色，将确定出的语句翻译成其他的语种或者不同方言，例如，将确定出的中文语句翻译成英语，法语等。

可选的，每个播放设备所扮演的角色，可以由用户指定，也可以在获取到用户设置的对话主题后，由服务器指定。

可选的，上述对语句的调整，第一方面可以是在步骤S802中确定出语句后，服务器对这些语句进行调整，然后利用调整后的语句组合成语音对话。

第二方面可以是，主控设备接收到服务器发送的语音对话后，主控设备根据自身控制的播放设备的角色设定，对语音对话中的语句进行调整，得到调整后的语音对话。其中，主控设备根据播放设备的角色设定，对语音对话中的语句进行调整，主要是对语音对话中处于播放设备对应的切换时间点和下一个切换时间点之间的语音对话进行调整。

第三方面可以是，主控设备接收到服务器发送的语音对话后，向服务器发送修改请求，使服务器根据播放设备的角色对语音对话中的语句进行调整，得到调整后的语音对话，在由服务器将调整后的语音对话发送至主控设备。

进一步的，主控设备也可以在播放过程中实时进行前述调整，例如，一个播放设备播放语音对话的第一语句时，主控设备可以对后续的第二语句，第三语句等进行调整，得到调整后的第二语句，或调整后的第三语句，然后在第一语句播放结束后，控制对应的播放设备播放调整后的第二语句，或控制对应的播放设备播放调整后的第三语句。

本实施例提供的方法主要用于根据用户在播放请求中设置的对话主题和播放设备数量和标识等场景信息，从预设的对话数据库中获取与这个对话主题相关的多个语句，然后确定每个语句的播放时长，以及对应的播放设备，组合这些语句就可以得到一个音频数据流，根据每个语句的播放时长和对应的播放设备确定出控制信息，然后向主控设备发送音频数据流和控制信息。

进一步的，服务器可以将生成的音频数据流，对应的对话文本发送至客户端，由用户确认是否进行调整，以及如何调整，再发送调整后的音频数据流和控制信息给主控设备。

基于上述技术方案，本实施例能够根据用户的需要，生成多种类型的可以作为多媒体数据流的语音对话，使主控设备根据语音对话和对应的控制信息控制多个播放设备分别播放对应的语句，从而让用户体验到个性化的多设备的交互过程。

结合前述本申请任一实施例提供的多设备的交互方法，本申请实施例还提供一种服务器，一种主控设备和一种播放设备。其中，参考图10，本申请实施例提供的主控设备可以包括下述结构：

接收单元1001，用于接收服务器发送的多媒体数据流和与多媒体数据流对应的控制信息。

其中，控制信息包括：多媒体数据流的多个切换时间点，以及每个切换时间点对应的播放设备，每一个切换时间点对应至少一个播放设备。

可选的，播放设备可以包括每一个受控设备。

可选的，播放设备可以包括每一个受控设备，以及上述主控设备。

若所述主控设备同时也是一个播放设备，则所述主控设备连接有至少一个受控设备；若所述主控设备不是一个播放设备，则所述主控设备连接有至少两个受控设备。

上述主控设备和受控设备的连接方式，可以是有线连接或无线连接。

控制单元1002，用于控制每一个播放设备播放多媒体数据流中处于该播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据。

其中，下一个切换时间点为该播放设备对应的切换时间点的下一个切换时间点，若一个播放设备对应的切换时间点是多媒体数据流的最后一个切换时间点，则下一个切换时间点指代多媒体数据流的结束时间点。

结合前述实施例提供的多设备的交互方法，上述控制单元802可以通过两种方式实现对播放设备的控制，根据具体的控制方式不同，本实施例提供的主控设备的控制单元可以有下述两种结构：

基于一种控制方式，控制单元1002可以包括：

确定单元，用于将当前要播放的多媒体数据流的第一个切换时间点确定为当前时间点，进而将当前切换时间点和下一个切换时间点之间的多媒体数据确定为待播放多媒体数据。

发送单元，用于将确定单元确定出的待播放多媒体数据发送至当前切换时间点对应的播放设备，使当前切换时间点对应的播放设备播放上述待播放多媒体数据。

判断单元，用于在发送单元发送完待播放多媒体数据后，判断待播放多媒体数据是否播放结束，并在判断出待播放多媒体数据播放结束后进一步判断当前要播放的多媒体数据流是否播放结束，若判断出前述多媒体数据流播放结束，则本次交互过程结束，若判断出前述多媒体数据流未播放结束，则触发所述确定单元将下一个切换时间点确定为当前切换时间点，并基于确定出来的当前切换时间点确定待播放多媒体数据。

进一步可选的，当主控设备是一个播放设备时，控制单元802还可以包括播放单元，用于在确定单元确定出的当前切换时间点对应有主控设备自身时，播放当前切换时间点和下一个切换时间点之间的多媒体数据。

基于另一种控制方式，控制单元1002可以包括：

确定单元，用于读取控制信息，并将控制信息中记录的播放设备确定为参与本次交互过程的播放设备。

发送单元，用于将多媒体数据流和对应的控制信息发送给所有参与本次交互过程的播放设备，使这些播放设备根据多媒体数据流和控制信息控制自身播放对应的切换时间点和对应的切换时间点的下一个切换时间点之间的多媒体数据。

可选的，当主控设备自身也是一个参与本次交互过程的播放设备时，上述发送单元用于向除自身以外的参与本次交互过程的播放设备发送所述多媒体数据流和对应的控制信息。

参考图11，本申请实施例提供的播放设备可以包括下述结构：

接收单元1101，用于接收主控设备发送的多媒体数据，或者用于接收主控设备发送的多媒体数据流和对应的控制信息。

播放单元1102，用于响应主控设备的控制，播放多媒体数据流中处于播放设备自身对应的切换时间点和下一个切换时间点之间的多媒体数据。

主控设备通过无线连接或有线连接的方式与播放设备建立通信连接

其中，下一个切换时间点为播放设备对应的切换时间点的下一个切换时间点，若播放设备对应的切换时间点是多媒体数据流的最后一个切换时间点，则下一个切换时间点为多媒体数据流的结束时间点。

多媒体数据流由主控设备接收，并对应有控制信息，控制信息包括：多媒体数据流的多个切换时间点，以及每个切换时间点对应的播放设备，每一个切换时间点对应至少一个播放设备。

可选的，可以将包含前一实施例介绍的主控设备的结构在内的播放设备作为主控设备。

可选的，对应于前一实施例中提及的第二种控制方式下的主控设备的结构，播放设备可以包括下述单元：

确定单元1103，用于从控制信息中确定出播放设备自身对应的多媒体数据流中的切换时间点。

计时单元1104，用于从收到多媒体数据流以及对应的控制信息开始计时，计时到任意一个播放设备自身对应的切换时间点时，触发播放单元播放这个切换时间点和这个切换时间点的下一个切换时间点之间的多媒体数据。

参考图12，本申请实施例提供的服务器可以包括下述结构：

发送单元1201，用于向主控设备发送多媒体数据流，以及所述多媒体数据流对应的控制信息。

可选的，服务器还可以包括：

接收单元1202，用于接收主控设备或受控设备发送的播放请求。

所述播放请求可以携带有播放设备的数量和标识，以及对话主题，所述对话主题可以由用户确定。

生成单元1203，用于根据携带有播放设备的数量和标识，以及对话主题的播放请求，生成对应的语音对话和控制信息，所述语音对话作为多媒体数据流被发送单元1201发送。

进一步可选的，生成单元1203，可以先根据上述播放请求生成对应的对话文本，然后触发发送单元1201将对话文本发送至客户端，再通过接收单元1202接收客户端的修改请求，从而根据修改请求和对话文本生成确认后的对话文本，最后根据确认后的对话文本生成语音对话和对应的控制信息。

本申请任一实施例提供的主控设备，播放设备和服务器，其具体工作原理可以参照本申请任一实施例提供的多设备的交互方法中的对应步骤，此处不再赘述。

本申请提供的主控设备，播放设备和服务器，主控设备利用接收单元1001接收服务器发送的多媒体数据流和对应的控制信息以后，控制单元1002根据控制信息控制播放设备，播放设备的播放单元1102响应主控设备的控制，并播放所述多媒体数据流中，播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据。由于播放设备可以直接从主控设备处获取需要播放的多媒体数据，而不必通过互联网从服务器下载多媒体数据，因此通过播放多媒体数据实现的多设备的交互过程，不会受互联网的数据传输速率的影响，即使互联网的数据传输速率较低，上述装置也能够在多个播放设备之间实现流畅的多设备的交互过程，有效提高用户体验。

结合本申请实施例提供的多设备的交互方法，以及主控设备，播放设备和服务器，本申请实施例提供一种多设备的交互***，请参考图13，该交互***包括：

一个主控设备，一个服务器和至少两个受控设备，每一个受控设备都是一个播放设备。

服务器用于通过互联网向主控设备发送多媒体数据流和对应的控制信息，控制信息包括：多媒体数据流的多个切换时间点，以及每个切换时间点对应的播放设备，每一个切换时间点对应至少一个播放设备。

主控设备与每一个受控设备连接，连接方式可以是无线连接或有线连接。主控设备接收服务器发送的多媒体数据流后，用于控制播放设备播放多媒体数据流中处于播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据。

其中，下一个切换时间点为播放设备对应的切换时间点的下一个切换时间点，若播放设备对应的切换时间点是多媒体数据流的最后一个切换时间点，则下一个切换时间点是多媒体数据流的结束时间点。

播放设备用于响应主控设备的控制，播放多媒体数据流中处于播放设备自身对应的切换时间点和下一个切换时间点之间的多媒体数据。

本申请另一实施例还提供一种多设备的交互***，请参考图14，该***包括：

多个播放设备和一个服务器，多个播放设备中的任意一个作为主控设备，执行前一实施例提供的***中的主控设备的功能。

本实施例中的播放设备和服务器的功能与前一实施例中的播放设备和服务器的功能一致，不再赘述。

本实施例中的主控设备，可以控制包括自身在内的***中的所有播放设备用于播放对应的多媒体数据。

需要说明的是，为了方便理解，图13和图14只展示了本申请提供的交互***的两个最简单的实施例，这两个实施例的交互***中的播放设备只有两个。然而，在图13和图14的基础上增加播放设备的数量得到的交互***，只是本申请提供的多设备的交互***的另一个实施例，因此也在本申请保护范围内。

本申请实施例提供的多设备的交互***中的服务器和各个设备的具体工作原理，可以参考本申请任一实施例提供的多设备的交互方法的对应步骤，此处不再赘述。

本申请实施例提供的多设备的交互***，主控设备接收服务器发送的多媒体数据流和对应的控制信息以后，根据控制信息控制播放设备播放所述多媒体数据流中，播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据。由于播放设备可以直接从主控设备处获取需要播放的多媒体数据，而不必通过互联网从服务器下载多媒体数据，因此通过播放多媒体数据实现的多设备的交互过程，不会受互联网的数据传输速率的影响，即使互联网的数据传输速率较低，上述装置也能够在多个播放设备之间实现流畅的多设备的交互过程，有效提高用户体验。

本申请另一实施例还提供一种电子设备，电子设备的结构参考图15，包括：存储器1501和处理器1502，其中：

存储器1501用于存储计算机指令；

处理器1502用于执行存储器1501存储的计算机指令，若该电子设备作为主控设备，则上述计算机指令被执行时，用于执行本申请任一实施例提供的多设备的交互方法中主控设备的相关步骤。

若上述电子设备作为服务器，则上述计算机指令被执行时，用于执行本申请任一实施例提供的多设备的交互方法中服务器的相关步骤。

若该电子设备作为播放设备，则上述计算机指令被执行时，用于执行本申请任一实施例提供的多设备的交互方法中播放设备的相关步骤。

本发明第八方面公开一种存储介质，用于存储程序。

若该存储介质是主控设备的存储介质，则上述程序被执行时，用于执行本申请任一实施例提供的多设备的交互方法中主控设备的相关步骤。

若该存储介质是服务器的存储介质，则上述程序被执行时，用于执行本申请任一实施例提供的多设备的交互方法中服务器的相关步骤。

若该存储介质是播放设备的存储介质，则上述程序被执行时，用于执行本申请任一实施例提供的多设备的交互方法中播放设备的相关步骤。

专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多设备的交互方法，其特征在于，应用于主控设备，所述主控设备与受控设备连接；其中，所述多设备的交互方法，包括：

接收服务器发送的多媒体数据流和与所述多媒体数据流对应的控制信息；其中，所述控制信息用于将所述多媒体数据流的多个时间点指定为切换时间点，并为每一个所述切换时间点指定至少一个对应的播放设备；所述播放设备包括多个所述受控设备，或者包括至少一个所述受控设备和所述主控设备；在所述受控设备从所述多媒体数据流的第一个切换时间点开始播放之前，所述多媒体数据流已经由所述主控设备下载完毕；

2.根据权利要求1所述的交互方法，其特征在于，所述控制所述播放设备播放所述多媒体数据流中处于所述播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据，包括：

3.根据权利要求1所述的交互方法，其特征在于，所述控制所述播放设备播放所述多媒体数据流中处于所述播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据，包括：

4.根据权利要求1所述的交互方法，其特征在于，所述控制所述播放设备播放所述多媒体数据流中处于所述播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据之前，还包括：

5.根据权利要求1所述的交互方法，其特征在于，所述控制所述播放设备播放所述多媒体数据流中处于所述播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据之前，还包括：

6.根据权利要求1所述的交互方法，其特征在于，所述控制所述播放设备播放所述多媒体数据流中处于所述播放设备对应的切换时间点和下一个切换时间点之间的多媒体数据之前，还包括：

7.一种主控设备，其特征在于，所述主控设备与多个受控设备连接，所述主控设备包括：

接收单元，用于接收服务器发送的多媒体数据流和与所述多媒体数据流对应的控制信息；其中，所述控制信息用于将所述多媒体数据流的多个时间点指定为切换时间点，并为每一个所述切换时间点指定至少一个对应的播放设备；所述播放设备包括每一个所述受控设备，或者包括每一个所述受控设备和所述主控设备；在所述受控设备从所述多媒体数据流的第一个切换时间点开始播放之前，所述多媒体数据流已经由所述主控设备下载完毕；

8.根据权利要求7所述的主控设备，其特征在于，所述控制单元，包括：

确定单元，用于将当前要播放的多媒体数据流的第一个切换时间点确定为当前时间点，进而将当前切换时间点和下一个切换时间点之间的多媒体数据确定为待播放多媒体数据；

发送单元，用于将确定单元确定出的待播放多媒体数据发送至当前切换时间点对应的播放设备，使当前切换时间点对应的播放设备播放上述待播放多媒体数据；

9.根据权利要求7所述的主控设备，其特征在于，所述控制单元，还包括：

播放单元，用于在确定单元确定出的当前切换时间点对应有主控设备自身时，播放当前切换时间点和下一个切换时间点之间的多媒体数据。

10.根据权利要求7所述的主控设备，其特征在于，所述控制单元，包括：

确定单元，用于读取控制信息，并将控制信息中记录的播放设备确定为参与本次交互过程的播放设备；

11.一种服务器，其特征在于，包括：

发送单元，用于向权利要求7至10任一项所述的主控设备发送多媒体数据流以及与所述多媒体数据流对应的控制信息；其中，所述控制信息用于将所述多媒体数据流的多个时间点指定为切换时间点，并为每一个所述切换时间点指定至少一个对应的播放设备：所述播放设备包括多个受控设备，或者包括至少一个所述受控设备和所述主控设备。

12.根据权利要求11所述的服务器，其特征在于，还包括：

生成单元，用于根据所述播放请求生成与所述所述播放请求对应的多媒体数据流，以及与所述多媒体数据流对应的控制信息；

其中，所述发送单元具体用于：向所述主控设备发送与所述播放请求对应的多媒体数据流，以及与所述多媒体数据流对应的控制信息。

13.根据权利要求12所述的服务器，其特征在于，所述播放请求携带有对话主题，所述播放设备的数量和所述播放设备的标识；

所述生成单元具体用于：根据所述播放请求携带的所述对话主题，所述播放设备的数量和所述播放设备的标识生成与所述播放请求对应的多媒体数据流，以及与所述多媒体数据流对应的控制信息。

14.根据权利要求12所述的服务器，其特征在于，所述接收单元还用于，接收所述主控设备发送的请求，其中，所述请求用于请求所述服务器修改所述多媒体数据流中的切换时间点所指定的播放设备；

15.一种多设备的交互***，其特征在于，包括：

服务器，用于向主控设备发送多媒体数据流以及与所述多媒体数据流对应的控制信息；其中，所述控制信息用于将所述多媒体数据流的多个时间点指定为切换时间点，并为每一个所述切换时间点指定至少一个对应的播放设备；所述播放设备包括受控设备，或者包括所述受控设备和所述主控设备；所述受控设备与所述主控设备连接；在所述受控设备从所述多媒体数据流的第一个切换时间点开始播放之前，所述多媒体数据流已经由所述主控设备下载完毕；

16.一种用于用户界面回放的设备，其特征在于，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行权利要求1-6任一项所述的方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-6任一项所述的方法。