CN104616652A

CN104616652A - 语音传输方法及装置

Info

Publication number: CN104616652A
Application number: CN201510016680.0A
Authority: CN
Inventors: 陈志军; 侯文迪; 王百超
Original assignee: Xiaomi Inc
Current assignee: Beijing Xiaomi Technology Co Ltd; Xiaomi Inc
Priority date: 2015-01-13
Filing date: 2015-01-13
Publication date: 2015-05-13

Abstract

本公开是关于一种语音传输方法及装置，其中方法包括：开始接收待传输至对端的语音信号；每到预设的语音划分时长，将当前接收到的音频片段发送至服务器，所述服务器用于将所述音频片段实时发送至对端。本公开实施例提高了语音传输效率。

Description

语音传输方法及装置

技术领域

本公开涉及互联网技术，尤其涉及语音传输方法及装置。

背景技术

相关技术中，即时通讯工具可以发送语音进行聊天。比如，用户A想要通过即时通讯工具与用户B语音聊天，通常用户A说完自己的语音后(假设说了一分钟的语音)，A的客户端会将该语音一次性发送至用户B的客户端，用户B通过其客户端收听该语音(收听也会用时一分钟)，这种情况下语音的传输用了双倍的时间，即一分钟的两倍，语音传输效率很低，A和B通过即时通讯工具聊天的速度太慢。

发明内容

为克服相关技术中存在的问题，本公开提供一种语音传输方法及装置，以提高语音传输效率。

根据本公开实施例的第一方面，提供一种语音传输方法，包括：

开始接收待传输至对端的语音信号；

每到预设的语音划分时长，将当前接收到的音频片段发送至服务器，所述服务器用于将所述音频片段实时发送至对端。

根据本公开实施例的第二方面，提供一种语音传输方法，包括：

接收第一客户端实时发送的音频片段，所述音频片段是第一客户端在接收待传输至第二客户端的语音信号时，每到预设的语音划分时长时获得；

将所述音频片段实时传输至第二客户端。

根据本公开实施例的第三方面，提供一种语音传输装置，包括：

信号接收模块，用于开始接收待传输至对端的语音信号；

传输处理模块，用于每到预设的语音划分时长，将当前接收到的音频片段发送至服务器，所述服务器用于将所述音频片段实时发送至对端。

根据本公开实施例的第四方面，提供一种语音传输装置，包括：

信号接收模块，用于接收第一客户端实时发送的音频片段，所述音频片段是第一客户端在接收待传输至第二客户端的语音信号时，每到预设的语音划分时长时获得；

信号发送模块，用于将所述音频片段实时传输至第二客户端。

根据本公开实施例的第五方面，提供一种服务器，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：接收第一客户端实时发送的音频片段，所述音频片段是第一客户端在接收待传输至第二客户端的语音信号时，每到预设的语音划分时长时获得；将所述音频片段实时传输至第二客户端。

根据本公开实施例的第六方面，提供一种终端，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：开始接收待传输至对端的语音信号；每到预设的语音划分时长，将当前接收到的音频片段发送至服务器，所述服务器用于将所述音频片段实时发送至对端。

本公开的实施例提供的技术方案可以包括以下有益效果：通过将接收到的语音信号划分成多个音频片段并实时传输，相对于语音信号整体传输提高了语音传输效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的语音传输方法的应用场景图；

图2是根据一示例性实施例示出的一种语音传输方法的流程图；

图3是根据一示例性实施例示出的另一种语音传输方法的流程图；

图4是根据一示例性实施例示出的语音传输方法中的语音划分示意图；

图5是根据一示例性实施例示出的又一种语音传输方法的流程图；

图6是根据一示例性实施例示出的又一种语音传输方法的流程图；

图7是根据一示例性实施例示出的一种语音传输装置的结构示意图；

图8是根据一示例性实施例示出的另一种语音传输装置的结构示意图；

图9是根据一示例性实施例示出的又一种语音传输装置的结构示意图；

图10是根据一示例性实施例示出的一种服务器的框图；

图11是根据一示例性实施例示出的一种智能终端的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的语音传输方法的应用场景图，如图1所示，两个手机上都分别安装了一个即时通讯客户端，假设其中一个手机11上的客户端是第一客户端A，另一个手机12上的客户端是第二客户端B，图1中还示出了服务器13，该服务器13是即时通讯服务器，第一客户端A和第二客户端B都分别与服务器13建立连接，这样第一客户端A与第二客户端B才能通过服务器13进行通讯。

需要说明的是，上述的图1只是一种示例性场景，实际实施中并不局限于此，比如即时通讯客户端也可以是运行在其他便携终端上比如平板电脑等。本公开实施例的语音传输方法应用于第一客户端A与第二客户端B之间的语音通讯过程；参见图2，该图2是以其中一个即时通讯客户端为执行主体来描述语音传输方法的流程，比如，以从第一客户端向第二客户端传输语音信号为例，作为语音信号发送端的第一客户端执行如下流程：

201、开始接收待传输至对端的语音信号；

202、每到预设的语音划分时长，将当前接收到的音频片段发送至服务器，所述服务器用于将所述音频片段实时发送至对端。

如果以服务器为执行主体，该服务器执行图3所示的流程：

301、接收第一客户端实时发送的音频片段，所述音频片段是第一客户端在接收待传输至第二客户端的语音信号时，每到预设的语音划分时长时获得；

302、将所述音频片段实时传输至第二客户端。

其中，第一客户端接收待传输至第二客户端的语音信号，该场景比如是，用户小张想要通过即时通讯客户端向用户小李发送语音信号，告诉小李一些事情，小张大概需要说话1分钟将该事情讲完，那就是1分钟的语音信号，第一客户端A将接收该语音信号。具体实施时，小张可以通过其手机登录即时通讯客户端账号，登录后小张的即时通讯客户端(即第一客户端)与服务器建立网络连接，小张从其通讯录中选择好友小李开始发送语音信号。

本实施例中，第一客户端在接收小张说话的语音信号时，该第一客户端可以将语音信号划分成多个音频片段，并且是将各个音频片段实时传输至服务器。

图4示例了语音信号的划分，假设小张说的1分钟的语音总共被分成了六份，包括T1、T2、T3……T6，每一份称为一个“音频片段”，即T1是一个音频片段，T3也是一个音频片段等。具体实施中，第一客户端是这样划分音频片段的：将小张说话的起始时间设置为0，即语音起点，并且第一客户端将为语音计时，当说话时长达到T1的结束时间点a1时，客户端将T1时段内的语音作为一个音频片段，编码发送至服务器；同时，小张继续说话(小张的说话是不会停止的)，第一客户端继续计时，当说话时长达到T2的结束时间点a2时，客户端将T2时段内的语音作为一个音频片段，编码发送至服务器，后续以此类推，不再赘述。该过程就相当于第一客户端边接收边发送，将语音信号切分成几个时段，分批次的发送至服务器，而不再是等待用户讲完一次性发送。

服务器在接收到第一客户端A发送的各个音频片段后，可以查询下用户小李的第二客户端B是否已经与服务器建立连接(即小李是否在线)，如果B有连接，则服务器将各个音频片段传输至第二客户端。在传输时，服务器可以按照从第一客户端接收的顺序来向第二客户端发送，比如在图4所示的六个音频片段中，服务器首先接收到T1则向第二客户端发送时也首先发送T1。

可选的，为了进一步保证音频片段传输时的顺序性，本实施例还可以在各个音频片段的数据包中设置顺序标识，该顺序标识用于表示音频片段在语音信号多个音频片段中的位置，以使得服务器根据该顺序标识传输音频片段至对端，将音频片段按照顺序传输和播放。

本公开实施例的语音传输方法，一方面，该方法中的客户端不用等用户讲完一次性发送，而是可以将语音切分成多个音频片段分批次发送，这样对端接收语音信号的时间就会提前，比如，服务器接收到A发送的T1片段后将直接转发至第二客户端B，B可以直接播放该T1音频，这时B收听到该语音距离A开始说话的时间最快仅T秒，也就是说B收听到语音信号的时间相对于传统方式大大提前了；另一方面，A和B之间的语音传输过程，两者之间不用建立直接连接，两者仍然是分别与服务器建立连接，由服务器进行中转，对网络状况的要求较低，避免了直接连接实时通话所出现的断线问题。

此外，这种方式的语音传输，作为接收端的第二客户端的收听效果也比较好。比如上述的，服务器在将T1时长的语音发送至B后，服务器持续接收后续的音频并持续发送给B，当B听完T1数据后，T2的音频数据也已经传送到，客户端自动无缝的开始播放T2的音频，即第二客户端B会自动的将后续的音频片段连接到前一个音频片段上，用户觉察不到语音信号的分割传输，听起来是连贯的语音，并且，第二客户端B在界面UI上也可以和通常的语音传输方式一样，比如，用户点击收听语音的按键则开始连贯的收听语音信号。由上述可以看到，作为接收端的用户不仅不用等发送端用户讲完就可以收听到声音，而且收听到的语音感觉起来比较连贯，效果很好。

可选的，第一客户端在将语音信号划分成多个音频片段时，可以是根据预设的语音划分时长，将语音信号划分成多个分别对应该语音划分时长的音频片段。

在一个实施例中，多个音频片段分别对应的语音划分时长是相等的。仍以图4为例，T1至T6的六个音频片段对应的时长，预定的都是10秒，那么也就是第一客户端从时间起点0开始计时，达到10秒钟作为第一个音频片段T1，从a1开始计时达到10秒钟作为第二个音频片段T2，等。如果剩余的T6片段的时长小于10秒钟，也将其作为一个音频片段直接一次性发送至服务器。

在另一个实施例中，多个音频片段可以分别对应不同的语音划分时长，例如该预设的语音划分时长可以包括两个以上的时长。仍以图4为例，比如，T1片段的时长是5秒钟，T2片段的时长是10秒钟，T3片段的时长是11秒钟等，都是可以的，只要是将该1分钟的语音信号划分成多个音频片段分批次发送即可。

上述的语音划分时长，可以是存储在第一客户端的，由第一客户端在接收到语音信号时根据该时长划分音频片段。该语音划分时长的时间设置，即将每个片段的时长设置为多长时间，可以是客户端预设的，也可以是客户端从服务器接收到的，等多种方式。

本公开实施例中，第一客户端据此划分音频片段的预设的语音划分时长是可以调整的，可以根据语音传输网络状况进行适当的延长或缩小。参见图5所示的流程：

501、服务器获取语音传输网络状况；

其中，该语音传输网络包括：服务器与第一客户端之间的网络，或者服务器与第二客户端之间的网络，服务器可以感知到这些网络连接的状态，比如网络比较差，数据传输比较慢，或者网络状态较好，数据传输比较快速等。

502、服务器根据所述语音传输网络状况向第一客户端发送时长控制指令；

其中，服务器在501中感知到网络状况后，可以据此向第一客户端发送时长控制指令，该指令是用于指示第一客户端根据网络状态延长或者缩小语音划分时长的。比如，如果服务器与第二客户端之间的网络状态较差，数据传输比较慢，为了避免接收语音的第二客户端B造成延迟和卡顿的情况，可以将语音划分时长适当延长，比如初始是10秒的语音作为一个音频片段，可以延长至20秒作为一个音频片段。或者，网络状态比较好的情况下，服务器也可以指示缩短语音划分时长，当时长足够小时近似于实时通话，当时长足够大时近似于一次性发送。

如果服务器发现作为接收端的第二客户端B没在线，则服务器此时可以认为相当于网络状况非常差，可以指示第一客户端延长语音划分时长T至足够大，近似一次性发送；或者服务器可以指示第一客户端不再采用本实施例的划分音频片段的方式，而是采用传统方式进行语音发送，这种状况也可以视为一种特例的网络状态和语音划分时长，即此时的网络状态就是第二客户端B没在线，视为网络状态非常差，此时的预设语音划分时长视为无限大即不再采用音频片段划分方式。具体的，以图4为例，当用户说话的时长还未到达T1的结束时间a1时，服务器就检测到第二客户端未连接，并且服务器通知了第一客户端该状况，则第一客户端可以延长T1至足够大，近似一次性发送。当然，服务器也可以按照上面所述的方式，语音信号仍然是划分成多个片段也是可以的。

本步骤中，服务器发送时长控制指令的方式也是比较灵活的，比如，服务器可以仅仅指示第一客户端延长，但是延长多久可以由第一客户端决定；或者，服务器也可以直接指示第一客户端延长的时间，服务器可以在第一客户端注册时获取第一客户端的初始语音划分时长，并且服务器可以网络状况确定延长多久比较适合当前的网络状态，则指示第一客户端延长一确定的时长，例如指示将语音划分时长延长3秒。

503、第一客户端接收时长控制指令，并据此调整语音划分时长。

该第一客户端的调整可以参见502，在调整时长后，第一客户端在后续接收到语音信号时，将按照该新的语音划分时长来划分语音信号。

此外，第一客户端在接收待传输至对端的语音信号之前，还可以接收用于指示启用语音划分传输方式的启用命令。比如，第一客户端可以提供用户选择的选项，用于供用户选择是否开启本实施例的语音传输方法，如果开启则采用该方法将语音信号划分成音频片段发送，如果不启用则仍然采用传统方式发送。该启用命令指的是获取到用户对启用该方法的选择。

第一客户端也可以作为语音信号的接收端，接收服务器转发的第二客户端回复的语音信号，执行图6所示的流程；当然，第一客户端作为发送端时，该流程由第二客户端执行。

601、接收所述服务器实时发送的音频片段，所述音频片段是所述对端发送至所述服务器的；

602、播放所述音频片段。

本公开实施例提供了一种语音传输装置，该装置可以是即时通讯客户端；关于该实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。如图7所示，该装置包括：信号接收模块71和传输处理模块72，其中，

信号接收模块71，用于开始接收待传输至对端的语音信号；

传输处理模块72，用于每到预设的语音划分时长，将当前接收到的音频片段发送至服务器，所述服务器用于将所述音频片段实时发送至对端。

图8示例了另一种装置的结构，在图7所示的基础上，该装置的传输处理模块72可以包括：时长控制子模块721和语音划分子模块722；其中，

时长控制子模块721，用于存储预设的语音划分时长；

语音划分子模块722，用于在每到所述时长控制子模块存储的预设的语音划分时长时，获得音频片段。

进一步的，该时长控制子模块721，还用于接收所述服务器发送的用于调整预设的语音划分时长的时长控制指令，所述时长控制指令是所述服务器根据语音传输网络状况确定；并根据所述时长控制指令，调整预设的所述语音划分时长。

该装置还包括：启用指示模块73，用于在所述信号接收模块开始接收待传输至对端的语音信号之前，还包括：接收用于指示启用语音划分传输方式的启用命令。

进一步的，该装置还包括：语音播放模块74；信号接收模块71，还用于接收所述服务器实时发送的音频片段，所述音频片段是所述对端发送至所述服务器的。语音播放模块74，用于播放所述信号接收模块接收的音频片段。

图9示例了一种语音传输装置的结构，该装置运行在服务器侧，该装置包括：信号接收模块91和信号发送模块92；其中，

信号接收模块91，用于接收第一客户端实时发送的音频片段，所述音频片段是第一客户端在接收待传输至第二客户端的语音信号时，每到预设的语音划分时长时获得；

信号发送模块92，用于将所述音频片段实时传输至第二客户端。

图10是根据一示例性实施例示出的一种服务器1900的框图。例如，服务器1900可以被提供为一服务器。参照图10，装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理部件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述服务器侧的方法。

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作***，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由装置的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图11是根据一示例性实施例示出的一种装置1100的框图。例如，装置1100可以是移动电话，平板设备，个人数字助理等。

参照图11，装置1100可以包括以下一个或多个组件：处理组件1102，存储器1104，电源组件1106，多媒体组件1108，音频组件1110，输入/输出(I/O)的接口1112，传感器组件1114，以及通信组件1116。

处理组件1102通常控制装置1100的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1102可以包括一个或多个处理器1120来执行指令，以完成上述终端侧的方法的全部或部分步骤。此外，处理组件1102可以包括一个或多个模块，便于处理组件1102和其他组件之间的交互。例如，处理部件1102可以包括多媒体模块，以方便多媒体组件1108和处理组件1102之间的交互。

存储器1104被配置为存储各种类型的数据以支持在设备1100的操作。这些数据的示例包括用于在装置1100上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件1106为装置1100的各种组件提供电力。电力组件1106可以包括电源管理***，一个或多个电源，及其他与为装置1100生成、管理和分配电力相关联的组件。

多媒体组件1108包括在所述装置1100和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1108包括一个前置摄像头和/或后置摄像头。当设备1100处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件1110被配置为输出和/或输入音频信号。例如，音频组件1110包括一个麦克风(MIC)，当装置1100处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1104或经由通信组件1116发送。在一些实施例中，音频组件1110还包括一个扬声器，用于输出音频信号。

I/O接口1112为处理组件1102和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1114包括一个或多个传感器，用于为装置1100提供各个方面的状态评估。例如，传感器组件1114可以检测到设备1100的打开/关闭状态，组件的相对定位，例如所述组件为装置1100的显示器和小键盘，传感器组件1114还可以检测装置1100或装置1100一个组件的位置改变，用户与装置1100接触的存在或不存在，装置1100方位或加速/减速和装置1100的温度变化。传感器组件1114可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1114还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1114还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1116被配置为便于装置1100和其他设备之间有线或无线方式的通信。装置1100可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件1116经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件1116还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1100可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述终端侧的方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1104，上述指令可由装置1100的处理器1102执行以完成上述终端侧的方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种语音传输方法，其特征在于，包括：

开始接收待传输至对端的语音信号；

2.根据权利要求1所述的方法，其特征在于，所述预设的语音划分时长包括两个以上时长。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收所述服务器发送的用于调整语音划分时长的时长控制指令，所述时长控制指令是所述服务器根据语音传输网络状况确定；

根据所述时长控制指令，调整所述预设的语音划分时长。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述音频片段的数据包中设置顺序标识，所述顺序标识用于表示所述音频片段在所述语音信号的多个音频片段中的位置。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：接收用于指示启用语音划分传输方式的启用命令。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收所述服务器实时发送的音频片段，所述音频片段是所述对端发送至所述服务器的；

播放所述音频片段。

7.一种语音传输方法，其特征在于，包括：

将所述音频片段实时传输至第二客户端。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

获取语音传输网络状况，所述语音传输网络包括自身与第一客户端之间的网络或者自身与第二客户端之间的网络；

根据所述语音传输网络状况向所述第一客户端发送时长控制指令，所述第一客户端用于根据所述时长控制指令调整据以划分音频片段的预设的语音划分时长。

9.一种语音传输装置，其特征在于，包括：

信号接收模块，用于开始接收待传输至对端的语音信号；

10.根据权利要求9所述的装置，其特征在于，所述传输处理模块，包括：

时长控制子模块，用于存储预设的语音划分时长；

语音划分子模块，用于在每到所述时长控制子模块存储的预设的语音划分时长时，获得音频片段。

11.根据权利要求10所述的装置，其特征在于，

所述时长控制子模块，还用于接收所述服务器发送的用于调整预设的语音划分时长的时长控制指令，所述时长控制指令是所述服务器根据语音传输网络状况确定；并根据所述时长控制指令，调整预设的所述语音划分时长。

12.根据权利要求9所述的装置，其特征在于，所述装置还包括：

启用指示模块，用于在所述信号接收模块开始接收待传输至对端的语音信号之前，还包括：接收用于指示启用语音划分传输方式的启用命令。

13.根据权利要求9所述的装置，其特征在于，

所述信号接收模块，还用于接收所述服务器实时发送的音频片段，所述音频片段是所述对端发送至所述服务器的；

还包括：语音播放模块，用于播放所述信号接收模块接收的音频片段。

14.一种语音传输装置，其特征在于，包括：

15.一种服务器，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

16.一种终端，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；