CN111785293B

CN111785293B - 语音传输方法、装置及设备、存储介质

Info

Publication number: CN111785293B
Application number: CN202010501279.7A
Authority: CN
Inventors: 毛恩云
Original assignee: Hangzhou Hikvision System Technology Co Ltd
Current assignee: Hangzhou Hikvision System Technology Co Ltd
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2023-04-25
Anticipated expiration: 2040-06-04
Also published as: CN111785293A

Abstract

本申请提供一种语音传输方法、装置及设备、存储介质，可大大降低数据传输量。一种语音传输方法应用于终端设备，该方法包括：依据已采集到的待发向目的终端设备的第一语音数据生成对应的第一语音特征信息；在已记录的语音ID与语音特征信息之间的对应关系中查找所述第一语音特征信息对应的第一语音ID；若查找到所述第一语音ID，则向服务端发送所述第一语音ID，以由所述服务端依据所述第一语音ID控制所述目的终端设备获得所述第一语音ID对应的第一语音数据；若未查找到所述第一语音ID，则向所述服务端发送第一语音数据，以由所述服务端转发所述第一语音数据至所述目的终端设备。

Description

语音传输方法、装置及设备、存储介质

技术领域

本申请涉及语音技术领域，尤其涉及的是一种语音传输方法、装置及设备、存储介质。

背景技术

在一些场合中，比如语音通信，常见的有座机通话、手机通话、对讲机通话、网络语音聊天等过程中，需要进行语音传输。而语音传输通常需要依托于网络来实现，网络的好坏一般决定了语音传输的质量。通常情况下，无论网络状态如何，终端设备在采集到语音数据后，都会直接将语音数据发送给服务端，由服务端将语音数据转发给其他终端设备。这就会导致传输数据量很大，会影响语音传输质量，尤其是在网络发生异常比如拥塞时，极有可能加剧网络异常的情况，导致语音传输质量非常差，比如会发生卡顿、丢失、错误等。

为了提升语音传输质量，改进的做法是，在网络发生异常的情况下，终端设备对语音数据进行压缩，并将压缩后的语音数据发送给服务端、以由服务端转发给其他终端设备。该方式虽然可以降低一定的数据传输量，但是会降低辨识度，且数据传输量仍然较大。

发明内容

有鉴于此，本申请提供一种语音传输方法、装置及设备、存储介质，可大大降低数据传输量。

本申请第一方面提供一种语音传输方法，应用于终端设备，该方法包括：

依据已采集到的待发向目的终端设备的第一语音数据生成对应的第一语音特征信息；

在已记录的语音ID与语音特征信息之间的对应关系中查找所述第一语音特征信息对应的第一语音ID；

若查找到所述第一语音ID，则向服务端发送所述第一语音ID，以由所述服务端依据所述第一语音ID控制所述目的终端设备获得所述第一语音ID对应的第一语音数据；

若未查找到所述第一语音ID，则向所述服务端发送第一语音数据，以由所述服务端转发所述第一语音数据至所述目的终端设备。

根据本申请的一个实施例，所述依据已采集到的待发向目的终端设备的第一语音数据生成对应的第一语音特征信息包括：

对已采集到的所述第一语音数据进行声纹识别，得到对应的声纹信息；

对已采集到的所述第一语音数据进行编码，得到编码信息，所述编码信息至少包括：音节编码信息和/或语义编码信息；所述音节编码信息是按照音节识别方式识别出的音节信息，所述语义编码信息是按照语义识别方式识别出的语义信息；

依据所述声纹信息与所述编码信息确定所述第一语音特征信息。

根据本申请的一个实施例，

该方法之前进一步包括：依据检测到的本设备的网络状态确定用于语音传输的语音传输模式；

在未查找到所述第一语音ID的情况下，该方法进一步包括：

若所述语音传输模式为已设定的第一模式，则按照所述第一模式进一步向所述服务端发送所述第一语音特征信息，以由所述服务端依据所述第一语音特征信息分配对应的第一语音ID；

从所述服务端获取所述第一语音ID，并记录所述第一语音ID与所述第一语音特征信息之间的对应关系。

根据本申请的一个实施例，该方法进一步包括：

接收服务端发送的第二语音数据，播放所述第二语音数据。

根据本申请的一个实施例，该方法进一步包括：

从服务端获取语音ID与语音数据之间的对应关系并记录；

当接收到服务端发送的至少一个第二语音ID时，依据已记录的语音ID与语音数据之间的对应关系查找到该接收的第二语音ID对应的语音数据；

若接收到1个第二语音ID，则播放该查找到的语音数据；

若接收到两个以上第二语音ID，则将查找到的各第二语音ID对应的语音数据进行合成，播放合成的语音数据。

本申请第二方面提供一种语音传输方法，应用于服务端，该方法包括：

在接收到源终端设备发送的语音ID的情况下，依据所述语音ID控制目的终端设备获得所述语音ID对应的语音数据；

在接收到源终端设备发送的语音数据的情况下，转发该语音数据至所述目的终端设备。

根据本申请的一个实施例，依据所述语音ID控制目的终端设备获得所述语音ID对应的语音数据包括：

在已记录的语音ID与语音数据之间的对应关系中查找到接收的所述语音ID对应的语音数据；

若接收到的语音ID的数量为1，则向所述目的终端设备转发该查找到的语音数据；

若接收到的语音ID的数量大于1，则将查找到的各语音ID对应的语音数据进行合成，向所述目的终端设备转发该合成的语音数据。

当确定已将已记录的该接收的语音ID与语音数据之间的对应关系发送给目标终端，则向所述目的终端设备转发该接收到的语音ID，以由目的终端设备根据接收的语音ID播放对应的语音数据。

根据本申请的一个实施例，在接收到源终端设备发送的语音数据的情况下，该方法进一步包括：

当接收到所述源终端设备发送的该语音数据对应的语音特征信息，所述源终端设备是在本设备的语音传输模式为已设定的第一模式时发送的，则依据所述语音特征信息分配对应的语音ID，并返回给所述源终端设备；记录该语音ID与语音数据之间的对应关系。

根据本申请的一个实施例，该方法进一步包括：

将本地已记录的该语音ID与语音数据之间的对应关系发送至所述目的终端设备，以由所述目的终端设备在接收到所述语音ID时依据所述语音ID查找到对应的语音数据。

本申请第三方面提供一种语音传输装置，应用于终端设备，该装置包括：

语音特征信息生成模块，用于依据已采集到的待发向目的终端设备的第一语音数据生成对应的第一语音特征信息；

语音ID查找模块，用于在已记录的语音ID与语音特征信息之间的对应关系中查找所述第一语音特征信息对应的第一语音ID；

第一语音传输模块，用于若查找到所述第一语音ID，则向服务端发送所述第一语音ID，以由所述服务端依据所述第一语音ID控制所述目的终端设备获得所述第一语音ID对应的第一语音数据；

第二语音传输模块，用于若未查找到所述第一语音ID，则向所述服务端发送第一语音数据，以由所述服务端转发所述第一语音数据至所述目的终端设备。

根据本申请的一个实施例，所述语音特征信息生成模块依据已采集到的待发向目的终端设备的第一语音数据生成对应的第一语音特征信息时，具体用于：

根据本申请的一个实施例，

该装置进一步包括：语音传输模式确定模块，用于依据检测到的本设备的网络状态确定用于语音传输的语音传输模式；

在未查找到所述第一语音ID的情况下，所述第二语音传输模块进一步用于：

根据本申请的一个实施例，该装置进一步包括：

第一语音播放模块，用于接收服务端发送的第二语音数据，播放所述第二语音数据。

根据本申请的一个实施例，该装置进一步包括：

对应关系获取模块，用于从服务端获取语音ID与语音数据之间的对应关系并记录；

语音数据查找模块，用于当接收到服务端发送的至少一个第二语音ID时，依据已记录的语音ID与语音数据之间的对应关系查找到该接收的第二语音ID对应的语音数据；

第二语音播放模块，用于若接收到1个第二语音ID，则播放该查找到的语音数据；

第三语音播放模块，用于若接收到两个以上第二语音ID，则将查找到的各第二语音ID对应的语音数据进行合成，播放合成的语音数据。

本申请第四方面提供一种语音传输装置，应用于服务端，该装置包括：

第三语音传输模块，用于在接收到源终端设备发送的语音ID的情况下，依据所述语音ID控制目的终端设备获得所述语音ID对应的语音数据；

第四语音传输模块，用于在接收到源终端设备发送的语音数据的情况下，向所述目的终端设备转发该语音数据。

根据本申请的一个实施例，所述第三语音传输模块依据所述语音ID控制目的终端设备获得所述语音ID对应的语音数据时，具体用于：

根据本申请的一个实施例，在接收到源终端设备发送的语音数据的情况下，所述第四语音传输模块进一步用于：

根据本申请的一个实施例，该装置进一步包括：

对应关系发送模块，用于将本地已记录的该语音ID与语音数据之间的对应关系发送至所述目的终端设备，以由所述目的终端设备在接收到所述语音ID时依据所述语音ID查找到对应的语音数据。

本申请第五方面提供一种电子设备，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如前述实施例中所述的语音传输方法。

本申请第六方面提供一种机器可读存储介质，其上存储有程序，该程序被处理器执行时，实现如前述实施例中所述的语音传输方法。

本申请实施例具有以下有益效果：

本申请实施例中，可以在终端设备中学习并记录有语音标识ID与语音特征信息的对应关系，终端设备可以依据采集到的第一语音数据生成对应的语音特征信息之后，在上述对应关系中查找该第一语音特征信息对应的第一语音ID，如果未查找到，则将向服务端发送第一语音数据，以由服务端转发第一语音数据至目的终端设备；如果查找到，则只需要向服务端发送第一语音ID，由服务端依据第一语音ID控制目的终端设备获得第一语音ID对应的第一语音数据，比如在服务端学习有语音ID与语音数据之间的对应关系的情况下，服务端可以在已学习到的语音ID与语音数据的对应关系中查找出第一语音ID对应的第一语音数据、并向目的终端设备转发第一语音数据，上述方式中，利用了已学习的语音ID与语音特征信息的对应关系，在对应关系中存在第一语音特征信息时，终端设备与服务端之间只需传输对应的第一语音ID，而不再需要传输第一语音数据，可以大大减少传输数据量，避免网络情况的恶化，尤其适用于弱网、或者网络不稳定情况下的语音传输，且不会影响语音数据的辨识度。

附图说明

图1是本申请一实施例的语音传输方法的流程示意图；

图2是本申请一实施例的语音传输装置的结构示意图；

图3是本申请一实施例的语音传输***的结构框图；

图4是本申请一实施例的源终端设备、服务端、目的终端设备之间的交互示意图；

图5是本申请一实施例的电子设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种器件，但这些信息不应限于这些术语。这些术语仅用来将同一类型的器件彼此区分开。例如，在不脱离本申请范围的情况下，第一器件也可以被称为第二器件，类似地，第二器件也可以被称为第一器件。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使得本申请的描述更清楚简洁，下面对本申请中的一些技术术语进行解释：

声纹：所谓声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且具有相对稳定性，成年以后，人的声音可保持长期相对稳定不变。

音节：音节(Syllable)是表音语系中单个元音音素和辅音音素组合发音的最小语音单位，单个元音音素也可自成音节。汉语(中文)音节是借用表音语系中的元音音素、辅音音素组合构成的。

弱网：对于弱网的数据定义，不同的应用所界定的含义是不一样的，不仅要考虑各类型网络最低速率，还要结合业务场景和应用类型去划分。按照移动的特性来说，一般速率低于2G网络的速率的都属于弱网，也可以将3G网络划分为弱网。除此之外，弱信号Wifi通常也会被纳入到弱网。

本申请实施例的语音传输方法，可以应用在语音通信场景中，比如巡逻小区、园区、社区、厂区、监狱、停车场等场景中，这些场景中，通常在工作人员之间需要进行语音通信。以厂区为例，假设有两个保安进行巡逻，且两个保安都持有可语音通信的手持终端，当其中一个保安发现有异常人员闯入、或者设备异常等情况时，可以通过手持终端来与另一保安进行语音通信，在此过程中就需要进行语音传输。当然，上述场景只是举例，实际并不局限于上述场景，上述所说的语音通信场景可以但不局限于实时通信场景。

下面对本申请实施例的语音传输方法进行更具体的描述，但不应以此为限。在一个实施例中，参看图1，一种语音传输方法，应用于终端设备，该方法可以包括以下步骤：

S100：依据已采集到的待发向目的终端设备的第一语音数据生成对应的第一语音特征信息；

S200：在已记录的语音ID与语音特征信息之间的对应关系中查找所述第一语音特征信息对应的第一语音ID；

S300：若查找到所述第一语音ID，则向服务端发送所述第一语音ID，以由所述服务端依据所述第一语音ID控制所述目的终端设备获得所述第一语音ID对应的第一语音数据；

S400：若未查找到所述第一语音ID，则向所述服务端发送第一语音数据，以由所述服务端转发所述第一语音数据至所述目的终端设备。

上述的语音传输方法的执行主体为终端设备，更具体可以为终端设备的处理芯片。终端设备可以为对讲机、座机、手机、虚拟机等，具体类型不限，只要能够支持语音传输并具有一定的处理能力即可。

终端设备中可以具有语音采集模块及语音播放模块。上述步骤S100-S400可以由语音采集模块来实现，这种情况下终端设备作为源终端设备，有语音数据需发向目的终端设备；语音播放模块可以用于语音数据的播放，这种情况下终端设备作为目的终端设备，比如在收到服务端发送的来自源终端设备的语音数据时，可以通过语音播放模块进行播放。

终端设备与服务端连接。服务端一般具有较大的存储能力与处理能力，可以由一台计算机设备或多台计算机设备组成，具体类型不限。服务端除了与上述的终端设备连接，还可以与其他的终端设备连接，具体连接的终端设备的数量不限。

本申请实施例中，可以设定两种用于语音传输的语音传输模式，包括第一模式和第二模式。终端设备可以依据检测到的本设备的网络状态确定语音传输模式，在本设备的网络状态为正常时，可以进入第一模式；在本设备的网络状态为异常时，可以进入第二模式。

终端设备可以按照设定的策略检测本设备的网络状态，比如可以周期检测、或者根据底层触发的网络状态事件检测(终端设备可以监听网络状态事件，网络状态事件用于指示终端设备的网络状态是否正常)，当然，具体检测方式不限于此。这里的网络状态异常比如可以包括：网络延迟、网络掉包、网络节流、网络重发等，各种因网络拥塞或不稳定导致的网络问题，具体不限于此。

第一模式和第二模式的区别在于，第一模式中，会学习语音ID与语音特征信息之间的对应关系，同时实现图1示出的方法。第二模式中，可以利用第一模式中学习并记录的语音ID与语音特征信息之间的对应关系，来实现图1示出的方法。具体会在下面的实施例内容中详细介绍。

步骤S100中，依据已采集到的待发向目的终端设备的第一语音数据生成对应的第一语音特征信息。

终端设备需要将已采集到的第一语音数据发送给目的终端设备，从而在目的终端设备上播放第一语音数据。该目的终端设备可以为服务端所连接的其他的终端设备中的任意一个或多个。

可选的，第一语音数据可以由终端设备采集，或者由外部设备(比如外部麦克风)采集后被终端设备获取，当然，第一语音数据具体由哪个设备采集不作限定。

可选的，设备可以一次性采集到多条第一语音数据。以终端设备为对讲机为例，当一个人开启对讲机并朝着对讲机说了N句话、之后关闭对讲机时，可以将间隔时间大于预设时间比如0.5s的两句话确定为两条语音数据，则可以确定对讲机采集到N条语音数据，N大于1。

在此情况下，可以生成每条第一语音数据对应的第一语音特征信息，第一语音特征信息可以表征对应第一语音数据。在生成多条第一语音数据对应的第一语音特征信息的情况下，可以针对每一第一语音特征信息执行后续的步骤S200-S400(当然，步骤S300和S400不会都被执行，而是根据查找状态选择其中之一执行)。

步骤S200中，在已记录的语音ID与语音特征信息之间的对应关系中查找所述第一语音特征信息对应的第一语音ID。

相关方式中，在采集到第一语音数据的情况下，会直接将第一语音数据发送给服务端，或者将第一语音数据压缩后发送给服务端，再由服务端将第一语音数据发送给目的终端设备。

而本实施例中，无论是第一模式还是第二模式，都不会再直接将第一语音数据发送给服务端，而是先在本地已记录的语音ID与语音特征信息之间的对应关系中查找与第一语音特征信息对应的第一语音ID，根据查找情况来确定第一语音数据的传输方式。

步骤S300中，若查找到所述第一语音ID，则向服务端发送所述第一语音ID，以由所述服务端依据所述第一语音ID控制所述目的终端设备获得所述第一语音ID对应的第一语音数据。

在已记录的语音ID与语音特征信息之间的对应关系查找到第一语音ID，说明之前已经学习过第一语音数据的相关信息(包括终端设备中第一语音ID与第一语音特征信息之间的对应关系、及服务端中第一语音ID与第一语音数据之间的对应关系)，此时，只需向服务端发送第一语音ID，服务端可以依据所述第一语音ID控制所述目的终端设备获得所述第一语音ID对应的第一语音数据。

可选的，服务端依据所述第一语音ID控制所述目的终端设备获得所述第一语音ID对应的第一语音数据时，可以在本地已记录的语音ID与语音数据之间的对应关系中查找到接收的第一语音ID对应的第一语音数据，若接收到的语音ID的数量为1，则向所述目的终端设备转发该查找到的语音数据；若接收到的语音ID的数量大于1，则将查找到的各语音ID对应的语音数据进行合成，向所述目的终端设备转发该合成的语音数据。

在该方式中，终端设备与服务端之间只需传输第一语音ID，而不再需要传输第一语音数据，第一语音数据的数据量比第一语音ID的数据量会少很多，因而，可以大大减少终端设备与服务端之间的数据传输量，而且最终，目的终端设备仍可得到所需的第一语音数据。

或者，服务端依据所述第一语音ID控制所述目的终端设备获得所述第一语音ID对应的第一语音数据时，当确定已将已记录的该接收的语音ID与语音数据之间的对应关系发送给目标终端，则向所述目的终端设备转发该接收到的第一语音ID，以由目的终端设备根据接收的第一语音ID播放对应的第一语音数据。目的终端设备根据接收的第一语音ID播放对应的第一语音数据时，可以在已记录的语音ID与语音数据之间的对应关系中查找第一语音ID对应的第一语音数据，若查找到1条第一语音数据，则播放该第一语音数据，若查找到多条第一语音数据，则对查找到的第一语音数据合并后进行播放。

在该方式中，不仅终端设备与服务端之间只需传输第一语音ID，服务端与目的终端设备之间也只需传输第一语音ID，在语音传输过程中，不仅可以大大减少终端设备与服务端之间的数据传输量，还可以大大减少服务端与目的终端设备之间的数据传输量，换言之，该方式可以进一步减少所需的数据传输量，而且最终，目的终端设备仍可得到所需的第一语音数据。

总而言之，无论服务端如何依据所述第一语音ID控制所述目的终端设备获得所述第一语音ID对应的第一语音数据，都可以保证终端设备与服务端之间只需传输第一语音ID，可以大大减少终端设备与服务端之间的数据传输量，对于网络状态异常比如拥塞的情况来说，本方式有利于改善网络异常状态，避免进一步恶化网络状态，尤其适用于弱网这种场景中，可以减少语音传输所需占用的带宽。

步骤S400中，若未查找到所述第一语音ID，则向所述服务端发送第一语音数据，以由所述服务端转发所述第一语音数据至所述目的终端设备。

无论是在第一模式还是第二模式中，如果终端设备未查找到第一语音ID，说明还未学习到该第一语音数据的相关信息，所以可以直接将第一语音数据发送给服务端，并由服务端转发给目的终端设备。

可选的，在将第一语音数据发送给服务端时，也可以先将第一语音数据进行压缩，然后向服务端发送压缩后的第一语音数据，由服务端将压缩后的第一语音数据转发给目的终端设备。

可以理解，在终端设备发送第一语音ID、第一语音数据以及其他信息时，还可以携带用于指示目的终端设备的指示信息(比如可以为目的终端设备的地址信息等)，从而服务端可以将相关信息发送给该标识信息所指示的目的终端设备。其他信息的发送也是同理，后续不再赘述。

在一个实施例中，上述方法流程可由语音传输装置100执行，如图2所示，语音传输装置100可以包含4个模块：语音特征信息生成模块101、语音ID查找模块102、第一语音传输模块103和第二语音传输模块104。语音特征信息生成模块101用于执行上述步骤S100，语音ID查找模块102用于执行上述步骤S200，第一语音传输模块103用于执行上述步骤S300，第二语音传输模块104用于执行上述步骤S400。

在一个实施例中，步骤S100中，所述依据已采集到的待发向目的终端设备的第一语音数据生成对应的第一语音特征信息，可以包括以下步骤：

S101：对已采集到的所述第一语音数据进行声纹识别，得到对应的声纹信息；

S102：对已采集到的所述第一语音数据进行编码，得到编码信息，所述编码信息至少包括：音节编码信息和/或语义编码信息；所述音节编码信息是按照音节识别方式识别出的音节信息，所述语义编码信息是按照语义识别方式识别出的语义信息；

S103：依据所述声纹信息与所述编码信息确定所述第一语音特征信息。

由于不同人发出的声纹基本是不同的，而且某个人发出的声纹通常是稳定不变的，因而可以通过声纹信息来表示语音发出者的身份。步骤S101中，可以利用已有的声纹识别方式来对第一语音数据进行声纹识别，得到对应的声纹信息，该声纹信息可以表征第一语音数据的来源者的身份。

语音的音节或者语义都可以在一定程度上表示语音的内容，一般来说，不同话语的音节或者语义是不同的，因而本实施例中，在步骤S102中，还通过识别出第一语音数据的音节信息和/或语义信息，确定音节编码信息和/或语义编码信息，用于表示语音的内容。

其中，可以利用已有的音节识别算法来实现对第一语音数据进行音节识别，得到音节信息；可以利用已有的语义识别算法来实现对第一语音数据进行语义识别，得到语义信息。在识别过程中，可以边识别边编码，比如识别出一个音节，就对该音节进行编码，最终得到的音节信息即音节编码信息。

步骤S103中，依据所述声纹信息与所述编码信息确定所述第一语音特征信息，比如可以将声纹信息与所述编码信息确定为第一语音特征信息。通过上述方式，基本上可以根据语音特征信息来区别出不同人发出的不同内容的语音数据。

当然，如果实际场景中并不需要区分不同人，则也可以将编码信息确定为第一语音特征信息，不需要声纹信息，具体不作限定。

本实施例中，虽然用到了音节信息和/或语义信息，但是，这些并不是用来重建语音的，与一般的用法并不同，是用于查找对应语音数据的。以语义识别算法为中文语义识别算法为例，本实施例中，由于并不关心语音数据中真正的语义是什么，只要识别出的语义信息能够用来区分不同内容的语音数据即可，所以，语音数据的语言可以是任何类型的语言，比如可以是中文、英文、俄文、甚至是方言。

在一个实施例中，步骤S100之前，进一步包括：依据检测到的本设备的网络状态确定用于语音传输的语音传输模式。

比如，在检测到的本设备的网络状态为正常时，可以进入第一模式；在检测到的本设备的网络状态为异常时，可以进入第二模式。

步骤S400中在未查找到所述第一语音ID的情况下，该方法进一步包括：

S410：若所述语音传输模式为已设定的第一模式，则按照所述第一模式进一步向所述服务端发送所述第一语音特征信息，以由所述服务端依据所述第一语音特征信息分配对应的第一语音ID；

S420：从所述服务端获取所述第一语音ID，并记录所述第一语音ID与所述第一语音特征信息之间的对应关系。

换言之，在语音传输模式为第一模式的情况下，未查找到所述第一语音ID时，会将第一语音数据和第一语音特征信息都发送给服务端，不仅实现第一语音数据的传输，还实现第一语音数据的相关信息的学习。

服务端在收到第一语音数据和第一语音特征信息之后，可以依据所述第一语音特征信息分配对应的第一语音ID，该第一语音ID可以标识第一语音数据。服务端在分配第一语音ID之后，可以在本地记录第一语音ID与第一语音数据之间的对应关系、或者可以在本地记录第一语音ID、第一语音数据与第一语音特征信息之间的对应关系，并将第一语音ID返回给终端设备，将第一语音数据转发给目的终端设备。

本实施例中的第一语音ID可以唯一标识第一语音数据。一般来说，服务端连接的终端设备有多个，而在分配语音ID时要保证在所有终端设备中的唯一性，所以由服务端来分配更容易保证语音ID的唯一性。比如，可以按照0、1、2、3、4这样的顺序分配语音ID，处理起来复杂度更低。具体分配方式不限，保证不同人说的不同内容的语音数据可被分配不同的语音ID即可，即对于不同的语音特征信息分配不同的语音ID。

终端设备从所述服务端获取所述第一语音ID，并记录所述第一语音ID与所述第一语音特征信息之间的对应关系。从而在后续采集到第一语音数据时，生成对应的第一语音特征信息之后，可以在该对应关系中查找到对应的第一语音ID，只需将第一语音ID发送给服务端即可，不需再发送第一语音数据给服务端。

可选的，终端设备中除了第一语音ID与所述第一语音特征信息之间的对应关系，还可以记录第一语音ID或第一语音特征信息与第一语音数据之间的对应关系；或者，也可以记录第一语音ID、第一语音特征信息与第一语音数据之间的对应关系，具体不做限定。当然，为了减少终端设备所需的存储量，终端设备中可以不用存储语音数据。

通过上述方式，对于在第一模式下获取的或采集到的每条语音数据，终端设备中一般都会记录该语音数据的语音ID与语音特征信息之间的对应关系，并且，服务端一般都会记录该条语音数据与语音ID之间的对应关系，这个学习过程会持续进行以不断丰富上述的对应关系，覆盖越来越多的词语和句子。如此，可以将语音ID作为终端设备中的语音特征信息与服务端中的语音数据之间的关联，通过在终端设备和服务端之间传输语音ID来实现语音传输。

而且，由于步骤S200中，会在生成对应的第一语音特征信息之后，在已记录的语音ID与语音特征信息之间的对应关系中查找所述第一语音特征信息对应的第一语音ID，只有在未查找到时，才会发送第一语音特征信息和第一语音数据给服务端，以实现第一语音数据的相关信息的学习。通过该方式，可以避免同一语音数据的相关信息的重复学习，只有针对陌生人发出的包含陌生内容的语音数据，才会在终端设备中学习并记录语音特征信息-语音ID的对应关系、及在服务端中学习并记录语音ID-语音的对应关系。

在网络状态异常的情况下，语音数据经传输之后，可能会质量变差，一般来说是不适合学习第一语音数据的相关信息，所以，这种情况下，终端设备可以不需要将第一语音特征信息发送给服务端。当然，此处并不作为限制，可以根据需要来选择，比如在可以接受语音质量较差的情况下，也可以进行学习。

下面结合图3和图4提供一个更具体的例子，但不应以此作为限制。

如图3所示，服务端300可以连接多个终端设备201-203，其中，当前终端设备201需要向终端设备202发送第一语音数据，那么，在这种情况下，终端设备201为源终端设备，终端设备202为目的终端设备，终端设备203为其他终端设备。当然，服务端300还可以连接更多的终端设备，图中不再示出。

如图4所示，源终端设备201的语音传输模式有两种，分别为第一模式和第二模式，源终端设备201在检测到本设备的网络状态正常时进入第一模式，在检测到本设备的网络状态异常时进入第二模式。

第一模式中：

源终端设备201采集到第一语音数据后，可依据该第一语音数据生成该第一语音数据对应的第一语音特征信息，第一语音特征信息比如包括声纹信息与音节编码信息；

接着，源终端设备201在已记录的语音ID与语音特征信息之间的对应关系中查找第一语音特征信息对应的第一语音ID；

若未查找到，说明还未学习过第一语音数据的相关信息，因而此时，向服务端300发送第一语音数据和第一语音特征信息。服务端300收到第一语音数据和第一语音特征信息之后，依据该第一语音特征信息分配对应的第一语音ID，并记录第一语音ID与第一语音数据之间的对应关系，返回第一语音ID给源终端设备201。源终端设备201收到服务端返回的第一语音ID之后，记录第一语音特征信息与第一语音ID之间的对应关系。此外，服务端300在收到第一语音数据和第一语音特征信息之后，还向目的终端设备202转发第一语音数据(可以单条转发或者多条合并转发)。目的终端设备202收到第一语音数据后，可以播放第一语音数据。

若查找到，说明之前已经学习过第一语音数据的相关信息，包括源终端设备201中第一语音ID与第一语音特征信息之间的对应关系、及服务端300中第一语音数据与第一语音ID之间的对应关系，此时，只需向服务端300发送第一语音ID。服务端300收到第一语音ID之后，在已记录的语音ID与语音数据的对应关系中查找第一语音ID对应的第一语音数据，并向目的终端设备202转发查找到的第一语音数据(可以单条转发或者多条合并转发)。目的终端设备202收到第一语音数据后，可以播放第一语音数据。

第二模式中：

若未查找到，说明还未学习过第一语音数据的相关信息，但是由于当前网络状态异常，所以可以仅向服务端300发送第一语音数据(可以单条，或者多条同时发送)。服务端300收到第一语音数据后，直接向目的终端设备202转发接收的第一语音数据(可以单条转发或者多条合并转发)，不进行相关信息的学习。目的终端设备202收到第一语音数据后，可以播放第一语音数据。

以上的实施例内容中，终端设备是作为源终端设备的。对于不同的处理逻辑，终端设备的身份不同，在一些处理逻辑中，该终端设备当然也可以作为目的终端设备，比如如下所述的几个实施例。

在一个实施例中，该方法进一步包括：

接收服务端发送的第二语音数据，播放所述第二语音数据。

终端设备可以具有语音播放功能，比如可以具有语音播放器，通过语音播放器来播放第二语音数据。

在一个实施例中，该方法进一步包括：

S500：从服务端获取语音ID与语音数据之间的对应关系并记录；

S600：当接收到服务端发送的至少一个第二语音ID时，依据已记录的语音ID与语音数据之间的对应关系查找到该接收的第二语音ID对应的语音数据；

S700：若接收到1个第二语音ID，则播放该查找到的语音数据；

S800：若接收到两个以上第二语音ID，则将查找到的各第二语音ID对应的语音数据进行合成，播放合成的语音数据。

服务端在空闲时，可以将已记录(且未同步过)的语音ID与语音数据之间的对应关系发送给相连接的各个终端设备。这里的空闲可以指不需要传输语音数据、以及其他任何信息时。可选的，服务端在将语音ID与语音数据之间的对应关系发送给各终端设备之后，可以删除本地记录的该对应关系，或者用同步标识信息标记该对应关系已同步。

终端设备从服务端获取语音ID与语音数据之间的对应关系之后，可以将该对应关系进行记录。源终端设备在本地查找到待发送的语音数据对应的第二语音ID(可以有多条语音数据，如此可以查找到多个第二语音ID)时，可以将该第二语音ID发送给服务端，服务端可以将该第二语音ID转发给终端设备。

终端设备当接收到服务端发送的至少一个第二语音ID时，可以在已记录的语音ID与语音数据之间的对应关系中查找到第二语音ID对应的语音数据。若只接收到1个第二语音ID，则只会查找到一条语音数据，直接播放该查找到的语音数据。若接收到两个以上第二语音ID，则将查找到的各第二语音ID对应的语音数据进行合成，合成为一段完整的语音数据，播放合成的语音数据，合成的方式不限。

本实施例中，服务端可以将语音ID与语音数据之间的对应关系同步给相连接的终端设备，如此，后续终端设备可以直接利用语音ID与语音数据之间的对应关系来实现语音传输。

在一个实施例中，服务端在空闲时，还可以将已记录的语音ID与语音特征信息发送给相连接的各个终端设备，如此，其他终端设备就不需要重复学习这些语音ID与语音特征信息，加快学习的过程。

以上是应用于终端设备的语音传输方法的实施例内容，下面介绍应用于服务端的语音传输的方法的实施例内容。

在一个实施例中，语音传输方法应用于服务端，该方法可以包括以下步骤：

T100：在接收到源终端设备发送的语音ID的情况下，依据所述语音ID控制目的终端设备获得所述语音ID对应的语音数据；

T200：在接收到源终端设备发送的语音数据的情况下，向所述目的终端设备转发该语音数据。

这里的语音传输方法的执行主体为服务端，该服务端可以具有较大的存储能力与处理能力，可以由一台计算机设备或多台计算机设备组成。

服务端可以与多台终端设备连接，如图3所示，服务端300可以连接多个终端设备201-203，其中，假设终端设备201需要向终端设备202发送第一语音数据，那么，在这种情况下，终端设备201为源终端设备，终端设备202为目的终端设备，终端设备203为其他终端设备。当然，服务端300还可以连接更多的终端设备，图中不再示出。

步骤T100中，在接收到源终端设备发送的语音ID的情况下，依据所述语音ID控制目的终端设备获得所述语音ID对应的语音数据。

该语音ID可以是源终端设备在已记录的语音ID与语音特征信息之间的对应关系中查找出的与第二语音特征信息对应的语音ID，该第二语音特征信息可以是源终端设备依据已采集的语音数据生成对应的语音特征信息。

依据所述语音ID控制目的终端设备获得所述语音ID对应的语音数据的方式有多种。比如，可以从服务器记录的语音ID与语音数据之间的对应关系中查找到接收的语音ID对应的语音数据，将该语音数据发送给目的终端设备。又如，服务器可以将接收的语音ID转发给目的终端设备，以由目的终端设备在其已记录的语音ID与语音数据之间的对应关系中查找到接收的语音ID对应的语音数据。

当然，上述方式并不作为限制，还可以将该语音ID与语音数据之间的对应关系记录在其他地方，比如记录在云空间中，服务器可以将接收的语音ID转发给云空间，由云空间从已记录的语音ID与语音数据之间的对应关系中查找到接收的语音ID对应的语音数据之后，将查找到的语音数据转发给目的终端设备。

目的终端设备获得语音ID对应的语音数据之后，可以播放获得的语音数据。目的终端设备可以具有语音播放模块，可以通过语音播放模块播放语音数据，语音播放模块可以调用语音播放器播放语音数据。

步骤T200中，在接收到源终端设备发送的语音数据的情况下，向所述目的终端设备转发该语音数据。

接收的该语音数据比如可以是源终端设备在已记录的语音ID与语音特征信息之间的对应关系中未查找到与第二语音特征信息对应的语音ID时、由源终端设备发送的，该第二语音特征信息可以是源终端设备依据已采集的语音数据生成对应的语音特征信息。

在接收到语音数据的情况下，向所述目的终端设备转发该语音数据。目的终端设备获得语音ID对应的语音数据之后，可以播放获得的语音数据。目的终端设备可以具有语音播放模块，可以通过语音播放模块播放语音数据，语音播放模块可以调用语音播放器播放语音数据。

本实施例中，在一些情况下，源终端设备与服务端之间只需传输语音ID，服务端可以依据语音ID控制所述目的终端设备获得语音ID对应的语音数据，可以大大减少源终端设备与服务端之间的数据传输量，对于网络状态异常比如拥塞的情况来说，有利于改善网络异常状态，避免进一步恶化网络状态，尤其适用于弱网这种场景中，可以减少语音传输所需占用的带宽。

在一个实施例中，步骤T100中，依据所述语音ID控制目的终端设备获得所述语音ID对应的语音数据，可以包括以下步骤：

T101：在已记录的语音ID与语音数据之间的对应关系中查找到接收的所述语音ID对应的语音数据；

T102：若接收到的语音ID的数量为1，则向所述目的终端设备转发该查找到的语音数据；

T103：若接收到的语音ID的数量大于1，则将查找到的各语音ID对应的语音数据进行合成，向所述目的终端设备转发该合成的语音数据。

可选的，源终端设备中的语音ID与语音特征信息之间的对应关系、服务端中的语音ID与语音数据之间的对应关系是同步学习并记录的。在接收到语音ID的情况下，说明源终端设备中已经记录有该语音ID与第二语音特征信息的对应关系，则一般情况下服务端中已经记录有该语音ID与语音数据的对应关系。

因而本实施例中，可以在已记录的语音ID与语音数据之间的对应关系中查找到接收的所述语音ID对应的语音数据。

可选的，源终端设备可以一次性采集到多条语音数据。以源终端设备为对讲机为例，当一个人开启对讲机并朝着对讲机说了N句话、之后关闭对讲机时，可以将间隔时间大于预设时间比如0.5s的两句话确定为两条语音数据，则可以确定对讲机采集到N条语音数据，N大于1。

在此情况下，可以生成每条语音数据对应的语音特征信息，语音特征信息可以表征对应语音数据。在生成多条语音数据对应的语音特征信息的情况下，可能会查找出多个语音ID，此时，源终端设备可以发送多个语音ID给服务端，当然也可能只找出1个语音ID。

若接收到的语音ID的数量为1，则向所述目的终端设备转发该查找到的语音数据。若接收到的语音ID的数量大于1，则将查找到的各语音ID对应的语音数据进行合成，向所述目的终端设备转发该合成的语音数据。

可选的，如果服务端接收到语音ID和语音数据(这里的语音ID和语音数据并不是对应的，该语音ID是其他语音数据对应的语音ID)，可以在查找出语音ID对应的语音数据之后，将查找出的语音数据与接收到的语音数据进行合成，向所述目的终端设备转发该合成的语音数据。

本实施例中，源终端设备与服务端之间只需传输语音ID，不再需要传输对应的语音数据，语音数据的数据量比语音ID的数据量会少很多，因而，可以大大减少源终端设备与服务端之间的数据传输量，而且最终目的终端设备仍可得到所需的语音数据。

T104：当确定已将已记录的该接收的语音ID与语音数据之间的对应关系发送给目标终端，则向所述目的终端设备转发该接收到的语音ID，以由目的终端设备根据接收的语音ID播放对应的语音数据。

可选的，源终端设备中的语音ID与语音特征信息之间的对应关系、服务端中的语音ID与语音数据之间的对应关系是同步学习并记录的，并且，服务端可以在空闲时将已记录的语音ID与语音数据之间的对应关系同步给其他终端设备(包括目的终端设备)，同步完成时可以通过同步标识信息标记已同步的对应关系。

因而，本实施例中，当确定已将已记录的该接收的语音ID与语音数据之间的对应关系发送给目标终端时，可以根据同步标识信息确定对应关系是否已同步，则向所述目的终端设备转发该接收到的语音ID，以由目的终端设备根据接收的语音ID播放对应的语音数据。

目的终端设备根据接收的语音ID播放对应的语音数据时，可以在其已记录的语音ID与语音数据之间的对应关系中查找出接收的语音ID对应的语音数据，在查找出1条语音数据时，可直接播放该语音数据；在查找出两条以上语音数据时，可将语音数据进行合成，播放合成的语音数据。

本实施例中，不仅源终端设备与服务端之间只需传输语音ID，服务端与目的终端设备之间也只需传输语音ID，在语音传输过程中，不仅可以大大减少源终端设备与服务端之间的数据传输量，还可以大大减少服务端与目的终端设备之间的数据传输量，换言之，该方式可以进一步减少所需的数据传输量，而且最终，目的终端设备仍可得到所需的语音数据。

在一个实施例中，在接收到源终端设备发送的语音数据的情况下，该方法进一步包括：

T210：当接收到所述源终端设备发送的该语音数据对应的语音特征信息，所述源终端设备是在本设备的语音传输模式为已设定的第一模式时发送的，则依据所述语音特征信息分配对应的语音ID，并返回给所述源终端设备；记录该语音ID与语音数据之间的对应关系。

在接收到语音数据的同时，如果还接收到源终端设备发送的该语音数据对应的语音特征信息，说明源终端设备当前处于第一模式，该第一模式是源终端设备在检测到本设备的网络状态正常时进入的模式，在此情况下，需要进行该语音数据的相关信息的学习。

服务端在收到语音数据和对应的语音特征信息之后，可以依据该语音特征信息分配对应的语音ID，该语音ID可以标识该语音数据。服务端在分配该语音ID之后，可以在本地记录语音ID与语音数据之间的对应关系、或者可以在本地记录语音ID、语音数据与语音特征信息之间的对应关系，并将语音ID返回给源终端设备，将语音数据转发给目的终端设备。

源终端设备收到该语音ID之后，可以在本设备中记录语音ID与语音特征信息之间的对应关系，在后续采集到相同的语音数据时，可以根据对应的语音特征信息从该对应关系中查找出对应的语音ID，将语音ID发送给服务端即，即可，具体可以参看前述实施例中步骤T100相关的描述内容。

语音ID可以唯一标识语音数据。一般来说，服务端连接的终端设备有多个，而在分配语音ID时要保证在所有终端设备中的唯一性，所以由服务端来分配更容易保证语音ID的唯一性。比如，可以按照0、1、2、3、4这样的顺序分配语音ID，处理起来复杂度更低。具体分配方式不限，保证不同人说的不同内容的语音数据可被分配不同的语音ID即可，即对于不同的语音特征信息分配不同的语音ID。

在一个实施例中，该方法进一步包括：

T300：将本地已记录的该语音ID与语音数据之间的对应关系发送至所述目的终端设备，以由所述目的终端设备在接收到所述语音ID时依据所述语音ID查找到对应的语音数据。

服务端在空闲时，可以将已记录的语音ID与语音数据之间的对应关系发送给相连接的各个终端设备(包括目的终端设备)。这里的空闲可以指不需要传输语音数据、以及其他任何信息时。可选的，服务端在将语音ID与语音数据之间的对应关系发送给各终端设备之后，可以删除本地记录的该对应关系，或者用同步标识信息标记该对应关系已同步。

目的终端设备从服务端获取语音ID与语音数据之间的对应关系之后，可以将该对应关系进行记录。源终端设备在本地查找到待发送的语音数据对应的语音ID(可以有多条语音数据，如此可以查找到多个语音ID)时，可以将该语音ID发送给服务端，服务端可以将该语音ID转发给目的终端设备。

目的终端设备当接收到服务端发送的至少一个语音ID时，可以在已记录的语音ID与语音数据之间的对应关系中查找到语音ID对应的语音数据。若只接收到1个语音ID，则只会查找到一条语音数据，直接播放该查找到的语音数据。若接收到两个以上语音ID，则将查找到的各语音ID对应的语音数据进行合成，合成为一段完整的语音数据，播放合成的语音数据，合成的方式不限。

本实施例中，服务端可以将语音ID与语音数据之间的对应关系同步给目的终端设备，如此，后续目的终端设备可以直接利用语音ID与语音数据之间的对应关系来实现语音传输。

本申请还提供一种语音传输装置，应用于终端设备，参看图2，该语音传输装置100包括：

语音特征信息生成模块101，用于依据已采集到的待发向目的终端设备的第一语音数据生成对应的第一语音特征信息；

语音ID查找模块102，用于在已记录的语音ID与语音特征信息之间的对应关系中查找所述第一语音特征信息对应的第一语音ID；

第一语音传输模块103，用于若查找到所述第一语音ID，则向服务端发送所述第一语音ID，以由所述服务端依据所述第一语音ID控制所述目的终端设备获得所述第一语音ID对应的第一语音数据；

第二语音传输模块104，用于若未查找到所述第一语音ID，则向所述服务端发送第一语音数据，以由所述服务端转发所述第一语音数据至所述目的终端设备。

在一个实施例中，所述语音特征信息生成模块依据已采集到的待发向目的终端设备的第一语音数据生成对应的第一语音特征信息时，具体用于：

在一个实施例中，

在一个实施例中，该装置进一步包括：

本申请还提供一种语音传输装置，应用于服务端，该装置包括：

在一个实施例中，所述第三语音传输模块依据所述语音ID控制目的终端设备获得所述语音ID对应的语音数据时，具体用于：

在一个实施例中，在接收到源终端设备发送的语音数据的情况下，所述第四语音传输模块进一步用于：

在一个实施例中，该装置进一步包括：

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元。

本申请还提供一种电子设备，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如前述实施例中所述的语音传输方法。

本申请语音传输装置的实施例可以应用在电子设备上。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，图5是本申请根据一示例性实施例示出的语音传输装置100所在电子设备的一种硬件结构图，除了图5所示的处理器510、内存530、接口520、以及非易失性存储器540之外，实施例中装置100所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

本申请还提供一种机器可读存储介质，其上存储有程序，该程序被处理器执行时，实现如前述实施例中所述的语音传输方法。

本申请可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。机器可读存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。机器可读存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种语音传输方法，其特征在于，应用于终端设备，该方法包括：

2.根据权利要求1所述的语音传输方法，其特征在于，所述依据已采集到的待发向目的终端设备的第一语音数据生成对应的第一语音特征信息包括：

3.根据权利要求1所述的语音传输方法，其特征在于，

在未查找到所述第一语音ID的情况下，该方法进一步包括：

4.根据权利要求1至3任一所述的语音传输方法，其特征在于，该方法进一步包括：

从服务端获取语音ID与语音数据之间的对应关系并记录；

若接收到1个第二语音ID，则播放该查找到的语音数据；

5.一种语音传输方法，其特征在于，应用于服务端，该方法包括：

6.根据权利要求5所述的语音传输方法，其特征在于，依据所述语音ID控制目的终端设备获得所述语音ID对应的语音数据包括：

7.根据权利要求5所述的语音传输方法，其特征在于，依据所述语音ID控制目的终端设备获得所述语音ID对应的语音数据包括：

8.根据权利要求5所述的语音传输方法，其特征在于，在接收到源终端设备发送的语音数据的情况下，该方法进一步包括：

9.一种语音传输装置，其特征在于，应用于终端设备，该装置包括：

10.一种语音传输装置，其特征在于，应用于服务端，该装置包括：

11.一种电子设备，其特征在于，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如权利要求1-8中任一项所述的语音传输方法。

12.一种机器可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现如权利要求1-8中任一项所述的语音传输方法。