CN106101094A

CN106101094A - 音频处理方法、发送端设备、接收端设备及音频处理***

Info

Publication number: CN106101094A
Application number: CN201610404998.0A
Authority: CN
Inventors: 王俊雄; 郁凌
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2016-06-08
Filing date: 2016-06-08
Publication date: 2016-11-09

Abstract

本申请公开一种音频处理方法、发送端设备、接收端设备及音频处理***，所述方法通过在发送端设备录入音频时，对录入的语音句进行标记处理，使得所生成的待传输音频中包含用于标记完整语音句的标记信息，从而后续在接收端设备接收到来自发送端设备的音频数据后，可依据其包含的标记信息从中提取出完整的语音句，在此基础上可进行完整语音句的连续播放，有助于用户快速、准确地理解所接听的音频信息，从而应用本申请可有效改善复杂网络环境下的网络通话效率。

Description

音频处理方法、发送端设备、接收端设备及音频处理***

技术领域

本发明属于音频处理技术领域，尤其涉及一种音频处理方法、发送端设备、接收端设备及音频处理***。

背景技术

目前，利用网络工具进行语音通话的应用越来越广泛，如借助网络工具进行语音会议等。

此类应用场景中，用户的语音音频往往会因异常复杂的网络环境，而受到各种不确定因素(如无线网络信号的强弱、防火墙、***性能等)的影响，从而会出现网络音频传输不连贯的现象。网络音频的不连贯传输，最终会导致用户接听的语音句(实时播放)断断续续，即导致完整语音句的不连续播放，比如用户在接听到第一句语音的前半句后，延迟一段时间接听到第一句语音的后半句以及第二句语音的前半句，继续延迟一段时间后接听到第二句语音的后半句等等，会严重影响用户的通话效率，从而为用户快速、准确地理解所接听的音频信息带来了困难。

发明内容

有鉴于此，本发明的目的在于提供一种音频处理方法、发送端设备、接收端设备及音频处理***，旨在改善网络通话中，因网络音频传输的不连贯性而导致的通话效率低这一问题。

为此，本发明公开如下技术方案：

一种音频处理方法，应用于发送端设备，所述方法包括：

对实时录入的当前语音句进行预设的语音句标记处理，得到包含相应语音句标记信息的目标音频，所述语音句标记信息用于标记一完整的语音句；

发送所述目标音频至接收端设备。

上述方法，优选的，所述语音句标记信息包括语音句起始标记和语音句结束标记，则所述对实时录入的当前语音句进行预设的语音句标记处理，得到包含相应语音句标记信息的目标音频，包括：

基于预设的语音句起始判断条件，为实时录入的当前语音句生成所需的语音句起始标记；其中，所述语音句起始标记用于标记所述当前语音句的起始位置；

基于预设的语音句结束判断条件，为所述当前语音句生成所需的语音句结束标记；其中，所述语音句结束标记用于标记所述当前语音句的结束位置。

上述方法，优选的，所述发送所述目标音频至接收端设备包括：

将所述目标音频封装为相应个数的音频数据包，并依次发送各个所述音频数据包至所述接收端设备。

一种音频处理方法，应用于接收端设备，所述方法包括：

接收目标音频，所述目标音频包含语音句标记信息，所述语音句标记信息用于标记完整的语音句；

基于所述语音句标记信息，从所述目标音频中提取出完整的语音句；

播放所述完整的语音句。

上述方法，优选的，所述接收目标音频包括：

依次接收来自发送端设备的各个音频数据包。

上述方法，优选的，所述语音句标记信息包括语音句起始标记和语音句结束标记，则所述基于所述语音句标记信息，从所述目标音频中提取出完整的语音句，包括：

基于所接收音频数据包中的语音句起始标记，定位语音句的起始位置；

基于所接收音频数据包中与所述语音句起始标记相邻配对的语音句结束标记，定位语音句的结束位置；

依据所述起始位置及所述结束位置，拼接相应音频数据包中的音频片段，得到所述完整的语音句。

一种发送端设备，包括：

标记处理模块，用于对实时录入的当前语音句进行预设的语音句标记处理，得到包含相应语音句标记信息的目标音频，所述语音句标记信息用于标记一完整的语音句；

发送模块，用于发送所述目标音频至接收端设备。

上述发送端设备，优选的，所述语音句标记信息包括语音句起始标记和语音句结束标记，则所述标记处理模块包括：

起始标记生成单元，用于基于预设的语音句起始判断条件，为实时录入的当前语音句生成所需的语音句起始标记；其中，所述语音句起始标记用于标记所述当前语音句的起始位置；

结束标记生成单元，用于基于预设的语音句结束判断条件，为所述当前语音句生成所需的语音句结束标记；其中，所述语音句结束标记用于标记所述当前语音句的结束位置。

上述发送端设备，优选的，所述发送模块包括：

数据封装及发送单元，用于将所述目标音频封装为相应个数的音频数据包，并依次发送各个所述音频数据包至所述接收端设备。

一种接收端设备，包括：

接收模块，用于接收目标音频，所述目标音频包含语音句标记信息，所述语音句标记信息用于标记完整的语音句；

提取模块，用于基于所述语音句标记信息，从所述目标音频中提取出完整的语音句；

播放模块，用于播放所述完整的语音句。

上述接收端设备，优选的，所述接收模块包括：

数据包接收单元，用于依次接收来自发送端设备的各个音频数据包。

上述接收端设备，优选的，所述语音句标记信息包括语音句起始标记和语音句结束标记，则所述提取模块包括：

第一定位单元，用于基于所接收音频数据包中的语音句起始标记，定位语音句的起始位置；

第二定位单元，用于基于所接收音频数据包中与所述语音句起始标记相邻配对的语音句结束标记，定位语音句的结束位置；

拼接单元，用于依据所述起始位置及所述结束位置，拼接相应音频数据包中的音频片段，得到所述完整的语音句。

一种音频处理***，包括如上所述的发送端设备及接收端设备。

由以上方案可知，本申请公开的音频处理方法，通过在发送端设备录入音频时，对录入的语音句进行标记处理，使得所生成的待传输音频中包含用于标记完整语音句的标记信息，从而后续在接收端设备接收到来自发送端设备的音频数据后，可依据其包含的标记信息从中提取出完整的语音句，在此基础上可进行完整语音句的连续播放，有助于用户快速、准确地理解所接听的音频信息，从而应用本申请可有效改善复杂网络环境下的网络通话效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请提供的一种音频处理方法实施例一的流程图；

图2是本申请提供的一种音频处理方法实施例二的流程图；

图3是本申请提供的一种发送端设备实施例三的结构示意图；

图4是本申请提供的一种发送端设备实施例四的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

参考图1，图1为本申请提供的一种音频处理方法实施例一的流程图，本实施例的方法应用于发送端设备，例如具体可应用于进行网络语音通话的发送端通话工具(通话双方可互为发送端、接收端)中，如图1所示，所述音频处理方法可以包括以下步骤：

S101：对实时录入的当前语音句进行预设的语音句标记处理，得到包含相应语音句标记信息的目标音频，所述语音句标记信息用于标记一完整的语音句。

所述语音句标记信息包括语音句起始标记和语音句结束标记。

其中，具体可基于预设的语音句起始判断条件、语音句结束判断条件，在发送端设备，如所述发送端通话工具中添加相应的语音句起始侦测逻辑及语音句结束侦测逻辑，以此实现对所录入的每句语音进行起始侦测和结束侦测。在语音句起始侦测和结束侦测的基础上，可分别在所侦测的语音句起始位置、结束位置处为语音句生成、添加一起始标记、结束标记。

实际通话场景中，人们一般会较为连续地表述一完整语音句，而不同语音句之间则通常会略有停顿，即不同语音句之间一般会存在一定延时，从而，在录入音频时，同一语音句中的音频在发生时间上的连续性较高，而不同语音句的音频之间在发生时间上的连续性则会有所降低，基于这一特点，具体可以将音频数据的非连续发生/录入特征作为语音句起始的侦测依据，即如果当前语音句与上一语音句之间具有一定延迟，当前语音句的发生时刻(可以以采集到音频的时刻为准)距上一语音句的结束时刻不低于预定时长，则可认为当前语音句开始；相对应地，录入音频过程中，如果侦测到音频录入出现超出预定时长的停顿，则可以认为当前语音句在发生停顿时已结束。

在进行语音句起始侦测及结束侦测的基础上，可将语音句起始标记及结束标记直接添加在所录入音频数据的相应位置处，例如可直接在语音句的音频数据头部添加起始标记，在其音频数据尾部添加结束标记；还可以预先在语音通话工具中加入时间轴，并在时间轴上为录入的每句语音维护相应的时间信息，从而，在进行语音句起始侦测和结束侦测的基础上，可在时间轴上为每一语音句添加一对语音句起始标记和结束标记，时间轴上的每对起始标记、结束标记，可依据所录入的音频数据与时间信息的对应关系，来间接反映相应语音句的起始位置、结束位置。

每一相邻配对的<起始标记，结束标记>对用于标记一完整的语音句，后续可通过在音频数据中提取所述相邻配对的起始标记与结束标记之间的语音内容，来获取一完整的语音句。

S102：发送所述目标音频至接收端设备。

在对所录入的音频数据进行语音句标记处理后，可继续对携带有标记信息的音频数据进行数据封装处理，并在完成封装后，将封装所得的各个音频数据包依次发送至网络中的接收端设备。在对音频数据进行打包封装时，具体可依据每句语音音频的数据量大小确定其所对应的数据包个数，其中，进行封装处理后，每句语音音频可能对应一个或多个音频数据包。

实施例二

参考图2，图2为本申请提供的一种音频处理方法实施例二的流程图，本实施例的方法应用于接收端设备，例如具体可应用于进行网络语音通话的接收端通话工具中，如图2所示，所述音频处理方法可以包括以下步骤：

S201：接收目标音频，所述目标音频包含语音句标记信息，所述语音句标记信息用于标记完整的语音句。

具体地，接收端通话工具可通过依次接收来自网络中发送端设备的各个音频数据包，实现对所需的音频数据进行接收。所接收的音频数据中携带有语音句的起始标记、结束标记。

S202：基于所述语音句标记信息，从所述目标音频中提取出完整的语音句。

接收端通话工具在依次接收到来自发送端设备的各个音频数据包后，对各个音频数据包进行拆包、解析，解析出其中的语音句起始标记及语音句结束标记，并依据接收时间的先后顺序对相邻的起始标记、结束标记进行配对，之后，可基于起始标记、结束标记的配对情况，定位完整语音句的起始位置和结束位置，从而在此基础上，可依据所述起始位置及所述结束位置，提取、拼接相应音频数据包中的音频内容，得到完整的语音句。

S203：播放所述完整的语音句。

在基于语音句起始标记和结束标记，从接收的音频数据中提取出完整语音句之后，接收端通话工具可继续对所提取出的完整语音句进行连续播放。

其中，在接收并解析音频数据包的过程中，如果所接收的待处理数据包(1个或多个)中仅存在语音句起始标记，而未发现与之相匹配的语音句结束标记，则需要继续等待，直至接收的数据包中存在语音句结束标记，方可依据所述语音句起始标记及结束标记的配对情况，进行完整语音句的提取和播放。

实施例三

参考图3，图3为本申请提供的一种发送端设备实施例三的结构示意图，所述发送端设备具体可以是用于进行网络语音通话的发送端通话工具(通话双方可互为发送端、接收端)中，如图3所示，所述发送端设备可以包括标记处理模块301和发送模块302。

标记处理模块301，用于对实时录入的当前语音句进行预设的语音句标记处理，得到包含相应语音句标记信息的目标音频，所述语音句标记信息用于标记一完整的语音句。

所述语音句标记信息包括语音句起始标记和语音句结束标记，则所述标记处理模块301包括起始标记生成单元和结束标记生成单元。

发送模块302，用于发送所述目标音频至接收端设备。

所述发送模块302包括数据封装及发送单元，用于将所述目标音频封装为相应个数的音频数据包，并依次发送各个所述音频数据包至所述接收端设备。

实施例四

参考图4，图4为本申请提供的一种接收端设备实施例四的结构示意图，所述接收端设备具体可以是用于进行网络语音通话的接收端通话工具，如图4所示，所述接收端设备可以包括接收模块401、提取模块402和播放模块403。

接收模块401，用于接收目标音频，所述目标音频包含语音句标记信息，所述语音句标记信息用于标记完整的语音句。

所述接收模块401包括数据包接收单元，用于依次接收来自发送端设备的各个音频数据包。

提取模块402，用于基于所述语音句标记信息，从所述目标音频中提取出完整的语音句。

所述提取模块402包括第一定位单元、第二定位单元和拼接单元。

播放模块403，用于播放所述完整的语音句。

由以上方案可知，本申请通过在发送端设备录入音频时，对录入的语音句进行标记处理，使得所生成的待传输音频中包含用于标记完整语音句的标记信息，从而后续在接收端设备接收到来自发送端设备的音频数据后，可依据其包含的标记信息从中提取出完整的语音句，在此基础上可进行完整语音句的连续播放，有助于用户快速、准确地理解所接听的音频信息，从而应用本申请可有效改善复杂网络环境下的网络通话效率。

实施例五

本实施例五公开一种音频处理***，所述***包括如实施例三公开的发送端设备，以及如实施例四所公开的接收端设备。

所述发送端设备、接收端设备可以分别是用于进行网络语音通话的发送端通话工具、接收端通话工具，在实际的网络语音通话场景中，通话双方一般互为音频数据的发送端、接收端，因此，一般情况下，通话双方所采用的通话工具，在通话过程中即作为所述发送端设备，又作为所述接收端设备。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

为了描述的方便，描述以上***或装置时以功能分为各种模块或单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后，还需要说明的是，在本文中，诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频处理方法，其特征在于，应用于发送端设备，所述方法包括：

发送所述目标音频至接收端设备。

2.根据权利要求1所述的方法，其特征在于，所述语音句标记信息包括语音句起始标记和语音句结束标记，则所述对实时录入的当前语音句进行预设的语音句标记处理，得到包含相应语音句标记信息的目标音频，包括：

3.根据权利要求1所述的方法，其特征在于，所述发送所述目标音频至接收端设备包括：

4.一种音频处理方法，其特征在于，应用于接收端设备，所述方法包括：

播放所述完整的语音句。

5.根据权利要求4所述的方法，其特征在于，所述接收目标音频包括：

依次接收来自发送端设备的各个音频数据包。

6.根据权利要求5所述的方法，其特征在于，所述语音句标记信息包括语音句起始标记和语音句结束标记，则所述基于所述语音句标记信息，从所述目标音频中提取出完整的语音句，包括：

7.一种发送端设备，其特征在于，包括：

发送模块，用于发送所述目标音频至接收端设备。

8.根据权利要求7所述的发送端设备，其特征在于，所述语音句标记信息包括语音句起始标记和语音句结束标记，则所述标记处理模块包括：

9.根据权利要求7所述的发送端设备，其特征在于，所述发送模块包括：

10.一种接收端设备，其特征在于，包括：

播放模块，用于播放所述完整的语音句。

11.根据权利要求10所述的接收端设备，其特征在于，所述接收模块包括：

12.根据权利要求11所述的接收端设备，其特征在于，所述语音句标记信息包括语音句起始标记和语音句结束标记，则所述提取模块包括：

13.一种音频处理***，其特征在于，包括如权利要求7-9任意一项所述的发送端设备，以及如权利要求10-12任意一项所述的接收端设备。