CN106101094A - 音频处理方法、发送端设备、接收端设备及音频处理*** - Google Patents

音频处理方法、发送端设备、接收端设备及音频处理*** Download PDF

Info

Publication number
CN106101094A
CN106101094A CN201610404998.0A CN201610404998A CN106101094A CN 106101094 A CN106101094 A CN 106101094A CN 201610404998 A CN201610404998 A CN 201610404998A CN 106101094 A CN106101094 A CN 106101094A
Authority
CN
China
Prior art keywords
sentence
voice
voice sentence
audio
labelling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610404998.0A
Other languages
English (en)
Inventor
王俊雄
郁凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201610404998.0A priority Critical patent/CN106101094A/zh
Publication of CN106101094A publication Critical patent/CN106101094A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/762Media network packet handling at the source 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/764Media network packet handling at the destination 

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开一种音频处理方法、发送端设备、接收端设备及音频处理***,所述方法通过在发送端设备录入音频时,对录入的语音句进行标记处理,使得所生成的待传输音频中包含用于标记完整语音句的标记信息,从而后续在接收端设备接收到来自发送端设备的音频数据后,可依据其包含的标记信息从中提取出完整的语音句,在此基础上可进行完整语音句的连续播放,有助于用户快速、准确地理解所接听的音频信息,从而应用本申请可有效改善复杂网络环境下的网络通话效率。

Description

音频处理方法、发送端设备、接收端设备及音频处理***
技术领域
本发明属于音频处理技术领域,尤其涉及一种音频处理方法、发送端设备、接收端设备及音频处理***。
背景技术
目前,利用网络工具进行语音通话的应用越来越广泛,如借助网络工具进行语音会议等。
此类应用场景中,用户的语音音频往往会因异常复杂的网络环境,而受到各种不确定因素(如无线网络信号的强弱、防火墙、***性能等)的影响,从而会出现网络音频传输不连贯的现象。网络音频的不连贯传输,最终会导致用户接听的语音句(实时播放)断断续续,即导致完整语音句的不连续播放,比如用户在接听到第一句语音的前半句后,延迟一段时间接听到第一句语音的后半句以及第二句语音的前半句,继续延迟一段时间后接听到第二句语音的后半句等等,会严重影响用户的通话效率,从而为用户快速、准确地理解所接听的音频信息带来了困难。
发明内容
有鉴于此,本发明的目的在于提供一种音频处理方法、发送端设备、接收端设备及音频处理***,旨在改善网络通话中,因网络音频传输的不连贯性而导致的通话效率低这一问题。
为此,本发明公开如下技术方案:
一种音频处理方法,应用于发送端设备,所述方法包括:
对实时录入的当前语音句进行预设的语音句标记处理,得到包含相应语音句标记信息的目标音频,所述语音句标记信息用于标记一完整的语音句;
发送所述目标音频至接收端设备。
上述方法,优选的,所述语音句标记信息包括语音句起始标记和语音句结束标记,则所述对实时录入的当前语音句进行预设的语音句标记处理,得到包含相应语音句标记信息的目标音频,包括:
基于预设的语音句起始判断条件,为实时录入的当前语音句生成所需的语音句起始标记;其中,所述语音句起始标记用于标记所述当前语音句的起始位置;
基于预设的语音句结束判断条件,为所述当前语音句生成所需的语音句结束标记;其中,所述语音句结束标记用于标记所述当前语音句的结束位置。
上述方法,优选的,所述发送所述目标音频至接收端设备包括:
将所述目标音频封装为相应个数的音频数据包,并依次发送各个所述音频数据包至所述接收端设备。
一种音频处理方法,应用于接收端设备,所述方法包括:
接收目标音频,所述目标音频包含语音句标记信息,所述语音句标记信息用于标记完整的语音句;
基于所述语音句标记信息,从所述目标音频中提取出完整的语音句;
播放所述完整的语音句。
上述方法,优选的,所述接收目标音频包括:
依次接收来自发送端设备的各个音频数据包。
上述方法,优选的,所述语音句标记信息包括语音句起始标记和语音句结束标记,则所述基于所述语音句标记信息,从所述目标音频中提取出完整的语音句,包括:
基于所接收音频数据包中的语音句起始标记,定位语音句的起始位置;
基于所接收音频数据包中与所述语音句起始标记相邻配对的语音句结束标记,定位语音句的结束位置;
依据所述起始位置及所述结束位置,拼接相应音频数据包中的音频片段,得到所述完整的语音句。
一种发送端设备,包括:
标记处理模块,用于对实时录入的当前语音句进行预设的语音句标记处理,得到包含相应语音句标记信息的目标音频,所述语音句标记信息用于标记一完整的语音句;
发送模块,用于发送所述目标音频至接收端设备。
上述发送端设备,优选的,所述语音句标记信息包括语音句起始标记和语音句结束标记,则所述标记处理模块包括:
起始标记生成单元,用于基于预设的语音句起始判断条件,为实时录入的当前语音句生成所需的语音句起始标记;其中,所述语音句起始标记用于标记所述当前语音句的起始位置;
结束标记生成单元,用于基于预设的语音句结束判断条件,为所述当前语音句生成所需的语音句结束标记;其中,所述语音句结束标记用于标记所述当前语音句的结束位置。
上述发送端设备,优选的,所述发送模块包括:
数据封装及发送单元,用于将所述目标音频封装为相应个数的音频数据包,并依次发送各个所述音频数据包至所述接收端设备。
一种接收端设备,包括:
接收模块,用于接收目标音频,所述目标音频包含语音句标记信息,所述语音句标记信息用于标记完整的语音句;
提取模块,用于基于所述语音句标记信息,从所述目标音频中提取出完整的语音句;
播放模块,用于播放所述完整的语音句。
上述接收端设备,优选的,所述接收模块包括:
数据包接收单元,用于依次接收来自发送端设备的各个音频数据包。
上述接收端设备,优选的,所述语音句标记信息包括语音句起始标记和语音句结束标记,则所述提取模块包括:
第一定位单元,用于基于所接收音频数据包中的语音句起始标记,定位语音句的起始位置;
第二定位单元,用于基于所接收音频数据包中与所述语音句起始标记相邻配对的语音句结束标记,定位语音句的结束位置;
拼接单元,用于依据所述起始位置及所述结束位置,拼接相应音频数据包中的音频片段,得到所述完整的语音句。
一种音频处理***,包括如上所述的发送端设备及接收端设备。
由以上方案可知,本申请公开的音频处理方法,通过在发送端设备录入音频时,对录入的语音句进行标记处理,使得所生成的待传输音频中包含用于标记完整语音句的标记信息,从而后续在接收端设备接收到来自发送端设备的音频数据后,可依据其包含的标记信息从中提取出完整的语音句,在此基础上可进行完整语音句的连续播放,有助于用户快速、准确地理解所接听的音频信息,从而应用本申请可有效改善复杂网络环境下的网络通话效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请提供的一种音频处理方法实施例一的流程图;
图2是本申请提供的一种音频处理方法实施例二的流程图;
图3是本申请提供的一种发送端设备实施例三的结构示意图;
图4是本申请提供的一种发送端设备实施例四的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参考图1,图1为本申请提供的一种音频处理方法实施例一的流程图,本实施例的方法应用于发送端设备,例如具体可应用于进行网络语音通话的发送端通话工具(通话双方可互为发送端、接收端)中,如图1所示,所述音频处理方法可以包括以下步骤:
S101:对实时录入的当前语音句进行预设的语音句标记处理,得到包含相应语音句标记信息的目标音频,所述语音句标记信息用于标记一完整的语音句。
所述语音句标记信息包括语音句起始标记和语音句结束标记。
其中,具体可基于预设的语音句起始判断条件、语音句结束判断条件,在发送端设备,如所述发送端通话工具中添加相应的语音句起始侦测逻辑及语音句结束侦测逻辑,以此实现对所录入的每句语音进行起始侦测和结束侦测。在语音句起始侦测和结束侦测的基础上,可分别在所侦测的语音句起始位置、结束位置处为语音句生成、添加一起始标记、结束标记。
实际通话场景中,人们一般会较为连续地表述一完整语音句,而不同语音句之间则通常会略有停顿,即不同语音句之间一般会存在一定延时,从而,在录入音频时,同一语音句中的音频在发生时间上的连续性较高,而不同语音句的音频之间在发生时间上的连续性则会有所降低,基于这一特点,具体可以将音频数据的非连续发生/录入特征作为语音句起始的侦测依据,即如果当前语音句与上一语音句之间具有一定延迟,当前语音句的发生时刻(可以以采集到音频的时刻为准)距上一语音句的结束时刻不低于预定时长,则可认为当前语音句开始;相对应地,录入音频过程中,如果侦测到音频录入出现超出预定时长的停顿,则可以认为当前语音句在发生停顿时已结束。
在进行语音句起始侦测及结束侦测的基础上,可将语音句起始标记及结束标记直接添加在所录入音频数据的相应位置处,例如可直接在语音句的音频数据头部添加起始标记,在其音频数据尾部添加结束标记;还可以预先在语音通话工具中加入时间轴,并在时间轴上为录入的每句语音维护相应的时间信息,从而,在进行语音句起始侦测和结束侦测的基础上,可在时间轴上为每一语音句添加一对语音句起始标记和结束标记,时间轴上的每对起始标记、结束标记,可依据所录入的音频数据与时间信息的对应关系,来间接反映相应语音句的起始位置、结束位置。
每一相邻配对的<起始标记,结束标记>对用于标记一完整的语音句,后续可通过在音频数据中提取所述相邻配对的起始标记与结束标记之间的语音内容,来获取一完整的语音句。
S102:发送所述目标音频至接收端设备。
在对所录入的音频数据进行语音句标记处理后,可继续对携带有标记信息的音频数据进行数据封装处理,并在完成封装后,将封装所得的各个音频数据包依次发送至网络中的接收端设备。在对音频数据进行打包封装时,具体可依据每句语音音频的数据量大小确定其所对应的数据包个数,其中,进行封装处理后,每句语音音频可能对应一个或多个音频数据包。
实施例二
参考图2,图2为本申请提供的一种音频处理方法实施例二的流程图,本实施例的方法应用于接收端设备,例如具体可应用于进行网络语音通话的接收端通话工具中,如图2所示,所述音频处理方法可以包括以下步骤:
S201:接收目标音频,所述目标音频包含语音句标记信息,所述语音句标记信息用于标记完整的语音句。
具体地,接收端通话工具可通过依次接收来自网络中发送端设备的各个音频数据包,实现对所需的音频数据进行接收。所接收的音频数据中携带有语音句的起始标记、结束标记。
S202:基于所述语音句标记信息,从所述目标音频中提取出完整的语音句。
接收端通话工具在依次接收到来自发送端设备的各个音频数据包后,对各个音频数据包进行拆包、解析,解析出其中的语音句起始标记及语音句结束标记,并依据接收时间的先后顺序对相邻的起始标记、结束标记进行配对,之后,可基于起始标记、结束标记的配对情况,定位完整语音句的起始位置和结束位置,从而在此基础上,可依据所述起始位置及所述结束位置,提取、拼接相应音频数据包中的音频内容,得到完整的语音句。
S203:播放所述完整的语音句。
在基于语音句起始标记和结束标记,从接收的音频数据中提取出完整语音句之后,接收端通话工具可继续对所提取出的完整语音句进行连续播放。
其中,在接收并解析音频数据包的过程中,如果所接收的待处理数据包(1个或多个)中仅存在语音句起始标记,而未发现与之相匹配的语音句结束标记,则需要继续等待,直至接收的数据包中存在语音句结束标记,方可依据所述语音句起始标记及结束标记的配对情况,进行完整语音句的提取和播放。
由以上方案可知,本申请公开的音频处理方法,通过在发送端设备录入音频时,对录入的语音句进行标记处理,使得所生成的待传输音频中包含用于标记完整语音句的标记信息,从而后续在接收端设备接收到来自发送端设备的音频数据后,可依据其包含的标记信息从中提取出完整的语音句,在此基础上可进行完整语音句的连续播放,有助于用户快速、准确地理解所接听的音频信息,从而应用本申请可有效改善复杂网络环境下的网络通话效率。
实施例三
参考图3,图3为本申请提供的一种发送端设备实施例三的结构示意图,所述发送端设备具体可以是用于进行网络语音通话的发送端通话工具(通话双方可互为发送端、接收端)中,如图3所示,所述发送端设备可以包括标记处理模块301和发送模块302。
标记处理模块301,用于对实时录入的当前语音句进行预设的语音句标记处理,得到包含相应语音句标记信息的目标音频,所述语音句标记信息用于标记一完整的语音句。
所述语音句标记信息包括语音句起始标记和语音句结束标记,则所述标记处理模块301包括起始标记生成单元和结束标记生成单元。
起始标记生成单元,用于基于预设的语音句起始判断条件,为实时录入的当前语音句生成所需的语音句起始标记;其中,所述语音句起始标记用于标记所述当前语音句的起始位置;
结束标记生成单元,用于基于预设的语音句结束判断条件,为所述当前语音句生成所需的语音句结束标记;其中,所述语音句结束标记用于标记所述当前语音句的结束位置。
其中,具体可基于预设的语音句起始判断条件、语音句结束判断条件,在发送端设备,如所述发送端通话工具中添加相应的语音句起始侦测逻辑及语音句结束侦测逻辑,以此实现对所录入的每句语音进行起始侦测和结束侦测。在语音句起始侦测和结束侦测的基础上,可分别在所侦测的语音句起始位置、结束位置处为语音句生成、添加一起始标记、结束标记。
实际通话场景中,人们一般会较为连续地表述一完整语音句,而不同语音句之间则通常会略有停顿,即不同语音句之间一般会存在一定延时,从而,在录入音频时,同一语音句中的音频在发生时间上的连续性较高,而不同语音句的音频之间在发生时间上的连续性则会有所降低,基于这一特点,具体可以将音频数据的非连续发生/录入特征作为语音句起始的侦测依据,即如果当前语音句与上一语音句之间具有一定延迟,当前语音句的发生时刻(可以以采集到音频的时刻为准)距上一语音句的结束时刻不低于预定时长,则可认为当前语音句开始;相对应地,录入音频过程中,如果侦测到音频录入出现超出预定时长的停顿,则可以认为当前语音句在发生停顿时已结束。
在进行语音句起始侦测及结束侦测的基础上,可将语音句起始标记及结束标记直接添加在所录入音频数据的相应位置处,例如可直接在语音句的音频数据头部添加起始标记,在其音频数据尾部添加结束标记;还可以预先在语音通话工具中加入时间轴,并在时间轴上为录入的每句语音维护相应的时间信息,从而,在进行语音句起始侦测和结束侦测的基础上,可在时间轴上为每一语音句添加一对语音句起始标记和结束标记,时间轴上的每对起始标记、结束标记,可依据所录入的音频数据与时间信息的对应关系,来间接反映相应语音句的起始位置、结束位置。
每一相邻配对的<起始标记,结束标记>对用于标记一完整的语音句,后续可通过在音频数据中提取所述相邻配对的起始标记与结束标记之间的语音内容,来获取一完整的语音句。
发送模块302,用于发送所述目标音频至接收端设备。
所述发送模块302包括数据封装及发送单元,用于将所述目标音频封装为相应个数的音频数据包,并依次发送各个所述音频数据包至所述接收端设备。
在对所录入的音频数据进行语音句标记处理后,可继续对携带有标记信息的音频数据进行数据封装处理,并在完成封装后,将封装所得的各个音频数据包依次发送至网络中的接收端设备。在对音频数据进行打包封装时,具体可依据每句语音音频的数据量大小确定其所对应的数据包个数,其中,进行封装处理后,每句语音音频可能对应一个或多个音频数据包。
实施例四
参考图4,图4为本申请提供的一种接收端设备实施例四的结构示意图,所述接收端设备具体可以是用于进行网络语音通话的接收端通话工具,如图4所示,所述接收端设备可以包括接收模块401、提取模块402和播放模块403。
接收模块401,用于接收目标音频,所述目标音频包含语音句标记信息,所述语音句标记信息用于标记完整的语音句。
所述接收模块401包括数据包接收单元,用于依次接收来自发送端设备的各个音频数据包。
具体地,接收端通话工具可通过依次接收来自网络中发送端设备的各个音频数据包,实现对所需的音频数据进行接收。所接收的音频数据中携带有语音句的起始标记、结束标记。
提取模块402,用于基于所述语音句标记信息,从所述目标音频中提取出完整的语音句。
所述提取模块402包括第一定位单元、第二定位单元和拼接单元。
第一定位单元,用于基于所接收音频数据包中的语音句起始标记,定位语音句的起始位置;
第二定位单元,用于基于所接收音频数据包中与所述语音句起始标记相邻配对的语音句结束标记,定位语音句的结束位置;
拼接单元,用于依据所述起始位置及所述结束位置,拼接相应音频数据包中的音频片段,得到所述完整的语音句。
接收端通话工具在依次接收到来自发送端设备的各个音频数据包后,对各个音频数据包进行拆包、解析,解析出其中的语音句起始标记及语音句结束标记,并依据接收时间的先后顺序对相邻的起始标记、结束标记进行配对,之后,可基于起始标记、结束标记的配对情况,定位完整语音句的起始位置和结束位置,从而在此基础上,可依据所述起始位置及所述结束位置,提取、拼接相应音频数据包中的音频内容,得到完整的语音句。
播放模块403,用于播放所述完整的语音句。
在基于语音句起始标记和结束标记,从接收的音频数据中提取出完整语音句之后,接收端通话工具可继续对所提取出的完整语音句进行连续播放。
其中,在接收并解析音频数据包的过程中,如果所接收的待处理数据包(1个或多个)中仅存在语音句起始标记,而未发现与之相匹配的语音句结束标记,则需要继续等待,直至接收的数据包中存在语音句结束标记,方可依据所述语音句起始标记及结束标记的配对情况,进行完整语音句的提取和播放。
由以上方案可知,本申请通过在发送端设备录入音频时,对录入的语音句进行标记处理,使得所生成的待传输音频中包含用于标记完整语音句的标记信息,从而后续在接收端设备接收到来自发送端设备的音频数据后,可依据其包含的标记信息从中提取出完整的语音句,在此基础上可进行完整语音句的连续播放,有助于用户快速、准确地理解所接听的音频信息,从而应用本申请可有效改善复杂网络环境下的网络通话效率。
实施例五
本实施例五公开一种音频处理***,所述***包括如实施例三公开的发送端设备,以及如实施例四所公开的接收端设备。
所述发送端设备、接收端设备可以分别是用于进行网络语音通话的发送端通话工具、接收端通话工具,在实际的网络语音通话场景中,通话双方一般互为音频数据的发送端、接收端,因此,一般情况下,通话双方所采用的通话工具,在通话过程中即作为所述发送端设备,又作为所述接收端设备。
由以上方案可知,本申请通过在发送端设备录入音频时,对录入的语音句进行标记处理,使得所生成的待传输音频中包含用于标记完整语音句的标记信息,从而后续在接收端设备接收到来自发送端设备的音频数据后,可依据其包含的标记信息从中提取出完整的语音句,在此基础上可进行完整语音句的连续播放,有助于用户快速、准确地理解所接听的音频信息,从而应用本申请可有效改善复杂网络环境下的网络通话效率。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
为了描述的方便,描述以上***或装置时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (13)

1.一种音频处理方法,其特征在于,应用于发送端设备,所述方法包括:
对实时录入的当前语音句进行预设的语音句标记处理,得到包含相应语音句标记信息的目标音频,所述语音句标记信息用于标记一完整的语音句;
发送所述目标音频至接收端设备。
2.根据权利要求1所述的方法,其特征在于,所述语音句标记信息包括语音句起始标记和语音句结束标记,则所述对实时录入的当前语音句进行预设的语音句标记处理,得到包含相应语音句标记信息的目标音频,包括:
基于预设的语音句起始判断条件,为实时录入的当前语音句生成所需的语音句起始标记;其中,所述语音句起始标记用于标记所述当前语音句的起始位置;
基于预设的语音句结束判断条件,为所述当前语音句生成所需的语音句结束标记;其中,所述语音句结束标记用于标记所述当前语音句的结束位置。
3.根据权利要求1所述的方法,其特征在于,所述发送所述目标音频至接收端设备包括:
将所述目标音频封装为相应个数的音频数据包,并依次发送各个所述音频数据包至所述接收端设备。
4.一种音频处理方法,其特征在于,应用于接收端设备,所述方法包括:
接收目标音频,所述目标音频包含语音句标记信息,所述语音句标记信息用于标记完整的语音句;
基于所述语音句标记信息,从所述目标音频中提取出完整的语音句;
播放所述完整的语音句。
5.根据权利要求4所述的方法,其特征在于,所述接收目标音频包括:
依次接收来自发送端设备的各个音频数据包。
6.根据权利要求5所述的方法,其特征在于,所述语音句标记信息包括语音句起始标记和语音句结束标记,则所述基于所述语音句标记信息,从所述目标音频中提取出完整的语音句,包括:
基于所接收音频数据包中的语音句起始标记,定位语音句的起始位置;
基于所接收音频数据包中与所述语音句起始标记相邻配对的语音句结束标记,定位语音句的结束位置;
依据所述起始位置及所述结束位置,拼接相应音频数据包中的音频片段,得到所述完整的语音句。
7.一种发送端设备,其特征在于,包括:
标记处理模块,用于对实时录入的当前语音句进行预设的语音句标记处理,得到包含相应语音句标记信息的目标音频,所述语音句标记信息用于标记一完整的语音句;
发送模块,用于发送所述目标音频至接收端设备。
8.根据权利要求7所述的发送端设备,其特征在于,所述语音句标记信息包括语音句起始标记和语音句结束标记,则所述标记处理模块包括:
起始标记生成单元,用于基于预设的语音句起始判断条件,为实时录入的当前语音句生成所需的语音句起始标记;其中,所述语音句起始标记用于标记所述当前语音句的起始位置;
结束标记生成单元,用于基于预设的语音句结束判断条件,为所述当前语音句生成所需的语音句结束标记;其中,所述语音句结束标记用于标记所述当前语音句的结束位置。
9.根据权利要求7所述的发送端设备,其特征在于,所述发送模块包括:
数据封装及发送单元,用于将所述目标音频封装为相应个数的音频数据包,并依次发送各个所述音频数据包至所述接收端设备。
10.一种接收端设备,其特征在于,包括:
接收模块,用于接收目标音频,所述目标音频包含语音句标记信息,所述语音句标记信息用于标记完整的语音句;
提取模块,用于基于所述语音句标记信息,从所述目标音频中提取出完整的语音句;
播放模块,用于播放所述完整的语音句。
11.根据权利要求10所述的接收端设备,其特征在于,所述接收模块包括:
数据包接收单元,用于依次接收来自发送端设备的各个音频数据包。
12.根据权利要求11所述的接收端设备,其特征在于,所述语音句标记信息包括语音句起始标记和语音句结束标记,则所述提取模块包括:
第一定位单元,用于基于所接收音频数据包中的语音句起始标记,定位语音句的起始位置;
第二定位单元,用于基于所接收音频数据包中与所述语音句起始标记相邻配对的语音句结束标记,定位语音句的结束位置;
拼接单元,用于依据所述起始位置及所述结束位置,拼接相应音频数据包中的音频片段,得到所述完整的语音句。
13.一种音频处理***,其特征在于,包括如权利要求7-9任意一项所述的发送端设备,以及如权利要求10-12任意一项所述的接收端设备。
CN201610404998.0A 2016-06-08 2016-06-08 音频处理方法、发送端设备、接收端设备及音频处理*** Pending CN106101094A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610404998.0A CN106101094A (zh) 2016-06-08 2016-06-08 音频处理方法、发送端设备、接收端设备及音频处理***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610404998.0A CN106101094A (zh) 2016-06-08 2016-06-08 音频处理方法、发送端设备、接收端设备及音频处理***

Publications (1)

Publication Number Publication Date
CN106101094A true CN106101094A (zh) 2016-11-09

Family

ID=57228391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610404998.0A Pending CN106101094A (zh) 2016-06-08 2016-06-08 音频处理方法、发送端设备、接收端设备及音频处理***

Country Status (1)

Country Link
CN (1) CN106101094A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305628A (zh) * 2017-06-27 2018-07-20 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备和存储介质
CN109377998A (zh) * 2018-12-11 2019-02-22 科大讯飞股份有限公司 一种语音交互方法及装置
CN113192519A (zh) * 2021-04-29 2021-07-30 北京达佳互联信息技术有限公司 音频编码方法和装置以及音频解码方法和装置
CN114242120A (zh) * 2021-11-25 2022-03-25 广东电力信息科技有限公司 一种基于dtmf技术的音频剪辑方法及音频标记方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1262570A (zh) * 1999-01-22 2000-08-09 摩托罗拉公司 用于对语音说话方式进行断点的通信装置和方法
CN101599269A (zh) * 2009-07-02 2009-12-09 中国农业大学 语音端点检测方法及装置
CN101834964A (zh) * 2010-03-31 2010-09-15 耿直 语音数据传输处理方法及语音数据传输处理器
CN103680500A (zh) * 2012-08-29 2014-03-26 北京百度网讯科技有限公司 一种语音识别的方法和装置
US20140163986A1 (en) * 2012-12-12 2014-06-12 Electronics And Telecommunications Research Institute Voice-based captcha method and apparatus
CN104780263A (zh) * 2015-03-10 2015-07-15 广东小天才科技有限公司 一种语音断点延长判断的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1262570A (zh) * 1999-01-22 2000-08-09 摩托罗拉公司 用于对语音说话方式进行断点的通信装置和方法
CN101599269A (zh) * 2009-07-02 2009-12-09 中国农业大学 语音端点检测方法及装置
CN101834964A (zh) * 2010-03-31 2010-09-15 耿直 语音数据传输处理方法及语音数据传输处理器
CN103680500A (zh) * 2012-08-29 2014-03-26 北京百度网讯科技有限公司 一种语音识别的方法和装置
US20140163986A1 (en) * 2012-12-12 2014-06-12 Electronics And Telecommunications Research Institute Voice-based captcha method and apparatus
CN104780263A (zh) * 2015-03-10 2015-07-15 广东小天才科技有限公司 一种语音断点延长判断的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈宇京: "《语感与乐感-汉语声乐语言人声阐释研究》", 30 September 2008 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305628A (zh) * 2017-06-27 2018-07-20 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备和存储介质
CN108305628B (zh) * 2017-06-27 2020-10-02 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备和存储介质
CN109377998A (zh) * 2018-12-11 2019-02-22 科大讯飞股份有限公司 一种语音交互方法及装置
CN113192519A (zh) * 2021-04-29 2021-07-30 北京达佳互联信息技术有限公司 音频编码方法和装置以及音频解码方法和装置
CN114242120A (zh) * 2021-11-25 2022-03-25 广东电力信息科技有限公司 一种基于dtmf技术的音频剪辑方法及音频标记方法
CN114242120B (zh) * 2021-11-25 2023-11-10 广东电力信息科技有限公司 一种基于dtmf技术的音频剪辑方法及音频标记方法

Similar Documents

Publication Publication Date Title
CN106101094A (zh) 音频处理方法、发送端设备、接收端设备及音频处理***
US11211076B2 (en) Key phrase detection with audio watermarking
CN110268469A (zh) 服务器侧热词
CN106486126B (zh) 语音识别纠错方法及装置
CN101540740B (zh) 一种多即时通信窗口的提示方法、***及设备
CN104144108B (zh) 一种消息响应方法、装置及***
CN108184135A (zh) 字幕生成方法及装置、存储介质及电子终端
CN106782551A (zh) 一种语音识别***及方法
WO2020038145A1 (zh) 一种业务数据处理方法、装置以及相关设备
CN106570100A (zh) 信息搜索方法和装置
CN104602133A (zh) 多媒体文件共享方法和终端及服务器
CN103646654B (zh) 一种录音数据分享方法及终端
CN108924583B (zh) 视频文件生成方法及其设备、***、存储介质
CN111627463B (zh) 语音vad尾点确定方法及装置、电子设备和计算机可读介质
EP3613041B1 (en) Handling of poor audio quality in a terminal device
CN103327021B (zh) 一种多设备互动方法及相关设备、***
CN107274882A (zh) 数据传输方法及装置
CN101808167B (zh) 一种流程跟踪方法以及装置和***
CN110491389A (zh) 一种话务***的声纹识别方法
CN111698552A (zh) 一种视频资源的生成方法和装置
CN106911926A (zh) 一种视频码率识别方法和装置
CN107426311A (zh) 信息推送方法及装置
CN107168676B (zh) 一种信息输出方法及其装置
EP2913822B1 (en) Speaker recognition
JP5479223B2 (ja) 音響通信方法を用いたホームページ誘導方法およびシステム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161109