CN110890945A - 数据传输方法、装置、终端及存储介质 - Google Patents
数据传输方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN110890945A CN110890945A CN201911141212.0A CN201911141212A CN110890945A CN 110890945 A CN110890945 A CN 110890945A CN 201911141212 A CN201911141212 A CN 201911141212A CN 110890945 A CN110890945 A CN 110890945A
- Authority
- CN
- China
- Prior art keywords
- transmitted
- audio frame
- audio
- level
- criticality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000000694 effects Effects 0.000 claims abstract description 63
- 238000001514 detection method Methods 0.000 claims description 45
- 230000008859 change Effects 0.000 claims description 42
- 230000015654 memory Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 description 18
- 230000007246 mechanism Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 7
- 238000012937 correction Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000009432 framing Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000013468 resource allocation Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/08—Arrangements for detecting or preventing errors in the information received by repeating transmission, e.g. Verdan system
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/22—Arrangements for detecting or preventing errors in the information received using redundant apparatus to increase reliability
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/0001—Systems modifying transmission characteristics according to link quality, e.g. power backoff
- H04L1/0009—Systems modifying transmission characteristics according to link quality, e.g. power backoff by adapting the channel coding
- H04L1/0011—Systems modifying transmission characteristics according to link quality, e.g. power backoff by adapting the channel coding applied to payload information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/0001—Systems modifying transmission characteristics according to link quality, e.g. power backoff
- H04L1/0015—Systems modifying transmission characteristics according to link quality, e.g. power backoff characterised by the adaptation strategy
- H04L1/0017—Systems modifying transmission characteristics according to link quality, e.g. power backoff characterised by the adaptation strategy where the mode-switching is based on Quality of Service requirement
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/12—Arrangements for detecting or preventing errors in the information received by using return channel
- H04L1/16—Arrangements for detecting or preventing errors in the information received by using return channel in which the return channel carries supervisory signals, e.g. repetition request signals
- H04L1/18—Automatic repetition systems, e.g. Van Duuren systems
- H04L1/1812—Hybrid protocols; Hybrid automatic repeat request [HARQ]
- H04L1/1819—Hybrid protocols; Hybrid automatic repeat request [HARQ] with retransmission of additional or different redundancy
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/004—Arrangements for detecting or preventing errors in the information received by using forward error control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/12—Arrangements for detecting or preventing errors in the information received by using return channel
- H04L1/16—Arrangements for detecting or preventing errors in the information received by using return channel in which the return channel carries supervisory signals, e.g. repetition request signals
- H04L1/18—Automatic repetition systems, e.g. Van Duuren systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/32—Flow control; Congestion control by discarding or delaying data units, e.g. packets or frames
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请公开了一种数据传输方法、装置、终端及存储介质,属于网络技术领域。本申请通过对待传输音频进行语音关键性分析,得到待传输音频中各个待传输音频帧的关键性级别,根据当前冗余倍数以及各个待传输音频帧的关键性级别对应的冗余多发因子,获取各个待传输音频帧的修正冗余倍数,从而按照该各个待传输音频帧的修正冗余倍数分别对各个待传输音频帧进行复制,得到至少一个冗余数据包,通过向目标终端发送该至少一个冗余数据包,能够在不造成网络拥堵的情况下提升网络抗丢包效果。
Description
技术领域
本申请涉及网络技术领域,特别涉及一种数据传输方法、装置、终端及存储介质。
背景技术
随着网络技术的发展,终端与终端之间可以通过VoIP(Voice over InternetProtocol,基于互联网协议的语音传输)技术进行通话,由于互联网是不可靠的传输网络,因此发送端基于互联网传输的音频数据容易发生丢包现象。
目前,可以通过FEC(Forward Error Correction,前向纠错)、PLC(Packet LossConcealment,丢包隐藏)或者ARQ(Automatic Repeat Request,自动重传请求)的方式来抵抗网络丢包。然而,FEC或者PLC技术对于连续突发的大量丢包现象的抗丢包效果不佳,ARQ技术又在一些实时性较高的场景下抗丢包效果不佳,因此,亟需一种在各类场景下提升网络抗丢包效果的数据传输方法。
发明内容
本申请实施例提供了一种数据传输方法、装置、终端及存储介质,能够解决在连续突发的大量丢包场景或者实时性较高场景下,传统抗丢包技术的抗丢包效果不佳的问题。技术方案如下:
一方面,提供了一种数据传输方法,该方法包括:
对待传输音频进行语音关键性分析,得到所述待传输音频中各个待传输音频帧的关键性级别,所述关键性级别用于衡量音频帧承载的信息量,不同的关键性级别对应不同的冗余多发因子,所述关键性级别与所述冗余多发因子的大小呈正相关关系;
根据当前冗余倍数以及所述各个待传输音频帧的关键性级别对应的冗余多发因子,获取各个待传输音频帧的修正冗余倍数,所述当前冗余倍数基于目标终端的当前丢包情况而确定,所述各个待传输音频帧的修正冗余倍数用于表示各个待传输音频帧的冗余发送次数;
按照所述各个待传输音频帧的修正冗余倍数分别对各个待传输音频帧进行复制,得到至少一个冗余数据包,向所述目标终端发送各个待传输音频帧的所述至少一个冗余数据包。
一方面,提供了一种数据传输装置,该装置包括:
分析模块,用于对待传输音频进行语音关键性分析,得到所述待传输音频中各个待传输音频帧的关键性级别,所述关键性级别用于衡量音频帧承载的信息量,不同的关键性级别对应不同的冗余多发因子,所述关键性级别与所述冗余多发因子的大小呈正相关关系;
获取模块,用于根据当前冗余倍数以及所述各个待传输音频帧的关键性级别对应的冗余多发因子,获取各个待传输音频帧的修正冗余倍数,所述当前冗余倍数基于目标终端的当前丢包情况而确定,所述各个待传输音频帧的修正冗余倍数用于表示各个待传输音频帧的冗余发送次数;
发送模块,用于按照所述各个待传输音频帧的修正冗余倍数分别对各个待传输音频帧进行复制,得到至少一个冗余数据包,向所述目标终端发送各个待传输音频帧的所述至少一个冗余数据包。
在一种可能实施方式中,所述发送模块用于:
对所述待传输音频进行编码处理,得到音频码流;
分别对所述音频码流中各个待传输音频帧进行多次复制,直到各个待传输音频帧的复制次数分别到达所述各个待传输音频帧的修正冗余倍数,得到多个冗余音频帧;
将所述多个冗余音频帧封装为所述至少一个冗余数据包。
一方面,提供了一种终端,该终端包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器加载并执行以实现如上述任一种可能实现方式的数据传输方法所执行的操作。
一方面,提供了一种存储介质,该存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行以实现如上述任一种可能实现方式的数据传输方法所执行的操作。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过对待传输音频进行语音关键性分析,得到该待传输音频中各个待传输音频帧的关键性级别,根据当前冗余倍数以及各个待传输音频帧的关键性级别对应的冗余多发因子,获取各个待传输音频帧的修正冗余倍数,其中,该当前冗余倍数基于目标终端的当前丢包情况而确定,各个待传输音频帧的修正冗余倍数用于表示各个待传输音频帧的冗余发送次数,由于该关键性级别用于衡量音频帧承载的信息量,不同的关键性级别对应不同的冗余多发因子,该关键性级别与该冗余多发因子的大小呈正相关关系,也即是说关键性级别越高的待传输音频帧对应于数值越大的冗余多发因子,从而可以得到数值越大的修正冗余倍数,从而按照该各个待传输音频帧的修正冗余倍数分别对各个待传输音频帧进行复制,使得不同的待传输音频帧可以具有不同的复制份数,得到至少一个冗余数据包,通过向目标终端发送该至少一个冗余数据包,能够基于一种冗余多发机制增加目标终端接收到各个待传输音频帧的概率,从而对抗数据传输中的丢包现象,由于为承载了不同信息量的待传输音频帧分配不同的修正冗余倍数,因此能够避免由于冗余多发机制而造成的网络拥堵,优化了冗余多发机制下***带宽的资源配置方案,不管是在连续突发的大量丢包场景,还是在实时性较高的场景下,均能够在不造成网络拥堵的情况下提升网络抗丢包效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据传输方法的实施环境示意图;
图2是本申请实施例提供的一种数据传输方法的流程图;
图3是本申请实施例提供的一种数据传输方法的原理性示意图;
图4是本申请实施例提供的一种数据传输装置的结构示意图;
图5是本申请实施例提供的一种终端的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
以下,对本申请实施例涉及到的术语进行说明。
VoIP(Voice over Internet Protocol,基于互联网协议的语音传输):一种基于IP(Internet Protocol,互联网协议)网络的语音通话方式,具体地,发送端设备通过音频压缩算法对音频数据进行编码压缩处理后,按照网络传输协议标准对编码压缩后的音频数据进行打包,得到音频数据包,通过IP网络将音频数据包发送到接收端设备所对应的目标IP地址,接收端设备对音频数据包解析和解压缩处理后,将音频数据包恢复为原来的语音信号,从而达到通过互联网传送语音信号的目的。
由于互联网并非是可靠的传输网络,由于传输网络的不稳定性,会导致音频数据在传输过程中发生丢包现象(也即是部分或全部的音频数据包在传输中丢失),也即是使得接收端设备会出现声音卡顿、不连贯等情况,降低了音频收听者的用户体验,因此,承载在互联网上的音频应用(例如VoIP、语音广播、音视频直播等)需要面对的主要问题就是音频数据在传输过程中的抗丢包问题。有鉴于此,本申请实施例提供了一种在各类场景下均能够起到良好抗丢包效果的数据传输方法,将在下文进行详述。
图1是本申请实施例提供的一种数据传输方法的实施环境示意图。参见图1,该实施环境中可以包括发送端设备101和接收端设备102。
发送端设备101可以是第一用户使用的终端,发送端设备101上可以安装和运行有支持音频数据传输的应用程序,该应用程序可以是通话应用、社交应用、直播应用、外卖应用或者打车应用中任意一种,该应用程序可以通过VoIP、语音广播或者音视频直播等方式来提供音频数据传输服务。
接收端设备102可以是第二用户使用的终端,接收端设备102上可以安装和运行有支持音频数据传输的应用程序,该应用程序可以是通话应用、社交应用、直播应用、外卖应用或者打车应用中任意一种,该应用程序可以通过VoIP、语音广播或者音视频直播等方式来提供音频数据传输服务。
发送端设备101和接收端设备102之间可以通过有线或无线网络相连。
在一个示例性场景中,第一用户可以在发送端设备101的应用程序上触发VoIP通话的呼叫请求,发送端设备101可以通过服务器向接收端设备102发送该呼叫请求,第二用户在接收端设备102的应用程序上触发呼叫响应,该呼叫响应用于表示接听VoIP通话或者拒绝VoIP通话,接收端设备102通过服务器向发送端设备101发送该呼叫响应,当发送端设备101接收到呼叫响应时,解析该呼叫响应,若呼叫响应表示接听VoIP通话时,发送端设备101与接收端设备102之间建立VoIP通话的数据通道,在该数据通道中传输音频数据。其中,该服务器可以是提供VoIP通话服务的计算机设备。
需要说明的是,发送端设备101和接收端设备102分别是指在一次数据传输过程中的数据发送方和数据接收方,在数据交互过程中,发送端设备101也可以作为数据接收方,同理,接收端设备102也可以作为数据发送方,发送端设备101和接收端设备102在VoIP通话中互相发送音频数据,以达到实时语音通话的交互效果。
可选地,发送端设备101和接收端设备102上安装的应用程序是相同的,或两个终端上安装的应用程序是不同操作***平台的同一类型应用程序。发送端设备101可以泛指多个终端中的一个,接收端设备102可以泛指多个终端中的一个,本实施例仅以发送端设备101和接收端设备102来举例说明。发送端设备101和接收端设备102的设备类型相同或不同,该设备类型包括:智能手机、平板电脑、电子书阅读器、MP3(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机中的至少一种。例如,发送端设备101和接收端设备102可以是智能手机,或者其他手持便携式终端设备。以下实施例,以终端包括智能手机来举例说明。
本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如在双方通话的场景下,上述终端可以仅为两个,或者在多方通话的场景下,上述终端为几十个或几百个,或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。
图2是本申请实施例提供的一种数据传输方法的流程图。参见图2,该实施例可以应用于上述实施环境中发送端设备101和接收端设备102的交互过程,以发送端设备101为终端、接收端设备102为目标终端为例进行说明,该实施例包括下述步骤:
201、终端获取待传输音频。
在上述过程中,终端可以调用录音接口录制一段待传输音频,当然,终端也可以从本地预存的音频中选择一段音频作为待传输音频,本申请实施例不对待传输音频的获取方式进行具体限定。
在一个示例性场景中,用户可以在终端上登录提供音频服务的应用程序,当检测到用户对该应用程序的VoIP通话选项的触发操作时,终端向目标终端发起VoIP通话请求,当目标终端向终端返回VoIP通话的接听响应时,终端上该应用程序调用录音接口进行录音,得到该待传输音频。
202、终端对该待传输音频中任一待传输音频帧,获取该待传输音频帧的能量变化信息、语音活跃检测信息或者基频变化信息中至少一项。
在上述过程中,该待传输音频可以包括自然分帧得到的至少一个待传输音频帧,在一些实施例中,终端还可以对该待传输音频进行重新分帧得到至少一个待传输音频帧,该至少一个待传输音频帧之间可以具有时域或频域上的关联性。
在一些实施例中,终端在对待传输音频进行分帧处理时,可以先对待传输音频进行预加重处理,以增强待传输音频的高频分量,再通过窗函数将预加重后的待传输音频分割为时长相等的至少一个待传输音频帧,得到待传输音频的至少一个待传输音频帧,需要说明的是,各个待传输音频帧之间可以具有一定比率的重叠率,从而能够保证各个待传输音频帧的边缘特征不受损失,可选地,该窗函数可以是哈明(hamming)窗、汉宁(hanning)窗或者矩形窗中至少一项,本申请实施例不对分帧采用的窗函数类型进行具体限定。
在上述过程中,任一待传输音频帧的能量变化信息可以为该待传输音频帧与该待传输音频帧的前一待传输音频帧之间的短时能量变化信息,或者,也可以为该待传输音频帧与该待传输音频帧的前一待传输音频帧之间的短时平均幅度变化信息;任一待传输音频帧的语音活跃检测(Voice Activity Detection,VAD)信息可以为该待传输音频帧与该待传输音频帧的前一待传输音频帧之间的VAD值变化信息;任一待传输音频帧的基频变化信息可以为该待传输音频帧与该待传输音频帧的前一待传输音频帧之间的基频值变化信息。
可选地,终端可以对上述至少一个待传输音频帧进行短时能量检测,得到各个待传输音频帧的能量值,对上述至少一个待传输音频帧进行基于音频短时平稳性等特征的VAD检测,得到各个待传输音频帧的VAD值,对上述至少一个待传输音频帧进行基频检测,得到各个待传输音频帧的基频值,其中,基频值是指音高,是音频的一种重要特征,不同语素具有不同的基频值,在一段正常的语音中基频值是不断变化的,因此如果基频值在某一时段内变化很小,则可以认为该时段内的各待传输音频帧属于噪音帧。
203、终端根据该待传输音频帧的能量变化信息、语音活跃检测信息或者基频变化信息中至少一项,确定该待传输音频帧的关键性级别。
其中,该关键性级别用于衡量待传输音频帧承载的信息量,待传输音频帧承载的信息量通常与待传输音频帧属于噪音帧的可能性相关,也即是说,当待传输音频帧承载的信息量越大时,则认为该待传输音频帧属于噪音帧的可能性越小,当待传输音频帧承载的信息量越小时,则认为该待传输音频帧属于噪音帧的可能性越大。可选地,该关键性级别可以包括至少一个级别,随着各级别的关键性从高到低的顺序,代表着处于各级别的待传输音频帧承载的信息量越来越少。
在一些实施例中,对任一待传输音频帧,终端可以通过下述两种方式中任一种来确定该待传输音频帧的关键性级别:
方式一、终端分别判定该待传输音频帧是否满足各个级别的判定条件,当该待传输音频帧满足至少一个级别的判定条件时,将该待传输音频帧的关键性级别获取为该至少一个级别中关键性最高的级别,其中,各个级别的判定条件与待传输音频帧的能量变化信息、语音活跃检测信息或者基频变化信息中至少一项相关。
也即是说,终端可以逐一判断该待传输音频帧是否满足每个级别的判定条件,若该待传输音频帧仅满足单个级别的判定条件时,将该待传输音频帧的关键性级别获取为该级别,若该待传输音频帧同时满足多个级别的判定条件时,终端可以将多个级别中关键性最高的级别确定为该待传输音频帧的关键性级别。在上述过程中,终端通过逐一判断该待传输音频帧是否满足所有级别的判定条件,并选取关键性最高的级别作为该待传输音频帧的关键性级别,能够在各个级别的判定条件互有重叠的情况下,保证待传输音频帧所属的关键性级别的准确性。
方式二、终端按照关键性从高到低的顺序,分别判定该待传输音频帧是否满足各个级别的判定条件,其中,各个级别的判定条件与待传输音频帧的能量变化信息、语音活跃检测信息或者基频变化信息中至少一项相关;若该待传输音频帧满足当前级别的判定条件,将该待传输音频帧的关键性级别获取为该当前级别;若该待传输音频帧不满足该当前级别的判定条件,则执行判定该待传输音频帧是否满足下一级别的判定条件的操作。
也即是说,终端按照关键性从高到低的顺序,分别判断该待传输音频帧是否满足各个级别的判定条件,从关键性最高的级别开始,若该待传输音频帧满足该关键性最高的级别的判定条件,将该待传输音频帧的关键性级别获取为该关键性最高的级别,无需执行后续各个级别的判定操作,若该待传输音频帧不满足该关键性最高的级别的判定条件,继续判断该待传输音频帧是否满足关键性第二高的级别的判定条件,以此类推,这里不做赘述。在上述过程中,无需将待传输音频帧与每个级别都进行一一判定,当确定待传输音频帧的关键性级别之后,无需再判定该待传输音频帧是否满足下一个关键性较低的级别的判定条件,优化了终端上针对关键性级别的判断逻辑,提升了终端确定各待传输音频帧的关键性级别的处理效率。
在一些实施例中,该关键性级别可以包括第一级、第二级、第三级以及第四级,下面对四个级别的判定条件进行详述:
可选地,该第一级的判定条件包括:该待传输音频帧的语音活跃检测值(VAD值)为1、该待传输音频帧的前一待传输音频帧的VAD值为0且该待传输音频帧与该前一待传输音频帧之间基频值之差的绝对值大于目标阈值。
其中,该目标阈值可以是任一大于或等于0的数值,本申请实施例不对目标阈值的取值进行具体限定。
由于该待传输音频帧的VAD值为1、前一待传输音频帧的VAD值为0,说明在这一待传输音频帧发生了VAD值的跳变,该待传输音频帧很可能在待传输音频中是属于从噪声帧(或静音帧)过渡到非噪声帧(或非静音帧)的起始帧,进一步地,该待传输音频帧与前一待传输音频帧之间的基频值之差的绝对值较大,说明该待传输音频帧很可能在待传输音频中是属于语音音调发生变化的待传输音频帧,因此当某一待传输音频帧同时满足上述几个情况时,说明该待传输音频帧既是噪声帧(或静音帧)过渡到非噪声帧(或非静音帧)的起始帧,又是语音音调发生变化的待传输音频帧,因此可以确定该待传输音频帧的关键性级别为第一级,也即是关键性最高的级别,该待传输音频帧所承载的信息量最大。
可选地,该第二级的判定条件包括:该待传输音频帧的VAD值为1、该待传输音频帧的前一待传输音频帧的VAD值为1且该待传输音频帧的能量值大于该前一待传输音频帧的能量值的目标倍数;或,该待传输音频帧的VAD值为1、该待传输音频帧的前一待传输音频帧的VAD值为0且该待传输音频帧与该前一待传输音频帧之间基频值之差的绝对值小于或等于该目标阈值。
其中,该目标倍数可以是任一大于或等于1的数值,本申请实施例不对目标倍数的取值进行具体限定。
一方面,由于该待传输音频帧的VAD值为1、前一待传输音频帧的VAD值为1且该待传输音频帧的能量值大于前一待传输音频帧的能量值的目标倍数,说明该待传输音频帧很可能在待传输音频中是从清音过渡到浊音的待传输音频帧,而另一方面,由于该待传输音频帧的VAD值为1、前一待传输音频帧的VAD值为0且该待传输音频帧与前一待传输音频帧之间基频值之差的绝对值小于或等于目标阈值,说明该待传输音频帧虽然发生语音音调变化的可能性不大,但仍然属于噪声帧(或静音帧)过渡到非噪声帧(或非静音帧)的起始帧的可能性很大,因此当某一待传输音频帧满足上述任一方面的判定条件时,将该待传输音频帧的关键性级别确定为第二级。
可选地,该第三级的判定条件包括:该待传输音频帧的VAD值为1。
在上述过程中,该待传输音频帧的VAD值为1,说明该待传输音频帧属于非噪声帧(或非静音帧)的可能性较大,因此当某一待传输音频帧的VAD值为1且不符合第一级以及第二级的判定条件时,将该待传输音频帧的关键性级别确定为第三级。
可选地,该第四级的判定条件包括:该待传输音频帧的VAD值为0。
在上述过程中,该音频的VAD值为0,说明该待传输音频帧属于噪声帧(或静音帧)的可能性较大,因此当某一待传输音频帧的VAD值为0时,将该待传输音频帧的关键性级别确定为第四级。
通过上述四个关键性级别的划分,可以分别按照上述方式一或方式二来确定各个待传输音频帧所对应的关键性级别,当然,在一些实施例中,还可以将关键性级别划分为更多或者更少的数量,并且还可以为各个关键性级别确定其他的判定条件,本申请实施例不对关键性级别的数量以及各个关键性级别的判定条件进行具体限定。
需要说明的是,上述步骤202-203是以任一待传输音频帧为例说明如何确定该待传输音频帧的关键性级别,终端对各个待传输音频帧重复执行上述步骤202-203,即可实现对待传输音频进行语音关键性分析,得到该待传输音频中各个待传输音频帧的关键性级别,由于是分别对各个待传输音频帧进行了关键性级别的划分,因此可以根据各个待传输音频帧所属的关键性级别的不同,在后续步骤中为各个待传输音频帧分配不同的修正冗余倍数,从而为关键性级别较高的待传输音频帧设置较大的修正冗余倍数,为关键性级别较低的待传输音频帧设置较小的修正冗余倍数,相较于对所有待传输音频帧设置相同的当前冗余倍数的情况,能够避免占用较多的***带宽资源,避免由于冗余多发机制而造成的网络拥堵,从而可以在避免网络拥堵的情况下提升音频数据传输的抗丢包效果。
204、终端对任一待传输音频帧,获取该待传输音频帧的关键性级别所对应的冗余多发因子。
其中,对具有不同关键性级别的待传输音频帧而言,不同的关键性级别对应不同的冗余多发因子,该关键性级别与该冗余多发因子的大小呈正相关关系,也即是说,关键性级别越高,冗余多发因子越大,关键性级别越低,冗余多发因子越小,该冗余多发因子可以是任一大于0且小于或等于1的数值。
例如,以上述四级划分的关键性级别为例说明,各个级别的冗余多发因子a可以分别进行如下配置:第一级的冗余多发因子a=1,第二级的冗余多发因子a=0.7,第三级的冗余多发因子a=0.4,第四级的冗余多发因子a=0.2。
在上述过程中,终端可以根据关键性级别与冗余多发因子的映射关系,对任一待传输音频帧,将该待传输音频帧的关键性级别映射至对应的冗余多发因子,可选地,该映射关系可以是终端预存在本地的,也可以是终端每当需要传输音频数据时从服务器中下载的,还可以是终端定期从服务器中下载的,在一些实施例中,服务器还可以定期更新该映射关系,在更新映射关系后向各个终端下发更新后的映射关系,使得终端将已有的映射关系替换为该更新后的映射关系。
205、终端将该冗余多发因子与当前冗余倍数相乘所得的数值确定为该待传输音频帧的修正冗余倍数。
其中,该当前冗余倍数基于目标终端的当前丢包情况而确定,各个待传输音频帧的修正冗余倍数用于表示各个待传输音频帧的冗余发送次数。
假设用a(0<a≤1)表示冗余多发因子,用r0表示目标终端的当前冗余倍数,那么任一待传输音频帧的修正冗余倍数r可以表示为:r=a*r0。
在上述过程中,终端可以从目标终端处获取目标终端的当前丢包情况,终端根据目标终端的当前丢包情况确定该当前冗余倍数,对同一目标终端而言当前冗余倍数并非是一成不变的,也即是说,随着目标终端在不同时段下当前丢包情况的变化,目标终端的当前冗余倍数也会随之变化,具体地,当当前丢包情况较为严重(例如丢包率较高)时,当前冗余倍数的数值越大,当当前丢包情况较为良好(例如丢包率较低)时,当前冗余倍数的数值越小。可选地,当前丢包情况可以包括丢包数、丢包率、网络延时或者网络波动中至少一项,本申请实施例不对当前丢包情况的内容进行具体限定。
在一些实施例中,还可以由目标终端自从统计当前丢包情况后,自行确定目标终端的当前冗余倍数,然后将该当前冗余倍数发送至上述终端,本申请实施例不对当前冗余倍数由终端确定还是目标终端确定进行具体限定。
终端对各个待传输音频帧重复执行上述步骤204-205,获取各个待传输音频帧的冗余多发因子,将各个待传输音频帧的冗余多发因子与当前冗余倍数相乘得到各个待传输音频帧的修正冗余倍数,也即是说,终端根据当前冗余倍数以及各个待传输音频帧的关键性级别对应的冗余多发因子,获取各个待传输音频帧的修正冗余倍数,不同待传输音频帧的修正冗余倍数可以相同,也可以不同,通常情况下,关键性级别越高的待传输音频帧,冗余多发因子的取值越大,从而修正冗余倍数也就越大,关键性级别越低的待传输音频帧,冗余多发因子的取值越小,从而修正冗余倍数也就越小。
206、终端对该待传输音频进行编码处理,得到音频码流,将该音频码流发送至目标终端。
在上述过程中,终端可以采取任意编码方式对待传输音频进行编码处理,得到该音频码流,将该音频码流可以封装为至少一个音频数据包,将该至少一个音频数据包添加到网络会话的发送队列中,向目标终端发送该发送队列中的、携带该音频码流的至少一个音频数据包。
可选地,终端采用的编码方式可以包括下述任一种:波形编码、参数编码、混合编码或者FEC(Forward Error Correction,前向纠错)编码,本申请实施例不对待传输音频的编码方式进行具体限定。
可选地,终端通过编码得到的音频码流也可以是任一种格式的,例如PCM(PulseCode Modulation,脉冲编码调制)格式、MP3(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)格式、OGG格式(OGG Vobis,一种音频压缩格式)等,本申请实施例也不对音频码流的格式进行具体限定。
在一些实施例中,终端与目标终端可以预先约定双方之间传输的音频码流所采用的一种或多种格式,从而终端将待传输音频编码为上述预先约定的一种或多种格式的音频码流,例如,该一种或多种格式可以为终端与目标终端双方均支持的音频压缩格式。
需要说明的是,上述步骤206可以在上述步骤202-205中任一步骤之前或者之后执行,也即是说,本申请实施例不对上述步骤206与上述步骤202-205中任一步骤之间的执行时序进行具体限定。
207、终端分别对该音频码流中各个待传输音频帧进行多次复制,直到各个待传输音频帧的复制次数分别到达各个待传输音频帧的修正冗余倍数,得到多个冗余音频帧。
在上述过程中,假设某一待传输音频帧的修正冗余倍数用r表示,那么终端对音频码流中该待传输音频帧进行r次复制,得到r个冗余音频帧,以此类推,对每个待传输音频帧进行各自修正冗余倍数次的复制操作,得到修正冗余倍数个的冗余音频帧,各个待传输音频帧的冗余音频帧的集合可以称为上述多个冗余音频帧。
在上述过程中,由于关键性级别不同的待传输音频帧具有不同的修正冗余倍数,因此,关键性级别不同的待传输音频帧也对应于不同的复制次数,也即是说,关键性级别不同待传输音频帧各自具有不同数量的冗余音频帧,从而,对一些关键性级别较低的噪声帧(或静音帧)而言,修正冗余倍数越小,复制次数越少,冗余音频帧的数量越小,所占用的***带宽资源就越少,这是由于噪声帧(或静音帧)即使发生了网络丢包,也不会对音频数据的传输效果造成较大的不良影响,因此无需分配较多的***带宽资源去确保这些待传输音频帧的传输可靠性,而对于一些关键性级别较高的非噪声帧(或非静音帧),修正冗余倍数越大,复制次数越多,冗余音频帧的数量越大,所占用的***带宽资源越多,这是由于当这些待传输音频帧发生网络丢包时,会对音频数据的传输效果造成较大的不良影响,因此可以在***带宽资源有限的情况下,分配较多的***带宽资源去保证这些待传输音频帧的传输可靠性,保证了***带宽资源配置的合理性,避免了由于冗余多发机制而导致的网络堵塞。
208、终端将该多个冗余待传输音频帧封装为至少一个冗余数据包,向该目标终端发送携带各个待传输音频帧的该至少一个冗余数据包。
在上述过程中,终端与目标终端在建立网络会话后,终端可以将该至少一个冗余数据包添加至该网络会话的发送队列中,可选地,在该发送队列中可以按照一定的规律对各个冗余数据包进行排序。
可选地,排序的规律可以如下:获取各个冗余数据包内携带的所有冗余音频帧的关键性级别的累计权值,按照累计权值从高到低的顺序对各个冗余数据包进行排序,其中,关键性级别越高则权值越高,一个冗余数据包的累计权值即为该冗余数据包内所有冗余音频帧的关键性级别的权值之和。
在上述步骤206-208中,终端按照该各个待传输音频帧的修正冗余倍数分别对各个待传输音频帧进行复制,得到至少一个冗余数据包,向该目标终端发送各个待传输音频帧的该至少一个冗余数据包。从而不但向目标终端传输音频码流,而且还向目标终端传输各个冗余数据包,这样一种冗余多发的机制,能够较好地抵抗互联网传输过程的丢包风险,提升各类场景下的抗丢包现象。
在一些实施例中,当携带音频码流的至少一个音频数据包与携带多个冗余音频帧的至少一个冗余数据包均添加到发送队列的缓存区时,可以将该至少一个音频数据包的发送顺序置于该至少一个冗余数据包之前,从而先向目标终端发送至少一个音频数据包,如果发生当前丢包情况,目标终端可以根据后续接收到的至少一个冗余数据包来获取传输中丢失的待传输音频帧对应的冗余音频帧,从而使得目标终端的抗丢包现象得到改善,这样不论在大量丢包场景还是在实时性较高的场景下,均能够在不造成网络拥堵的情况下,大大改善数据传输中的抗丢包现象。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本申请实施例提供的方法,通过对待传输音频进行语音关键性分析,得到该待传输音频中各个待传输音频帧的关键性级别,根据当前冗余倍数以及各个待传输音频帧的关键性级别对应的冗余多发因子,获取各个待传输音频帧的修正冗余倍数,其中,该当前冗余倍数基于目标终端的当前丢包情况而确定,各个待传输音频帧的修正冗余倍数用于表示各个待传输音频帧的冗余发送次数,由于该关键性级别用于衡量音频帧承载的信息量,不同的关键性级别对应不同的冗余多发因子,该关键性级别与该冗余多发因子的大小呈正相关关系,也即是说关键性级别越高的待传输音频帧对应于数值越大的冗余多发因子,从而可以得到数值越大的修正冗余倍数,从而按照该各个待传输音频帧的修正冗余倍数分别对各个待传输音频帧进行复制,使得不同的待传输音频帧可以具有不同的复制份数,得到至少一个冗余数据包,通过向目标终端发送该至少一个冗余数据包,能够基于一种冗余多发机制增加目标终端接收到各个待传输音频帧的概率,从而对抗数据传输中的丢包现象,由于为承载了不同信息量的待传输音频帧分配不同的修正冗余倍数,因此能够避免由于冗余多发机制而造成的网络拥堵,优化了冗余多发机制下***带宽的资源配置方案,不管是在连续突发的大量丢包场景,还是在实时性较高的场景下,均能够在不造成网络拥堵的情况下提升网络抗丢包效果。
图3是本申请实施例提供的一种数据传输方法的原理性示意图,参见图3,示出了发送端设备与接收端设备之间的音频数据传输流程,发送端设备获取待传输录音后,一方面,发送端设备对待传输录音进行编码生成音频码流,另一方面,发送端设备对待传输录音进行语音关键性分析,确认待传输录音中各个待传输音频帧的关键性级别,不同关键性级别的待传输音频帧对应于不同的冗余多发因子,发送端设备根据接收端设备对当前丢包情况的反馈信息,确定与当前丢包情况所匹配的当前冗余倍数,根据当前冗余倍数与各个待传输音频帧的关键性级别对应的冗余多发因子,获取各个待传输音频帧的修正冗余倍数,上述确定各个待传输音频帧的修正冗余倍数的过程也可以称为“冗余多发决策”,发送端设备基于各个待传输音频帧的修正冗余倍数,对编码后音频码流的各个待传输音频帧分别进行多份复制,使得各个待传输音频帧的复制次数等于各个待传输音频帧的修正冗余倍数,将复制得到的各个待传输音频帧封装为至少一个冗余数据包,对各个冗余数据包按照一定规律进行排序后,均匀分布在与接收端设备对应的发送队列中,发送端设备通过网络将携带音频码流的音频数据包以及至少一个冗余数据包发送到接收端设备,由于音频码流和冗余码流(也即是复制得到的至少一个冗余数据包所形成的码流)实际上具有相同的码流数据,因此对同一段音频数据而言,接收端设备只需要从网络获取到音频数据包或者冗余数据包中的任一个即可,接收端设备按照各个数据包(音频数据包或冗余数据包)的序号对各个数据包进行整理,如果检测到接收了具有相同序号的多个数据包时,保留具有该序号的任一个数据包,过滤掉接收到的其他重复数据包,接收端设备在过滤完毕后,通过解码器对整理后的各个数据包进行解码,得到声音信号,进而可以播放该声音信号,接收端设备还可以对当前丢包情况进行统计,例如统计丢包率、网络延时、网络波动等,向发送端设备发送统计得到的当前丢包情况,以便于发送端设备及时根据当前丢包情况调整下一次音频数据传输时采用的当前冗余倍数。
在上述过程中,通过分析各个待传输音频帧的关键性(也可以称为重要性),从而对一些非语音帧而言,例如静音帧、噪声帧等,由于承载的信息量较低,属于非关键帧,这些非关键帧即使遭受网络丢包也不会对音频传输效果(例如VoIP通话效果)造成影响,没有必要耗用过多的带宽资源对非关键帧进行冗余多发来确保其传输可靠性,因此可以基于冗余多发决策为非关键帧分配较低的修正冗余倍数;反之,对一些语音关键帧而言,例如从非语音帧到语音帧过渡的语音起始帧、语音音调发生变化的语音帧等,由于承载的信息量较大,属于关键帧,这些关键帧如果在弱网传输中遭受丢包,那么会对音频传输效果(例如VoIP通话效果)造成不良影响,使得接收端设备播放声音信号时出现声音卡顿、断续或者忽大忽小等问题,极大降低了语音收听者的用户体验,因此可以基于冗余多发决策为关键帧分配较高的冗余多发倍数来确保其传输可靠性,也即是确保关键帧所在的数据包不会被丢失,从而解决关键帧的网络丢包问题,这样能够在带宽***有限的情况下,通过合理的资源分配方案利用有限的带宽资源来达到良好的抗丢包效果,避免由于冗余多发决策造成的网络拥堵,也就避免了由于网络拥堵所可能导致的更严重的网络丢包问题。
在本申请实施例中,提供了一种应用于音频传输业务的冗余多发传输方式,该传输方式的冗余发送决策中,各个待传输音频帧的修正冗余倍数不但因传输网络质量的变化而随时调整,而且还根据当前传输的音频内容的关键性而发生变化,能够让关键性高的待传输音频帧得到更好的传输保障,而由于关键性低的待传输音频帧对音质影响不大,则采用较小的修正冗余倍数进行传输,能够有效利用网络带宽资源,,由于在音频实时传输的过程中音频内容的关键性存在较大波动,本申请实施例提供的冗余多发机制,能够确保高质量的音频数据传输,能够实现高可靠性的VoIP、音频广播、音视频直播等业务的实时音频传输,不但在连续突发的大量丢包场景下抗丢包效果优异,而且在实时性较高的场景下抗丢包效果也得到显著提升。
图4是本申请实施例提供的一种数据传输装置的结构示意图,参见图4,该装置包括:
分析模块401,用于对待传输音频进行语音关键性分析,得到该待传输音频中各个待传输音频帧的关键性级别,该关键性级别用于衡量音频帧承载的信息量,不同的关键性级别对应不同的冗余多发因子,该关键性级别与该冗余多发因子的大小呈正相关关系;
获取模块402,用于根据当前冗余倍数以及该各个待传输音频帧的关键性级别对应的冗余多发因子,获取各个待传输音频帧的修正冗余倍数,该当前冗余倍数基于目标终端的当前丢包情况而确定,该各个待传输音频帧的修正冗余倍数用于表示各个待传输音频帧的冗余发送次数;
发送模块403,用于按照该各个待传输音频帧的修正冗余倍数分别对各个待传输音频帧进行复制,得到至少一个冗余数据包,向该目标终端发送各个待传输音频帧的该至少一个冗余数据包。
本申请实施例提供的装置,通过对待传输音频进行语音关键性分析,得到该待传输音频中各个待传输音频帧的关键性级别,根据当前冗余倍数以及各个待传输音频帧的关键性级别对应的冗余多发因子,获取各个待传输音频帧的修正冗余倍数,其中,该当前冗余倍数基于目标终端的当前丢包情况而确定,各个待传输音频帧的修正冗余倍数用于表示各个待传输音频帧的冗余发送次数,由于该关键性级别用于衡量音频帧承载的信息量,不同的关键性级别对应不同的冗余多发因子,该关键性级别与该冗余多发因子的大小呈正相关关系,也即是说关键性级别越高的待传输音频帧对应于数值越大的冗余多发因子,从而可以得到数值越大的修正冗余倍数,从而按照该各个待传输音频帧的修正冗余倍数分别对各个待传输音频帧进行复制,使得不同的待传输音频帧可以具有不同的复制份数,得到至少一个冗余数据包,通过向目标终端发送该至少一个冗余数据包,能够基于一种冗余多发机制增加目标终端接收到各个待传输音频帧的概率,从而对抗数据传输中的丢包现象,由于为承载了不同信息量的待传输音频帧分配不同的修正冗余倍数,因此能够避免由于冗余多发机制而造成的网络拥堵,优化了冗余多发机制下***带宽的资源配置方案,不管是在连续突发的大量丢包场景,还是在实时性较高的场景下,均能够在不造成网络拥堵的情况下提升网络抗丢包效果。
在一种可能实施方式中,基于图4的装置组成,该分析模块401包括:
获取单元,用于对该待传输音频中任一待传输音频帧,获取该待传输音频帧的能量变化信息、语音活跃检测信息或者基频变化信息中至少一项;
确定单元,用于根据该待传输音频帧的能量变化信息、语音活跃检测信息或者基频变化信息中至少一项,确定该待传输音频帧的关键性级别。
在一种可能实施方式中,该确定单元用于:
分别判定该待传输音频帧是否满足各个级别的判定条件,当该待传输音频帧满足至少一个级别的判定条件时,将该待传输音频帧的关键性级别获取为该至少一个级别中关键性最高的级别,其中,各个级别的判定条件与待传输音频帧的能量变化信息、语音活跃检测信息或者基频变化信息中至少一项相关。
在一种可能实施方式中,该确定单元用于:
按照关键性从高到低的顺序,分别判定该待传输音频帧是否满足各个级别的判定条件,其中,各个级别的判定条件与待传输音频帧的能量变化信息、语音活跃检测信息或者基频变化信息中至少一项相关;
若该待传输音频帧满足当前级别的判定条件,将该待传输音频帧的关键性级别获取为该当前级别;
若该待传输音频帧不满足该当前级别的判定条件,则执行判定该待传输音频帧是否满足下一级别的判定条件的操作。
在一种可能实施方式中,该关键性级别包括第一级、第二级、第三级以及第四级;
该第一级的判定条件包括:该待传输音频帧的语音活跃检测值为1、该待传输音频帧的前一待传输音频帧的语音活跃检测值为0且该待传输音频帧与该前一待传输音频帧之间基频值之差的绝对值大于目标阈值;
该第二级的判定条件包括:该待传输音频帧的语音活跃检测值为1、该待传输音频帧的前一待传输音频帧的语音活跃检测值为1且该待传输音频帧的能量值大于该前一待传输音频帧的能量值的目标倍数;或,该待传输音频帧的语音活跃检测值为1、该待传输音频帧的前一待传输音频帧的语音活跃检测值为0且该待传输音频帧与该前一待传输音频帧之间基频值之差的绝对值小于或等于该目标阈值;
该第三级的判定条件包括:该待传输音频帧的语音活跃检测值为1;
该第四级的判定条件包括:该待传输音频帧的语音活跃检测值为0。
在一种可能实施方式中,该获取模块402用于:
对任一待传输音频帧,将该待传输音频帧的关键性级别所对应的冗余多发因子与该当前冗余倍数相乘所得的数值确定为该待传输音频帧的修正冗余倍数。
在一种可能实施方式中,该发送模块403用于:
对该待传输音频进行编码处理,得到音频码流;
分别对该音频码流中各个待传输音频帧进行多次复制,直到各个待传输音频帧的复制次数分别到达该各个待传输音频帧的修正冗余倍数,得到多个冗余音频帧;
将该多个冗余音频帧封装为该至少一个冗余数据包。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的数据传输装置在传输数据时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将终端设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据传输装置与数据传输方法实施例属于同一构思,其具体实现过程详见数据传输方法实施例,这里不再赘述。
图5是本申请实施例提供的一种终端的结构示意图。该终端500可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端500包括有:处理器501和存储器502。
处理器501可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器501可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器501还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器502可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器501所执行以实现本申请中各个实施例提供的数据传输方法。
在一些实施例中,终端500还可选包括有:***设备接口503和至少一个***设备。处理器501、存储器502和***设备接口503之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口503相连。具体地,***设备包括:射频电路504、触摸显示屏505、摄像头组件506、音频电路507、定位组件508和电源509中的至少一种。
***设备接口503可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器501和存储器502。在一些实施例中,处理器501、存储器502和***设备接口503被集成在同一芯片或电路板上;在一些其他实施例中,处理器501、存储器502和***设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路504用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路504包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路504还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏505用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时,显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时,显示屏505还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏505可以为一个,设置终端500的前面板;在另一些实施例中,显示屏505可以为至少两个,分别设置在终端500的不同表面或呈折叠设计;在再一些实施例中,显示屏505可以是柔性显示屏,设置在终端500的弯曲表面上或折叠面上。甚至,显示屏505还可以设置成非矩形的不规则图形,也即异形屏。显示屏505可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件506用于采集图像或视频。可选地,摄像头组件506包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器501进行处理,或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路507还可以包括耳机插孔。
定位组件508用于定位终端500的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System,全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。
电源509用于为终端500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于:加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。
加速度传感器511可以检测以终端500建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号,控制触摸显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器512可以检测终端500的机体方向及转动角度,陀螺仪传感器512可以与加速度传感器511协同采集用户对终端500的3D动作。处理器501根据陀螺仪传感器512采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器513可以设置在终端500的侧边框和/或触摸显示屏505的下层。当压力传感器513设置在终端500的侧边框时,可以检测用户对终端500的握持信号,由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在触摸显示屏505的下层时,由处理器501根据用户对触摸显示屏505的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器514用于采集用户的指纹,由处理器501根据指纹传感器514采集到的指纹识别用户的身份,或者,由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器501授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置终端500的正面、背面或侧面。当终端500上设置有物理按键或厂商Logo时,指纹传感器514可以与物理按键或厂商Logo集成在一起。
光学传感器515用于采集环境光强度。在一个实施例中,处理器501可以根据光学传感器515采集的环境光强度,控制触摸显示屏505的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏505的显示亮度;当环境光强度较低时,调低触摸显示屏505的显示亮度。在另一个实施例中,处理器501还可以根据光学传感器515采集的环境光强度,动态调整摄像头组件506的拍摄参数。
接近传感器516,也称距离传感器,通常设置在终端500的前面板。接近传感器516用于采集用户与终端500的正面之间的距离。在一个实施例中,当接近传感器516检测到用户与终端500的正面之间的距离逐渐变小时,由处理器501控制触摸显示屏505从亮屏状态切换为息屏状态;当接近传感器516检测到用户与终端500的正面之间的距离逐渐变大时,由处理器501控制触摸显示屏505从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图5中示出的结构并不构成对终端500的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括至少一条程序代码的存储器,上述至少一条程序代码可由终端中的处理器执行以完成上述实施例中数据传输方法。例如,该计算机可读存储介质可以是ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory,只读光盘)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种数据传输方法,其特征在于,所述方法包括:
对待传输音频进行语音关键性分析,得到所述待传输音频中各个待传输音频帧的关键性级别,所述关键性级别用于衡量音频帧承载的信息量,不同的关键性级别对应不同的冗余多发因子,所述关键性级别与所述冗余多发因子的大小呈正相关关系;
根据当前冗余倍数以及所述各个待传输音频帧的关键性级别对应的冗余多发因子,获取各个待传输音频帧的修正冗余倍数,所述当前冗余倍数基于目标终端的当前丢包情况而确定,所述各个待传输音频帧的修正冗余倍数用于表示各个待传输音频帧的冗余发送次数;
按照所述各个待传输音频帧的修正冗余倍数分别对各个待传输音频帧进行复制,得到至少一个冗余数据包,向所述目标终端发送各个待传输音频帧的所述至少一个冗余数据包。
2.根据权利要求1所述的方法,其特征在于,所述对待传输音频进行语音关键性分析,得到所述待传输音频中各个待传输音频帧的关键性级别包括:
对所述待传输音频中任一待传输音频帧,获取所述待传输音频帧的能量变化信息、语音活跃检测信息或者基频变化信息中至少一项;
根据所述待传输音频帧的能量变化信息、语音活跃检测信息或者基频变化信息中至少一项,确定所述待传输音频帧的关键性级别。
3.根据权利要求2所述的方法,其特征在于,所述确定所述待传输音频帧的关键性级别包括:
分别判定所述待传输音频帧是否满足各个级别的判定条件,当所述待传输音频帧满足至少一个级别的判定条件时,将所述待传输音频帧的关键性级别获取为所述至少一个级别中关键性最高的级别,其中,各个级别的判定条件与待传输音频帧的能量变化信息、语音活跃检测信息或者基频变化信息中至少一项相关。
4.根据权利要求2所述的方法,其特征在于,所述确定所述待传输音频帧的关键性级别包括:
按照关键性从高到低的顺序,分别判定所述待传输音频帧是否满足各个级别的判定条件,其中,各个级别的判定条件与待传输音频帧的能量变化信息、语音活跃检测信息或者基频变化信息中至少一项相关;
若所述待传输音频帧满足当前级别的判定条件,将所述待传输音频帧的关键性级别获取为所述当前级别;
若所述待传输音频帧不满足所述当前级别的判定条件,则执行判定所述待传输音频帧是否满足下一级别的判定条件的操作。
5.根据权利要求2至4任一项所述的方法,其特征在于,所述关键性级别包括第一级、第二级、第三级以及第四级;
所述第一级的判定条件包括:所述待传输音频帧的语音活跃检测值为1、所述待传输音频帧的前一待传输音频帧的语音活跃检测值为0且所述待传输音频帧与所述前一待传输音频帧之间基频值之差的绝对值大于目标阈值;
所述第二级的判定条件包括:所述待传输音频帧的语音活跃检测值为1、所述待传输音频帧的前一待传输音频帧的语音活跃检测值为1且所述待传输音频帧的能量值大于所述前一待传输音频帧的能量值的目标倍数;或,所述待传输音频帧的语音活跃检测值为1、所述待传输音频帧的前一待传输音频帧的语音活跃检测值为0且所述待传输音频帧与所述前一待传输音频帧之间基频值之差的绝对值小于或等于所述目标阈值;
所述第三级的判定条件包括:所述待传输音频帧的语音活跃检测值为1;
所述第四级的判定条件包括:所述待传输音频帧的语音活跃检测值为0。
6.根据权利要求1所述的方法,其特征在于,所述根据当前冗余倍数以及所述各个待传输音频帧的关键性级别对应的冗余多发因子,获取各个待传输音频帧的修正冗余倍数包括:
对任一待传输音频帧,将所述待传输音频帧的关键性级别所对应的冗余多发因子与所述当前冗余倍数相乘所得的数值确定为所述待传输音频帧的修正冗余倍数。
7.根据权利要求1所述的方法,其特征在于,所述按照所述各个待传输音频帧的修正冗余倍数分别对各个待传输音频帧进行复制,得到至少一个冗余数据包包括:
对所述待传输音频进行编码处理,得到音频码流;
分别对所述音频码流中各个待传输音频帧进行多次复制,直到各个待传输音频帧的复制次数分别到达所述各个待传输音频帧的修正冗余倍数,得到多个冗余音频帧;
将所述多个冗余音频帧封装为所述至少一个冗余数据包。
8.一种数据传输装置,其特征在于,所述装置包括:
分析模块,用于对待传输音频进行语音关键性分析,得到所述待传输音频中各个待传输音频帧的关键性级别,所述关键性级别用于衡量音频帧承载的信息量,不同的关键性级别对应不同的冗余多发因子,所述关键性级别与所述冗余多发因子的大小呈正相关关系;
获取模块,用于根据当前冗余倍数以及所述各个待传输音频帧的关键性级别对应的冗余多发因子,获取各个待传输音频帧的修正冗余倍数,所述当前冗余倍数基于目标终端的当前丢包情况而确定,所述各个待传输音频帧的修正冗余倍数用于表示各个待传输音频帧的冗余发送次数;
发送模块,用于按照所述各个待传输音频帧的修正冗余倍数分别对各个待传输音频帧进行复制,得到至少一个冗余数据包,向所述目标终端发送各个待传输音频帧的所述至少一个冗余数据包。
9.根据权利要求8所述的装置,其特征在于,所述分析模块包括:
获取单元,用于对所述待传输音频中任一待传输音频帧,获取所述待传输音频帧的能量变化信息、语音活跃检测信息或者基频变化信息中至少一项;
确定单元,用于根据所述待传输音频帧的能量变化信息、语音活跃检测信息或者基频变化信息中至少一项,确定所述待传输音频帧的关键性级别。
10.根据权利要求9所述的装置,其特征在于,所述确定单元用于:
分别判定所述待传输音频帧是否满足各个级别的判定条件,当所述待传输音频帧满足至少一个级别的判定条件时,将所述待传输音频帧的关键性级别获取为所述至少一个级别中关键性最高的级别,其中,各个级别的判定条件与待传输音频帧的能量变化信息、语音活跃检测信息或者基频变化信息中至少一项相关。
11.根据权利要求9所述的装置,其特征在于,所述确定单元用于:
按照关键性从高到低的顺序,分别判定所述待传输音频帧是否满足各个级别的判定条件,其中,各个级别的判定条件与待传输音频帧的能量变化信息、语音活跃检测信息或者基频变化信息中至少一项相关;
若所述待传输音频帧满足当前级别的判定条件,将所述待传输音频帧的关键性级别获取为所述当前级别;
若所述待传输音频帧不满足所述当前级别的判定条件,则执行判定所述待传输音频帧是否满足下一级别的判定条件的操作。
12.根据权利要求9至11任一项所述的装置,其特征在于,所述关键性级别包括第一级、第二级、第三级以及第四级;
所述第一级的判定条件包括:所述待传输音频帧的语音活跃检测值为1、所述待传输音频帧的前一待传输音频帧的语音活跃检测值为0且所述待传输音频帧与所述前一待传输音频帧之间基频值之差的绝对值大于目标阈值;
所述第二级的判定条件包括:所述待传输音频帧的语音活跃检测值为1、所述待传输音频帧的前一待传输音频帧的语音活跃检测值为1且所述待传输音频帧的能量值大于所述前一待传输音频帧的能量值的目标倍数;或,所述待传输音频帧的语音活跃检测值为1、所述待传输音频帧的前一待传输音频帧的语音活跃检测值为0且所述待传输音频帧与所述前一待传输音频帧之间基频值之差的绝对值小于或等于所述目标阈值;
所述第三级的判定条件包括:所述待传输音频帧的语音活跃检测值为1;
所述第四级的判定条件包括:所述待传输音频帧的语音活跃检测值为0。
13.根据权利要求8所述的装置,其特征在于,所述获取模块用于:
对任一待传输音频帧,将所述待传输音频帧的关键性级别所对应的冗余多发因子与所述当前冗余倍数相乘所得的数值确定为所述待传输音频帧的修正冗余倍数。
14.一种终端,其特征在于,所述终端包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的数据传输方法所执行的操作。
15.一种存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的数据传输方法所执行的操作。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911141212.0A CN110890945B (zh) | 2019-11-20 | 2019-11-20 | 数据传输方法、装置、终端及存储介质 |
PCT/CN2020/120300 WO2021098405A1 (zh) | 2019-11-20 | 2020-10-12 | 数据传输方法、装置、终端及存储介质 |
US17/513,736 US11798566B2 (en) | 2019-11-20 | 2021-10-28 | Data transmission method and apparatus, terminal, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911141212.0A CN110890945B (zh) | 2019-11-20 | 2019-11-20 | 数据传输方法、装置、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110890945A true CN110890945A (zh) | 2020-03-17 |
CN110890945B CN110890945B (zh) | 2022-02-22 |
Family
ID=69748072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911141212.0A Active CN110890945B (zh) | 2019-11-20 | 2019-11-20 | 数据传输方法、装置、终端及存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11798566B2 (zh) |
CN (1) | CN110890945B (zh) |
WO (1) | WO2021098405A1 (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111464262A (zh) * | 2020-03-18 | 2020-07-28 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、介质及电子设备 |
CN111554308A (zh) * | 2020-05-15 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种语音处理方法、装置、设备及存储介质 |
CN111628992A (zh) * | 2020-05-26 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 一种多人通话控制方法、装置、电子设备及存储介质 |
CN111916109A (zh) * | 2020-08-12 | 2020-11-10 | 北京鸿联九五信息产业有限公司 | 一种基于特征的音频分类方法、装置及计算设备 |
CN112272168A (zh) * | 2020-10-14 | 2021-01-26 | 天津津航计算技术研究所 | 一种轻量级udp通信冗余方法 |
CN112489665A (zh) * | 2020-11-11 | 2021-03-12 | 北京融讯科创技术有限公司 | 语音处理方法、装置以及电子设备 |
CN112767953A (zh) * | 2020-06-24 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 语音编码方法、装置、计算机设备和存储介质 |
CN112767955A (zh) * | 2020-07-22 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 音频编码方法及装置、存储介质、电子设备 |
WO2021098405A1 (zh) * | 2019-11-20 | 2021-05-27 | 腾讯科技(深圳)有限公司 | 数据传输方法、装置、终端及存储介质 |
CN113660063A (zh) * | 2021-08-18 | 2021-11-16 | 杭州网易智企科技有限公司 | 空间音频数据处理方法、装置、存储介质及电子设备 |
CN113936669A (zh) * | 2020-06-28 | 2022-01-14 | 腾讯科技(深圳)有限公司 | 数据传输方法、***、装置、计算机可读存储介质及设备 |
CN113992547A (zh) * | 2020-07-09 | 2022-01-28 | 福建天泉教育科技有限公司 | 一种实时语音中自动检测丢包率的测试方法及其*** |
CN114337939A (zh) * | 2021-06-23 | 2022-04-12 | 中宇联云计算服务(上海)有限公司 | 基于云网融合技术的网络***和网络优化方法 |
CN115842603A (zh) * | 2021-09-22 | 2023-03-24 | 腾讯科技(深圳)有限公司 | 数据传输方法以及数据发送装置 |
WO2023071822A1 (zh) * | 2021-11-01 | 2023-05-04 | 中兴通讯股份有限公司 | 抗丢包方法、装置、电子设备及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114582365B (zh) * | 2022-05-05 | 2022-09-06 | 阿里巴巴(中国)有限公司 | 音频处理方法和装置、存储介质和电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102376306A (zh) * | 2010-08-04 | 2012-03-14 | 华为技术有限公司 | 语音帧等级的获取方法及装置 |
CN102438152A (zh) * | 2011-12-29 | 2012-05-02 | 中国科学技术大学 | 可伸缩视频编码容错传输方法、编码器、装置和*** |
CN103632671A (zh) * | 2013-06-28 | 2014-03-12 | 华为软件技术有限公司 | 数据编解码方法、装置及数据通信*** |
CN105050199A (zh) * | 2015-06-09 | 2015-11-11 | 西北工业大学 | 一种基于正交频分多址接入机制的上行接入方法 |
CN105871514A (zh) * | 2016-05-19 | 2016-08-17 | 乐视控股(北京)有限公司 | 一种数据传输方法以及数据发送装置 |
US20170103761A1 (en) * | 2015-10-10 | 2017-04-13 | Dolby Laboratories Licensing Corporation | Adaptive Forward Error Correction Redundant Payload Generation |
CN107181968A (zh) * | 2016-03-11 | 2017-09-19 | 腾讯科技(深圳)有限公司 | 一种视频数据的冗余控制方法和装置 |
CN109951254A (zh) * | 2019-03-21 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及装置、计算机可读存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6785261B1 (en) * | 1999-05-28 | 2004-08-31 | 3Com Corporation | Method and system for forward error correction with different frame sizes |
US7668712B2 (en) * | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
US8352252B2 (en) * | 2009-06-04 | 2013-01-08 | Qualcomm Incorporated | Systems and methods for preventing the loss of information within a speech frame |
US9047863B2 (en) * | 2012-01-12 | 2015-06-02 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for criticality threshold control |
GB201316575D0 (en) * | 2013-09-18 | 2013-10-30 | Hellosoft Inc | Voice data transmission with adaptive redundancy |
US10334518B2 (en) * | 2015-10-20 | 2019-06-25 | Qualcomm Incorporated | Power gains and capacity gains for a relaxed frame erasure rate |
CN105610635B (zh) * | 2016-02-29 | 2018-12-07 | 腾讯科技(深圳)有限公司 | 语音编码发送方法和装置 |
CN108075859A (zh) * | 2016-11-17 | 2018-05-25 | ***通信有限公司研究院 | 数据传输方法及装置 |
CN110890945B (zh) * | 2019-11-20 | 2022-02-22 | 腾讯科技(深圳)有限公司 | 数据传输方法、装置、终端及存储介质 |
-
2019
- 2019-11-20 CN CN201911141212.0A patent/CN110890945B/zh active Active
-
2020
- 2020-10-12 WO PCT/CN2020/120300 patent/WO2021098405A1/zh active Application Filing
-
2021
- 2021-10-28 US US17/513,736 patent/US11798566B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102376306A (zh) * | 2010-08-04 | 2012-03-14 | 华为技术有限公司 | 语音帧等级的获取方法及装置 |
CN102438152A (zh) * | 2011-12-29 | 2012-05-02 | 中国科学技术大学 | 可伸缩视频编码容错传输方法、编码器、装置和*** |
CN103632671A (zh) * | 2013-06-28 | 2014-03-12 | 华为软件技术有限公司 | 数据编解码方法、装置及数据通信*** |
CN105050199A (zh) * | 2015-06-09 | 2015-11-11 | 西北工业大学 | 一种基于正交频分多址接入机制的上行接入方法 |
US20170103761A1 (en) * | 2015-10-10 | 2017-04-13 | Dolby Laboratories Licensing Corporation | Adaptive Forward Error Correction Redundant Payload Generation |
CN107181968A (zh) * | 2016-03-11 | 2017-09-19 | 腾讯科技(深圳)有限公司 | 一种视频数据的冗余控制方法和装置 |
CN105871514A (zh) * | 2016-05-19 | 2016-08-17 | 乐视控股(北京)有限公司 | 一种数据传输方法以及数据发送装置 |
CN109951254A (zh) * | 2019-03-21 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及装置、计算机可读存储介质 |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11798566B2 (en) | 2019-11-20 | 2023-10-24 | Tencent Technology (Shenzhen) Company Limited | Data transmission method and apparatus, terminal, and storage medium |
WO2021098405A1 (zh) * | 2019-11-20 | 2021-05-27 | 腾讯科技(深圳)有限公司 | 数据传输方法、装置、终端及存储介质 |
CN111464262A (zh) * | 2020-03-18 | 2020-07-28 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、介质及电子设备 |
CN111554308A (zh) * | 2020-05-15 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种语音处理方法、装置、设备及存储介质 |
CN111628992A (zh) * | 2020-05-26 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 一种多人通话控制方法、装置、电子设备及存储介质 |
CN111628992B (zh) * | 2020-05-26 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 一种多人通话控制方法、装置、电子设备及存储介质 |
WO2021258958A1 (zh) * | 2020-06-24 | 2021-12-30 | 腾讯科技(深圳)有限公司 | 语音编码方法、装置、计算机设备和存储介质 |
CN112767953B (zh) * | 2020-06-24 | 2024-01-23 | 腾讯科技(深圳)有限公司 | 语音编码方法、装置、计算机设备和存储介质 |
EP4040436A4 (en) * | 2020-06-24 | 2023-01-18 | Tencent Technology (Shenzhen) Company Limited | SPEECH CODING METHOD AND APPARATUS, COMPUTER DEVICE AND STORAGE MEDIA |
CN112767953A (zh) * | 2020-06-24 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 语音编码方法、装置、计算机设备和存储介质 |
CN113936669A (zh) * | 2020-06-28 | 2022-01-14 | 腾讯科技(深圳)有限公司 | 数据传输方法、***、装置、计算机可读存储介质及设备 |
CN113992547A (zh) * | 2020-07-09 | 2022-01-28 | 福建天泉教育科技有限公司 | 一种实时语音中自动检测丢包率的测试方法及其*** |
CN113992547B (zh) * | 2020-07-09 | 2023-03-14 | 福建天泉教育科技有限公司 | 一种实时语音中自动检测丢包率的测试方法及其*** |
CN112767955B (zh) * | 2020-07-22 | 2024-01-23 | 腾讯科技(深圳)有限公司 | 音频编码方法及装置、存储介质、电子设备 |
CN112767955A (zh) * | 2020-07-22 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 音频编码方法及装置、存储介质、电子设备 |
CN111916109B (zh) * | 2020-08-12 | 2024-03-15 | 北京鸿联九五信息产业有限公司 | 一种基于特征的音频分类方法、装置及计算设备 |
CN111916109A (zh) * | 2020-08-12 | 2020-11-10 | 北京鸿联九五信息产业有限公司 | 一种基于特征的音频分类方法、装置及计算设备 |
CN112272168A (zh) * | 2020-10-14 | 2021-01-26 | 天津津航计算技术研究所 | 一种轻量级udp通信冗余方法 |
CN112489665A (zh) * | 2020-11-11 | 2021-03-12 | 北京融讯科创技术有限公司 | 语音处理方法、装置以及电子设备 |
CN112489665B (zh) * | 2020-11-11 | 2024-02-23 | 北京融讯科创技术有限公司 | 语音处理方法、装置以及电子设备 |
CN114337939A (zh) * | 2021-06-23 | 2022-04-12 | 中宇联云计算服务(上海)有限公司 | 基于云网融合技术的网络***和网络优化方法 |
CN113660063B (zh) * | 2021-08-18 | 2023-12-08 | 杭州网易智企科技有限公司 | 空间音频数据处理方法、装置、存储介质及电子设备 |
CN113660063A (zh) * | 2021-08-18 | 2021-11-16 | 杭州网易智企科技有限公司 | 空间音频数据处理方法、装置、存储介质及电子设备 |
CN115842603A (zh) * | 2021-09-22 | 2023-03-24 | 腾讯科技(深圳)有限公司 | 数据传输方法以及数据发送装置 |
CN115842603B (zh) * | 2021-09-22 | 2024-06-14 | 腾讯科技(深圳)有限公司 | 数据传输方法以及数据发送装置 |
WO2023071822A1 (zh) * | 2021-11-01 | 2023-05-04 | 中兴通讯股份有限公司 | 抗丢包方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021098405A1 (zh) | 2021-05-27 |
US11798566B2 (en) | 2023-10-24 |
CN110890945B (zh) | 2022-02-22 |
US20220059100A1 (en) | 2022-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110890945B (zh) | 数据传输方法、装置、终端及存储介质 | |
CN111078448B (zh) | 一种处理音频异常的方法及电子设备 | |
CN110769271B (zh) | 调节多路码流的码率的方法和装置 | |
CN110022489B (zh) | 视频播放方法、装置及存储介质 | |
CN108243481B (zh) | 文件传输方法及装置 | |
JP7361890B2 (ja) | 通話方法、通話装置、通話システム、サーバ及びコンピュータプログラム | |
CN110149491B (zh) | 视频编码方法、视频解码方法、终端及存储介质 | |
KR102491006B1 (ko) | 데이터 송신 방법 및 전자 기기 | |
CN111596885B (zh) | 音频数据处理方法、服务器及存储介质 | |
US11870941B2 (en) | Audio processing method and electronic device | |
CN111586431A (zh) | 进行直播处理的方法、装置、设备及存储介质 | |
CN113516991A (zh) | 基于群组会话的音频播放、设备管理方法及装置 | |
CN111613213A (zh) | 音频分类的方法、装置、设备以及存储介质 | |
CN111586433B (zh) | 码率调整方法、装置、设备及存储介质 | |
CN113141541B (zh) | 码率切换方法、装置、设备及存储介质 | |
CN110827830B (zh) | 基于语音数据的声纹识别方法、装置、终端及存储介质 | |
CN110113669B (zh) | 获取视频数据的方法、装置、电子设备及存储介质 | |
CN114666433A (zh) | 一种终端设备中啸叫处理方法及装置、终端 | |
US20220174356A1 (en) | Method for determining bandwidth, terminal, and storage medium | |
CN116996409A (zh) | 数据传输方法、装置、设备及存储介质 | |
CN112151017B (zh) | 语音处理方法、装置、***、设备及存储介质 | |
CN113192519A (zh) | 音频编码方法和装置以及音频解码方法和装置 | |
CN111613252B (zh) | 音频录制的方法、装置、***、设备及存储介质 | |
US20230297324A1 (en) | Audio Control Method, System, and Electronic Device | |
US20230239396A1 (en) | Incoming Call Prompting Method and Electronic Device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40022978 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |