CN102665141A

CN102665141A - 一种基于rtp封装的avs音视频预同步方法

Info

Publication number: CN102665141A
Application number: CN2012101516649A
Authority: CN
Inventors: 张钦宇; 吴伟强; 王磊; 张常键
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2012-05-16
Filing date: 2012-05-16
Publication date: 2012-09-12
Anticipated expiration: 2032-05-16
Also published as: CN102665141B

Abstract

本发明提供一种基于RTP封装的AVS音视频预同步方法。主要过程如下：音视频缓冲区接收RTP音视频包；根据RTP音视频包的序列号判断包的迟到性并做相应处理；利用RTP音视频包包头字段携带的时间戳、数据类型、帧数量等信息计算出该包所表示的绝对回放时间区间；根据绝对回放时间区间建立RTP音视频包的映射；根据RTP音视频包的映射关系确定出RTP音视频的失步情况；根据不同的失步情况做出相应的调整。本发明可有效改善AVS媒体间的失步情况，同时，实现了频媒体内的快速同步，达到了总体的音视频同步效果。

Description

一种基于RTP封装的AVS音视频预同步方法

技术领域

本发明涉及流媒体同步领域，尤其涉及到RTP封装传输的AVS音视频媒体同步领域。

背景技术

AVS(Audio Video coding Standard，音视频编码标准)是数字音视频编解码技术标准工作组制定的数字音视频编码标准。AVS标准包括***、视频、音频、数字版权管理、移动视频等 9个部分。AVS多媒体通信***多在不保证QoS（Quality of Service，服务质量）的分组交换网络上进行实时多媒体数据的传输，它们的用户都希望有很好的服务质量保证，但由于网络的不可靠性和传输时延等因素，实时数据通信过程中经常会遇到诸如分组丢失、乱序、抖动、重复等一系列问题。为了能在网络中有效地传输实时数据，IETF（Internet Engineering Task Force，Internet工程任务组）开发了RTP（Real-time Transport Protocol，实时传输协议）。RTP为交互式音频、视频等具有实时特性的数据提供端到端的传送服务，包括两个关系密切的协议RTP和RTCP(Real-time Transport Control Protocol，实时传输控制协议)。

RTP是用于Internet上针对多媒体数据流的一种传输协议，但RTP本身并不能为按顺序传送数据包提供可靠的传送机制，也不提供流量控制或拥塞控制，它依靠RTCP提供这些服务。RTCP和RTP一起提供流量控制和拥塞控制服务。服务器利用RTCP信息动态地改变传输速率，甚至改变有效载荷类型。RTP和RTCP配合使用，它们能以有效的反馈和最小的开销使传输效率最佳化，因而特别适合传送网上的实时数据。

为了解决AVS音视频在网络传输中时延抖动产生的同步问题，通常采用的方法是在接收端添加抖动缓冲区。但是无论添加的是接收RTP包的缓冲区，解码缓冲区，图像显示缓冲区，还是最近提出的双缓冲区，虽然都能在一定程度上降低时延抖动，但多是单一性地通过改变缓冲区大小来消除媒体内的时延抖动，然后在图像显示缓冲区，根据音视频回放时间是否一致进行丢帧或重复显示一帧图像，但实际的同步效果并不理想。所以本发明提出了一种更为有效的方法来解决由于时延抖动所产生的同步问题，不再单纯依赖于调整缓冲区的大小来实现媒体的同步回放。该方法是在解RTP包之前进行一次预同步，从而保证了整体的音视频同步。

发明内容

本发明提供了一种基于RTP封装的AVS音视频预同步方法。用于在AVS***本身进行音视频同步之前进行一次预同步，通过建立RTP音视频包基于绝对回放时间区间的映射，迅速确定出音视频的媒体间和媒体内的失步情况，并做出相应调整，从而达到音视频同步效果。

本发明的目的在于对经过RTP封装发送的AVS音视频进行同步。由此，本发明针对AVS***和RTP包，RTCP包的特点，在AVS***对音视频进行精确同步前，充分利用RTP包包头字段的时间戳、数据类型、帧数量和RTCP包包头的时间戳信息对音视频进行一次预同步，保证达到总体的音视频同步效果。

需要说明的是，AVS的音频和视频都是经RTP封装发送的，对应地分别封装成RTP音频包和RTP视频包，文中不具体指出是哪种包时，我们说成RTP音视频包或RTP包。接收RTP音频包的缓冲区叫做音频缓冲区，接收RTP视频包的缓冲区叫做视频缓冲区，文中不具体指出哪种缓冲区时，我们说成音视频缓冲区或缓冲区。音频缓冲区的RTP音频包相对于某一个RTP视频包形成的映射块叫做音频映射块，视频缓冲区的RTP视频包相对于某一个RTP音频包形成的映射块叫做视频映射块，文中不具体指出是哪种映射块时，我们统一说成映射块。还需指出的是映射块就是由一个或多个RTP包和一个缺失序列号标记(若映射块没有缺失包，则不做缺失序列号标记)组成。文中要处理的是音频媒体和视频媒体，在没有具体指出哪种媒体时，统一用媒体表示。SR包是一种RTCP包。本发明需要RTP打包时在包头字段扩展一字节，用于标识该RTP包封装的帧数量（视频帧用帧头代表帧数量）。如不特别指出，文中出现的符号单位都是毫秒。

一种基于RTP封装的AVS音视频预同步方法，其包括以下步骤：

步骤1. 接收RTP音视频包：

启动接收RTP音视频包的线程，打开音频缓冲区，设其初始值大小为Am；打开视频缓冲区，设其初始值大小为Vm，准备接收新来的RTP音频包和RTP视频包；

步骤2. 分析包迟到性并处理：

启动解析RTP包包头字段信息的线程，解析出RTP音频包或RTP视频包的序列号，将该RTP包的序列号与帧听端口的表中的序列号按从小到大的顺序逐一比较，若该序列号与表中的序列号都不相同且小于表中最小的，则说明该包是迟到且不能实现同步的包，直接将该包丢弃，不再进入缓冲区排队；若该序列号与表中的序列号都不相同且大于表中最小的，则说明该包是没有迟到的包，该包进入缓冲区，解析包头字段信息，准备形成新的映射块；若与表中序列号相同，则说明该包是迟到但还可能实现同步的RTP包，该包进入缓冲区，准备快速确定在队列中的位置；

对迟到但还可能实现同步的RTP包，首先找到含有缺失序列号标记的映射块，然后将该包的序列号与该映射块缺失标记出的序列号进行比较，若相同，则说明该包属于该映射块，即确定位置；若都不相同，则与下一个含有缺失序列号标记的映射块缺失标记出的序列号进行比较，直到确定位置；

步骤3.计算绝对回放时间区间：

（1）解析出RTP音频包或RTP视频包的RTP时间戳，并获取SR(Sender Report，发送者报告)包的RTP时间戳和NTP（Network Time Protocol，网络时间协议）时间戳，计算出该RTP包所表示的绝对回放起始时间；

（2）解析RTP音频包或RTP视频包所携带的数据类型，即音频帧或视频帧，若是音频帧，则该RTP包中全为完整音频帧，解析出其帧数量；若是视频帧，则该RTP包不一定全为完整视频帧，解析出其帧头数量；并据此利用插值方法得出所对应的绝对回放时间区间长度；

（3）根据步骤（1）和（2），计算出RTP音频包或RTP视频包所表示的绝对回放时间区间[x，y]，x是绝对回放起始时间，y是绝对回放结束时间；

步骤4. 建立RTP音视频包映射：

启动映射线程，因为音频和视频在同一个绝对时间轴上回放，把绝对时间轴做为桥梁，建立起该RTP包的一个媒体相对另一媒体的映射，同时该RTP包形成一个新的映射块或加入一个已存在的映射块，建立起RTP包映射；

步骤5. 判断媒体失步情况：

启动判断失步的线程，根据已经建立的RTP音频包和RTP视频包关于绝对回放时间的的映射，开始检测RTP音频包和RTP视频包的失步情况并做出相应的调整，对所有的失步情况分析，将失步分为三种情况：第一种情况是其中一种媒体相对另一媒体出现整体性RTP包迟到，第二种情况是在某个媒体内出现个别RTP包来迟，第三种情况是第一种和第二种同时发生的情况；

步骤6. 处理不同失步情况：

对第一种失步情况，即媒体间失步，处理步骤如下：将没有迟到的媒体整体延迟时间t再解RTP包；同时，该媒体缓冲区仍然接收新来的RTP包，对新来的RTP包做上述步骤2的判断处理，只要该包不是迟到且不能同步的RTP包，就开始向内存提交请求以增大该缓冲区容量来容纳更多RTP包；整体性RTP包迟到的媒体则在时间t内等待迟到的RTP包群到来，同时，向发送端发送反馈信息，通知发送端降低该媒体发包频率；

对第二种失步情况，即媒体内失步，处理步骤如下：该媒体缓冲区内RTP包不做整体延时处理，也不向发端发送反馈信息，其侦听端口一旦侦听到来迟但还可能实现同步的包，立即按照步骤2中所述的方法，进行媒体内快速同步；

对第三种混合情况，即混合失步，首先将没有迟到的媒体延迟时间t再解RTP包；同时，该媒体缓冲区仍然接收新来的RTP包，对新来的RTP包做上述步骤2的判断处理，只要该包不是迟到且不能同步的RTP包，就开始向内存提交请求以增大该缓冲区容量来容纳更多RTP包；整体性RTP包迟到的媒体则在时间t内等待迟到的RTP包群，并且向发送端发送反馈信息，通知发送端降低该媒体发包频率；同时，其侦听端口一旦侦听到个别来迟但还可能实现同步的包，立即按照步骤2中所述的方法，进行媒体内快速同步。

作为本发明的进一步改进，步骤3中的（1）中，计算RTP包绝对回放起始时间To的公式是 To=Ts+1000(to-ts)/K，其中Ts是SR包中的64位NTP时间戳，ts是SR包中的32位RTP时间戳，to是该RTP包的32位时间戳，K是音频或视频帧的采样频率。

作为本发明的进一步改进，步骤3中的（2）中，所述的插值方法是对于音频，已知帧的采样频率K和帧的数量m，利用公式Ta=m/K，得出区间长度，其中Ta为音频绝对回放时间区间长度，对于视频，若该RTP包只封装了完整的视频帧，则按照计算音频帧的方法计算出Tv，Tv为视频绝对回放时间区间长度；若只封装了一个视频帧的宏块或条带且不包含帧头，则该时间区间Tv=0；同理，若封装了视频帧帧头，则每个帧头表示为一个完整视频帧的时间，其计算Tv的公式也与计算音频帧的公式相同，帧数量m就是视频帧帧头数，K仍为视频帧的采样率。

作为本发明的进一步改进，步骤3中的（3）中，计算RTP音频包绝对回放结束时间的方法是利用公式Tae=to+Ta，其中Tae表示该RTP音频包的绝对回放结束时间，to表示该RTP音频包的绝对回放起始时间，Ta表示该RTP音频包的绝对回放时间区间长度。

作为本发明的进一步改进，计算RTP视频包绝对回放结束时间的方法是利用公式Tve=to+Tv ，其中Tve表示该RTP视频包的绝对回放结束时间，to表示该RTP视频包的绝对回放起始时间，Tv表示该RTP视频包的绝对回放时间区间长度；则RTP音频包的绝对会放时间区间[Ta，Tae]，RTP视频包的绝对会放时间区间[Tv，Tve]。

作为本发明的进一步改进，其中等待时间t，由以下两种情况确定：若没有迟到的媒体持续接收新来的RTP包，且在时间t1达到该缓冲区的上限时，整体性RTP包迟到的媒体仍未完成媒体块映射同步，则此时t=t1；若没有迟到的媒体尚未达到缓冲区上限H时，整体性RTP包迟到的媒体在时间t2已经完成媒体块映射同步，则此时t=t2；媒体块映射同步，是指进入该缓冲区的每个RTP包，都能找到对应的另一媒体映射，但并不保证每个映射块都没有个别RTP包的缺失。

作为本发明的进一步改进，在缓冲区中，主要包括帧听端口和映射块两个模块，这两个模块协同工作的机制如下：帧听端口模块主要包含一张迟到但还可能实现同步的RTP包的包序列号的表，这些序列号在表中按照从小到大的顺序存放；每当接收一个新的RTP包，就将该包的序列号与表中的序列号按从小到大的顺序逐一比较，若该序列号与表中的序列号都不相同且小于表中最小的，则说明该包是迟到且不能实现同步的包，直接将该包丢弃，不再进入缓冲区排队；若该序列号与表中的序列号都不相同且大于表中最小的，则说明该包是没有迟到的包，则该包进入缓冲区，解析包头字段信息，准备形成新的映射块；若该序列号与表中某个序列号相同，则说明该包是迟到但还可能实现同步的RTP包，该包进入缓冲区。

作为本发明的进一步改进，迟到但还可能实现同步的RTP包快速确定在队列中的位置的方法如下：首先找到含有缺失序列号标记的映射块，然后将该包的序列号与该映射块缺失标记出的序列号进行比较，若相同，则说明该包属于该映射块，即确定位置；若都不相同，则与下一个含有有缺失序列号标记的映射块缺失标记出的序列号进行比较，直到确定位置。

作为本发明的进一步改进，该表由两种情况进行实时更新：一是每当形成一个新的映射块，该映射块就检测是否块内或相邻块间有缺失的RTP包序列号，同时查询是否其相邻映射块已经做出缺失序列号标记；若没有，将该序列号添加到缺失序列号标记中，同时将该序列号发送到侦听端口模块的表中进行更新，即在表中增加一个该缺失包序列号；若有，则不做缺失序列号标记，也不向侦听端口模块的表发送该缺失序列号；二是每当一个映射块要进行解RTP包时，且该映射块仍有缺失序列号标记，则将该缺失标记的序列号发送到侦听端口的表中进行更新，即删除表中与该缺失序列号相同的序列号。

本发明的有益效果是： RTP音视频包经过预同步处理之后，消除了由于在网络传输中产生的媒体内抖动和媒体间的时延差。换言之，在解RTP包时音视频媒体已经完成了初步的同步，保证了后续的AVS***对音视频解码后进行精确同步回放。

该发明方法最显著的特点是充分利用RTP音视频包包头字段携带的时间戳信息和在发送端进行RTP打包时标识在RTP包头字段上的数据类型、帧数量等信息，预先进行一次较为完整有效的同步处理，保证了后续的AVS***进行精确的音视频同步回放。该方法能够对媒体内失步，媒体间失步，以及混合失步做出有效调整，以达到AVS音视频总体的同步效果，同时，由于采取动态申请缓冲区的方法，避免了内存资源的浪费。

附图说明

图1 接收RTP音视频包的音视频缓冲区结构图示；

图2 RTP音视频包建立关于时间的映射图示；

图3 RTP音视频包出现媒体内失步图示；

图4 RTP音视频包出现媒体间失步图示；

图5 RTP音视频包出现混合失步图示；

图6 RTP音视频包有效同步后的图示；

图7 RTP音视频包预同步的流程图示。

具体实施方式

下面结合附图说明及具体实施方式对本发明进一步说明。

具体实施方式如下：

1. 接收RTP音视频包：

启动接收RTP音视频包的线程，打开音频缓冲区，设其初始值大小为Am；打开视频缓冲区，设其初始值大小为Vm，准备接收新来的RTP音频包和RTP视频包。图1中的A1，A2，--- ，An是RTP音频包的序列号,V1，V2，---，Vm是RTP视频包的序列号，且所代表的实际序列号并不一定是连续的。除图1之外，其他图中都没有画出音频侦听端口，视频侦听端口和缺失标记，但实际都是有的，只是为了后续的清楚说明，没有画出来。

2. 分析包迟到性并处理：

启动解析出RTP包包头字段信息的线程，解析出RTP音频包或RTP视频包的序列号，将该RTP包的序列号与帧听端口的表中的序列号按从小到大的顺序逐一比较。若该序列号与表中的序列号都不相同且小于表中最小的，则说明该包是迟到且不能实现同步的包，直接将该包丢弃，不再进入缓冲区排队；若该序列号与表中的序列号都不相同且大于表中最小的（一般大于最大的），则说明该包是没有迟到的包，该包进入缓冲区，解析包头字段信息，准备形成新的映射块；若与表中序列号相同，则说明该包是迟到但还可能实现同步的RTP包，该包进入缓冲区，准备快速确定在队列中的位置。其中音视频缓冲区结构如图1所示。

对迟到但还可能实现同步的RTP包，首先找到含有缺失序列号标记的映射块，然后将该包的序列号与该映射块缺失标记出的序列号进行比较，若相同，则说明该包属于该映射块，即确定位置；若都不相同，则与下一个含有缺失序列号标记的映射块缺失标记出的序列号进行比较，直到确定位置。由此，实现了音频媒体内的快速同步。

3.计算绝对回放时间区间：

继续解析线程并启动计算线程。

（1）解析出RTP音频包或RTP视频包的RTP时间戳，并获取任一SR包的RTP时间戳和NTP时间戳。计算出该RTP包所表示的绝对回放起始时间，其中计算RTP包绝对回放起始时间To的公式是 To=Ts+1000(to-ts)/K，其中Ts是SR包中的64位NTP时间戳，ts是SR包中的32位RTP时间戳，to是该RTP包的32位时间戳，K是音频或视频帧的采样频率。

（2）解析RTP音频包或RTP视频包所携带的数据类型，即音频帧或视频帧，若是音频帧，则该RTP包中全为完整音频帧，解析出其帧数量；若是视频帧，则该RTP包不一定全为完整视频帧，解析出其帧头数量；并据此利用插值方法得出所对应的绝对回放时间区间长度；并据此利用插值方法得出所对应的绝对回放时间区间长度，这里的插值方法是，对于音频，已知帧的采样频率K和帧的数量m，利用公式Ta=m/K得出区间长度，其中Ta为音频绝对回放时间区间长度。对于视频，若该RTP包只封装了完整的视频帧，则按照计算音频帧的方法计算出Tv，Tv为视频绝对回放时间区间长度；若只封装了一个视频帧的宏块或条带且不包含帧头，则该时间区间Tv=0；同理，若封装了视频帧帧头，则每个帧头表示为一个完整视频帧的时间，其计算Tv的公式也与计算音频帧的公式相同，帧数量m就是视频帧帧头数，K仍为视频帧的采样率。

（3）根据步骤（1）和（2），计算出RTP音频包或RTP视频包所表示的绝对回放时间区间[x，y]，x是绝对回放起始时间，y是绝对回放结束时间。

计算RTP音频包绝对回放结束时间的方法是利用公式Tae=to+Ta，其中Tae表示该RTP音频包的绝对回放结束时间，to表示该RTP音频包的绝对回放起始时间，Ta表示该RTP音频包的绝对回放时间区间长度。

计算RTP视频包绝对回放结束时间的方法是利用公式Tve=to+Tv，其中Tve表示该RTP视频包的绝对回放结束时间，to表示该RTP视频包的绝对回放起始时间，Tv表示该RTP视频包的绝对回放时间区间长度。以RTP音频包为例，设一个音频包装有150个音频帧，帧速率8K，即采样间隔时间1/8ms，我们可以算出区间长度18.75ms。对装有完整帧的RTP视频包做同样处理，对于装有条带或宏块的包，我们通过判断RTP装有帧头的数量来计算区间长度。

据此，RTP音频包的绝对会放时间区间[Ta，Tae]，RTP视频包的绝对会放时间区间[Tv，Tve]。

4. 建立RTP音视频包映射：

启动映射线程，因为音频和视频在同一个绝对时间轴上回放，把绝对时间轴做为桥梁，建立起该RTP包的一个媒体相对另一媒体的映射，同时该RTP包形成一个新的映射块或加入一个已存在的映射块，RTP包建立起映射，并形成映射块如图2所示。

5. 判断媒体失步情况：

启动判断失步的线程，根据已经建立的RTP音频包和RTP视频包关于绝对回放时间的的映射，开始检测RTP音频包和RTP视频包的失步情况并做出相应的调整，对所有的失步情况分析，将失步分为三种情况，第一种情况是其中一种媒体相对另一媒体出现整体性RTP包迟到（这些RTP包叫做RTP包群），例如媒体出现连续3个及以上RTP包序列号缺失，我们就可以判为第一种情况失步，如图3所示；第二种情况是在某个媒体内出现个别RTP包来迟，例如媒体出现连续2个及以下的RTP包迟到时我们就可以判断为第二种情况失步，如图4所示；第三种情况是第一种和第二种同时发生的情况，例如媒体同时出现连续3个及以上RTP包迟到和连续2个及以下RTP迟到时我们可以判为第三种情况失步，如图5所示。

6. 处理不同失步情况：

启动同步线程。

对第一种失步情况，即媒体间失步，处理步骤如下：将没有迟到的媒体整体延迟时间t再解RTP包。同时，该媒体缓冲区仍然接收新来的RTP包，对新来的RTP包做上述步骤2的判断处理，只要该包不是迟到且不能同步的RTP包，就开始向内存提交请求以增大该缓冲区容量来容纳更多RTP包。整体性RTP包迟到的媒体则在时间t内等待迟到的RTP包群到来，同时向发送端发送反馈信息，通知发送端降低该媒体发包频率。

对第二种失步情况，即媒体内失步，处理步骤如下：该媒体缓冲区内RTP包的不做整体延时处理，也不向发端发送反馈信息，其侦听端口一旦侦听到来迟但还可能实现同步的包，立即按照步骤2中所述的方法，进行媒体内快速同步。

对第三种混合情况，即混合失步，首先将没有迟到的媒体延迟时间t再解RTP包。同时，该媒体缓冲区仍然接收新来的RTP包，对新来的RTP包做上述步骤2的判断处理，只要该包不是迟到且不能同步的RTP包，就开始向内存提交请求以增大该缓冲区容量来容纳更多RTP包。整体性RTP包迟到的媒体则在时间t内等待迟到的RTP包群，并且向发送端发送反馈信息，通知发送端降低该媒体发包频率。同时，其侦听端口一旦侦听到个别来迟但还可能实现同步的包，立即按照步骤2中所述的方法，进行媒体内快速同步。

针对以上三种情况做出同步后处理后如图6所示。

其中等待时间t，由以下两种情况确定：若没有迟到的媒体持续接收新来的RTP包，且在时间t1达到该缓冲区的上限时，整体性RTP包迟到的媒体仍未完成媒体块映射同步，则此时t=t1；若没有迟到的媒体尚未达到缓冲区上限H时，整体性RTP包迟到的媒体在时间t2已经完成媒体块映射同步，则此时t=t2。媒体块映射同步，是指进入该缓冲区的每个RTP包，都能找到对应的另一媒体映射，但并不保证每个映射块都没有个别RTP包的缺失（点对点的映射是一种特殊情况，很少出现）。

RTP音视频包经过预同步处理之后，消除了由于在网络传输中产生的媒体内抖动和媒体间的时延差，换言之，在解RTP包时音视频媒体已经完成了初步的同步，保证了后续的AVS***解码后进行精确同步回放。

以上操作过程，随着新的RTP包到来时刻进行处理，从而迅速处理可能的不同情况的失步。

在音频缓冲区中，主要包括音频帧听端口和音频映射块两个模块。这两个模块协同工作的机制如下：

音频帧听端口模块主要包含一张迟到但还可能实现同步的RTP音频包的包序列号的表，这些序列号在表中按照从小到大的顺序存放。每当接收一个新的RTP音频包，就将该包的序列号与表中的序列号按从小到大的顺序逐一比较。若该序列号与表中的序列号都不相同且小于表中最小的，则说明该包是迟到且不能实现同步的包，直接将该包丢弃，不再进入缓冲区排队；若该序列号与表中的序列号都不相同且大于表中最小的（一般大于最大的），则说明该包是没有迟到的包，则该包进入缓冲区，解析包头字段信息，准备形成新的音频映射块；若该序列号与表中某个序列号相同，则说明该包是迟到但还可能实现同步的RTP音频包，该包进入缓冲区，准备快速确定在队列中的位置。

迟到但还可能实现同步的RTP音频包快速确定在队列中的位置的方法：首先找到含有缺失序列号标记的映射块，然后将该包的序列号与该映射块缺失标记出的序列号进行比较，若相同，则说明该包属于该映射块，即确定位置；若都不相同，则与下一个含有有缺失序列号标记的映射块缺失标记出的序列号进行比较，直到确定位置。由此，实现了音频媒体内的快速同步。

该表由两种情况进行实时更新：一是每当形成一个新的音频映射块，该映射块就检测是否块内或相邻块间有缺失的RTP音频包序列号，同时查询是否其相邻映射块已经做出缺失序列号标记；若没有，将该序列号添加到缺失序列号标记中，同时将该序列号发送到音频侦听端口模块的表中进行更新，即在表中增加一个该缺失包序列号；若有，则不做缺失序列号标记，也不向侦听端口模块的表发送该缺失序列号。二是每当一个音频映射块要进行解RTP音频包时，且该映射块仍有缺失序列号标记，则将该缺失标记的序列号发送到音频侦听端口的表中进行更新，即删除表中与该缺失序列号相同的序列号。由此完成表的更新。

与此对应，在视频缓区也有相应的两个模块，如图1所示，并与音频有相同的工作机制。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于RTP封装的AVS音视频预同步方法，其特征在于：其包括以下步骤：

步骤1. 接收RTP音视频包：

步骤2. 分析包迟到性并处理：

步骤3.计算绝对回放时间区间：

（1）解析出RTP音频包或RTP视频包的RTP时间戳，并获取SR包的RTP时间戳和NTP时间戳，计算出该RTP包所表示的绝对回放起始时间；SR：Sender Report，发送者报告，NTP：Network Time Protocol，网络时间协议；

步骤4. 建立RTP音视频包映射：

步骤5. 判断媒体失步情况：

启动判断失步的线程，根据已经建立的RTP音频包和RTP视频包关于绝对回放时间的的映射，开始检测RTP音频包和RTP视频包的失步情况并做出相应的调整；对所有的失步情况分析，将失步分为三种情况：第一种情况是其中一种媒体相对另一媒体出现整体性RTP包迟到，第二种情况是在某个媒体内出现个别RTP包来迟，第三种情况是第一种和第二种同时发生的情况；

步骤6. 处理不同失步情况：

对第一种失步情况，即媒体间失步，处理步骤如下：将没有迟到的媒体整体延迟时间t再解RTP包；同时，该媒体缓冲区仍然接收新来的RTP包，对新来的RTP包做上述步骤2的判断处理，只要该包不是迟到且不能同步的RTP包，就开始向内存提交请求以增大该缓冲区容量来容纳更多RTP包;整体性RTP包迟到的媒体则在时间t内等待迟到的RTP包群到来，同时向发送端发送反馈信息，通知发送端降低该媒体发包频率；

2.根据权利要求1所述的一种基于RTP封装的AVS音视频预同步方法，其特征在于：步骤3中的（1）中，计算RTP包绝对回放起始时间To的公式是 To=Ts+1000(to-ts)/K，其中Ts是SR包中的64位NTP时间戳，ts是SR包中的32位RTP时间戳，to是该RTP包的32位时间戳，K是音频或视频帧的采样频率。

3.根据权利要求1所述的一种基于RTP封装的AVS音视频预同步方法，其特征在于：步骤3中的（2）中，所述的插值方法是，对于音频，已知帧的采样频率K和帧的数量m，利用公式Ta=m/K，得出区间长度，其中Ta为音频绝对回放时间区间长度，对于视频，若该RTP包只封装了完整的视频帧，则按照计算音频帧的方法计算出Tv，Tv为视频绝对回放时间区间长度；若只封装了一个视频帧的宏块或条带且不包含帧头，则该时间区间Tv=0；同理，若封装了视频帧帧头，则每个帧头表示为一个完整视频帧的时间，其计算Tv的公式也与计算音频帧的公式相同，帧数量m就是视频帧帧头数，K仍为视频帧的采样率。

4.根据权利要求1所述的一种基于RTP封装的AVS音视频预同步方法，其特征在于：步骤3中的（3）中，计算RTP音频包绝对回放结束时间的方法是利用公式Tae=to+Ta，其中Tae表示该RTP音频包的绝对回放结束时间，to表示该RTP音频包的绝对回放起始时间，Ta表示该RTP音频包的绝对回放时间区间长度。

5.根据权利要求4所述的一种基于RTP封装的AVS音视频预同步方法，其特征在于：计算RTP视频包绝对回放结束时间的方法是利用公式Tve=to+Tv ，其中Tve表示该RTP视频包的绝对回放结束时间，to表示该RTP视频包的绝对回放起始时间，Tv表示该RTP视频包的绝对回放时间区间长度；则RTP音频包的绝对会放时间区间[Ta，Tae]，RTP视频包的绝对会放时间区间[Tv，Tve]。

6.根据权利要求1所述的一种基于RTP封装的AVS音视频预同步方法，其特征在于：其中等待时间t，由以下两种情况确定：若没有迟到的媒体持续接收新来的RTP包，且在时间t1达到该缓冲区的上限时，整体性RTP包迟到的媒体仍未完成媒体块映射同步，则此时t=t1；若没有迟到的媒体尚未达到缓冲区上限H时，整体性RTP包迟到的媒体在时间t2已经完成媒体块映射同步，则此时t=t2；媒体块映射同步，是指进入该缓冲区的每个RTP包，都能找到对应的另一媒体映射，但并不保证每个映射块都没有个别RTP包的缺失。

7.根据权利要求1所述的一种基于RTP封装的AVS音视频预同步方法，其特征在于：在缓冲区中，主要包括帧听端口和映射块两个模块，这两个模块协同工作的机制如下：帧听端口模块主要包含一张迟到但还可能实现同步的RTP包的包序列号的表，这些序列号在表中按照从小到大的顺序存放；每当接收一个新的RTP包，就将该包的序列号与表中的序列号按从小到大的顺序逐一比较，若该序列号与表中的序列号都不相同且小于表中最小的，则说明该包是迟到且不能实现同步的包，直接将该包丢弃，不再进入缓冲区排队；若该序列号与表中的序列号都不相同且大于表中最小的，则说明该包是没有迟到的包，则该包进入缓冲区，解析包头字段信息，准备形成新的映射块；若该序列号与表中某个序列号相同，则说明该包是迟到但还可能实现同步的RTP包，该包进入缓冲区。

8.根据权利要求7所述的一种基于RTP封装的AVS音视频预同步方法，其特征在于：迟到但还可能实现同步的RTP包快速确定在队列中的位置的方法：首先找到含有缺失序列号标记的映射块，然后将该包的序列号与该映射块缺失标记出的序列号进行比较，若相同，则说明该包属于该映射块，即确定位置；若都不相同，则与下一个含有有缺失序列号标记的映射块缺失标记出的序列号进行比较，直到确定位置。

9.根据权利要求8所述的一种基于RTP封装的AVS音视频预同步方法，其特征在于：该表由两种情况进行实时更新：一是每当形成一个新的映射块，该映射块就检测是否块内或相邻块间有缺失的RTP包序列号，同时查询是否其相邻映射块已经做出缺失序列号标记；若没有，将该序列号添加到缺失序列号标记中，同时将该序列号发送到侦听端口模块的表中进行更新，即在表中增加一个该缺失包序列号；若有，则不做缺失序列号标记，也不向侦听端口模块的表发送该缺失序列号；二是每当一个映射块要进行解RTP包时，且该映射块仍有缺失序列号标记，则将该缺失标记的序列号发送到侦听端口的表中进行更新，即删除表中与该缺失序列号相同的序列号。