CN111447396A

CN111447396A - 一种音视频传输方法、装置、电子设备及存储介质

Info

Publication number: CN111447396A
Application number: CN202010153193.XA
Authority: CN
Inventors: 谢文龙; 李云鹏; 吕亚亚; 杨春晖
Original assignee: Visionvera Information Technology Co Ltd
Current assignee: Visionvera Information Technology Co Ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-07-24

Abstract

本申请提供了一种音视频传输方法、装置、电子设备及存储介质，所述方法应用于数据传输设备，包括：接收外部视频采集设备发送的视频数据；获得所述数据传输设备自身的音频采集组件采集的音频数据，所述音频数据与所述视频数据具有时序关联关系；根据所述时序关联关系，对所述视频数据和所述音频数据进行同步处理，获得同步音视频数据；将所述同步音视频数据发送给接收端。在该过程中，实现了外部采集的视频数据和数据传输设备端的用户的音频数据的同步处理，保证了接收端在接收到视频数据时，能接收到实时对应的音频数据，使得接收端的用户能更好地了解视频内容，改善了用户的使用体验。

Description

一种音视频传输方法、装置、电子设备及存储介质

技术领域

本发明涉及数据处理技术领域，特别是涉及一种音视频传输方法、装置、电子设备及存储介质。

背景技术

视联网是一种基于以太网硬件的实时大带宽传输网络，采用专用协议实现高清视频的高速传输。图传设备是一种对接视频流或编码视频流并进行传输的设备。传统的图传设备主要对接无人机、监控摄像机、自拍杆以及VR设备的视频资源，把视频资源接入到对应的业务***中，例如会议***、直播***或者其它业务***中。在实际业务中，图传设备对音频数据和视频数据采用单向传输的方式，当音频数据和视频数据存在某种关联时，无法进行较好地处理，使得接收端需要再次对音频数据和视频数据进行关联处理，因而用户的使用体验较差。

发明内容

本申请实施例提供了一种音视频传输方法、装置、电子设备及存储介质，旨在实现音频数据和视频数据的同步处理。

本申请实施例第一方面提供了一种音视频传输方法，应用于数据传输设备，所述方法包括：

接收外部视频采集设备发送的视频数据；

获得所述数据传输设备自身的音频采集组件采集的音频数据，所述音频数据与所述视频数据具有时序关联关系；

根据所述时序关联关系，对所述视频数据和所述音频数据进行同步处理，获得同步音视频数据；

将所述同步音视频数据发送给接收端。

可选地，根据所述时序关联关系，对所述视频数据和所述音频数据进行同步处理，获得同步音视频数据，包括：

通过第一线程，对所述音频数据进行处理，获得音频处理结果；

通过第二线程，对所述视频数据进行处理，获得视频处理结果；

通过第三线程，根据所述音频处理结果、所述视频处理结果和所述时序关联关系，对所述视频数据和所述音频数据进行同步处理，获得所述同步音视频数据；

将所述同步音视频数据发送给接收端，包括：

通过所述第三线程，将所述同步音视频数据发送给接收端；

其中，所述第三线程为所述第一线程和所述第二线程中的任意一条线程，或者，所述第三线程不同于所述第一线程和所述第二线程。

可选地，对所述音频数据进行处理，获得音频处理结果，包括：

对所述音频数据进行封装，获得音频数据包，每个所述音频数据包携带时间戳；

对所述视频数据进行处理，获得视频处理结果，包括：

对所述视频数据进行封装，获得视频数据包，每个所述视频数据包携带时间戳；

根据所述音频处理结果、所述视频处理结果和所述时序关联关系，对所述视频数据和所述音频数据进行同步处理，包括：

根据所述音频数据包的时间戳、所述视频数据包的时间戳、相邻视频数据包的时间间隔值以及预设阈值，确定目标音频数据包和目标视频数据包；

按照时间戳先后顺序对所述目标音频数据包和目标视频数据包进行同步处理。

可选地，根据所述音频数据包的时间戳、所述视频数据包的时间戳、相邻视频数据包的时间间隔值以及预设阈值，确定目标音频数据包和目标视频数据包，包括：

将最新的视频数据包确定为所述目标视频数据包；

将所有音频数据包中的时间戳大于预设差值的音频数据包确定为第一类型的音频数据包，所述预设差值为所述目标视频数据包的时间戳与所述预设阈值的差值；

根据所述时间间隔值与所述预设阈值的大小关系，从所述第一类型的音频数据包中确定所述目标音频数据包。

可选地，根据所述时间间隔值与所述预设阈值的大小关系，从所述第一类型的音频数据包中确定所述目标音频数据包，包括：

在所述时间间隔值小于所述预设阈值时，将所述第一类型的音频数据包中的时间戳小于第一和值的音频数据包确定为所述目标音频数据包，所述第一和值为所述目标视频数据包的时间戳与所述时间间隔值的和值；

在所述时间间隔值不小于所述预设阈值时，将所述第一类型的音频数据包中的时间戳小于第二和值的音频数据包确定为所述目标音频数据包，所述第二和值为所述目标视频数据包的时间戳与所述预设阈值的和值。

可选地，按照时间戳先后顺序对所述目标音频数据包和目标视频数据包进行同步处理，包括：

按照时间戳先后顺序对所述目标音频数据包和所述目标视频数据包进行排序；

将所述同步音视频数据发送给接收端，包括：

依次将时间戳小于所述目标视频数据包的时间戳的目标音频数据包、所述目标视频数据包以及时间戳不小于所述目标视频数据包的时间戳的目标音频数据包发送给所述接收端。

可选地，所述方法还包括：

将所有音频数据包中的时间戳不大于所述预设差值的音频数据包确定为第二类型的音频数据包；

删除所述第二类型的音频数据包。

可选地，在将所述同步音视频数据发送给接收端后，所述方法还包括：

接收所述接收端返回的音频响应数据；

播放所述音频响应数据。

可选地，在对所述音频数据进行封装，获得音频数据包后，所述方法还包括：

将所述音频数据包缓存到音频发送队列中；

周期性检测所述音频发送队列中包含的音频包的个数；

在所述音频包的个数大于预设个数时，确定当前网络质量较差；

显示表征当前网络质量较差的提示信息。

本申请实施例第二方面提供了一种音视频传输装置，应用于数据传输设备，包括：

第一接收模块，用于接收外部视频采集设备发送的视频数据；

获得模块，用于获得所述数据传输设备自身的音频采集组件采集的音频数据，所述音频数据与所述视频数据具有时序关联关系；

处理模块，用于根据所述时序关联关系，对所述视频数据和所述音频数据进行同步处理，获得同步音视频数据；

发送模块，用于将所述同步音视频数据发送给接收端。

可选地，所述处理模块包括：

第一处理模块，用于通过第一线程，对所述音频数据进行处理，获得音频处理结果；

第二处理模块，用于通过第二线程，对所述视频数据进行处理，获得视频处理结果；

第三处理模块，用于通过第三线程，根据所述音频处理结果、所述视频处理结果和所述时序关联关系，对所述视频数据和所述音频数据进行同步处理，获得所述同步音视频数据；

所述发送模块包括：

第一发送子模块，用于通过所述第三线程，将所述同步音视频数据发送给接收端；

可选地，所述第一处理模块包括：

第一封装模块，用于对所述音频数据进行封装，获得音频数据包，每个所述音频数据包携带时间戳；

所述第二处理模块包括：

第二封装模块，用于对所述视频数据进行封装，获得视频数据包，每个所述视频数据包携带时间戳；

所述第三处理模块包括：

第一确定模块，用于根据所述音频数据包的时间戳、所述视频数据包的时间戳、相邻视频数据包的时间间隔值以及预设阈值，确定目标音频数据包和目标视频数据包；

第一处理子模块，用于按照时间戳先后顺序对所述目标音频数据包和目标视频数据包进行同步处理。

可选地，所述第一确定模块包括：

第一确定子模块，用于将最新的视频数据包确定为所述目标视频数据包；

第二确定子模块，用于将所有音频数据包中的时间戳大于预设差值的音频数据包确定为第一类型的音频数据包，所述预设差值为所述目标视频数据包的时间戳与所述预设阈值的差值；

第三确定子模块，用于根据所述时间间隔值与所述预设阈值的大小关系，从所述第一类型的音频数据包中确定所述目标音频数据包。

可选地，所述第三确定子模块包括：

第四确定子模块，用于在所述时间间隔值小于所述预设阈值时，将所述第一类型的音频数据包中的时间戳小于第一和值的音频数据包确定为所述目标音频数据包，所述第一和值为所述目标视频数据包的时间戳与所述时间间隔值的和值；

第五确定子模块，用于在所述时间间隔值不小于所述预设阈值时，将所述第一类型的音频数据包中的时间戳小于第二和值的音频数据包确定为所述目标音频数据包，所述第二和值为所述目标视频数据包的时间戳与所述预设阈值的和值。

可选地，所述第一处理子模块包括：

第二处理子模块，用于按照时间戳先后顺序对所述目标音频数据包和所述目标视频数据包进行排序；

所述发送模块包括：

第二发送子模块，用于依次将时间戳小于所述目标视频数据包的时间戳的目标音频数据包、所述目标视频数据包以及时间戳不小于所述目标视频数据包的时间戳的目标音频数据包发送给所述接收端。

可选地，所述装置还包括：

第二确定模块，用于将所有音频数据包中的时间戳不大于所述预设差值的音频数据包确定为第二类型的音频数据包；

删除模块，用于删除所述第二类型的音频数据包。

可选地，所述装置还包括：

第二接收模块，用于接收所述接收端返回的音频响应数据；

播放模块，用于播放所述音频响应数据。

可选地，所述装置还包括：

缓存模块，用于将所述音频数据包缓存到音频发送队列中；

检测模块，用于周期性检测所述音频发送队列中包含的音频包的个数；

第三确定模块，用于在所述音频包的个数大于预设个数时，确定当前网络质量较差；

显示模块，用于显示表征当前网络质量较差的提示信息。

本申请实施例第三方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请第一方面所述的方法的步骤。

本申请实施例第四方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请第一方面所述的方法中的步骤。

通过本申请实施例的音视频传输方法，数据传输设备接收外部视频采集设备发送的视频数据，以及通过自身的音频采集组件采集音频数据，该音频数据与视频数据具有时序关联关系，然后根据时序关联关系对视频数据和音频数据进行同步处理，获得同步音视频数据，最后将同步音视频数据发送给接收端。在该过程中，实现了外部采集的视频数据和数据传输设备端的用户的音频数据的同步处理，保证了接收端在接收到视频数据时，能接收到实时对应的音频数据，使得接收端的用户能更好地了解视频内容，改善了用户的使用体验。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例示出的一种实施环境示意图；

图2是本申请一实施例示出的一种音视频传输方法的流程图；

图3是本申请一实施例示出的音视频传输方法的整体流程示意图；

图4是本申请一实施例示出的一种音视频传输装置的结构框图；

图5是本申请一实施例示出的一种视联网的组网示意图；

图6是本申请一实施例示出的一种节点服务器的硬件结构示意图；

图7是本申请一实施例示出的一种接入交换机的硬件结构示意图；

图8是本申请一实施例示出的一种以太网协转网关的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请一实施例示出的一种实施环境示意图。在图1中，操作人员可以操作图传设备和无人机、监控摄像机、自拍杆以及VR设备等。将自身的语音数据通过图传设备的音频采集组件录入图传设备，同时将无人机、监控摄像机、自拍杆以及VR设备采集的视频数据通过图传设备的指定端口输入图传设备，使得图传设备对音频数据和视频数据进行同步处理后，将处理后的同步音视频数据发送到相关业务中的接收设备，相关业务例如可以是直播***、会议***等，同时，图传设备还可以接收接收设备返回的音频数据，播放音频数据，便于操作人员进行下一步处理。

本申请提供了一种音视频传输方法，应用于图1中的图传设备。图2是本申请一实施例示出的一种音视频传输方法的流程图。参照图2，本申请的音视频传输方法可以包括如下步骤：

步骤S11：接收外部视频采集设备发送的视频数据。

在本实施例中，外部视频采集设备可以是任何具有视频采集组件的设备，例如无人机、监控摄像机、自拍杆以及VR设备等，本申请对此不作具体限制。数据传输设备为具有音视频输入输出功能的设备，例如可以是图1中的图传设备，可用于接收外部视频采集设备发送的视频数据。

步骤S12：获得所述数据传输设备自身的音频采集组件采集的音频数据，所述音频数据与所述视频数据具有时序关联关系。

在本实施例中，数据传输设备自身还具有音频采集组件，可用于采集音频数据，例如，操作人员的语音数据。数据传输设备对音频数据的采集和视频数据的接收是同步进行的，与视频数据具有时序关联关系的音频数据可以是：操作人员对实时接收的视频数据进行解说时产生的语音数据，语音数据可以使得接收端在播放视频数据时，根据音频数据，能更好地了解视频的内容。

步骤S13：根据所述时序关联关系，对所述视频数据和所述音频数据进行同步处理，获得同步音视频数据。

在本实施例中，数据传输设备如果直接将接收的视频数据发送给接收端，直接将采集的音频数据发送给接收端，通常情况下，由于网络状况等原因，接收端接收到的音频数据和视频数据并不是同步的，因而需要对视频数据和音频数据进行同步处理，保证接收端听到的音频与所观看的视频的画面的内容是同步的。

步骤S14：将所述同步音视频数据发送给接收端。

在本实施例中，数据传输设备在获得同步音视频数据后，可以将同步音视频数据发送给接收端。在发送时，可以实时发送，也可以指定时间发送，本实施例对发送方式不作具体限制。

示例地，用户A当前正在使用图传设备将监控摄像头采集的视频数据接入到视联网会议X中，以便于视联网会议X的成员观看。为了便于会议成员在观看视频时可以更加方便地了解视频的内容，用户A可以通过图传设备自身的音频采集组件，将对视频内容的语音解说一并录入图传设备，与视频同步发送到视联网会议***的接收端。例如，视频内容可以包括多个时间段的内容，用户A可以针对每个时间段的视频内容分别做语音解说，以便于会议成员能更好地了解每个时间段的视频内容。为了保证图传设备向接收端发送的音频数据和视频数据是同步的，因此需要根据时序关联关系(例如：前述提到的每个时间段的语音解说与每个时间段的视频内容的对应关系)，对视频数据和音频数据进行同步处理，获得同步音视频数据，然后再将同步音视频数据发送到视联网会议***的接收端。

在本实施例中，数据传输设备接收外部视频采集设备发送的视频数据，以及通过自身的音频采集组件采集音频数据，该音频数据与视频数据具有时序关联关系，然后根据时序关联关系对视频数据和音频数据进行同步处理，获得同步音视频数据，最后将同步音视频数据发送给接收端。在该过程中，实现了外部采集的视频数据和数据传输设备端的用户的音频数据的同步处理，保证了接收端在接收到视频数据时，能接收到实时对应的音频数据，使得接收端的用户能更好地了解视频内容，有效改善了用户的使用体验。

结合以上实施例，在一种实施方式中，在步骤S14之后，还可以执行以下步骤：

接收所述接收端返回的音频响应数据；

播放所述音频响应数据。

在本实施例中，数据传输设备端不仅可以将同步音视频数据发送给接收端，还可以接收接收端返回的音频数据，播放该音频数据，使得数据传输设备端的用户听到该音频数据后，可以及时进行下一步处理，例如，调整发送的视频，发送的时间等。示例地，接收端的用户在观看到某段视频内容时，对音频内容存在疑惑，可以随时通过语音的方式将该疑惑录入接收端，使得接收端将该语音数据发送给数据传输设备端，数据传输设备端的用户可以通过语音的方式解释该疑惑，并再次通过数据传输设备端将解释发送给接收端。

在本实施例中，数据传输设备端和接收端之间可以进行音频的相互传输，实现了在视频传输时的实时语音交互，能有效满足实际场景下用户的沟通需求，提升用户的使用体验。

结合以上实施例，在一种实施方式中，步骤S13可以包括：

相应地，步骤S14可以包括：

通过所述第三线程，将所述同步音视频数据发送给接收端；

在本实施例中，可以通过三条线程分别实现对音频数据、视频数据以及同步音视频数据的处理。具体地，可以通过第一线程对音频数据进行处理，获得音频处理结果，通过第二线程对视频数据进行处理，获得视频处理结果，然后通过第三线程，根据音频处理结果、视频处理结果和时序关联关系，将视频数据和音频数据进行同步处理，获得同步音视频数据。其中，第三线程既可以是第一线程，也可以是第二线程，还可以是不同于第一线程或者第二线程的任意一条其它线程，具体可根据实际需求设置，本申请对此不作具体限制。

在本实施例中，采用多线程实现对视频数据和音频数据进行同步处理，加快了处理速度，进而实现了数据传输设备到接收端的数据的快速传输，提升了接收端用户的观看体验，同时提升了双端用户的交互体验。

结合以上实施例，在一种实施方式中，对所述音频数据进行处理，获得音频处理结果，包括：

对所述视频数据进行处理，获得视频处理结果，包括：

在本实施例中，对音频数据进行处理具体是指：将音频数据进行封装，获得音频数据包，其中，在封装时，每个音频数据包都会被标记上当前的时间戳；对视频数据进行处理具体是指：将视频数据进行封装，获得视频数据包，其中，在封装时，每个视频数据包都会被标记上当前的时间戳；在此基础上，可以根据音频数据包的时间戳、视频数据包的时间戳、相邻视频数据包的时间间隔值t3以及预设阈值t1，获得目标音频数据包和目标视频数据包，其中，相邻视频数据包的时间间隔值t3可以根据采集视频的Fps计算得出，预设阈值t1表示人眼观察不出不同步现象的时间范范围，通常在300-500ms内，预设阈值t1的具体值可根据实际需求选取；在获得目标音频数据包和目标视频数据包后，按照其携带的时间戳先后顺序进行同步处理，从而获得同步音视频数据。

具体地，根据所述音频数据包的时间戳、所述视频数据包的时间戳、相邻视频数据包的时间间隔值以及预设阈值，确定目标音频数据包和目标视频数据包，包括：

将最新的视频数据包确定为所述目标视频数据包；

在本实施例中，采用针对视频数据包进行单个处理的方式，每生成一个视频数据包(即：目标视频数据包)，获得对应的音频数据包(即：目标音频数据包)，然后将该视频数据包和获得的对应的音频数据包处理为同步音视频数据，再发送给接收端。

在具体实施时，可以将最新生成的视频数据包确定为目标视频数据包，其时间戳以T表示；然后在所有的音频数据包中，将时间戳大于预设差值的音频数据包确定为第一类型的音频数据包，该预设差值为目标视频数据包的时间戳T与预设阈值t1的差值；在获得第一类型的音频数据包后，根据时间间隔值t3与所述预设阈值t1的大小关系，再从第一类型的音频数据包中获得目标音频数据包。

具体地，根据所述时间间隔值与所述预设阈值的大小关系，从所述第一类型的音频数据包中确定所述目标音频数据包，包括：

在本实施例中，当时间间隔值t3小于预设阈值t1时，从第一类型的音频数据包中获得时间戳小于第一和值的音频数据包，将其确定为目标音频数据包，其中，第一和值为目标视频数据包的时间戳T与时间间隔值t3的和值；

当时间间隔值t3不小于预设阈值t1时，从第一类型的音频数据包中获得时间戳小于第二和值的音频数据包，将其确定为目标音频数据包，第二和值为目标视频数据包的时间戳T与预设阈值t1的和值。

在本实施例中，每当生成一个目标视频数据包，首先在所有的生成的且未发送的音频数据包中获得时间戳大于T-t1的音频数据包(即：第一类型的音频数据包)，接着对t1和t3进行大小判断，如果t3<t1，则在第一类型的音频数据包中选择时间戳小于T+t3的音频数据包，作为目标音频数据包，如果t3>＝t1，则在第一类型的音频数据包中选择时间戳小于T+t1的音频数据包，作为目标音频数据包。

结合以上实施例，在一种实施方式中，按照时间戳先后顺序对所述目标音频数据包和目标视频数据包进行同步处理，包括：

将所述同步音视频数据发送给接收端，包括：

在本实施例中，在获得目标音频数据包和目标视频数据包后，按照时间戳的先后顺序对目标音频数据包和目标视频数据包进行排序，排序结果为：时间戳小于目标视频数据包的时间戳T的目标音频数据包、目标视频数据包以及时间戳不小于所述目标视频数据包的时间戳T的目标音频数据包。其中，时间戳小于目标视频数据包的时间戳T的目标音频数据包为在目标视频数据包之前生成的部分音频数据包，时间戳不小于目标视频数据包的时间戳T的目标音频数据包为在目标视频数据包之后生成的部分音频数据包，这两部分音频数据包的时间戳均在人眼观察不出不同步现象的时间范范围。

在本实施例中，根据音频视频包的时间戳t是否满足t>T-t1和t<T+t3(或t<T+t1)这两个条件，可以筛选出与目标视频数据包同步的音频视频包，按照时间戳先后顺序将这部分音频视频包依次发送给接收端，使得接收端接收的音频数据包和视频数据包的时间戳差距均在人眼观察不出不同步现象的时间范范围内，实现了音视频数据的等效同步，改善了用户的使用体验。

结合以上实施例，在一种实施方式中，所述方法还包括：

删除所述第二类型的音频数据包。

在本实施例中，由于时间戳不大于预设差值的音频数据包已经超出人眼观察不出不同步现象的时间范范围外，因此无需发送给接收端，为了避免占用内存，可以将其删除。

结合以上实施例，在一种实施方式中，在对所述音频数据进行封装，获得音频数据包后，所述方法还包括：

将所述音频数据包缓存到音频发送队列中；

周期性检测所述音频发送队列中包含的音频包的个数；

显示表征当前网络质量较差的提示信息。

在本实施例中，可以将所有生成的音频数据包缓存到音频发送队列中，然后周期性检测该音频发送队列中的音频包的个数，如果音频包的个数大于预设个数时，表示当前网络质量较差，可以在数据传输设备的显示屏上显示当前网络质量较差的信息，以提示数据传输设备端的用户及时检查网络连接情况。

图3是本申请一实施例示出的音视频传输方法的整体流程示意图。下面将结合图3以一个具体实施例对本申请的音视频传输方法做一个整体说明。

在图3中，图传设备自带音频硬件设备，通过A线程采集操作人员(即：图传设备端的用户)的语音数据，对该语音数据进行编码，得到多个音频包，将这些音频包存储到队列A中，每个音频包携带有时间戳A.t，其次，根据音频硬件设备的设备采样率可以计算出采集一个音频包的时间t，如果音视频时间间隔在300-500ms内，人眼是观察不出不同步现象的，因此据此可以获得音视频最小时间差t1。

同时，图传设备通过B线程对接无人机、监控摄像机、自拍杆以及VR设备等，采集其中的视频数据，对视频数据进行编码，得到一个携带有时间戳T的视频包，在采集时根据采集视频的Fps可以计算出相邻视频包之间的时间间隔t3，且t3<t1。本实施例中是以B线程为发送线程的，因此B线程访问队列A中的每个音频包，依次判断是否满足T-A.t<t1，如果不满足T-A.t<t1，删除对应部分的音频包，如果满足T-A.t<t1，继续判断是否满足A.t<T+t3，如果满足，选择这部分音频包发送。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

本申请还提供了一种音视频传输装置400，应用于数据传输设备，如图4所示。图4是本申请一实施例示出的一种音视频传输装置的结构框图。参照图4，本申请的音视频传输装置400可以包括：

第一接收模块401，用于接收外部视频采集设备发送的视频数据；

获得模块402，用于获得所述数据传输设备自身的音频采集组件采集的音频数据，所述音频数据与所述视频数据具有时序关联关系；

处理模块403，用于根据所述时序关联关系，对所述视频数据和所述音频数据进行同步处理，获得同步音视频数据；

发送模块404，用于将所述同步音视频数据发送给接收端。

可选地，所述处理模块403包括：

所述发送模块404包括：

可选地，所述第一处理模块包括：

所述第二处理模块包括：

所述第三处理模块包括：

可选地，所述第一确定模块包括：

可选地，所述第三确定子模块包括：

可选地，所述第一处理子模块包括：

所述发送模块404包括：

可选地，所述装置400还包括：

删除模块，用于删除所述第二类型的音频数据包。

可选地，所述装置400还包括：

第二接收模块，用于接收所述接收端返回的音频响应数据；

播放模块，用于播放所述音频响应数据。

可选地，所述装置400还包括：

缓存模块，用于将所述音频数据包缓存到音频发送队列中；

显示模块，用于显示表征当前网络质量较差的提示信息。

基于同一发明构思，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的音视频传输方法中的步骤。

基于同一发明构思，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的音视频传输方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

视联网是网络发展的重要里程碑，是一个实时网络，能够实现高清视频实时传输，将众多互联网应用推向高清视频化，高清面对面。

视联网采用实时高清视频交换技术，可以在一个网络平台上将所需的服务，如高清视频会议、视频监控、智能化监控分析、应急指挥、数字广播电视、延时电视、网络教学、现场直播、VOD点播、电视邮件、个性录制(PVR)、内网(自办)频道、智能化视频播控、信息发布等数十种视频、语音、图片、文字、通讯、数据等服务全部整合在一个***平台，通过电视或电脑实现高清品质视频播放。

为使本领域技术人员更好地理解本发明实施例，以下对视联网进行介绍：

视联网所应用的部分技术如下所述：

网络技术(Network Technology)

视联网的网络技术创新改良了传统以太网(Ethernet)，以面对网络上潜在的巨大视频流量。不同于单纯的网络分组包交换(Packet Switching)或网络电路交换(CircuitSwitching)，视联网技术采用Packet Switching满足Streaming需求。视联网技术具备分组交换的灵活、简单和低价，同时具备电路交换的品质和安全保证，实现了全网交换式虚拟电路，以及数据格式的无缝连接。

交换技术(Switching Technology)

视联网采用以太网的异步和包交换两个优点，在全兼容的前提下消除了以太网缺陷，具备全网端到端无缝连接，直通用户终端，直接承载IP数据包。用户数据在全网范围内不需任何格式转换。视联网是以太网的更高级形态，是一个实时交换平台，能够实现目前互联网无法实现的全网大规模高清视频实时传输，将众多网络视频应用推向高清化、统一化。

服务器技术(Server Technology)

视联网和统一视频平台上的服务器技术不同于传统意义上的服务器，它的流媒体传输是建立在面向连接的基础上，其数据处理能力与流量、通讯时间无关，单个网络层就能够包含信令及数据传输。对于语音和视频业务来说，视联网和统一视频平台流媒体处理的复杂度比数据处理简单许多，效率比传统服务器大大提高了百倍以上。

储存器技术(Storage Technology)

统一视频平台的超高速储存器技术为了适应超大容量和超大流量的媒体内容而采用了最先进的实时操作***，将服务器指令中的节目信息映射到具体的硬盘空间，媒体内容不再经过服务器，瞬间直接送达到用户终端，用户等待一般时间小于0.2秒。最优化的扇区分布大大减少了硬盘磁头寻道的机械运动，资源消耗仅占同等级IP互联网的20％，但产生大于传统硬盘阵列3倍的并发流量，综合效率提升10倍以上。

网络安全技术(Network Security Technology)

视联网的结构性设计通过每次服务单独许可制、设备与用户数据完全隔离等方式从结构上彻底根除了困扰互联网的网络安全问题，一般不需要杀毒程序、防火墙，杜绝了黑客与病毒的攻击，为用户提供结构性的无忧安全网络。

服务创新技术(Service Innovation Technology)

统一视频平台将业务与传输融合在一起，不论是单个用户、私网用户还是一个网络的总合，都不过是一次自动连接。用户终端、机顶盒或PC直接连到统一视频平台，获得丰富多彩的各种形态的多媒体视频服务。统一视频平台采用“菜谱式”配表模式来替代传统的复杂应用编程，可以使用非常少的代码即可实现复杂的应用，实现“无限量”的新业务创新。

视联网的组网如下所述：

视联网是一种集中控制的网络结构，该网络可以是树型网、星型网、环状网等等类型，但在此基础上网络中需要有集中控制节点来控制整个网络。

图5是本申请一实施例示出的一种视联网的组网示意图。如图5所示，视联网分为接入网和城域网两部分。

接入网部分的设备主要可以分为3类：节点服务器，接入交换机，终端(包括各种机顶盒、编码板、存储器等)。节点服务器与接入交换机相连，接入交换机可以与多个终端相连，并可以连接以太网。

其中，节点服务器是接入网中起集中控制功能的节点，可控制接入交换机和终端。节点服务器可直接与接入交换机相连，也可以直接与终端相连。

类似的，城域网部分的设备也可以分为3类：城域服务器，节点交换机，节点服务器。城域服务器与节点交换机相连，节点交换机可以与多个节点服务器相连。

其中，节点服务器即为接入网部分的节点服务器，即节点服务器既属于接入网部分，又属于城域网部分。

城域服务器是城域网中起集中控制功能的节点，可控制节点交换机和节点服务器。城域服务器可直接连接节点交换机，也可直接连接节点服务器。

由此可见，整个视联网络是一种分层集中控制的网络结构，而节点服务器和城域服务器下控制的网络可以是树型、星型、环状等各种结构。

形象地称，接入网部分可以组成统一视频平台(虚线圈中部分)，多个统一视频平台可以组成视联网；每个统一视频平台可以通过城域以及广域视联网互联互通。

视联网设备分类

1.1本发明实施例的视联网中的设备主要可以分为3类：服务器，交换机(包括以太网网关)，终端(包括各种机顶盒，编码板，存储器等)。视联网整体上可以分为城域网(或者国家网、全球网等)和接入网。

1.2其中接入网部分的设备主要可以分为3类：节点服务器，接入交换机(包括以太网网关)，终端(包括各种机顶盒，编码板，存储器等)。

各接入网设备的具体硬件结构为：

节点服务器：

图6是本申请一实施例示出的一种节点服务器的硬件结构示意图。如图6所示，主要包括网络接口模块601、交换引擎模块602、CPU模块603、磁盘阵列模块604；

其中，网络接口模块601，CPU模块603、磁盘阵列模块604进来的包均进入交换引擎模块602；交换引擎模块602对进来的包进行查地址表605的操作，从而获得包的导向信息；并根据包的导向信息把该包存入对应的包缓存器606的队列；如果包缓存器606的队列接近满，则丢弃；交换引擎模602轮询所有包缓存器队列，如果满足以下条件进行转发：1)该端口发送缓存未满；2)该队列包计数器大于零。磁盘阵列模块604主要实现对硬盘的控制，包括对硬盘的初始化、读写等操作；CPU模块603主要负责与接入交换机、终端(图中未示出)之间的协议处理，对地址表605(包括下行协议包地址表、上行协议包地址表、数据包地址表)的配置，以及，对磁盘阵列模块604的配置。

接入交换机：

图7是本申请一实施例示出的一种接入交换机的硬件结构示意图。如图7所示，主要包括网络接口模块(下行网络接口模块701、上行网络接口模块702)、交换引擎模块703和CPU模块704；

其中，下行网络接口模块701进来的包(上行数据)进入包检测模块705；包检测模块705检测包的目地地址(DA)、源地址(SA)、数据包类型及包长度是否符合要求，如果符合，则分配相应的流标识符(stream-id)，并进入交换引擎模块703，否则丢弃；上行网络接口模块702进来的包(下行数据)进入交换引擎模块703；CPU模块704进来的数据包进入交换引擎模块703；交换引擎模块703对进来的包进行查地址表706的操作，从而获得包的导向信息；如果进入交换引擎模块703的包是下行网络接口往上行网络接口去的，则结合流标识符(stream-id)把该包存入对应的包缓存器707的队列；如果该包缓存器707的队列接近满，则丢弃；如果进入交换引擎模块703的包不是下行网络接口往上行网络接口去的，则根据包的导向信息，把该数据包存入对应的包缓存器707的队列；如果该包缓存器707的队列接近满，则丢弃。

交换引擎模块703轮询所有包缓存器队列，在本发明实施例中分两种情形：

如果该队列是下行网络接口往上行网络接口去的，则满足以下条件进行转发：1)该端口发送缓存未满；2)该队列包计数器大于零；3)获得码率控制模块产生的令牌；

如果该队列不是下行网络接口往上行网络接口去的，则满足以下条件进行转发：1)该端口发送缓存未满；2)该队列包计数器大于零。

码率控制模块208是由CPU模块204来配置的，在可编程的间隔内对所有下行网络接口往上行网络接口去的包缓存器队列产生令牌，用以控制上行转发的码率。

CPU模块704主要负责与节点服务器之间的协议处理，对地址表706的配置，以及，对码率控制模块708的配置。

以太网协转网关：

图8是本申请一实施例示出的一种以太网协转网关的硬件结构示意图。如图8所示，主要包括网络接口模块(下行网络接口模块801、上行网络接口模块802)、交换引擎模块803、CPU模块804、包检测模块805、码率控制模块808、地址表806、包缓存器807和MAC添加模块809、MAC删除模块810。

其中，下行网络接口模块801进来的数据包进入包检测模块805；包检测模块805检测数据包的以太网MAC DA、以太网MAC SA、以太网length or frame type、视联网目地地址DA、视联网源地址SA、视联网数据包类型及包长度是否符合要求，如果符合则分配相应的流标识符(stream-id)；然后，由MAC删除模块810减去MAC DA、MAC SA、length or frame type(2byte)，并进入相应的接收缓存，否则丢弃；

下行网络接口模块801检测该端口的发送缓存，如果有包则根据包的视联网目地地址DA获知对应的终端的以太网MAC DA，添加终端的以太网MAC DA、以太网协转网关的MACSA、以太网length or frame type，并发送。

以太网协转网关中其他模块的功能与接入交换机类似。

终端：

主要包括网络接口模块、业务处理模块和CPU模块；例如，机顶盒主要包括网络接口模块、视音频编解码引擎模块、CPU模块；编码板主要包括网络接口模块、视音频编码引擎模块、CPU模块；存储器主要包括网络接口模块、CPU模块和磁盘阵列模块。

1.3城域网部分的设备主要可以分为2类：节点服务器，节点交换机，城域服务器。其中，节点交换机主要包括网络接口模块、交换引擎模块和CPU模块；城域服务器主要包括网络接口模块、交换引擎模块和CPU模块构成。

2、视联网数据包定义

2.1接入网数据包定义

接入网的数据包主要包括以下几部分：目的地址(DA)、源地址(SA)、保留字节、payload(PDU)、CRC。

如下表所示，接入网的数据包主要包括以下几部分：

DA

SA

Reserved

Payload

CRC

其中：

目的地址(DA)由8个字节(byte)组成，第一个字节表示数据包的类型(例如各种协议包、组播数据包、单播数据包等)，最多有256种可能，第二字节到第六字节为城域网地址，第七、第八字节为接入网地址；

源地址(SA)也是由8个字节(byte)组成，定义与目的地址(DA)相同；

保留字节由2个字节组成；

payload部分根据不同的数据报的类型有不同的长度，如果是各种协议包的话是64个字节，如果是单组播数据包话是32+1024＝1056个字节，当然并不仅仅限于以上2种；

CRC有4个字节组成，其计算方法遵循标准的以太网CRC算法。

2.2城域网数据包定义

城域网的拓扑是图型，两个设备之间可能有2种、甚至2种以上的连接，即节点交换机和节点服务器、节点交换机和节点交换机、节点交换机和节点服务器之间都可能超过2种连接。但是，城域网设备的城域网地址却是唯一的，为了精确描述城域网设备之间的连接关系，在本发明实施例中引入参数：标签，来唯一描述一个城域网设备。

本说明书中标签的定义和MPLS(Multi-Protocol Label Switch，多协议标签交换)的标签的定义类似，假设设备A和设备B之间有两个连接，那么数据包从设备A到设备B就有2个标签，数据包从设备B到设备A也有2个标签。标签分入标签、出标签，假设数据包进入设备A的标签(入标签)是0x0000，这个数据包离开设备A时的标签(出标签)可能就变成了0x0001。城域网的入网流程是集中控制下的入网过程，也就意味着城域网的地址分配、标签分配都是由城域服务器主导的，节点交换机、节点服务器都是被动的执行而已，这一点与MPLS的标签分配是不同的，MPLS的标签分配是交换机、服务器互相协商的结果。

如下表所示，城域网的数据包主要包括以下几部分：

DA

SA

Reserved

标签

Payload

CRC

即目的地址(DA)、源地址(SA)、保留字节(Reserved)、标签、payload(PDU)、CRC。其中，标签的格式可以参考如下定义：标签是32bit，其中高16bit保留，只用低16bit，它的位置是在数据包的保留字节和payload之间。

基于视联网的上述特性，提出了本发明实施例的核心构思之一，遵循视联网的协议，数据传输设备接收外部视频采集设备发送的视频数据，以及通过自身的音频采集组件采集音频数据，该音频数据与视频数据具有时序关联关系，然后根据时序关联关系对视频数据和音频数据进行同步处理，获得同步音视频数据，最后将同步音视频数据发送给接收端。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种音视频传输方法、装置、电子设备及存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音视频传输方法，其特征在于，应用于数据传输设备，包括：

接收外部视频采集设备发送的视频数据；

将所述同步音视频数据发送给接收端。

2.根据权利要求1所述的方法，其特征在于，根据所述时序关联关系，对所述视频数据和所述音频数据进行同步处理，获得同步音视频数据，包括：

通过第三线程，根据所述音频处理结果、所述视频处理结果和所述时序关联关系，对所述视频数据和所述音频数据进行同步处理，获得所述同步音视频数据:

将所述同步音视频数据发送给接收端，包括：

通过所述第三线程，将所述同步音视频数据发送给接收端；

3.根据权利要求2所述的方法，其特征在于，对所述音频数据进行处理，获得音频处理结果，包括：

对所述视频数据进行处理，获得视频处理结果，包括：

4.根据权利要求3所述的方法，其特征在于，根据所述音频数据包的时间戳、所述视频数据包的时间戳、相邻视频数据包的时间间隔值以及预设阈值，确定目标音频数据包和目标视频数据包，包括：

将最新的视频数据包确定为所述目标视频数据包；

5.根据权利要求4所述的方法，其特征在于，根据所述时间间隔值与所述预设阈值的大小关系，从所述第一类型的音频数据包中确定所述目标音频数据包，包括：

6.根据权利要求4所述的方法，其特征在于，按照时间戳先后顺序对所述目标音频数据包和目标视频数据包进行同步处理，包括：

将所述同步音视频数据发送给接收端，包括：

7.根据权利要求1所述的方法，其特征在于，在将所述同步音视频数据发送给接收端后，所述方法还包括：

接收所述接收端返回的音频响应数据；

播放所述音频响应数据。

8.一种音视频传输装置，其特征在于，应用于数据传输设备，包括：

发送模块，用于将所述同步音视频数据发送给接收端。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述电子设备执行如权利要求1-7任一项所述的音视频传输方法中的步骤。

10.一种计算机可读存储介质，其特征在于，其存储的计算机程序使得处理器执行如权利要求1-7任一项所述的音视频传输方法中的步骤。