CN116132759B - 一种音视频流同步传输方法、装置、电子设备及存储介质 - Google Patents

一种音视频流同步传输方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116132759B
CN116132759B CN202310416903.7A CN202310416903A CN116132759B CN 116132759 B CN116132759 B CN 116132759B CN 202310416903 A CN202310416903 A CN 202310416903A CN 116132759 B CN116132759 B CN 116132759B
Authority
CN
China
Prior art keywords
video
video frame
audio
frame sub
blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310416903.7A
Other languages
English (en)
Other versions
CN116132759A (zh
Inventor
郭光泉
李金萍
周正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Bolin Images Science Technology Co ltd
Original Assignee
Shenzhen Bolin Images Science Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Bolin Images Science Technology Co ltd filed Critical Shenzhen Bolin Images Science Technology Co ltd
Priority to CN202310416903.7A priority Critical patent/CN116132759B/zh
Publication of CN116132759A publication Critical patent/CN116132759A/zh
Application granted granted Critical
Publication of CN116132759B publication Critical patent/CN116132759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明涉及音视频同步传输技术领域,揭露了一种音视频流同步传输方法,包括:获取同步采集的视频数据及音频数据,对视频帧进行分块,得到视频帧子块;计算视频帧子块的图像质量及数量,根据图像质量及数量对视频帧子块进行图像校正,得到目标视频帧子块;根据目标视频帧子块对视频数据进行编码,得到视频编码文件,将音频数据转换为音频二进制比特位;将音频二进制比特位嵌入至视频编码文件中,得到混合编码文件;为混合编码文件创建时间戳,得到时间混合编码文件,将时间混合编码文件打包传输至预设的目的地址。本发明还提出一种音视频流同步传输装置、电子设备以及存储介质。本发明可以提高音视频流同步传输的同步率。

Description

一种音视频流同步传输方法、装置、电子设备及存储介质
技术领域
本发明涉及音视频同步传输技术领域,尤其涉及一种音视频流同步传输方法、装置、电子设备及存储介质。
背景技术
随着大数据时代的到来,人们对音视频信息的需求越来越大,音视频处理技术的研究于持续发展中,具体地,无线音视频流的传输应用越来越广,其中高清音视频流的同步传输技术研究一直是业内的主流话题,在一些网络环境中,由于通信以及宽带的限制,音视频流在传输信道上下行不对称,上行信道传输音视频等大量数据,而下行信道仅仅传输一些指令,但下行信道的指令通常需要几秒钟才能发送,导致音视频流传输的同步率较差。
音视频流同步传输方案目前主要有在发送端先将一段时间内采集到音视频数据打包,比如采集到一帧视频图像,将这帧图像与采集这帧视频的时间内采集到的音频数据打成一个包,接收端接收到这个包之后解包分别播放。发送端解决的控制方法比较简单,但是在高清要求清晰度比较高的情况下就不是很理想,清晰度高,意味着每个音视频包数据量就大,难以保证传输的连续性,音视频流数据传输的同步率较差。因此,如何提高音视频流传输的同步率成为亟待解决的问题。
发明内容
本发明提供一种音视频流同步传输方法、装置、电子设备及存储介质,其主要目的在于解决音视频流同步传输时同步率较差的问题。
为实现上述目的,本发明提供的一种音视频流同步传输方法,包括:
获取同步采集的视频数据及音频数据,对所述视频数据中的每个视频帧进行分块,得到视频帧子块;
计算所述视频帧子块的图像质量,并统计所述视频帧子块的数量,根据所述图像质量及所述数量对所述视频帧子块进行图像校正,得到目标视频帧子块;
根据所述目标视频帧子块对所述视频数据进行编码,得到视频编码文件,并将所述音频数据转化为二进制比特流,得到音频二进制比特位;
将所述音频二进制比特位嵌入至所述视频编码文件中,得到所述视频数据及所述音频数据的混合编码文件;
为所述混合编码文件创建时间戳,得到时间混合编码文件,将所述时间混合编码文件打包传输至预设的目的地址。
可选地,所述对所述视频数据中的每个视频帧进行分块,包括:
获取所述视频数据的帧率,根据所述帧率提取所述视频数据的每个视频帧;
根据所述每个视频帧的尺寸对所述每个视频帧进行分割,得到所述每个视频帧的视频帧子块。
可选地,其特征在于,所述计算所述视频帧子块的图像质量,包括:
利用预设的滤波器对所述视频帧子块进行卷积,得到所述视频帧子块的边缘特征;
对所述视频帧子块进行双三次插值,得到插值视频帧子块,根据所述插值视频帧子块生成所述视频帧子块的结构特征;
利用如下公式提取所述视频帧子块的结构特征,包括:
其中,w表示结构特征,i、j表示插值视频帧子块中像素点的横坐标及纵坐标,M、N表示插值视频帧子块的长度和宽度,表示插值视频帧子块中像素点领域半径为R、领域内像素点数量为I的局部二值模式算子,k表示局部二值模式算子的局部二值模式,表示预设的局部二值模式算子权重;
对所述视频帧子块进行局部归一化,得到所述视频帧子块的归一化图像,根据所述归一化图像计算所述视频帧子块的亮度特征;
将所述边缘特征、所述结构特征及所述亮度特征与预构建的特征质量关系相映射,得到所述视频帧图像的图像质量。
可选地,其特征在于,所述根据所述图像质量及所述数量对所述视频帧子块进行图像校正,得到目标视频帧子块,包括:
根据所述图像质量及所述数量确定所述视频帧子块的图像校正策略;
基于所述图像校正策略对所述视频帧子块进行图像校正,得到目标视频帧子块。
可选地,其特征在于,所述根据所述目标视频帧子块对所述视频数据进行编码,得到视频编码文件,包括:
根据所述目标视频帧子块对所述视频数据中的每个视频帧进行帧内预测,得到每个视频帧的图像残差;
对所述图像残差进行离散余弦变换,得到所述视频数据的视频变换系数;
利用预设的量化步长对所述视频变换系数进行量化,得到视频编码文件。
可选地,其特征在于,所述将所述音频二进制比特位嵌入至所述视频编码文件中,得到所述视频数据及所述音频数据的混合编码文件,包括:
根据所述音频二进制比特位对所述视频编码文件进行变换系数修正,得到音视频修正变换系数;
利用如下公式进行变换系数修正,得到音视频修正变换系数:
其中,/>表示第x个音视频修正变换系数,/>表示视频编码文件中第x个量化后的视频变换系数,/>表示与第x个量化后的视频变换系数对应的第y的音频二进制比特位;
对所述音视频修正变换系数进行重排序,得到修正变换系数序列;
对所述修正变换系数进行熵编码,得到所述视频数据及所述音频数据的混合编码文件。
可选地,其特征在于,所述将所述时间混合编码文件打包传输至预设的目的地址,包括:
根据所述目的地址及所述时间混合编码文件调用预设的打包函数;
利用所述打包函数对所述目的地址及所述时间混合编码文件进行打包,得到混合数据包;
将所述混合数据包传输至所述目的地址。
为了解决上述问题,本发明还提供一种音视频流同步传输装置,所述装置包括:
视频帧分块模块,用于获取同步采集的视频数据及音频数据,对所述视频数据中的每个视频帧进行分块,得到视频帧子块;
视频帧子块图像校正模块,用于计算所述视频帧子块的图像质量,并统计所述视频帧子块的数量,根据所述图像质量及所述数量对所述视频帧子块进行图像校正,得到目标视频帧子块;
视频编码及音频转换模块,用于根据所述目标视频帧子块对所述视频数据进行编码,得到视频编码文件,并将所述音频数据转化为二进制比特流,得到音频二进制比特位;
音频数据嵌入模块,用于将所述音频二进制比特位嵌入至所述视频编码文件中,得到所述视频数据及所述音频数据的混合编码文件;
音视频同步传输模块,用于为所述混合编码文件创建时间戳,得到时间混合编码文件,将所述时间混合编码文件打包传输至预设的目的地址。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的音视频流同步传输方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的音视频流同步传输方法。
本发明实施例通过对视频数据中的每个视频帧进行分块,并对分块得到视频帧子块进行图像校正,得到目标视频帧子块,能够减小数据量同时保证视频数据的图像质量,实现数据传输时的连续性;再通过目标视频帧子块对所述视频数据进行编码,并将音频数据转化为二进制比特流,能够将音频数据嵌入至视频编码文件中,实现视频数据以及音频数据的同步编码,从而提高音视频同步传输的同步率;为混合编码文件创建时间戳,以证明时间混合编码文件的产生时间,将添加时间戳的时间混合编码文件打包传输至目的地址,实现音视频数据的同步传输。因此本发明提出的音视频流同步传输方法、装置、电子设备及计算机可读存储介质,可以解决音视频流同步传输时同步率较差的问题。
附图说明
图1为本发明一实施例提供的音视频流同步传输方法的流程示意图;
图2为本发明一实施例提供的计算视频帧子块的图像质量的流程示意图;
图3为本发明一实施例提供的生成视频编码文件的流程示意图;
图4为本发明一实施例提供的音视频流同步传输装置的功能模块图;
图5为本发明一实施例提供的实现所述音视频流同步传输方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种音视频流同步传输方法。所述音视频流同步传输方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述音视频流同步传输方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的音视频流同步传输方法的流程示意图。在本实施例中,所述音视频流同步传输方法包括:
S1、获取同步采集的视频数据及音频数据,对所述视频数据中的每个视频帧进行分块,得到视频帧子块。
本发明实施例中,所述视频数据以及音频数据是在相同环境下同一时间段内音视频采集设备分别采集得到的数据,通过对视频数据中的每个视频帧进行分块,基于视频帧分块可以减小视频帧图像的计算量。
本发明实施例中,所述对所述视频数据中的每个视频帧进行分块,包括:
获取所述视频数据的帧率,根据所述帧率提取所述视频数据的每个视频帧;
根据所述每个视频帧的尺寸对所述每个视频帧进行分割,得到所述每个视频帧的视频帧子块。
本发明实施例中,所述视频数据是多个视频帧构成的,例如,若一个视频数据的帧率恒定为60帧每秒 (fps),则视频数据在一秒钟内的帧数为60帧,及一秒内有60个视频帧图像,视频数据采集设备的设置参数不同,视频数据的帧率不同,通过帧率从视频数据中提取每个视频帧,进而得到视频数中的每个视频帧,在对视频帧进行分块,得到视频帧子块。
S2、计算所述视频帧子块的图像质量,并统计所述视频帧子块的数量,根据所述图像质量及所述数量对所述视频帧子块进行图像校正,得到目标视频帧子块。
本发明实施例中,所述图像质量表示每个视频帧子块的失真程度,失真程度越大,表示图像的质量越差;失真程度越小,表示图像的质量越高,根据视频帧子块的图像质量对视频帧进行图像校正,保证每个视频帧的图像质量在后续传输时图像失真程度较小。
本发明实施例中,参阅图2所示,所述计算所述视频帧子块的图像质量,包括:
S21、利用预设的滤波器对所述视频帧子块进行卷积,得到所述视频帧子块的边缘特征;
S22、对所述视频帧子块进行双三次插值,得到插值视频帧子块,根据所述插值视频帧子块生成所述视频帧子块的结构特征;
S23、对所述视频帧子块进行局部归一化,得到所述视频帧子块的归一化图像,根据所述归一化图像计算所述视频帧子块的亮度特征;
S24、将所述边缘特征、所述结构特征及所述亮度特征与预构建的特征质量关系相映射,得到所述视频帧图像的图像质量。
本发明实施例中,可以利用Gabor(加伯)滤波器对图像进行边缘特征提取,得到视频帧子块的边缘特征;本发明实施例中,双三次插值又称立方卷积插值,利用视频帧子块中待采样点周围16个像素点点的灰度值作三次插值,不仅考虑到4个直接相邻点的灰度影响,而且考虑到各邻点间灰度值变化率的影响,三次运算可以得到更接近高分辨率图像的放大效果,从而得到视频帧子块的梯度信息图。
本发明实施例中,可以利用上述Gabor(加伯)滤波器对插值视频帧子块进行水平及垂直卷积,得到视频帧子块的梯度信息图,进而根据梯度信息图计算视频帧子块的结构特征。
本发明实施例中,利用如下公式提取所述视频帧子块的结构特征,包括:
其中,w表示结构特征,i、j表示插值视频帧子块中像素点的横坐标及纵坐标,M、N表示插值视频帧子块的长度和宽度,表示插值视频帧子块中像素点领域半径为R、领域内像素点数量为I的局部二值模式算子,k表示局部二值模式算子的局部二值模式,表示预设的局部二值模式算子权重;
本发明实施例中,所述局部二值模式(Local Binary Pattern,LBP)表示不同的局部梯度模式,由图像梯度图中的中心像素与其周围像素间的差异导出,因此,同一模式对于中心像素值(即该位置处的梯度幅值)是不变的,例如,本发明实施例中,领域内像素点数量I为8,则领域半径为R设置为1,则可能的LBP模式有k有I+2共10种,即可用一个10维向量表示特征结构。
本发明实施例中,亮度特征表示视频帧子块中像素亮度的变化,局部归一化计算视频帧子块亮度,可以有效的表征视频帧子块特点,进而捕捉视频帧子块的图像质量。
本发明实施例中,通过边缘特征、结构特征及亮度特征叠加综合计算视频帧子块的图像质量,与预构建的特征预图像质量之间的特征质量关系相映射,以得到每个视频帧子块的图像质量。
本发明实施例中,通过对视频帧子块进行图像校正,保证目标视频帧子块图像质量的同时减小后续视频数据编码的计算量,实现混合编码文件的稳定传输。
本发明实施例中,所述根据所述图像质量及所述数量对所述视频帧子块进行图像校正,得到目标视频帧子块,包括:
根据所述图像质量及所述数量确定所述视频帧子块的图像校正策略;
基于所述图像校正策略对所述视频帧子块进行图像校正,得到目标视频帧子块。
例如,在所述图像质量大于预设的质量要求且视频帧子块的数量大于预设数量阈值,则去除视频帧子块中预设数量的重复的像素数据,减小目标视频帧子块的数据量,保证后续打包传输的连续性以及目标视频帧子块的质量符合要求;在所述图像质量不大于预设的质量要求或视频帧子块的数量不大于预设数量阈值,则对视频帧子块进行图像增强,例如去噪,直方图均衡,伽马变换等方法,提高目标视频帧子块的图像质量。
本发明实施例中,通过计算视频帧子块的图像质量以及数量,能够同时保证图像校正后的目标视频帧子块的图像质量以及减小图像计算量,保证数据传输时的连续性。
S3、根据所述目标视频帧子块对所述视频数据进行编码,得到视频编码文件,并将所述音频数据转化为二进制比特流,得到音频二进制比特位。
本发明实施例中,编码是减少视频数据的体积或码率的同时而不对视频数据质量产生不良影响的过程,将目标视频帧子块得到编码流构成的视频编码文件。视频帧子块相邻的两个像素的亮度和色度值之间是比较接近的,即颜色是逐渐变化的,不会突然突变成完全不一样的颜色,视频编码就是利用这个相关性对目标视频帧子块进行压缩,得到视频编码文件,从而能够将视频数据与音频数据进行同步编码,实现视频数据以音频数据的同步。
本发明实施例中,参阅图3所示,所述根据所述目标视频帧子块对所述视频数据进行编码,得到视频编码文件,包括:
S31、根据所述目标视频帧子块对所述视频数据中的每个视频帧进行帧内预测,得到每个视频帧的图像残差;
S32、对所述图像残差进行离散余弦变换,得到所述视频数据的视频变换系数;
S33、利用预设的量化步长对所述视频变换系数进行量化,得到视频编码文件。
本发明实施例中,所述帧内预测是利用视频空间域的相关性,使用同一帧图像内邻近已编码像素预测当前的像素,以达到有效去除视频时域冗余的目的,例如,存储一个像素的亮度值可能需要8个比特(bit),但是如果相邻的两个像素变化不大,存储一个像素的原始值,以及第二个像素相对第一个像素的变化值,则第二个值用2个比特即可,从而能够节约存储空间。
本发明实施例中,所述离散余弦变换(Discrete Cosine Transform,DCT)是将二维图像从空间域转换到频率域,就是计算出图像由哪些二维余弦波构成,每个二维余弦波被称为离散余弦变换(DCT)系数,所有这些二维波的叠加就是那个原始的视频数据的目标视频帧子块,从而实现对视频数据的编码。
本发明实施例中,离散余弦变换后的视频变换系数能量主要集中在左上角,其余大部分系数接近于零,量化的原理是把变换后的视频变换系数除以一个常量,即量化步长,经过量化后的结果是量化步长的整数倍或者为更多的零值,实现对视频数据的编码,得到视频编码文件。
本发明实施例中,所述二进制比特流是将音频数据转化为二进制数据序列,若音频数据中存在字符则用一个字节的二进制ASCII码表示,若是数字,则用一个字节的二进制数表示,比特表示计算机存储设备的最小单位,每一位只能是0或1,即为将音频数据转换为由0和1组成的二进制序列,得到音频数据二进制比特位。
S4、将所述音频二进制比特位嵌入至所述视频编码文件中,得到所述视频数据及所述音频数据的混合编码文件。
本发明实施例中,音频二进制比特位嵌入是将音频数据的二进制比特位与视频编码文件中的离散余弦变换(DCT)系数建立联系,如DCT系数为偶数则将音频比特位的0嵌入至视频编码文件中;DCT系数为奇数则将音频比特位为1的比特位嵌入至视频编码文件,进而将完整的音频二进制比特位嵌入至视频编码文件中。
本发明实施例中,所述将所述音频二进制比特位嵌入至所述视频编码文件中,得到所述视频数据及所述音频数据的混合编码文件,包括:
根据所述音频二进制比特位对所述视频编码文件进行变换系数修正,得到音视频修正变换系数;
对所述音视频修正变换系数进行重排序,得到修正变换系数序列;
对所述修正变换系数进行熵编码,得到所述视频数据及所述音频数据的混合编码文件。
本发明实施例中,所述变换系数修正是根据音频二进制比特位对视频编码文件中量化后的视频变换系数进行修正,例如,若该位置的视频编码文件数据是非零的,则用该位置量化后的视频变换系数为偶数来传输音频二进制比特位的0,用该位置量化后的视频变换系数为奇数来传输音频比特 1,若量化后的视频变换系数不满足该关系,则对视频编码文件进行变换系数修正,以得到包含音频数据的音视频修正变换系数。
本发明实施例利用如下公式进行变换系数修正,得到音视频修正变换系数:
其中,/>表示第x个音视频修正变换系数,/>表示视频编码文件中第x个量化后的视频变换系数,/>表示与第x个量化后的视频变换系数对应的第y的音频二进制比特位;
本发明实施例中,视频编码文件中量化后的视频变换系数是矩阵形式,所以需要对音视频修正系数进行重排序,所述重排序是对得到的音视频修正变换系数按照从左到右,从上到下的顺序,依次对音视频修正变换系数进行重排列;将每个音视频修正变换系数重排成一个大小为64维的行向量,得到修正变换系数序列。
本发明实施例中,熵编码是一种无损编码方式,常见熵编码有霍夫曼(Huffman)编码,算术编码,还有行程编码 (RLE)、基于上下文的自适应变长编码(CAVLC)、基于上下文的自适应二进制算术编码(CABAC)等,通过熵编码将具有音视频数据信息的修正变换系数进行无损编码,在不损失数据的情况下将音频二进制比特位嵌入至所述视频编码文件中,进而实现视频数据及音频数据的同步传输。
S5、为所述混合编码文件创建时间戳,得到时间混合编码文件,将所述时间混合编码文件打包传输至预设的目的地址。
本发明实施例中,通过为混合编码文件创建时间戳,表示混合编码数据的计时器,通过所述时间戳能够记录混合时间编码的***、删除以及更新行为,表示时间混合编码文件在一个特定时间点已经存在的完整的可验证的数据,可以为用户提供一份电子证据,以证明时间混合编码文件的产生时间。
本发明实施例中,可将当时时间作为混合编码文件的时间戳,得到时间混合编码文件。
本发明实施例中,所述目的地址时混合时间编码文件需要传输至的IP地址,将混合时间编码文件传输至目的地址,完成音频数据以及视频数据的同步传输。
本发明实施例中,将所述时间混合编码文件打包传输至预设的目的地址,包括:
根据所述目的地址及所述时间混合编码文件调用预设的打包函数;
利用所述打包函数对所述目的地址及所述时间混合编码文件进行打包,得到混合数据包;
将所述混合数据包传输至所述目的地址。
本发明实施例中,所述打包函数是将目的地址以及时间混合编码文件封装为一个混合数据包的函数,从而将时间混合编码文件传输至目的地址,本发明实施例可以利用init( )、bind( )和socket( )函数完成打包处理,最后将打包的混合数据包通过网络传输至目的地址,实现音视频的同步传输。
本发明实施例通过对视频数据中的每个视频帧进行分块,并对分块得到视频帧子块进行图像校正,得到目标视频帧子块,能够减小数据量同时保证视频数据的图像质量,实现数据传输时的连续性;再通过目标视频帧子块对所述视频数据进行编码,并将音频数据转化为二进制比特流,能够将音频数据嵌入至视频编码文件中,实现视频数据以及音频数据的同步编码,从而提高音视频同步传输的同步率;为混合编码文件创建时间戳,以证明时间混合编码文件的产生时间,将添加时间戳的时间混合编码文件打包传输至目的地址,实现音视频数据的同步传输。因此本发明提出的音视频流同步传输方法,可以解决音视频流同步传输时同步率较差的问题。
如图4所示,是本发明一实施例提供的音视频流同步传输装置的功能模块图。
本发明所述音视频流同步传输装置400可以安装于电子设备中。根据实现的功能,所述音视频流同步传输装置400可以包括视频帧分块模块401、视频帧子块图像校正模块402、视频编码及音频转换模块403、音频数据嵌入模块404及音视频同步传输模块405。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述视频帧分块模块401,用于获取同步采集的视频数据及音频数据,对所述视频数据中的每个视频帧进行分块,得到视频帧子块;
所述视频帧子块图像校正模块402,用于计算所述视频帧子块的图像质量,并统计所述视频帧子块的数量,根据所述图像质量及所述数量对所述视频帧子块进行图像校正,得到目标视频帧子块;
所述视频编码及音频转换模块403,用于根据所述目标视频帧子块对所述视频数据进行编码,得到视频编码文件,并将所述音频数据转化为二进制比特流,得到音频二进制比特位;
所述音频数据嵌入模块404,用于将所述音频二进制比特位嵌入至所述视频编码文件中,得到所述视频数据及所述音频数据的混合编码文件;
所述音视频同步传输模块405,用于为所述混合编码文件创建时间戳,得到时间混合编码文件,将所述时间混合编码文件打包传输至预设的目的地址。
详细地,本发明实施例中所述音视频流同步传输装置400中所述的各模块在使用时采用与上述图1至图3中所述的音视频流同步传输方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图5所示,是本发明一实施例提供的实现音视频流同步传输方法的电子设备的结构示意图。
所述电子设备500可以包括处理器501、存储器502、通信总线503以及通信接口504,还可以包括存储在所述存储器502中并可在所述处理器501上运行的计算机程序,如音视频流同步传输方法程序。
其中,所述处理器501在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器501是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器502内的程序或者模块(例如执行音视频流同步传输方法程序等),以及调用存储在所述存储器502内的数据,以执行电子设备的各种功能和处理数据。
所述存储器502至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器502在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器502在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器502还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器502不仅可以用于存储安装于电子设备的应用软件及各类数据,例如音视频流同步传输方法程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线503可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器502以及至少一个处理器501等之间的连接通信。
所述通信接口504用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图中仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图中示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器501逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备500中的所述存储器502存储的音视频流同步传输方法程序是多个指令的组合,在所述处理器501中运行时,可以实现:
获取同步采集的视频数据及音频数据,对所述视频数据中的每个视频帧进行分块,得到视频帧子块;
计算所述视频帧子块的图像质量,并统计所述视频帧子块的数量,根据所述图像质量及所述数量对所述视频帧子块进行图像校正,得到目标视频帧子块;
根据所述目标视频帧子块对所述视频数据进行编码,得到视频编码文件,并将所述音频数据转化为二进制比特流,得到音频二进制比特位;
将所述音频二进制比特位嵌入至所述视频编码文件中,得到所述视频数据及所述音频数据的混合编码文件;
为所述混合编码文件创建时间戳,得到时间混合编码文件,将所述时间混合编码文件打包传输至预设的目的地址。
具体地,所述处理器501对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备500集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取同步采集的视频数据及音频数据,对所述视频数据中的每个视频帧进行分块,得到视频帧子块;
计算所述视频帧子块的图像质量,并统计所述视频帧子块的数量,根据所述图像质量及所述数量对所述视频帧子块进行图像校正,得到目标视频帧子块;
根据所述目标视频帧子块对所述视频数据进行编码,得到视频编码文件,并将所述音频数据转化为二进制比特流,得到音频二进制比特位;
将所述音频二进制比特位嵌入至所述视频编码文件中,得到所述视频数据及所述音频数据的混合编码文件;
为所述混合编码文件创建时间戳,得到时间混合编码文件,将所述时间混合编码文件打包传输至预设的目的地址。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (7)

1.一种音视频流同步传输方法,其特征在于,所述方法包括:
获取同步采集的视频数据及音频数据,对所述视频数据中的每个视频帧进行分块,得到视频帧子块;
利用预设的滤波器对所述视频帧子块进行卷积操作,得到所述视频帧子块的边缘特征,对所述视频帧子块进行双三次插值,得到插值视频帧子块,根据所述插值视频帧子块生成所述视频帧子块的结构特征;
利用如下公式提取所述视频帧子块的结构特征,包括:
其中,表示结构特征,/>表示插值视频帧子块中像素点的横坐标及纵坐标,/>表示插值视频帧子块的长度和宽度,/>表示插值视频帧子块中像素点领域半径为/>、领域内像素点数量为/>的局部二值模式算子,/>表示局部二值模式算子的局部二值模式,/>表示预设的局部二值模式算子权重;
对所述视频帧子块进行局部归一化,得到所述视频帧子块的归一化图像,根据所述归一化图像计算所述视频帧子块的亮度特征,将所述边缘特征、所述结构特征及所述亮度特征与预构建的特征质量关系相映射,得到所述视频帧子块的图像质量,并统计所述视频帧子块的数量,根据所述图像质量及所述数量确定所述视频帧子块的图像校正策略,基于所述图像校正策略对所述视频帧子块进行图像校正,得到目标视频帧子块;
根据所述目标视频帧子块对所述视频数据进行编码,得到视频编码文件,并将所述音频数据转化为二进制比特流,得到音频二进制比特位;
将所述音频二进制比特位嵌入至所述视频编码文件中,得到所述视频数据及所述音频数据的混合编码文件,所述将所述音频二进制比特位嵌入至所述视频编码文件中,得到所述视频数据及所述音频数据的混合编码文件,包括:根据所述音频二进制比特位对所述视频编码文件进行变换系数修正,得到音视频修正变换系数;对所述音视频修正变换系数进行重排序,得到修正变换系数序列;对所述修正变换系数序列中的系数进行熵编码,得到所述视频数据及所述音频数据的混合编码文件;
为所述混合编码文件创建时间戳,得到时间混合编码文件,将所述时间混合编码文件打包传输至预设的目的地址。
2.如权利要求1所述的音视频流同步传输方法,其特征在于,所述对所述视频数据中的每个视频帧进行分块,包括:
获取所述视频数据的帧率,根据所述帧率提取所述视频数据的每个视频帧;
根据所述每个视频帧的尺寸对所述每个视频帧进行分割,得到所述每个视频帧的视频帧子块。
3.如权利要求1所述的音视频流同步传输方法,其特征在于,所述根据所述目标视频帧子块对所述视频数据进行编码,得到视频编码文件,包括:
根据所述目标视频帧子块对所述视频数据中的每个视频帧进行帧内预测,得到每个视频帧的图像残差;
对所述图像残差进行离散余弦变换,得到所述视频数据的视频变换系数;
利用预设的量化步长对所述视频变换系数进行量化,得到视频编码文件。
4.如权利要求1所述的音视频流同步传输方法,其特征在于,所述将所述时间混合编码文件打包传输至预设的目的地址,包括:
根据所述目的地址及所述时间混合编码文件调用预设的打包函数;
利用所述打包函数对所述目的地址及所述时间混合编码文件进行打包,得到混合数据包;
将所述混合数据包传输至所述目的地址。
5.一种音视频流同步传输装置,其特征在于,所述装置包括:
视频帧分块模块,用于获取同步采集的视频数据及音频数据,对所述视频数据中的每个视频帧进行分块,得到视频帧子块;
视频帧子块图像校正模块,用于利用预设的滤波器对所述视频帧子块进行卷积操作,得到所述视频帧子块的边缘特征,对所述视频帧子块进行双三次插值,得到插值视频帧子块,根据所述插值视频帧子块生成所述视频帧子块的结构特征;
利用如下公式提取所述视频帧子块的结构特征,包括:
其中,表示结构特征,/>表示插值视频帧子块中像素点的横坐标及纵坐标,/>表示插值视频帧子块的长度和宽度,/>表示插值视频帧子块中像素点领域半径为/>、领域内像素点数量为/>的局部二值模式算子,/>表示局部二值模式算子的局部二值模式,/>表示预设的局部二值模式算子权重;
对所述视频帧子块进行局部归一化,得到所述视频帧子块的归一化图像,根据所述归一化图像计算所述视频帧子块的亮度特征,将所述边缘特征、所述结构特征及所述亮度特征与预构建的特征质量关系相映射,得到所述视频帧子块的图像质量,并统计所述视频帧子块的数量,根据所述图像质量及所述数量确定所述视频帧子块的图像校正策略,基于所述图像校正策略对所述视频帧子块进行图像校正,得到目标视频帧子块;
视频编码及音频转换模块,用于根据所述目标视频帧子块对所述视频数据进行编码,得到视频编码文件,并将所述音频数据转化为二进制比特流,得到音频二进制比特位;
音频数据嵌入模块,用于将所述音频二进制比特位嵌入至所述视频编码文件中,得到所述视频数据及所述音频数据的混合编码文件,所述将所述音频二进制比特位嵌入至所述视频编码文件中,得到所述视频数据及所述音频数据的混合编码文件,包括:根据所述音频二进制比特位对所述视频编码文件进行变换系数修正,得到音视频修正变换系数;对所述音视频修正变换系数进行重排序,得到修正变换系数序列;对所述修正变换系数序列中的系数进行熵编码,得到所述视频数据及所述音频数据的混合编码文件;
音视频同步传输模块,用于为所述混合编码文件创建时间戳,得到时间混合编码文件,将所述时间混合编码文件打包传输至预设的目的地址。
6.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任意一项所述的音视频流同步传输方法。
7.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任意一项所述的音视频流同步传输方法。
CN202310416903.7A 2023-04-19 2023-04-19 一种音视频流同步传输方法、装置、电子设备及存储介质 Active CN116132759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310416903.7A CN116132759B (zh) 2023-04-19 2023-04-19 一种音视频流同步传输方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310416903.7A CN116132759B (zh) 2023-04-19 2023-04-19 一种音视频流同步传输方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116132759A CN116132759A (zh) 2023-05-16
CN116132759B true CN116132759B (zh) 2023-09-12

Family

ID=86297770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310416903.7A Active CN116132759B (zh) 2023-04-19 2023-04-19 一种音视频流同步传输方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116132759B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1215962A (zh) * 1997-02-13 1999-05-05 索尼公司 图像信号处理方法及装置
US6983057B1 (en) * 1998-06-01 2006-01-03 Datamark Technologies Pte Ltd. Methods for embedding image, audio and video watermarks in digital data
CN101217670A (zh) * 2008-01-14 2008-07-09 吉林大学 音视频信号同步编解码用音频自适应嵌入视频及提取方法
CN110782413A (zh) * 2019-10-30 2020-02-11 北京金山云网络技术有限公司 一种图像处理方法、装置、设备及存储介质
CN112272313A (zh) * 2020-12-23 2021-01-26 深圳乐播科技有限公司 基于hid的音视频传输方法、装置及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9886961B2 (en) * 2015-01-15 2018-02-06 Gopro, Inc. Audio watermark in a digital video

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1215962A (zh) * 1997-02-13 1999-05-05 索尼公司 图像信号处理方法及装置
US6983057B1 (en) * 1998-06-01 2006-01-03 Datamark Technologies Pte Ltd. Methods for embedding image, audio and video watermarks in digital data
CN101217670A (zh) * 2008-01-14 2008-07-09 吉林大学 音视频信号同步编解码用音频自适应嵌入视频及提取方法
CN110782413A (zh) * 2019-10-30 2020-02-11 北京金山云网络技术有限公司 一种图像处理方法、装置、设备及存储介质
CN112272313A (zh) * 2020-12-23 2021-01-26 深圳乐播科技有限公司 基于hid的音视频传输方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN116132759A (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN104702962B (zh) 帧内编解码方法、编码器和解码器
WO2020057182A1 (zh) 一种图像压缩的方法及装置
CN105100814B (zh) 图像编码、解码方法及装置
CN110691250B (zh) 结合块匹配和串匹配的图像压缩装置
JP2009010954A (ja) 高速な画像処理方法およびシステム
CN107431812B (zh) 用于显示流压缩的复杂区域检测
CN111741302B (zh) 数据处理方法、装置、计算机可读介质及电子设备
KR101805550B1 (ko) 프리젠테이션 가상화를 위한 화면 부호화 방법 및 서버
CN113170140A (zh) 数据阵列的位平面编码
CN113613004A (zh) 图像编码方法、装置、电子设备及存储介质
CN108769684A (zh) 基于WebP图像压缩算法的图像处理方法以及装置
CN102271251B (zh) 无失真的图像压缩方法
CN107431811A (zh) 用于显示流压缩的量化参数更新分类
JP2010098352A (ja) 画像情報符号化装置
CN110913230A (zh) 一种视频帧预测方法、装置及终端设备
CN104104953A (zh) 用于图形应用的基于瓦片的压缩与解压缩
WO2024078066A1 (zh) 视频解码方法、视频编码方法、装置、存储介质及设备
CN116132759B (zh) 一种音视频流同步传输方法、装置、电子设备及存储介质
CN110876062B (zh) 用于特征图的高速压缩处理的电子设备及其控制方法
WO2012118569A1 (en) Visually optimized quantization
CN102577412A (zh) 一种图像编码方法和装置
CN115442617A (zh) 一种基于视频编码的视频处理方法和装置
CN107172425B (zh) 缩略图生成方法、装置及终端设备
CN114693818A (zh) 适用于数字正射影像数据的压缩方法
CN108900842B (zh) Y数据压缩处理方法、装置、设备及WebP压缩***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant